[Backbone] VGGNet 모델 설명 Very Deep Convolutional Networks for Large-Scale Image Recognition (ICLR 2015)

2025. 2. 6. 10:24·Backbone
728x90
반응형

본 논문은 ICLR 2015에 게재된 논문입니다. (저자 소속: University of Oxford)

논문 링크: https://arxiv.org/pdf/1409.1556

 

1. VGGNet

VGGNet은 ILSVRC-2014에서 준우승을한 모델입니다.

2014년에 발표됐음에도 불구하고 현재까지도 정말 많은 모델들의 Backbone으로 쓰이는 아주 대단한 모델입니다.

https://medium.com/@siddheshb008/vgg-net-architecture-explained-71179310050f

VGGNet 모델의 특징을 요약하자면 다음과 같습니다.

  1. Convolutional layer: 3x3 filter / stride 1 / pad 1
  2. Max-pooling layer: 2x2 window / stride 2
  3. Removal of LR
  4. VGG16(138M) & VGG19 (144M)

VGG16과 VGG19의 구조는 위와 같습니다.

 

2. Why 3x3 convolutions?

VGGNet의 가장 큰 특징은 3x3 Convolutional 레이어만 사용했다는 점입니다.

도대체 왜 필터 사이즈를 3x3 으로만 고정했을까요?

 

https://bskyvision.com/504

7x7 input에 Convolution 연산을 적용해 3x3 feature를 만든다고 가정해봅시다.

5x5 필터로 1회 연산을 수행하는 데 필요한 파라미터 개수는 25개입니다.

 

반면 3x3 필터로 2회 연산을 수행하는 데 필요한 파라미터 개수는 18개입니다.

두 연산은 같은 결과를 만들어내지만, 3x3 필터에서 파라미터 개수는 약 28% 줄어들었습니다.

 

3x3 filter를 사용하는 이유는 더 적은 파라미터로 더 넓은 receptive field를 포착하기 위함이다 라고 생각하시면 됩니다.

 

 

3. Architecture with Code

좌: 전체 layer 요약 / 우: Convolutional layer 코드

오른쪽 사진에 Max-pooling 레이어와 Convolutional 레이어가 어떻게 선언되었는지 표시해 놨습니다.

코드가 간단하니 시간날 때 구현 한번 해보시는 거 추천드립니다. 😊

 


 

다음 포스팅들에서도 유명한 Backbone 모델들에 대해 다룰 예정이니 참고 바랍니다!

 

저의 글이 언제나 여러분께 도움이 되길 바라겠습니다. 👍

궁금한 내용 댓글 남겨주시면 빠르게 답변해 드리도록 하겠습니다. 😍

 
728x90
반응형

'Backbone' 카테고리의 다른 글

[논문 리뷰 - Inception v2 & v3] Rethinking the Inception Architecture for Computer Vision (CVPR 2016)  (4) 2025.02.07
[Backbone] ResNet 모델 설명 Deep Residual Learning for Image Recognition (CVPR 2016)  (2) 2025.02.07
[Backbone] GoogLeNet 모델 설명 Going Deeper with Convolutions (CVPR 2014)  (2) 2025.02.06
[Backbone] AlexNet 모델 설명 ImageNet Classification with Deep Convolutional Neural Networks (NIPS 2012)  (0) 2025.02.06
'Backbone' 카테고리의 다른 글
  • [논문 리뷰 - Inception v2 & v3] Rethinking the Inception Architecture for Computer Vision (CVPR 2016)
  • [Backbone] ResNet 모델 설명 Deep Residual Learning for Image Recognition (CVPR 2016)
  • [Backbone] GoogLeNet 모델 설명 Going Deeper with Convolutions (CVPR 2014)
  • [Backbone] AlexNet 모델 설명 ImageNet Classification with Deep Convolutional Neural Networks (NIPS 2012)
CV 공부하는 대학원생 (석사 2년차)
CV 공부하는 대학원생 (석사 2년차)
  • CV 공부하는 대학원생 (석사 2년차)
    잘 읽은 논문 한 편. 끝입니다.
    CV 공부하는 대학원생 (석사 2년차)
  • 전체
    오늘
    어제
    • 분류 전체보기 (70)
      • 석사과정생연구장려금 (1)
      • 3DGS (3)
      • Dataset Distillation (1)
      • Generative Models (5)
      • On-device AI (3)
      • ML (2)
      • DL (1)
      • Backbone (5)
      • LLM (2)
      • 코딩테스트 (25)
      • 에러 해결 모음집 (14)
      • 오픽 (1)
      • 기타 (6)
  • 링크

  • 인기 글

  • 최근 댓글

  • 최근 글

  • 250x250
    반응형
  • hELLO· Designed By정상우.v4.10.3
CV 공부하는 대학원생 (석사 2년차)
[Backbone] VGGNet 모델 설명 Very Deep Convolutional Networks for Large-Scale Image Recognition (ICLR 2015)
상단으로

티스토리툴바