728x90
반응형
[논문 리뷰] DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter (2019)
·
On-device AI
본 논문은 Hugging Face에서 2019년에 작성한 논문이다.논문 링크: https://arxiv.org/abs/1910.01108 1. Introduction2017년부터 (논문이 작성된) 2019년까지 pre-trained language model에 대한 연구가 활발히 진행되어 왔다.여러 논문들이 모델의 크기와 성능은 비례한다는 연구 결과를 제시해 온 바 있다. 이런 large 모델들은 다음과 같은 문제점을 가진다.모델 계산 자원을 기하급수적으로 확장할 때 드는 환경 비용제한된 연산 능력과 메모리 크기를 가지는 edge device에서의 사용 불가본 논문에서는 훈련 비용이 작을 뿐만 아니라, 적은 연산 자원으로도 빠른 추론을 수행하는 모델 DistilBERT를 소개한다.Knowledge Dis..
[논문 리뷰] MiniVLM: A Smaller and Faster Vision-Language Model (2020)
·
On-device AI
본 논문은 Microsoft Research에서 2020년에 작성한 논문이다.논문 링크: https://arxiv.org/abs/2012.069461. Introduction본 논문은 MiniVLM이라는 경량 Vision-Language 모델을 제안한다. 대부분의 VL 모델들은 대부분 두 가지 모듈로 구성되어 있다. (1) Vision module: 이미지 피처를 추출하는 모듈로, imageNet으로 학습된 CNN을 기반으로 한다. (2) Feature fusion module: 멀티 모달 Transformer를 기반으로 두 가지 데이터 추출한 visual 피처와 토큰화된 sentence를 말 그대로 혼합하는 모듈이다.두 모델을 함께 사용하는 경우 수억 개의 파라미터가 사용된다고 한다. 그렇다면, 아주 ..
[논문 리뷰] MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers (2020)
·
On-device AI
본 논문은 Microsoft Research에서 2020년에 작성한 논문이다.논문 링크: https://arxiv.org/pdf/2002.109571. Introduction본 논문은 수억 개의 파라미터를 갖는 일반적인 NLP 모델을 경량화한 MiniLM 모델을 제안한다.보통의 Language Model (이하 LM)들은 대용량의 데이터셋으로 Pre-training 되고, 그다음 연구 목적에 맞는 downstream 작업에 맞춰 Fine-tuning 되는 것이 일반적이다. → 모델의 크기가 큰 경우가 많아 실사용에 무리가 있다.2015년 Knowledge Distillation 기법, 한국말로는 지식 증류 기법이라고 불리는 방법론이 등장한다. 간단히 설명을 하자면, Fine-tuning 후에 높은 성능을..
728x90
반응형