
[논문 리뷰] DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter (2019)
·
On-device AI
본 논문은 Hugging Face에서 2019년에 작성한 논문이다.논문 링크: https://arxiv.org/abs/1910.01108 1. Introduction2017년부터 (논문이 작성된) 2019년까지 pre-trained language model에 대한 연구가 활발히 진행되어 왔다.여러 논문들이 모델의 크기와 성능은 비례한다는 연구 결과를 제시해 온 바 있다. 이런 large 모델들은 다음과 같은 문제점을 가진다.모델 계산 자원을 기하급수적으로 확장할 때 드는 환경 비용제한된 연산 능력과 메모리 크기를 가지는 edge device에서의 사용 불가본 논문에서는 훈련 비용이 작을 뿐만 아니라, 적은 연산 자원으로도 빠른 추론을 수행하는 모델 DistilBERT를 소개한다.Knowledge Dis..