인공지능
-
[논문리뷰] RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019)카테고리 없음 2023. 12. 6. 22:46
# 요약 언어 모델 사전 학습은 상당한 성능 향상을 가져왔지만 서로 다른 접근 방식을 비교하기 어려움. 본 논문은 BERT Pretraining 방법에서 주요 하이퍼파라미터와 훈련 데이터 크기가 미치는 영향을 분석한 후 개선된 BERT 모델 훈련 방법, RoBERTa를 제안. # 인트로 기존 BERT의 Pretraining 방법에서 다음을 개선 (1) 더 많은 데이터에 대해 더 큰 배치로 모델을 더 오래 훈련 (2) 다음 문장 예측 목표를 제거 (3) 더 긴 시퀀스에 대해 훈련 (4) 훈련 데이터에 적용된 마스크 패턴을 동적으로 변경 (5) 새로운 대규모 데이터 세트(CC-NEWS)를 수집하여 적용 # Pre-training 전략 분석 ## Static vs Dynamic Masking 각 epoch에서..
-
[논문리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(2019)카테고리 없음 2023. 11. 24. 22:29
# 요약 Bidirectional Encoder Representations from Transformers의 약자인 BERT라는 새로운 Language representation model을 제안.BERT는 Unlabeld text로 부터 deep bidirectional representations을 pre-training하도록 설계됨. 그 결과, Pre-trained BERT 모델은 단 하나의 추가 output layer만으로 fine-tuninig이 가능하여, Task별 아키텍처를 크게 수정하지 않고도 질문 답변 및 언어 추론과 같은 광범위한 NLP Task에서 SOTA 모델을 생성할 수 있음.총 11개의 NLP Task에서 SOTA 달성. # 인트로 기존에는 Pre-trainined 모델 학습시..