NSP
-
[논문리뷰] RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019)카테고리 없음 2023. 12. 6. 22:46
# 요약 언어 모델 사전 학습은 상당한 성능 향상을 가져왔지만 서로 다른 접근 방식을 비교하기 어려움. 본 논문은 BERT Pretraining 방법에서 주요 하이퍼파라미터와 훈련 데이터 크기가 미치는 영향을 분석한 후 개선된 BERT 모델 훈련 방법, RoBERTa를 제안. # 인트로 기존 BERT의 Pretraining 방법에서 다음을 개선 (1) 더 많은 데이터에 대해 더 큰 배치로 모델을 더 오래 훈련 (2) 다음 문장 예측 목표를 제거 (3) 더 긴 시퀀스에 대해 훈련 (4) 훈련 데이터에 적용된 마스크 패턴을 동적으로 변경 (5) 새로운 대규모 데이터 세트(CC-NEWS)를 수집하여 적용 # Pre-training 전략 분석 ## Static vs Dynamic Masking 각 epoch에서..