ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [논문리뷰] Language Models are Unsupervised Multitask Learners(2019, GPT-2)
    카테고리 없음 2023. 12. 30. 23:08

    # 요약

    - 질문 답변, 기계 번역, 요약 등의 NLP Task들은 일반적으로 Task Specific Data에 대한 지도학습을 적용함 

    - Task Specific Training 없이 대량의 Web Text를 통해 Model을 학습하는 방법을 제안

    - Zero-shot만으로 다양한 Task에서 우수한 성능을 기록

    - Language Model의 용량이 Zero-shot 성능에 유관함을 입증

     

    # 인트로

    - 기존 NLP Model 들은 대량의 Task Specific Data를 학습하는 방식으로 개발됨

    - 이러한 방식은 데이터의 변화에 민감하며, 특정 Task에만 잘 작동 되는 제약이 있음

    - 본 논문에서는 Data labeling이 필요없고, 많은 Task를 수행할 수 있는 일반화된 모델 개발을 추구

     

    # 제안

    - 최근 Transformer 등의 연구로 Language Modeling의 Representation이 크게 향상됨

    - 단일 Task에서 Language Model은 p(output | input)의 조건부 확률을 추정하는 것임

    - 다양한 Task에 적용가능한 범용 Language Model은 p(output | input, task)를 잘 모델링 할수 있어야 함

    - 충분한 Capa의 Language Model이 자연어의 시퀀스와 추론 방법을 학습하면 다양한 Task에서 좋은 성능을 보일 것임

    - 이러한 방법은 Language Model이 Unsupervised multitask learning을 수행하는 것이며 다양한 Task에 대해 Zero-shot test를 수행하여 성능을 검증함

     

    ## Training Dataset

    - Web crawl을 통해 특정 Domain에 치우치지 않는 대규모 텍스트 데이터셋인 'WebText' 구축

    - WebText는 총 8백만개 문서가 포함된 40Gb 용량의 텍스트 데이터셋

     

    ## Input Representation

    - 단어수준의 LM과 byte 수준의 LM의 중간형태인 BPE 인코딩을 적용

     

    ## Model

    - Transfomer Architecture 적용한 OpenAI GPT 모델을 기본으로 함

    - Layer Normalization이 각 sub-block의 input으로 이동하여 residual network와 유사하게 작용

    - Additional layer normalization이 마지막 self-attention block 다음에 추가 됨.

    - Residual layer의 가중치 초기화 시 1/√N의 factor로 조정. N은 Residual layer의 수

    어휘는 50,257개로 확장, Context size를 512에서 1024 token으로 증가시킴

     

    # 결과

    - Language Modeling : Zero-shot으로 8개 중 7개 Dataset에서 SOTA 달성

    - LAMBADA : Text의 long-range dependencies 관련 Dataset. PPL과 ACC 에서 SOTA 달성

    Language Modeling & LAMBADA Dataset Result

     

    - Children's Book Test : 품사에 따른 성능 비교를 위한 Dataset, 기존 SOTA를 크게 능가하였으며, Human과 유사한 성능

    - Winograd Schema Challenge : 언어 의미의 중의성(ambiguities)을 해석하는 Dataset. SOTA 달성

    Children's Book Test & Winograd Schema Challenge Result

     

    - Question Answering : GPT-2는 4.1%의 정확도로 기존의 모델들보다 5.3배 높은 QA 정확도를 기록

     

    ## Generalization vs Memorization

    - Dataset(Train data와 test data)에 중복 데이터가 있는 경우, 모델의 성능을 과대 평가할 수 있음

    - Data의 중복이 많으면 Model은 Generalization이 아닌 Memorization에 치우치게 됨

    - 따라서 GPT-2에 사용된 WebText dataset에서도 이러한 중복 여부와 영향을 확인 해야 함

    - WebText Train dataset은 Test dataset과 평균적으로 3.2%의 중복이 있음

    - 그러나 다른 Model에 사용된 데이터셋들은 WebText보다 더 많은 평균 5.9%의 중복이 있었음

    - 또한 GPT-2의 모델 사이즈별 WebText의 학습 성능을 분석한 결과, train set과 test set에서 성능이 비슷하며 model size가 커질 수록 성능이 계속 올라감

    - 즉 더 많이 Trainin에 투자할 경우 성능이 더 오를 수 있으며 현재 GPT-2는 WebText에 Underfitting 되었음을 시사

     

    # 결론

    - Large language model이 충분히 크고 다양한 dataset을 학습하면 다양한 domain과 dataset에서 잘 작동함을 입증

    - GPT-2는 zero-shot에서 다양한 Dataset(8개중 7개)의 SOTA를 달성

    - 충분히 다양한 Text Corpus에서 학습된 high-capacity의 LM이 Supervision 없이도 다양한 task를 잘 수행하는 하는 것을 입증

     

    # 참고한 자료

    https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdfhttps://blog.naver.com/mewmew16/223159788855

    https://gbdai.tistory.com/57

Designed by Tistory.