gpt
-
[논문리뷰] Training language models to follow instructionswith human feedback(2022, InstructGPT)카테고리 없음 2024. 1. 24. 22:08
# 요약 - Language Model의 크기를 증가시키는 것이 반드시 사람의 의도를 잘 파악하지는 않음 - LM을 다양한 Task에서 사용자의 의도에 맞게 Fine-tuning 하는 방법을 제시 - GPT-3 보다 100배 작은 매개변수를 가진 InstructGPT는 GPT-3 보다 더 사람의 의도에 맞는 출력을 생성함 # 도입 - LM은 Few-shot 프롬프팅을 통해 다양한 NLP Task 적용이 가능 - 그러나 사실을 지어내거나, 사용자 지침을 잘 따르지 않는 등 의도하지 않은 출력이 발생함 - 원인은 LM에 사용되는 목표, 다음 토큰을 예측하는 목표가 "사용자의 지시를 유용하게 따르기"라는 목표와 다르기 때문 - 본 논문에서는 사람의 피드백을 통한 강화 학습(RLHF)을 사용하여 다양한 지침을 ..
-
[논문리뷰] Improving Language Understandingby Generative Pre-Training(GPT, 2018)카테고리 없음 2023. 11. 16. 22:37
# 요약 NLP에는 다양한 Task가 존재함. Task를 수행하기 위한 레이블이 지정된 데이터가 부족하여 훈련된 모델이 잘 수행되기가 어려움. 본 논문에서는 unlabled data로 language model을 generative pre-training으로 학습한 후 Task에 대한 미세조정을 통해 성능을 높이는 방안을 제시. NLP Task 12개 중 9개에 대해 높은 성능을 입증함. # 인트로 대부분의 딥러닝은 상당한 양의 많은 양의 수동 레이블이 지정된 데이터가 필요하므로 많은 도메인에서 적용이 제한됨. 따라서 라벨링되지 않은 데이터의 언어적 정보를 활용할 수 있는 모델이 필요함. 그러나 레이블이 지정되지 않은 텍스트에서 모델을 학습하는 것이 어려운 두 가지 이유 있음. 첫째, 어떤 최적화 목표가..