논문리뷰
-
[논문리뷰] Retrieval Augmented Generation for Knowledge Intensive NLP Tasks(2020)카테고리 없음 2024. 3. 27. 13:33
# 요약 Large pre-trained model은 사실적 지식을 매개변수에 저장하고, 다운스트림 NLP 작업에서 미세 조정할 때 SOTA의 성능을 냄. 그러나 지식에 접근하고 정확하게 다루는데는 여전히 한계가 있음. 또한 결과에 대한 출처를 제공하고 지식을 업데이트하는 것도 한계가 있음. 본 논문에서는 Language model의 parametric memory에 non-parametric memory를 결합한 RAG(Retrival-augmented generation)을 제안함. Parametric memory는 pre-trained seq2seq 모델을 사용하고, non-parametric memory로 pre-trained neural retriever로 위키피디아의 dense vector를 ..
-
[논문리뷰] LLaMA: Open and Efficient Foundation Language Models(2023)카테고리 없음 2024. 2. 1. 22:25
# 요약 7B에서 65B 매개변수를 포함하는 LM인 LLaMA를 제안. 공개적으로 사용 가능한 데이터셋만을 활용하고, 초 대규모로 모델 사이즈를 키우지 않고도 좋은 성능을 낼 수 있음을 입증함. # 서론 - 최근의 연구는 LM의 크기와 성능이 선형적 관계라는 가정으로 LM의 크기를 키우는 방향으로 연구되고 있음 - 그러나 Hoffmann 등(2022)의 최근 연구에 따르면, 주어진 컴퓨팅 리소스 내에서 최고의 성능은 가장 큰 모델이 아니라 더 많은 데이터로 훈련된 더 작은 모델임 - 모델의 추론과 서빙을 고려할때 우리는 적정한 크기의 성능 좋은 LM이 필요함 - 본 논문에서는 더 많은 토큰을 학습시켜 최고의 성능을 달성하는 적정한 크기의 LM을 추구함 - 이렇게 생성된 LLaMa는 7B ~ 65B 파라미..
-
[논문리뷰] Training language models to follow instructionswith human feedback(2022, InstructGPT)카테고리 없음 2024. 1. 24. 22:08
# 요약 - Language Model의 크기를 증가시키는 것이 반드시 사람의 의도를 잘 파악하지는 않음 - LM을 다양한 Task에서 사용자의 의도에 맞게 Fine-tuning 하는 방법을 제시 - GPT-3 보다 100배 작은 매개변수를 가진 InstructGPT는 GPT-3 보다 더 사람의 의도에 맞는 출력을 생성함 # 도입 - LM은 Few-shot 프롬프팅을 통해 다양한 NLP Task 적용이 가능 - 그러나 사실을 지어내거나, 사용자 지침을 잘 따르지 않는 등 의도하지 않은 출력이 발생함 - 원인은 LM에 사용되는 목표, 다음 토큰을 예측하는 목표가 "사용자의 지시를 유용하게 따르기"라는 목표와 다르기 때문 - 본 논문에서는 사람의 피드백을 통한 강화 학습(RLHF)을 사용하여 다양한 지침을 ..
-
[논문리뷰] Finetuned Language Models Are Zero-Shot Learners(2022, Instruction following)카테고리 없음 2024. 1. 12. 12:55
# 요약 - Language Model의 Zero-shot 학습 능력을 향상시키는 간단한 방법을 연구 - 명령어를 통해 설명된 Dataset에서 Instruction tuninig이 Zero-shot 성능을 크게 향상 시키는것을 입증 - 137B의 Pre-trained LM을 명령어 템플릿을 통해 변형된 60개 이상의 NLP 데이터 세트에 대해 Instruction Tuninig 수행 - FLAN(Instruction Tuned Model)을 평가한 결과, FLAN은 수정하지 않은 모델보다 성능이 크게 향상되었으며 평가한 25개 데이터 세트 중 20개에서 제로 샷 175B GPT-3를 능가 # 서론 - GPT-3(Brown et al., 2020)와 같은 대규모 언어 모델(LM)은 다양한 Task를 매우..
-
[논문리뷰] Language Models are Unsupervised Multitask Learners(2019, GPT-2)카테고리 없음 2023. 12. 30. 23:08
# 요약 - 질문 답변, 기계 번역, 요약 등의 NLP Task들은 일반적으로 Task Specific Data에 대한 지도학습을 적용함 - Task Specific Training 없이 대량의 Web Text를 통해 Model을 학습하는 방법을 제안 - Zero-shot만으로 다양한 Task에서 우수한 성능을 기록 - Language Model의 용량이 Zero-shot 성능에 유관함을 입증 # 인트로 - 기존 NLP Model 들은 대량의 Task Specific Data를 학습하는 방식으로 개발됨 - 이러한 방식은 데이터의 변화에 민감하며, 특정 Task에만 잘 작동 되는 제약이 있음 - 본 논문에서는 Data labeling이 필요없고, 많은 Task를 수행할 수 있는 일반화된 모델 개발을 추구 ..
-
[논문리뷰] RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019)카테고리 없음 2023. 12. 6. 22:46
# 요약 언어 모델 사전 학습은 상당한 성능 향상을 가져왔지만 서로 다른 접근 방식을 비교하기 어려움. 본 논문은 BERT Pretraining 방법에서 주요 하이퍼파라미터와 훈련 데이터 크기가 미치는 영향을 분석한 후 개선된 BERT 모델 훈련 방법, RoBERTa를 제안. # 인트로 기존 BERT의 Pretraining 방법에서 다음을 개선 (1) 더 많은 데이터에 대해 더 큰 배치로 모델을 더 오래 훈련 (2) 다음 문장 예측 목표를 제거 (3) 더 긴 시퀀스에 대해 훈련 (4) 훈련 데이터에 적용된 마스크 패턴을 동적으로 변경 (5) 새로운 대규모 데이터 세트(CC-NEWS)를 수집하여 적용 # Pre-training 전략 분석 ## Static vs Dynamic Masking 각 epoch에서..
-
[논문리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(2019)카테고리 없음 2023. 11. 24. 22:29
# 요약 Bidirectional Encoder Representations from Transformers의 약자인 BERT라는 새로운 Language representation model을 제안.BERT는 Unlabeld text로 부터 deep bidirectional representations을 pre-training하도록 설계됨. 그 결과, Pre-trained BERT 모델은 단 하나의 추가 output layer만으로 fine-tuninig이 가능하여, Task별 아키텍처를 크게 수정하지 않고도 질문 답변 및 언어 추론과 같은 광범위한 NLP Task에서 SOTA 모델을 생성할 수 있음.총 11개의 NLP Task에서 SOTA 달성. # 인트로 기존에는 Pre-trainined 모델 학습시..
-
[논문리뷰] Improving Language Understandingby Generative Pre-Training(GPT, 2018)카테고리 없음 2023. 11. 16. 22:37
# 요약 NLP에는 다양한 Task가 존재함. Task를 수행하기 위한 레이블이 지정된 데이터가 부족하여 훈련된 모델이 잘 수행되기가 어려움. 본 논문에서는 unlabled data로 language model을 generative pre-training으로 학습한 후 Task에 대한 미세조정을 통해 성능을 높이는 방안을 제시. NLP Task 12개 중 9개에 대해 높은 성능을 입증함. # 인트로 대부분의 딥러닝은 상당한 양의 많은 양의 수동 레이블이 지정된 데이터가 필요하므로 많은 도메인에서 적용이 제한됨. 따라서 라벨링되지 않은 데이터의 언어적 정보를 활용할 수 있는 모델이 필요함. 그러나 레이블이 지정되지 않은 텍스트에서 모델을 학습하는 것이 어려운 두 가지 이유 있음. 첫째, 어떤 최적화 목표가..