AI
-
[논문리뷰] Corrective Retrieval Augmented Generation(CRAG, 2024)카테고리 없음 2024. 4. 4. 12:23
1. 요약 - 검색 증강 생성(RAG)은 LLM의 할루시네이션을 보완할 수 있지만 검색된 문서에 크게 의존 - RAG의 답변 품질을 개선하기 위해 수정 검색 증강 생성(CRAG)을 제안 - Retrieval evaluator를 통해 쿼리에 대해 검색된 문서의 전반적인 품질을 평가 - 검색된 문서의 정보가 불충분한 경우, 대규모 웹 검색을 통해 검색 결과를 보강 - 검색된 문서가 핵심 정보에 선택적으로 집중하고 관련 없는 정보를 걸러낼 수 있도록 분해 후 재구성 - CRAG는 플러그 앤 플레이 방식으로 다양한 RAG에 쉽게 결합 가능 - 다양한 데이터 세트에 대한 실험 결과, CRAG가 기존 RAG 대비 성능이 우수함 2. 인트로 - 검색 증강 생성(RAG)은 LLM의 할루시네이션을 보완할 수 있지만 검색..
-
[논문리뷰] Retrieval Augmented Generation for Knowledge Intensive NLP Tasks(2020)카테고리 없음 2024. 3. 27. 13:33
# 요약 Large pre-trained model은 사실적 지식을 매개변수에 저장하고, 다운스트림 NLP 작업에서 미세 조정할 때 SOTA의 성능을 냄. 그러나 지식에 접근하고 정확하게 다루는데는 여전히 한계가 있음. 또한 결과에 대한 출처를 제공하고 지식을 업데이트하는 것도 한계가 있음. 본 논문에서는 Language model의 parametric memory에 non-parametric memory를 결합한 RAG(Retrival-augmented generation)을 제안함. Parametric memory는 pre-trained seq2seq 모델을 사용하고, non-parametric memory로 pre-trained neural retriever로 위키피디아의 dense vector를 ..
-
[논문리뷰] LLaMA: Open and Efficient Foundation Language Models(2023)카테고리 없음 2024. 2. 1. 22:25
# 요약 7B에서 65B 매개변수를 포함하는 LM인 LLaMA를 제안. 공개적으로 사용 가능한 데이터셋만을 활용하고, 초 대규모로 모델 사이즈를 키우지 않고도 좋은 성능을 낼 수 있음을 입증함. # 서론 - 최근의 연구는 LM의 크기와 성능이 선형적 관계라는 가정으로 LM의 크기를 키우는 방향으로 연구되고 있음 - 그러나 Hoffmann 등(2022)의 최근 연구에 따르면, 주어진 컴퓨팅 리소스 내에서 최고의 성능은 가장 큰 모델이 아니라 더 많은 데이터로 훈련된 더 작은 모델임 - 모델의 추론과 서빙을 고려할때 우리는 적정한 크기의 성능 좋은 LM이 필요함 - 본 논문에서는 더 많은 토큰을 학습시켜 최고의 성능을 달성하는 적정한 크기의 LM을 추구함 - 이렇게 생성된 LLaMa는 7B ~ 65B 파라미..
-
[논문리뷰] Training language models to follow instructionswith human feedback(2022, InstructGPT)카테고리 없음 2024. 1. 24. 22:08
# 요약 - Language Model의 크기를 증가시키는 것이 반드시 사람의 의도를 잘 파악하지는 않음 - LM을 다양한 Task에서 사용자의 의도에 맞게 Fine-tuning 하는 방법을 제시 - GPT-3 보다 100배 작은 매개변수를 가진 InstructGPT는 GPT-3 보다 더 사람의 의도에 맞는 출력을 생성함 # 도입 - LM은 Few-shot 프롬프팅을 통해 다양한 NLP Task 적용이 가능 - 그러나 사실을 지어내거나, 사용자 지침을 잘 따르지 않는 등 의도하지 않은 출력이 발생함 - 원인은 LM에 사용되는 목표, 다음 토큰을 예측하는 목표가 "사용자의 지시를 유용하게 따르기"라는 목표와 다르기 때문 - 본 논문에서는 사람의 피드백을 통한 강화 학습(RLHF)을 사용하여 다양한 지침을 ..
-
[논문리뷰] Finetuned Language Models Are Zero-Shot Learners(2022, Instruction following)카테고리 없음 2024. 1. 12. 12:55
# 요약 - Language Model의 Zero-shot 학습 능력을 향상시키는 간단한 방법을 연구 - 명령어를 통해 설명된 Dataset에서 Instruction tuninig이 Zero-shot 성능을 크게 향상 시키는것을 입증 - 137B의 Pre-trained LM을 명령어 템플릿을 통해 변형된 60개 이상의 NLP 데이터 세트에 대해 Instruction Tuninig 수행 - FLAN(Instruction Tuned Model)을 평가한 결과, FLAN은 수정하지 않은 모델보다 성능이 크게 향상되었으며 평가한 25개 데이터 세트 중 20개에서 제로 샷 175B GPT-3를 능가 # 서론 - GPT-3(Brown et al., 2020)와 같은 대규모 언어 모델(LM)은 다양한 Task를 매우..
-
[논문리뷰] RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019)카테고리 없음 2023. 12. 6. 22:46
# 요약 언어 모델 사전 학습은 상당한 성능 향상을 가져왔지만 서로 다른 접근 방식을 비교하기 어려움. 본 논문은 BERT Pretraining 방법에서 주요 하이퍼파라미터와 훈련 데이터 크기가 미치는 영향을 분석한 후 개선된 BERT 모델 훈련 방법, RoBERTa를 제안. # 인트로 기존 BERT의 Pretraining 방법에서 다음을 개선 (1) 더 많은 데이터에 대해 더 큰 배치로 모델을 더 오래 훈련 (2) 다음 문장 예측 목표를 제거 (3) 더 긴 시퀀스에 대해 훈련 (4) 훈련 데이터에 적용된 마스크 패턴을 동적으로 변경 (5) 새로운 대규모 데이터 세트(CC-NEWS)를 수집하여 적용 # Pre-training 전략 분석 ## Static vs Dynamic Masking 각 epoch에서..
-
[논문리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(2019)카테고리 없음 2023. 11. 24. 22:29
# 요약 Bidirectional Encoder Representations from Transformers의 약자인 BERT라는 새로운 Language representation model을 제안.BERT는 Unlabeld text로 부터 deep bidirectional representations을 pre-training하도록 설계됨. 그 결과, Pre-trained BERT 모델은 단 하나의 추가 output layer만으로 fine-tuninig이 가능하여, Task별 아키텍처를 크게 수정하지 않고도 질문 답변 및 언어 추론과 같은 광범위한 NLP Task에서 SOTA 모델을 생성할 수 있음.총 11개의 NLP Task에서 SOTA 달성. # 인트로 기존에는 Pre-trainined 모델 학습시..
-
[논문리뷰] Deep Contextualized Word Representations (ELMo, 2018)카테고리 없음 2023. 10. 14. 16:57
#요약 새로운 유형의 심층 문맥화 단어 표현 제안. 심층 양방향 언어 모델 (biLM)에 대규모 코퍼스를 훈련하여 다의어도 표현 가능. #도입 기존의 word2vec 등 사전 훈련된 단어 표현은 많은 신경 언어 이해 모델의 핵심 구성 요소이나 고품질 표현을 구현하는데는 제한이 있음. 그것들은 (1) 단어 사용의 복잡한 특성(예: 구문 및 의미론)과 (2) 이러한 사용이 언어적 맥락에 따라 어떻게 달라지는지(즉, 다의어를 모델링하기 위해)에 대해 반영하지 못하고 있음. 본 논문에서는 두 가지 문제를 직접적으로 해결하고, 기존 모델에 쉽게 통합할 수 있는 새로운 유형의 심층 맥락화된 단어 표현을 소개함. 본 논문의 단어 표현은 각 토큰에 전체 입력 문장의 함수인 표현이 할당된다는 점에서 전통적인 단어 유형 ..