자연어처리
-
[논문리뷰] RAFT: Adapting Language Model to Domain Specific RAG(2024)카테고리 없음 2024. 4. 10. 11:56
1. 요약 - LLM의 Domain Adoptation을 위해 RAG 또는 Fine-tunining을 사용하는 것이 일반적임 - 그러나 RAG와 Fine-tunining을 Domain에 최적화 하기 위한 일반화된 방법이 없음 - "Open-Book" 환경에서 Domain Specific한 질문에 답하는 능력을 향상시키는 RAFT(Retrieval Aware Fine-tuning)를 제안 - RAFT는 질문과 검색된 문서가 주어졌을때 도움이 되지 않는 문서를 무시하고, 관련성 높은 문서를 잘 참고하도록 모델을 훈련 - 또한 COT(Chain of Thought)를 적용하여 모델의 추론 능력을 향상 - PubMed, HotpotQA 및 Gorilla 데이터 세트에서 평가 결과, 우수한 성능을 나타냄 2. 도..
-
[논문리뷰] Corrective Retrieval Augmented Generation(CRAG, 2024)카테고리 없음 2024. 4. 4. 12:23
1. 요약 - 검색 증강 생성(RAG)은 LLM의 할루시네이션을 보완할 수 있지만 검색된 문서에 크게 의존 - RAG의 답변 품질을 개선하기 위해 수정 검색 증강 생성(CRAG)을 제안 - Retrieval evaluator를 통해 쿼리에 대해 검색된 문서의 전반적인 품질을 평가 - 검색된 문서의 정보가 불충분한 경우, 대규모 웹 검색을 통해 검색 결과를 보강 - 검색된 문서가 핵심 정보에 선택적으로 집중하고 관련 없는 정보를 걸러낼 수 있도록 분해 후 재구성 - CRAG는 플러그 앤 플레이 방식으로 다양한 RAG에 쉽게 결합 가능 - 다양한 데이터 세트에 대한 실험 결과, CRAG가 기존 RAG 대비 성능이 우수함 2. 인트로 - 검색 증강 생성(RAG)은 LLM의 할루시네이션을 보완할 수 있지만 검색..
-
[논문리뷰] RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019)카테고리 없음 2023. 12. 6. 22:46
# 요약 언어 모델 사전 학습은 상당한 성능 향상을 가져왔지만 서로 다른 접근 방식을 비교하기 어려움. 본 논문은 BERT Pretraining 방법에서 주요 하이퍼파라미터와 훈련 데이터 크기가 미치는 영향을 분석한 후 개선된 BERT 모델 훈련 방법, RoBERTa를 제안. # 인트로 기존 BERT의 Pretraining 방법에서 다음을 개선 (1) 더 많은 데이터에 대해 더 큰 배치로 모델을 더 오래 훈련 (2) 다음 문장 예측 목표를 제거 (3) 더 긴 시퀀스에 대해 훈련 (4) 훈련 데이터에 적용된 마스크 패턴을 동적으로 변경 (5) 새로운 대규모 데이터 세트(CC-NEWS)를 수집하여 적용 # Pre-training 전략 분석 ## Static vs Dynamic Masking 각 epoch에서..
-
[논문리뷰]Sequence to Sequence Learningwith Neural Networks(2014)카테고리 없음 2023. 10. 28. 12:59
#요약 심층 신경망(DNN)은 전반적으로 좋은 성능을 발휘하는 강력한 모델임. DNN은 레이블이 지정된 대규모 학습 집합을 사용할 수 있을 때는 잘 작동하지만, 시퀀스와 시퀀스를 매핑하는 데는 사용하기 어려운 문제가 있음. 이 논문에서는 시퀀스 학습에 LSTM을 적용한 방법을 제시. #도입 DNN은 강력하지만 고정된 차원의 벡터로 인코딩될 수 있는 문제에만 적용가능 한 한계가 있음. 음성 인식, 기계 번역, 질의 응답들은 시퀀스로 표현해야 하는 문제임. 이러한 문제에는 시퀀스에 시퀀스를 매핑하는 방법을 학습하는 새로운 방법이 적용되야 함. 이 논문에서는 장단기 메모리(LSTM) 아키텍처[S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural C..
-
[논문리뷰] Deep Contextualized Word Representations (ELMo, 2018)카테고리 없음 2023. 10. 14. 16:57
#요약 새로운 유형의 심층 문맥화 단어 표현 제안. 심층 양방향 언어 모델 (biLM)에 대규모 코퍼스를 훈련하여 다의어도 표현 가능. #도입 기존의 word2vec 등 사전 훈련된 단어 표현은 많은 신경 언어 이해 모델의 핵심 구성 요소이나 고품질 표현을 구현하는데는 제한이 있음. 그것들은 (1) 단어 사용의 복잡한 특성(예: 구문 및 의미론)과 (2) 이러한 사용이 언어적 맥락에 따라 어떻게 달라지는지(즉, 다의어를 모델링하기 위해)에 대해 반영하지 못하고 있음. 본 논문에서는 두 가지 문제를 직접적으로 해결하고, 기존 모델에 쉽게 통합할 수 있는 새로운 유형의 심층 맥락화된 단어 표현을 소개함. 본 논문의 단어 표현은 각 토큰에 전체 입력 문장의 함수인 표현이 할당된다는 점에서 전통적인 단어 유형 ..