분류 전체보기
-
[논문리뷰] The Natural Language Decathlon:Multitask Learning as Question Answering(2018)카테고리 없음 2023. 12. 21. 23:50
# 요약 - 단일 메트릭, 데이터 세트 및 특정한 Task에 집중된 패러다임에서는 NLP가 발전하기 어려움 - 질문 답변, 기계 번역, 요약 등의 10가지 Task가 있는 NLP 10종 경기(decaNLP)를 제안 - 10종의 모든 Taks를 공동으로 학습하는 Multitask 질문 답변 네트워크(MQAN)를 제시 - MQAN은 기계 번역, 감정 분석 등 다양한 Task에서 우수한 성능을 나타냄 # 인트로 - 다양한 종류의 NLP 작업에 일반화할 수 있는 모델을 개발하기 위해 자연어 10종 경기(decaNLP) 제안 - decaNLP는 모두 QA형태로 구성됨. ex) 이 문장이 긍정적인가? 예를 들어, 문장의 긍 부정을 평가하는 NLP task는 Question : 이 문장이 긍정적인가? 와 같은 질문을..
-
[논문리뷰] RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019)카테고리 없음 2023. 12. 6. 22:46
# 요약 언어 모델 사전 학습은 상당한 성능 향상을 가져왔지만 서로 다른 접근 방식을 비교하기 어려움. 본 논문은 BERT Pretraining 방법에서 주요 하이퍼파라미터와 훈련 데이터 크기가 미치는 영향을 분석한 후 개선된 BERT 모델 훈련 방법, RoBERTa를 제안. # 인트로 기존 BERT의 Pretraining 방법에서 다음을 개선 (1) 더 많은 데이터에 대해 더 큰 배치로 모델을 더 오래 훈련 (2) 다음 문장 예측 목표를 제거 (3) 더 긴 시퀀스에 대해 훈련 (4) 훈련 데이터에 적용된 마스크 패턴을 동적으로 변경 (5) 새로운 대규모 데이터 세트(CC-NEWS)를 수집하여 적용 # Pre-training 전략 분석 ## Static vs Dynamic Masking 각 epoch에서..
-
[논문리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(2019)카테고리 없음 2023. 11. 24. 22:29
# 요약 Bidirectional Encoder Representations from Transformers의 약자인 BERT라는 새로운 Language representation model을 제안.BERT는 Unlabeld text로 부터 deep bidirectional representations을 pre-training하도록 설계됨. 그 결과, Pre-trained BERT 모델은 단 하나의 추가 output layer만으로 fine-tuninig이 가능하여, Task별 아키텍처를 크게 수정하지 않고도 질문 답변 및 언어 추론과 같은 광범위한 NLP Task에서 SOTA 모델을 생성할 수 있음.총 11개의 NLP Task에서 SOTA 달성. # 인트로 기존에는 Pre-trainined 모델 학습시..
-
[논문리뷰] Improving Language Understandingby Generative Pre-Training(GPT, 2018)카테고리 없음 2023. 11. 16. 22:37
# 요약 NLP에는 다양한 Task가 존재함. Task를 수행하기 위한 레이블이 지정된 데이터가 부족하여 훈련된 모델이 잘 수행되기가 어려움. 본 논문에서는 unlabled data로 language model을 generative pre-training으로 학습한 후 Task에 대한 미세조정을 통해 성능을 높이는 방안을 제시. NLP Task 12개 중 9개에 대해 높은 성능을 입증함. # 인트로 대부분의 딥러닝은 상당한 양의 많은 양의 수동 레이블이 지정된 데이터가 필요하므로 많은 도메인에서 적용이 제한됨. 따라서 라벨링되지 않은 데이터의 언어적 정보를 활용할 수 있는 모델이 필요함. 그러나 레이블이 지정되지 않은 텍스트에서 모델을 학습하는 것이 어려운 두 가지 이유 있음. 첫째, 어떤 최적화 목표가..
-
[논문리뷰]Attention Is All You Need(transformer, 2017)카테고리 없음 2023. 11. 10. 17:10
# 요약 최근의 모델들은 RNN, CNN 기반 encoder-decoder에 Attention mechanizm을 연결하여 구성하였음. 본 논문에서는 RNN, CNN을 제거하고 Attemtion mechanizm만을 기반으로 하는 새로운 아키텍처인 Transformer를 제안함. 이 모델은 성능이 좋으면서도 병렬화가 가능하여 훈련에 적은 시간이 소요되는 장점이 있음. # 인트로 RNN은 순차적으로 hidden state를 생성하며 이러한 프로세스는 병렬 처리가 어렵고 시퀀스의 길이가 길어질 수록 연산 문제는 커짐. 최근에는 병렬로 연산 할 수 있는 작은 부분으로 분할하여 처리하는 factorization 기법과 입력값을 기반으로 모델의 일부를 선택적으로 연산하는 조건부 연산 방법을 통해 RNN읜 연산 효..
-
[논문리뷰]Neural Machine Translation by Jointly Learning To Align And Translate(Attention, 2014)카테고리 없음 2023. 11. 4. 11:44
# 요약 기존 신경망 기계 번역 모델은 Encoder-Decoder로 구성되고, 입력 문장을 고정 길이의 벡터로 인코딩 함. 이 논문에서는 모델이 예측 하고자 하는 단어와 밀접하게 관련된 입력 문장의 일부를 자동으로 검색할 수 있도록 하는 방법을 제안. # 인트로 기존 Encoder-Decoder기반 RNN 모델은 신경망이 입력 문장의 모든 정보를 고정 길이 벡터로 압축함. 이것은 입력 문장의 길이가 길어질수록 성능이 급격히 하락하는 원인이 됨. 제안된 모델은 decoder에서 단어를 생성할 때마다 입력 문장을 순차적으로 탐색하여 가장 관련성이 높은 영역을 적용시킴. encoder에서 생성된 hidden state 중 관련성이 높은 영역과 decoder 에서 생성한 context vector를 기반으로 ..
-
[논문리뷰]Sequence to Sequence Learningwith Neural Networks(2014)카테고리 없음 2023. 10. 28. 12:59
#요약 심층 신경망(DNN)은 전반적으로 좋은 성능을 발휘하는 강력한 모델임. DNN은 레이블이 지정된 대규모 학습 집합을 사용할 수 있을 때는 잘 작동하지만, 시퀀스와 시퀀스를 매핑하는 데는 사용하기 어려운 문제가 있음. 이 논문에서는 시퀀스 학습에 LSTM을 적용한 방법을 제시. #도입 DNN은 강력하지만 고정된 차원의 벡터로 인코딩될 수 있는 문제에만 적용가능 한 한계가 있음. 음성 인식, 기계 번역, 질의 응답들은 시퀀스로 표현해야 하는 문제임. 이러한 문제에는 시퀀스에 시퀀스를 매핑하는 방법을 학습하는 새로운 방법이 적용되야 함. 이 논문에서는 장단기 메모리(LSTM) 아키텍처[S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural C..
-
[논문리뷰] Deep Contextualized Word Representations (ELMo, 2018)카테고리 없음 2023. 10. 14. 16:57
#요약 새로운 유형의 심층 문맥화 단어 표현 제안. 심층 양방향 언어 모델 (biLM)에 대규모 코퍼스를 훈련하여 다의어도 표현 가능. #도입 기존의 word2vec 등 사전 훈련된 단어 표현은 많은 신경 언어 이해 모델의 핵심 구성 요소이나 고품질 표현을 구현하는데는 제한이 있음. 그것들은 (1) 단어 사용의 복잡한 특성(예: 구문 및 의미론)과 (2) 이러한 사용이 언어적 맥락에 따라 어떻게 달라지는지(즉, 다의어를 모델링하기 위해)에 대해 반영하지 못하고 있음. 본 논문에서는 두 가지 문제를 직접적으로 해결하고, 기존 모델에 쉽게 통합할 수 있는 새로운 유형의 심층 맥락화된 단어 표현을 소개함. 본 논문의 단어 표현은 각 토큰에 전체 입력 문장의 함수인 표현이 할당된다는 점에서 전통적인 단어 유형 ..