논문리뷰
-
[논문리뷰]Attention Is All You Need(transformer, 2017)카테고리 없음 2023. 11. 10. 17:10
# 요약 최근의 모델들은 RNN, CNN 기반 encoder-decoder에 Attention mechanizm을 연결하여 구성하였음. 본 논문에서는 RNN, CNN을 제거하고 Attemtion mechanizm만을 기반으로 하는 새로운 아키텍처인 Transformer를 제안함. 이 모델은 성능이 좋으면서도 병렬화가 가능하여 훈련에 적은 시간이 소요되는 장점이 있음. # 인트로 RNN은 순차적으로 hidden state를 생성하며 이러한 프로세스는 병렬 처리가 어렵고 시퀀스의 길이가 길어질 수록 연산 문제는 커짐. 최근에는 병렬로 연산 할 수 있는 작은 부분으로 분할하여 처리하는 factorization 기법과 입력값을 기반으로 모델의 일부를 선택적으로 연산하는 조건부 연산 방법을 통해 RNN읜 연산 효..
-
[논문리뷰]Neural Machine Translation by Jointly Learning To Align And Translate(Attention, 2014)카테고리 없음 2023. 11. 4. 11:44
# 요약 기존 신경망 기계 번역 모델은 Encoder-Decoder로 구성되고, 입력 문장을 고정 길이의 벡터로 인코딩 함. 이 논문에서는 모델이 예측 하고자 하는 단어와 밀접하게 관련된 입력 문장의 일부를 자동으로 검색할 수 있도록 하는 방법을 제안. # 인트로 기존 Encoder-Decoder기반 RNN 모델은 신경망이 입력 문장의 모든 정보를 고정 길이 벡터로 압축함. 이것은 입력 문장의 길이가 길어질수록 성능이 급격히 하락하는 원인이 됨. 제안된 모델은 decoder에서 단어를 생성할 때마다 입력 문장을 순차적으로 탐색하여 가장 관련성이 높은 영역을 적용시킴. encoder에서 생성된 hidden state 중 관련성이 높은 영역과 decoder 에서 생성한 context vector를 기반으로 ..
-
[논문리뷰]Sequence to Sequence Learningwith Neural Networks(2014)카테고리 없음 2023. 10. 28. 12:59
#요약 심층 신경망(DNN)은 전반적으로 좋은 성능을 발휘하는 강력한 모델임. DNN은 레이블이 지정된 대규모 학습 집합을 사용할 수 있을 때는 잘 작동하지만, 시퀀스와 시퀀스를 매핑하는 데는 사용하기 어려운 문제가 있음. 이 논문에서는 시퀀스 학습에 LSTM을 적용한 방법을 제시. #도입 DNN은 강력하지만 고정된 차원의 벡터로 인코딩될 수 있는 문제에만 적용가능 한 한계가 있음. 음성 인식, 기계 번역, 질의 응답들은 시퀀스로 표현해야 하는 문제임. 이러한 문제에는 시퀀스에 시퀀스를 매핑하는 방법을 학습하는 새로운 방법이 적용되야 함. 이 논문에서는 장단기 메모리(LSTM) 아키텍처[S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural C..
-
[논문리뷰] Deep Contextualized Word Representations (ELMo, 2018)카테고리 없음 2023. 10. 14. 16:57
#요약 새로운 유형의 심층 문맥화 단어 표현 제안. 심층 양방향 언어 모델 (biLM)에 대규모 코퍼스를 훈련하여 다의어도 표현 가능. #도입 기존의 word2vec 등 사전 훈련된 단어 표현은 많은 신경 언어 이해 모델의 핵심 구성 요소이나 고품질 표현을 구현하는데는 제한이 있음. 그것들은 (1) 단어 사용의 복잡한 특성(예: 구문 및 의미론)과 (2) 이러한 사용이 언어적 맥락에 따라 어떻게 달라지는지(즉, 다의어를 모델링하기 위해)에 대해 반영하지 못하고 있음. 본 논문에서는 두 가지 문제를 직접적으로 해결하고, 기존 모델에 쉽게 통합할 수 있는 새로운 유형의 심층 맥락화된 단어 표현을 소개함. 본 논문의 단어 표현은 각 토큰에 전체 입력 문장의 함수인 표현이 할당된다는 점에서 전통적인 단어 유형 ..