Seq2seq

논문 리뷰 스터디

Seq2seq

youn9._.hon9 2025. 5. 6. 20:13

1. 논문 정보

제목 : Sequence to Sequence Learning with Neural Networks
저자 : Ilya Sutskever, Oriol Vinyals, Quoc V. Le
학회 / 연도 : NIPS 2014
링크 : https://arxiv.org/abs/1409.3215

2. 한 줄 요약

입력 시퀀스를 하나의 벡터로 인코딩하고, 이를 기반으로 출력 시퀀스를 생성하는 Encoder-Decoder 기반의 LSTM 모델(Seq2 Seq)을 제안하여, 기계 번역 성능을 크게 향상시킨 논문이다.

3. 문제 정의와 배경

기존의 기계 번역 시스템은 통계 기반 n-gram 모델이나 문법 기반 접근 방식에 의존하여 문맥을 장기적으로 반영하지 못하는 한계가 있었다.
딥러닝이 도입된 이후에도, 가변 길이의 입력 시퀀스를 가변 길이의 출력 시퀀스로 일반화하여 매핑하는 문제는 여전히 도전적인 과제로 남아 있었다.
이 논문은 이러한 문제를 해결하기 위해, 입력과 출력을 End-to-End 방식으로 학습할 수 있는 RNN 기반의 Encoder-Decoder 구조, 즉 Sequence-to-Sequence (seq2seq) 모델을 제안하였다.

4. 핵심 아이디어 및 기여

Encoder-Decoder 구조 : 입력 시퀀스를 하나의 고정 벡터(context vector)로 압축한 후, Decoder가 이 벡터를 바탕으로 출력 시퀀스를 생성.
LSTM 사용 : Long-Term Dependency 문제 해결을 위해 Encoder와 Decoder 모두에 LSTM을 적용.
입력 시퀀스를 역순으로 처리 : 입력을 거꾸로 넣었을 때, Decoder가 처음 단어를 예측할 때 입력 문장의 마지막 단어를 참고할 수 있어 성능 향상에 도움.

5. 모델 아키텍처 / 방법론

Seq2Seq는 두 개의 Recurrent Neural Network(RNN)를 연결한 구조

Encoder: 입력 시퀀스를 고정 길이 벡터로 압축
Decoder: 해당 벡터를 기반으로 출력 시퀀스를 생성

모델은 입력 𝑥가 주어졌을 때 출력 시퀀스 𝑦의 확률을 최대화하도록 학습

입력 시퀀스 뒤집기

출력의 앞부분을 예측할 때, 입력의 뒷부분과의 의존성이 클 경우, 일반적인 정순 입력에서는 이 두 정보가 멀리 떨어진 위치에 존재하게 됩니다. 하지만 일반 Seq2Seq는 디코더의 첫 hidden state가 입력 시퀀스의 마지막 hidden state를 기반으로 하기 때문에, 초반 입력 단어와의 거리가 멀어지는 문제가 있습니다. 따라서 이 거리를 줄이면 RNN이 더 효과적으로 대응할 수 있습니다.

6. 실험 결과

Task: 영어 → 프랑스어 번역 (WMT'14 데이터셋 사용)
BLEU 점수:
- 기존 SMT 모델 대비 향상된 BLEU 점수
- Multi-layer LSTM (4층, 1000 hidden units) 모델 사용 시 최고의 성능
관찰:
- 역순 입력이 성능을 크게 향상시킴
- 문장이 길어질수록 성능이 급격히 하락 → 이후 Attention 메커니즘의 동기 부여

7. 한계점 및 후속 연구

고정된 크기의 context vector
- 인코더는 입력 시퀀스 전체를 하나의 벡터로 요약하여 디코더에 전달
- 이 context vector는 디코더가 모든 출력을 생성할 때 단 하나만 사용됨
- 따라서 입력 시퀀스가 길어질수록 정보 손실이 커짐

장기 의존성 문제의 부분적 해결
- LSTM을 사용했음에도 불구하고, context vector 하나만으로는 긴 시퀀스의 세밀한 정보를 보존하기 어려움

8. 내 생각 / 느낀 점

9. 참고 자료

Seq2seq 논문 리뷰 https://brunch.co.kr/@jean/5
LSTM 논문 리뷰 https://velog.io/@cnwns820/LSTMLong-Short-Term-Memory
유튜브 강의 https://youtu.be/4DzKM0vgG1Y?si=XMM3kDpWjyEiKq0m
이미지 출처 https://github.com/ndb796/Deep-Learning-Paper-Review-and-Practice/blob/master/lecture_notes/Seq2Seq.pdf