seq2seq
2022. 3. 6. 17:40ㆍAI/Deep learning
- 목차
반응형
seq2seq
입력된 sequence에서 다른 domain의 sequence를 출력하는 모델
기계 번역이라던가 쳇봇 등 어떤 문자열이 입력되면 이 입력의 결과가 다른 문자열로 출력됨
내용 요챡, STT 등에도 사용됨
기계 번역
입력 문자열 --> encoder -> ctx --> decoder --> output 문자열
context 벡터
입력 문자열의 모든 단어들을 순차적으로 입력 받고 이를 "압축해서" 벡터로 만듦
이 압축된 context 벡터가 디코더로 전송됨
디코더는 context를 받고 번역된 단어를 한 개씩 순차적으로 출력
보통 context 벡터는 수백~수천의 차원을 가진 벡터임
RNN 아키텍처
encoder와 decoder는 여러개의 LSTM으로 구성
바닐라 RNN이 아닌 LSTM 혹은 GRU로 구성됨
반응형
'AI > Deep learning' 카테고리의 다른 글
Activation function(활성 함수) (0) | 2022.03.06 |
---|---|
RNN(Recurrent Neural Network) (0) | 2022.03.06 |
Loss 최소화, SGD, 가중치 갱신 방법 (0) | 2022.03.06 |
DLFS - CH 3 (0) | 2021.09.27 |
텐서(Tensor) (0) | 2021.08.16 |