seq2seq

2022. 3. 6. 17:40AI/Deep learning

    목차
반응형

seq2seq

입력된 sequence에서 다른 domain의 sequence를 출력하는 모델

기계 번역이라던가 쳇봇 등 어떤 문자열이 입력되면 이 입력의 결과가 다른 문자열로 출력됨

내용 요챡, STT 등에도 사용됨

 

기계 번역

입력 문자열 --> encoder -> ctx --> decoder  --> output 문자열

 

context 벡터

입력 문자열의 모든 단어들을 순차적으로 입력 받고 이를 "압축해서" 벡터로 만듦

이 압축된 context 벡터가 디코더로 전송됨

디코더는 context를 받고 번역된 단어를 한 개씩 순차적으로 출력

 

보통 context 벡터는 수백~수천의 차원을 가진 벡터임

 

RNN 아키텍처

encoder와 decoder는 여러개의 LSTM으로 구성

바닐라 RNN이 아닌 LSTM 혹은 GRU로 구성됨

 

 

반응형

'AI > Deep learning' 카테고리의 다른 글

Activation function(활성 함수)  (0) 2022.03.06
RNN(Recurrent Neural Network)  (0) 2022.03.06
Loss 최소화, SGD, 가중치 갱신 방법  (0) 2022.03.06
DLFS - CH 3  (0) 2021.09.27
텐서(Tensor)  (0) 2021.08.16