2015年提出的BahdanauAttention原文:
https://arxiv.org/pdf/1409.0473.pdf
0814 记录
注意力机制
Encoder会通过RNN将最后一个step的隐藏状态向量c作为输出,Deocder利用向量c进行翻译。这样做有一个缺点,翻译时过分依赖于这个将整个sentence压缩成固定输入的向量。输入的sentence有可能包含上百个单词,这么做不可避免会造成信息的丢失,翻译结果也无法准确了
注意力机制的引入就是为了解决此问题,注意力机制使得机器翻译中利用原始的sentence信息,减少信息损失。
损失函数
预测哪个单词是正确的,是一个分类问题。