-
Transformer
概述 sequence to sequence任务,目前主要依靠循环或卷积神经网络 通过encoder和decoder,和纯注意力完成翻译任务multi-headed attention 传统RNN无法并行,需要逐步计算每一步时序信息 使用卷积神经网络替换RNN,可以并行,但...
-
Attention原理介绍
概述 心理学 动物需要在复杂环境下有效关注值得注意的点 心理学框架:人类根据随意线索和不随意线索选择注意点 注意力机制 卷积、全连接、池化层都只考虑不随意的线索 注意力机制则显式的考虑随意线索 随意线索被称之为 查询query 每一个输入...