-
Notifications
You must be signed in to change notification settings - Fork 0
预训练模型 transformer 01(2月22日)
论文背景&研究成果
论文:Attention is all you need
author: Ashish Vaswani
单位:google
发表会议及时间:NIPS,2017
前期知识储备:
概率论:了解基本的概率论知识,掌握条件概率的概念和公式
RNN/LSTM:了解循环神经网络(RNN/LSTM)的结构,掌握RNN的基本工作原理
Seq2Seq:了解Seq2Seq的概念,掌握Seq2Seq的基本工作原理
注意力机制:了解注意力机制的思想,掌握注意力机制的分类和实现方式
Transform:position encoding、layer normalization
Belu评价标准、WMT数据集、self-attention机制
1、论文导读,背景介绍
论文研究背景、成果及意义
Transformer是一个encoder到decoder的一个框架
self Attention:Multi-Head attention
feed-forward network:Residual connection,layer normalization
positional encodiing
研究背景:
WMT翻译数据集,WMT数据集包括德语翻译成英语、法语翻译成英语等数据集,数据集量级在百万级别
翻译效果衡量指标bleu,采用了一种N-gram的匹配规则,去比较译文和参考译文n组词的相似比
研究成果:
1、在WMT 2014 English-to-German翻译任务上比其它模型的bleu值高出两个点
2、时间复杂度上和传统模型相比大大降低,还可以用于并行
3、self-attention模型具有更强的可解释性,attention的结果显示了不同词语之间的关联信息
Transformer历史意义
提出self-attention,拉开了非序列化模型的序幕
为预训练模型的到来
论文泛读
seq2seq以及attention回顾
本节回顾
2、论文总览,Transformer结构
3、self-attention
4、小trick
5、论文总结
6、代码实现分析