Skip to content

预训练模型 transformer 01(2月22日)

lirui edited this page Feb 23, 2021 · 2 revisions

论文背景&研究成果

论文:Attention is all you need

author: Ashish Vaswani

单位:google

发表会议及时间:NIPS,2017

前期知识储备:

概率论:了解基本的概率论知识,掌握条件概率的概念和公式

RNN/LSTM:了解循环神经网络(RNN/LSTM)的结构,掌握RNN的基本工作原理

Seq2Seq:了解Seq2Seq的概念,掌握Seq2Seq的基本工作原理

注意力机制:了解注意力机制的思想,掌握注意力机制的分类和实现方式

Transform:position encoding、layer normalization

      Belu评价标准、WMT数据集、self-attention机制

1、论文导读,背景介绍

论文研究背景、成果及意义

Transformer是一个encoder到decoder的一个框架

self Attention:Multi-Head attention

feed-forward network:Residual connection,layer normalization

positional encodiing

研究背景:

WMT翻译数据集,WMT数据集包括德语翻译成英语、法语翻译成英语等数据集,数据集量级在百万级别

翻译效果衡量指标bleu,采用了一种N-gram的匹配规则,去比较译文和参考译文n组词的相似比

研究成果:

1、在WMT 2014 English-to-German翻译任务上比其它模型的bleu值高出两个点

2、时间复杂度上和传统模型相比大大降低,还可以用于并行

3、self-attention模型具有更强的可解释性,attention的结果显示了不同词语之间的关联信息

Transformer历史意义

提出self-attention,拉开了非序列化模型的序幕

为预训练模型的到来

论文泛读

seq2seq以及attention回顾

本节回顾

2、论文总览,Transformer结构

3、self-attention

4、小trick

5、论文总结

6、代码实现分析

Clone this wiki locally