课程简介
深度学习前沿 - 谷歌变形金刚架构及其应用
目标收益
培训对象
课程大纲
1. 注意力机制 Attention |
- Seq-to-Seq 架构的核心 - 简单的 machine translation with attention: NMT - Neural Machine Translation - R-NET: MSRA 的 attention-based 阅读理解模型 - Neural Turning Machine - Attention 的扩展应用:原理、实现 |
2. Attention is All You Need - 注意力模型的“终极版” |
- 架构、原理和实现 - 和“传统” Attention 模型的比较 |
3. 变形金刚 Transformer |
- 例子:句子分类 - 模型架构 - 与卷积网络的异同 - Embedding 的新时代 - 变形金刚:超越 LSTM |
4. ELMo 和 BERT 模型 |
- ELMo:对上下文的强调 - BERT:从解码器到编码器 |
1. 注意力机制 Attention - Seq-to-Seq 架构的核心 - 简单的 machine translation with attention: NMT - Neural Machine Translation - R-NET: MSRA 的 attention-based 阅读理解模型 - Neural Turning Machine - Attention 的扩展应用:原理、实现 |
2. Attention is All You Need - 注意力模型的“终极版” - 架构、原理和实现 - 和“传统” Attention 模型的比较 |
3. 变形金刚 Transformer - 例子:句子分类 - 模型架构 - 与卷积网络的异同 - Embedding 的新时代 - 变形金刚:超越 LSTM |
4. ELMo 和 BERT 模型 - ELMo:对上下文的强调 - BERT:从解码器到编码器 |