《深度学习原理与Pytorch实战》(第二版)(三)11-15章

news/2024/10/8 4:30:28

第11章 神经机器翻译器——端到端机器翻译

  1. 神经机器翻译,google旗下的NMT
  2. 编码-解码模型:用编码器和解码器组成一个翻译机,先用编码器将源信息编码为内部状态,再通过解码器将内部状态解码为目标语言。编码过程对应了阅读源语言句子的过程,解码过程对应了将其重组为目标语言的过程——对应“翻译”的过程:先把大意看懂,再重新组织翻译出的新语言——书P260

embedding层的用法:
在机器学习和深度学习中,嵌入层(embedding layer)是一种常见的技术,用于将高维离散数据映射到低维连续向量空间中。它通常用于处理文本、图像、音频等数据,将它们转换成模型可以处理的形式。
在自然语言处理(NLP)中,嵌入层经常用于将词汇表中的每个单词映射到一个固定长度的实数向量。这些向量在嵌入空间中的位置被设计为捕捉单词之间的语义关系。例如,具有相似含义的单词在嵌入空间中可能会更接近。
啊
softmax函数

  1. 编码器工作流程——书P262
  2. 编码-解码模型归纳——书P269
  3. 注意力机制——书P270
    注意力网络首先是一个神经网络,包含了两个部分:一是解码器下一个时刻的输入单词,二是解码器当前的隐含层节点状态——书P271
    注意力网络的输出是一组正实数,加起来等于1,是加到编码器各时间步隐含状态上的权重
  4. 使用GRU(门控循环单元)来替换普通的LSTM——书P275
    GRU也是没有输出门的LSTM

第12章 更强的机器翻译模型——Transformer

  1. 为了克服RNN系列对长序列建模的困难,提出了Transformer,完全使用注意力机制代替RNN复杂的网络结构——书P300
  2. Transformer以注意力为核心构建整个编码-解码模型,解决了长序列问题,完全抛弃了RNN
    RNN、LSTM为核心的机器翻译使用token,但是token都是通过cell states和其他token产生联系,而一般直接产生联系的是距离最近的token,但是这样,针对长序列就不方便
    Transformer的多头自注意力模块中,每一个token需要分裂为若干个头,每个头内部又分为查询向量query、关键字向量key、值向量value三个向量,每个token的query向量都可以与句子中其他token的key向量直接交互。query与key的计算结果与value相结合,产生新的token表示——书P302
    3.采用Atoken的故事来方便理解——书P304

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/28154.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

STM32F1和STM32F4系列DMA的不同之处——对STM32的DMA的工作机制的一些理解

比较STM32F4和STM32F1系列的DMA控制器,区别主要有三:1)增加了DMA流(Stream)的概念;2)限制了两个DMA控制器的数据流向;3)为每个数据流添加了可配置的FIFO缓冲区。 本文逐一比较了以上三种硬件上的改变带来的功能方面的升级和不同。另外,还大胆猜测了STM32的芯片设计者…

Apache Log4j2远程命令执行漏洞

Log4j2框架下的Lookup查询服务提供了{}字段解析功能,传进去的值会被直接解析。在lookup的{}里面构造Payload,调用JNDI服务获取恶意的class对象,造成了远程代码执行。目录漏洞原理复现反弹shell漏洞修复 AApache Log4j2 是一个基于Java的日志记录工具,被广泛应用于业务系统开…

使用collections中的namedtuple来处理数据

前言 tuple在python中是一种不可变的数据结构,和list这种可变的数据结构比较,两者都可以使用索引来读取数值,但是tuple不可变动,因此其不能修改其中的值。 示例:tuple适合存储不需要频繁变动的数据,但是在使用index来读取tuple中的item值时,就会存在问题,问题在于如果i…

JavaGUI - [04] BoxLayout

Swing编程题记部分 一、简介为了简化开发,Swing引入了一个新的布局管理器:BoxLayout。BoxLayout可以在垂直和水平两个方向上摆放GUI组件,BoxLayout提供了如下一个简单的构造器: BoxLayout(Container target,int axis)指定创建基于target容器的BoxLayout布局管理器,该布局管…

交换机基础及stp

一、交换机基础 交换机工作在数据链路层,转发数据帧,隔绝了以太网层的冲突域 1、泛洪未知单播泛洪 广播数据2、转发根据mac地址表进行转发 3、丢弃收到的arp请求中的目的mac地址是发起的接口,则会丢弃 二、stp(生成树协议) 环路引起广播风暴,网络中的主机会受到重复数据帧…

通过API触发airflow的DAG任务

背景 以前编写的DAG都是通过定时触发的,当前有一个场景需要通过手动提交API来触发,这样能够在用户需要的时候,主动触发执行任务,于是就有了这篇内容的摸索。 之前只知道airflow支持通过API来触发任务,但是具体如何操作是真不会,看了官方的API文档,也没找到具体方法,特别…

某塑料科技公司网络与机房监控运维项目

通过部署智和信通综合监控运维方案实时监控用户网络与机房内大量异构的交换机、路由器、服务器、AC/AP、数据库、防火墙、虚拟机、语音网关、硬盘录像机、行为管理等设备,及时发现并预警潜在问题,从而避免或减少故障带来的负面影响。 某塑料科技公司是由日本知名株式会…

ITIL4 服务价值系统(SVS):一场服务管理的革新之旅

在这个数字化时代,每一家企业都在追求高效的服务管理和卓越的客户体验。今天,我们就来聊一聊ITIL4中的服务价值系统(Service Value System, SVS)——一个让服务管理变得更加直观和高效的框架。 ITIL4服务价值系统:简明解读 SVS的核心理念非常朴素:一切始于客户需求,终于客…