Outrageously Large Neural Networks The Sparsely-Gated Mixture-of-Experts Layer

news/2024/10/1 1:28:04

目录
  • MoE
    • 训练

Shazeer N., Mirhoseini A., Maziarz K., Davis A., Le Q., Hinton G. and Dean J. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. ICLR, 2017.

Mixture-of-Experts (MoE).

MoE

  • 通过一 gating network 选择不同的 expert:

    \[y = \sum_{i=1}^n G(x)_i E_i(x), \]

    \(G(x)_i = 0\), 则我们不需要计算 \(E_i(x)\).

  • \(E_i(x)\) 可以是任意的网络, 所以现在的问题主要是如何设计 \(G\). 倘若我们希望选择 \(k\) 给 experts, 可以:

    \[G(x) = \text{Softmax}(\text{KeepTopK}(H(x), k), ) \\ H(x)_i = (x \cdot W_g)_i + \text{StandardNormal}() \cdot \text{Softplus}((x \cdot W_{noise})_i), \\ \text{KeepTopK}(v, k)_i = \left \{ \begin{array}{ll} v_i & \text{if } v_i \text{ is in the top} k \text{ elements of } v. \\ -\infty & \text{otherwise}. \end{array} \right . \]

  • 特别的是, 这里加了高斯噪声, 并用 \(W_{noise}\) 去调节不同位置的噪声的比重, 从而可以实现负载平衡 (?).

训练

  • 如果不对 \(G\) 加以额外的限制, 容易出现某些 experts 持续获得较大的权重, 所以本文引入了一个 soft constraint

    \[L_{importance}(X) = w_{importance} \cdot CV(Importance (X))^2, \\ Importance(X) = \sum_{x \in X} G(x) \]

    CV 作者说是 variation, 是方差吗?

  • 有了 soft constraint, 依然会出现每个 expert 接受的样本数量的差别很大 (有些 expert \(i\) 可能会接受很少的样本但是其上 \(G(x)_i\) 都很大, 有些 expert \(i\) 可能接受很多的样本, 但是其上 \(G(x)i\) 都很小). 所以作者额外添加了对于选择概率的约束.

  • 对于样本 \(x\), expert \(i\) 被选择的概率为 (感觉这个定义应该是有问题的)

    \[P(x, i) = Pr\bigg((x \cdot W_g)_i + \text{StandardNormal}() \cdot \text{Softplus}((x \cdot W_{noise})_i)> kth_excluding (H(x), k, i) \bigg). \]

    其中 \(kth_excluding(v, k, i)\) 表示 \(v\) 中的 k-th 大的值 (排除 \(i\)).

  • 所以,

    \[P(x, i) = \Phi(\frac{(x \cdot W_g)_i - kth_excluding(H(x), k, i)}{\text{Softplus}((x \cdot W_{noise})_i)} ). \]

  • 定义

    \[Load(X)_i = \sum_{x \in X} P(x, i), \]

    \[L_{load}(X) = w_{load} \cdot \text{CV}(Load(X))^2. \]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/29701.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

PV-PVC

PV & PVC https://blog.csdn.net/bdkl9998/article/details/106304255PersistentVolume(PV) 是由管理员设置的存储,是集群的一部分,它不属于任何命名空间 PV的生命周期独立于使用它的pod的生命周期 PV更像是一种储备资源,先创建,有PVC需要它时才会被使用 PV可以是多种类…

emptyDir-gitRepo

emptyDir & gitRepo k8s存储类型分类(卷的类型) 临时存储 emptyDir 用于存储临时数据的简单空目录 gitRepo 通过检出Git仓库的内容来初始化的卷持久存储 hostPath 用于将目录从工作节点的文件系统挂载到pod中 nfs …

中间件集群部署

中间件集群部署中间件集群部署 1)反向网关配置 2)运行反向网关和中间件,开启顺序不分先后3)通过反向网关,以指定负载均衡方式访问中间件 本文来自博客园,作者:{咏南中间件},转载请注明原文链接:https://www.cnblogs.com/hnxxcxg/p/18183673

自定义表单工作流的优势介绍

今天,就跟大家一起分享低代码技术平台以及自定义表单工作流的相关知识。当前,应用低代码技术平台可以助力企业提高效率,降低开发成本,实现个性化场景定制,因而越来越得到了客户的信赖与喜爱。很多客户朋友询问自定义表单工作流的优势和特点,为了帮助大家解决这个疑问,今…

746-便携式8路高频电压电流信号测试仪

便携式8路高频电压电流信号测试仪一、平台简介便携式手提8路高频电压电流信号测试仪,以FPGA AD卡和X86主板为基础,构建便携式的手提设备。FPGA AD卡是以Kintex-7XC7K325T PCIeX4的AD卡,支持8路24bit AD采集。北京太速科技,平台默认操作系统为win7 64位系统;具备丰富的外设…

黑马-Vue前端

前言 HTML:负责网页的结构(标签:form表单 / table表格 / a /div/span) CSS:负责网页的表现(样式:color/font/background/width/height) JavaScript:负责网页的行为(交互效果) 创建一个文件夹 输入cmd执行 code . 回车,打开VsCodeVue 一款用于构建用户界面的渐进式…

httpsok-v1.11.0支持CDN证书自动部署

🔥httpsok-v1.11.0支持CDN证书自动部署 介绍 httpsok 是一个便捷的 HTTPS 证书自动续签工具,专为 Nginx 、OpenResty 服务器设计。已服务众多中小企业,稳定、安全、可靠。 一行命令,一分钟轻松搞定SSL证书自动续期 v1.11.0 版本新特性✅修复某些情况下无法识别主配置文件n…

架构师狂掉1024根头发,总算搞定SSL通配证书

🔥架构师狂掉1024根头发,总算搞定SSL通配证书 经过许多个日日夜夜的持续开发(掉了1024根头发),总算搞定了v1.11.0版本,修复和解决了许多问题,也支持CDN和OSS证书的部署。 v1.11.0 版本新特性✅修复某些情况下无法识别主配置文件nginx.conf问题 ✅修复某些证书出现的签名…