整合升级BTM和MoE,大模型专业领域能力高效训练法BTX诞生-程序员宅基地

技术标签: 算法  

4dcb062c6d33c4d1ae4e72f51140c376.gif整理丨王轶群

出品丨AI 科技大本营(ID:rgznai100)

整合多个专家大模型到一个混合专家大模型(Mixing Expert LLMs into a Mixture-of-Experts LLM),Meta在人工智能机器学习领域取得新的高效方法突破。

最近,Meta基础人工智能研究(FAIR)团队发布了名为Branch-Train-MiX (BTX)的方法,可从种子模型开始,该模型经过分支,以高吞吐量和低通信成本的并行方式训练专家模型。Meta FAIR的成员之一Jason Weston在其X上发文介绍了这一进展。

7a834cb047fb3b84e8e016a76c145c4f.png

BTX能够提高大型语言模型(LLMs)在多个专业领域的能力,如编程、数学推理、世界知识等细分专业领域。这些专家模型在训练后,其前馈参数被整合到混合专家(Mixture-of-Expert, MoE)层中,并进行平均参数的MoE微调,以学习在token级别上的路由。

BTX概括了两种特殊情况,即没有MoE微调阶段来学习路由的BTM(Branch-Train-Merge)方法,以及省略了异步训练专家阶段的稀疏升级方法,是BTM与MoE两种方法的优势结合与改进。

与其他方法相比,BTX 实现了高准确性与效率的权衡。与Branch-Train-Merge相比,BTX最终模型是一个统一的神经网络,可以进行进一步的监督微调(SFT)或人类反馈强化学习(RLHF)微调。与纯MoE训练相比,BTX在计算效率、训练吞吐量,以及不同领域的任务上都表现得更为出色。

研究团队在实验使用了Llama-2 7B模型作为种子模型,并在数学、编程和维基百科等不同数据子集上训练专家LLMs。通过将原始Llama-2 7B权重作为第四个专家模型加入,研究者们对合并后的MoE模型进行了相对较短的微调。

030884373469f17769295c6f103c2112.png

实验结果表明,BTX模型在多个领域的任务上相比种子模型有显著提升,尤其是在数学和编程相关任务上,同时保留了在原始能力上的表现,避免了灾难性遗忘。BTX在所有任务上都优于BTM,展示了通过MoE微调学习路由的好处。与稀疏上循环(sparse upcycling)等纯MoE训练相比,BTX在计算效率上更优,训练吞吐量更高,且在编码、数学推理和维基百科不同领域的任务上表现更平衡。

9a1340e842ed2e53ee3c75550abfb90a.png

 Jason Weston是美国 Meta AI 的研究科学家,也是纽约大学的客座研究教授。他的兴趣在于先进的机器智能,重点关注的领域是推理、记忆、感知、交互和通信。他发表过100 多篇论文,并获得了ICML(国际机器学习大会)和ECML(欧洲机器学习大会)最佳论文奖。他凭借与Ronan Collobert 合作完成的一篇论文作品《自然语言处理的统一架构:具有多任务学习的深度神经网络》,在2008年获得ICML时间考验奖。

Jason Weston所在的Meta的基础人工智能研究(FAIR)团队,致力于进一步加深人们对新领域和现有领域的基本理解,研究领域涵盖人工智能相关的所有主题。

985c9d13a60e25282224d55604e94a12.gif

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/136754901

智能推荐

探索Gradle Xcode Plugin:iOS开发的新助手-程序员宅基地

文章浏览阅读286次,点赞5次,收藏9次。探索Gradle Xcode Plugin:iOS开发的新助手项目地址:https://gitcode.com/openbakery/gradle-xcodePlugin在iOS开发领域,Xcode一直是主流工具,但如何将这种开发体验与构建自动化工具Gradle无缝结合呢?这就是GitCode上的openbakery/gradle-xcodePlugin项目的目标。本文将带你深入了解这个项目,...

UE4之UDP通信_fudpsocketbuilder-程序员宅基地

文章浏览阅读8.9k次,点赞2次,收藏19次。UE4的Sockets模块封装了socket通信,以UDP通信为例说明如何在UE4中实现socket通信class FUDPTest{private: FSocket* UdpSocket;public: void InitSocket() { FIPv4Address UdpAddr; FIPv4Address::Parse("127.0.0.1", UdpAdd..._fudpsocketbuilder

地震反演基础知识3_地震波的边缘衍射效应-程序员宅基地

文章浏览阅读375次。地震勘探原理基础知识之地震波和时矩曲线_地震波的边缘衍射效应

mysql主从复制与读写分离原理及详解_主从复制主库是写还是读-程序员宅基地

文章浏览阅读2.1k次,点赞2次,收藏9次。mysql主从复制与读写分离原理及详解_主从复制主库是写还是读

OpenCart 官方开发指南翻译一 —— 模块开发_opencart主题开发-程序员宅基地

文章浏览阅读1k次。模块开发  编写 OpenCart 模块可以很好地了解 OpenCart 如何运作的基本原理。就像 OpenCart 的其余部分一样,模块遵循 MVCL 设计模式。本文档指南将介绍如何使用 MVC-L 的每个组件来创建模块的后台和前台部分。创建模块的最简单方法是从 HostJars 下载 DIY Module Builder 框架。该模块包含如何理解和构建自己的模块的目录结构、文件和说明。本页面是..._opencart主题开发

C语言——printf()函数参数传递问题_传递给printf的额外参数怎么解决-程序员宅基地

文章浏览阅读4.6k次,点赞5次,收藏18次。C语言——printf( ) 函数参数传递问题一、参数说明printf() 函数是输出函数,可以实现和用户之间的交流,该函数的参数由两部分组成,即格式化字符串、待打印项 0-n 项,函数的格式如下:printf(格式化字符串, 待打印项1, 待打印项2, ...);二、工作原理printf() 函数的调用是告诉计算机把变量的值传递给程序,首先,程序把传入的值按照变量类型放入“栈”内存区;然后控制权交给 printf() 函数,该函数根据转换说明从栈中读取数据。三、举例说明参数的传递过程_传递给printf的额外参数怎么解决

随便推点

FastAPI使用异步Redis_fastapi redis-程序员宅基地

文章浏览阅读894次,点赞10次,收藏10次。【代码】FastAPI使用异步Redis。_fastapi redis

CIR,CBS,EBS,PIR,PBS令牌桶概述_cir cbs pir pbs-程序员宅基地

文章浏览阅读2.4k次,点赞6次,收藏22次。CIR,CBS,EBS,PIR,PBS令牌桶概述 网络发生拥塞的时候,也是一件非常痛苦的事情,如图1和图2所示。图1 网络拥塞场景1 图2 网络拥塞场景2如果不限制用户发送的业务流量大小,大量不断突发的业务数据会使网络更加拥挤,严重时会出现网络拥塞,造成业务出现异常,同时也浪费网络资源,如图3和图4所示。图3 网络拥塞造成资源浪费图4 网络拥塞引_cir cbs pir pbs

SpringCloud优点、缺点_springcloud优缺点-程序员宅基地

文章浏览阅读2.2w次,点赞3次,收藏24次。优点:1、服务拆分粒度更细,有利于资源重复利用,有利于提高开发效率2、可以更精准的制定优化服务方案,提高系统的可维护性3、微服务架构采用去中心化思想,服务之间采用Restful等轻量级通讯,比ESB更轻量4、适于互联网时代,产品迭代周期更短缺点:1、微服务过多,治理成本高,不利于维护系统2、分布式系统开发的成本高(容错,分布式事务等)对团队挑战大总的来说优点大过于缺..._springcloud优缺点

Linux平台nginx+fastDFS插件安装_linux搭建nginx+fastdfs-程序员宅基地

文章浏览阅读396次。Linux平台nginx+fastDFS插件安装_linux搭建nginx+fastdfs

分布式基础1:分布式概念性内容简述;(什么是分布式;分布式和单体结构的对比;CAP定理;集群、分布式、微服务的区别;)_分布式入门csdn-程序员宅基地

文章浏览阅读540次,点赞5次,收藏6次。说明:(1)对分布式的基本内容,进行一个入门级介绍;(2)该篇博客参考的文章有: ● 【分布式与集群的区别是什么?】专栏中的一条回答,答主是【大闲人柴毛毛】;目录1.什么是分布式;2.分布式的作用;3.分布式和单体结构的对比;4.CAP定理;5.集群、分布式、微服务的差别;1.什么是分布式;(1)分布式这个概念是比较新的,发展时间也不长,而且分布式还正在发展,比如很多新的概念、新的技术也还在不断诞生;(2)分布式目前为止并没有有个官方..._分布式入门csdn

场景交互与场景漫游-路径漫游(7)_简述一下指定路径漫游的操作步骤-程序员宅基地

文章浏览阅读524次。osg 场景漫游 路径漫游_简述一下指定路径漫游的操作步骤

推荐文章

热门文章

相关标签