促记网 > 社会 > 正文

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

2024-04-06 04:40 来源：促记网点击：

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

" 只需 "10 万美元，训练 Llama-2 级别的大模型。

尺寸更小但性能不减的MoE模型来了：

它叫JetMoE，来自 MIT、普林斯顿等研究机构。

性能妥妥超过同等规模的 Llama-2。

△贾扬清转发

要知道，后者可是数十亿美元级别的投入成本。

JetMoE 发布即完全开源，且学术界友好：仅使用公开数据集和开源代码，用消费级 GPU就能进行微调。

不得说，大模型的打造成本，真的比人们想的要便宜更多了。

Ps. Stable Diffusion 前老板 Emad 也点了赞：

10 万美刀实现 Llama-2 性能

JetMoE 启发于 ModuleFormer 的稀疏激活架构。

（ModuleFormer，一种基于稀疏专家混合 ( SMoE ) 的模块化架构，可提高大模型效率和灵活性，去年 6 月提出）

它的注意力层中仍然使用了 MoE：

80 亿参数的 JetMoE 一共有 24 个区块，每块包含 2 个 MoE 层，分别是注意力头混合 ( MoA ) 和 MLP 专家混合 ( MoE）。

每个 MoA 和 MoE 层又有 8 个专家，每次输入 token 激活 2 个。

JetMoE-8B 使用公开数据集中的1.25T token进行训练，学习率 5.0 x 10-4，全局 batch size 为 4M token。

具体训练方案遵循 MiniCPM（来自面壁智能，2B 模型就能赶超 Mistral-7B）的思路，共包含两阶段：

第一阶段使用线性预热的恒定学习率，用来自大规模开源预训练数据集的 1 万亿个 token 进行训练，这些数据集包括 RefinedWeb、Pile、Github data 等等。

第二阶段则使用指数学习率衰减，用 2500 亿个 token 训练来自第一阶段数据集和超高质量开源数据集的 token。

最终，团队使用96 × H100的 GPU 集群，花费 2 周时间、约 8 万美元搞定 JetMoE-8B。

更多技术细节将在不久后发布的技术报告上揭露。

而在推理过程中，由于 JetMoE-8B 仅具有22 亿个激活参数，因此计算成本大大降低——

同时，它还收获了不错的性能表现。

如下图所示：

JetMoE-8B 在 8 个评测基准上获得了 5 个 sota（包括大模型竞技场 Open LLM Leaderboard），超过 LLaMA-13B、LLaMA2-7B 和 DeepseekMoE-16B。

在 MT-Bench 基准上得分 6.681，也超过了 130 亿参数的 LLaMA2、Vicuna 等模型。

作者介绍

JetMoE 一共 4 位作者，分别是：

Yikang Shen

MIT-IBM Watson Lab 研究员，研究方向 NLP。

本硕毕业于北航，博士经历于 Yoshua Bengio 创办的 Mila 研究机构。

国振 ( Gavin Guo )

MIT 博士在读，研究方向为 3D 成像的数据高效机器学习。

UC 伯克利本科毕业，去年夏天作为学生研究员加入 MIT-IBM Watson Lab，导师为 Yikang Shen 等人。

蔡天乐

普林斯顿博士在读生，本科毕业于北大应用数学和计算机科学，目前也是 Together.ai 的兼职研究员，与 Tri Dao 合作。

Zengyi Qin

MIT 博士在读，同时在创业，MyShell的 AI 研发主管。

这家公司刚刚融资了 1100 万美元，投资者包括 Transformer 的作者。

传送门：

https://github.com/myshell-ai/JetMoE

参考链接：

https://twitter.com/jiayq/status/1775935845205463292

— 完 —

【火热报名中】中国 AIGC 产业峰会

定档 4 月 17 日

峰会已经邀请到数位代表技术、产品、投资、用户等领域嘉宾，共论生成式 AI 产业最新变革趋势。

最新确认嘉宾包括：商汤科技杨帆、轻松集团高玉石、印象笔记唐毅、蚂蚁集团李建国等，。

峰会将全程线上下同步直播，欢迎预约直播 ⬇️

点这里关注我，记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关标签：

上一篇：美国被挖了一个大坑
下一篇：胖东来今年或安排全员出国游！于东来：管理层到欧洲员工到日本，公司掏钱

美国被挖了一个大坑

2024-04-06 04:38:36
重磅！2024年中国及31省市无人驾驶汽车行业政策汇总及解读（全）

2024-04-06 04:36:20
贵州“中国天眼”变成“垃圾场”？实为美国废弃天文台

2024-04-06 04:34:04
明星开始买单AI高定礼服，AI设计平台「CHIMER AI」完成数百万元种子轮融资

2024-04-06 04:31:48
张颂文照片被盗用来“征婚”？最新回应

2024-04-06 04:29:32
小米SU7大定超10万，锁单4万！雷军：智能汽车真正的变革正式开始，中国必将

2024-04-06 04:27:17
台湾地区突发7.3级地震对电子产业影响如何？企业回应汇总来了

2024-04-06 04:25:01
马英九抵达广东

2024-04-04 04:42:35
商务部：中方起诉是正当之举，美方严重扰乱全球新能源汽车产业链和供应链

2024-04-04 04:40:19
如果美国人失去了TikTok……

2024-04-04 04:38:04
飞行汽车要来了？四部门联合印发

2024-04-04 04:35:48
警方回应“海口一地因咸猪手引发斗殴事件”：引发冲突方喝了酒，目前已有4人

2024-04-04 04:33:32
日本儿童隐私照被发到不良网站还被用于AI训练

2024-04-04 04:31:16
易方达基金张坤重大调仓，张坤大量买入女性消费赛道

2024-04-04 04:29:00
中国人民解放军驻香港部队组织联合巡逻

2024-04-04 04:26:44
外交部：在巴基斯坦恐袭事件中遇难的中方人员遗体今日送回祖国

2024-04-04 04:24:29
喊话先提小米SU7被雷军回复郑州女孩：一直用iPhone 下次换小米

2024-04-04 04:22:13
加速海外扩张？OpenAI据称将于本月在日本设立办事处

2024-04-03 06:53:33
国庆休9天！华中农大回应“全年节假日不调休”

2024-04-03 06:51:17
高手在民间！网友通过雷军工装价格算出小米汽车

2024-04-03 06:49:02

热门图文

20以内退位减法-破十法与连减法

20以内退位减法-破十法与连减法

机票怎么改签不用手续费机票怎么改签到另一个城市

机票怎么改签不用手续费机票怎么改签到另一个城市

热门排行

相关文章