哈尔滨站建好了吗贵阳网站制作软件-内蒙古自治区网站建设公司-Seo优化

哈尔滨站建好了吗,贵阳网站制作软件,安徽最新消息,低代码开发平台免费作者 | 李崇轩编辑 | 自动驾驶之心原文链接#xff1a;https://www.zhihu.com/question/1908479621466396378/answer/1910672718174589774 点击下方卡片#xff0c;关注“自动驾驶之心”公众号戳我- 领取自动驾驶近30个方向学习路线自动驾驶前沿信息获取→自动驾…作者 | 李崇轩编辑 | 自动驾驶之心原文链接https://www.zhihu.com/question/1908479621466396378/answer/1910672718174589774点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线自动驾驶前沿信息获取→自动驾驶之心知识星球本文只做学术分享如有侵权联系删文大家好我是中国人民大学高瓴人工智能学院李崇轩因为做的非常相关来回答一下这个问题。我在连续扩散模型和朱军老师以及师弟师妹们有很多合作代表性工作有 Analytic-DPMU-ViT, DPM-SolverProlificDreamerDPM-Solverunidiffuser 等等。我在人大的课题组很年轻组内在离散扩散模型的代表性工作有 RADDScaling Law for MDMLLaDALLaDA-V 和这两天即将发布的 LLaDA 1.5。我想可以按照时间划分为两个阶段来介绍一下这个领域然后发表一下我的看法。第一阶段2022-2024年底扩散语言模型偏基础研究的阶段。这个阶段其实扩散语言模型是比较偏小众的我按照离散和连续模型的区别来划分。1.1 连续扩散模型在离散数据上的发展早期有不少方法是通过将连续即基于 Gaussian 加噪去噪的的扩散模型直接应用到语言模态上一定程度可以理解为对离散数据做了连续化。代表性的工作有 Percy Liang 的Ting chen 和 Hitton 合作的quanquan gu和 zaixiang zheng还有 Alex Graves 的 Bayesian flow network另外还有苹果的 Yizhe Zhang 以及港大的 Lingpeng Kong 课题组的非常多的工作如果有忘记的工作不好意思因为自己纯凭印象难免有疏漏请在评论区补充哈。其他采用连续模型但是避免离散数据连续化的研究思路也有比如 lou 和 ermon 做过一些离散数据概率分布的参数空间单纯形空间受约束下的连续扩散模型这种技术性更强但是可能可扩展性和采样方法更困难。另外一个思路是 ICML 2024 的一个工作做过一个通过 SDE 统一 BFN 和 diffusion model 的方法可以理解为在logits 空间过softmax之前做 linear SDE这样不需要连续化数据也不需要受到单纯形的约束还能直接把 DPM-solver 等 recipe 拿过来做加速我觉得从方法上来讲是很漂亮的。我们组其实在扩散语言模型的研究阶段起步不是很早我们大概在 2023年6月开始做上述 ICML 2024 就是我们第一个相关工作我个人选择连续的扩散模型的理由是因为这样可以无缝多模态。语言图像视频直接概率建模方式统一为扩散基于底层一个 transformer 模型类似 unidiffuser可以大一统。然而很不幸目前来看这类方法在语言上的可扩展性是存疑的如 Plaid 文章中有一些结果是相对负面的。但是最近BFN在科学等小规模数据上应用非常广泛大家可以关注一些子刊的文章。1.2 离散扩散模型追根溯源离散扩散模型其实在 ICML 2015 diffusion 刚提出来的时候就有了。 Austin 和 Jonathon Ho 等人 21 年的 D3PM 算是比较现代的 MDM 的雏形但是 loss function 有点 tricky。Lou、Meng 和 Ermon 的 SEDD 提出了一种 EBLO 的优化损失拿到了 ICML 的杰出论文中间 MDM 的工作还蛮多推荐大家去看看相关文章的 related work 吧可以关注下 DeepMind Jiaxin Shi, 康奈尔 Volodymyr Kuleshov 。离散扩散模型的建模并不只是一种。其中比较有名的一种是平稳分布为词表上的均匀分布称为 Uniform另外一种是全部掩码的称为 MDMMaksed Diffusion Model。当时基于多个工作的实验都发现 MDM 的结果比 Uniform 好很多。刚好那个时候大家可能也发现连续的扩散模型 scaling 不行。因此大家的重心自然地会转向 MDM。我们最初还是希望系统地理解 MDM 的本质。我们在 MDM 上的第一个工作结论是让我非常惊讶的一个 MDM 的转移核应该是一个关于 t 的函数大家想想连续的扩散模型都需要把时间 t 输入网络去噪但是我们证明了 MDM 中这个函数关于 t 的部分是一个有解析解的标量乘在一个需要学习的模型分布上。那么我们自然地可以重参数化把 t 从模型输入中拿掉最后在输出上乘上去这就是 RADD基于 RADD 可以简化很多 SEDD 的模型和损失函数设计。例如RADD 去掉 t 意味着我连 Diffusion Transformer 都不需要直接用 Transformer 就好了那么自然地就跟 BERT、MaskGIT 建立了联系。2024 年 6 月我们的 RADD 工作放到 arxiv 上Your Absorbing Discrete Diffusion Secretly Models the Conditional Distributions of Clean Data同期还有两个工作分别是我的师弟 Deepmind jiaxin shi同一天很巧还有康奈尔 Volodymyr Kuleshov 晚一点组的。这三个工作损失函数非常像我们比较独有的贡献是证明了输入中 t 应该去掉佳欣做了 schedule 的一般化和图文的实验Volodymyr Kuleshov 实验验证了去掉 t 是有效的并且做了最好的语言的结果。2024 年 9 月Kaiwen 的工作放在 arxiv 上 Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling 也证明了可以去掉时间 t并特别指出了 MDM 似然实验中的数值问题。1.3 和 BERT 和 MaskGIT 的关系因为这个问题特别受到关注我就单独回答一下。MDM 和 BERT 的关系如下MDM - 采用 mask 转移核不能用 uniform 的- 证明其时间 t 在输入中是冗余的不然带着 t 用的是 DiT/U-ViT- 输入随机掩码改为固定掩码直接不是一个生成模型了- BERT我们组和非常多 MDM 的人是机器学习出身特别是 generative model 出身最初的动机包括 MDM 本身的发展是沿着概率建模的思路的因此就顺着叫 Diffusion 了如果往前追到 ICML 2015 这比 BERT 还早后来我们确实发现了和 BERT 以及 MaskGIT 的联系也都在 related work 提到了并没有人回避这个问题。但是二者上述的区别我认为是非常显著的技术上BERT 的联合概率是怎么定义的怎么从BERT 里面采样文本如果没有这些能力作为一个非生成模型BERT 怎么跟 GPT 一样统一语言任务呢有很多 Scaling BERT 的工作为什么他们只作为 Embedding model 不做基础生成模型谷歌 BERT 积累这么多年为什么今天 Gemini Diffusion 才出来其实具体叫啥名字也没有那么重要称 MDM 为Modified/Randomized BERT 技术上应该也没错但是把 Modified/Randomized 去掉说就是 BERT是不是不太客观我个人坚持认为 Diffusion 是更合适的名字这是因为一路发展就是这么过来的技术上就是扩散并且能突出它是一个生成模型因为他是生成模型我们才相信他能 scaling 后跟 GPT 打擂台而不是因为它像 BERT。第二阶段2024年底-2025年初扩散语言模型偏 scaling 的阶段。2.1 学术界工作RADD 出来之后我觉得已经非常清楚了就决定投入我们组 5 位博士生一半的人力到 MDM 方向。2024 年我开启动小组会的时候跟大家说我们有三个目标我保证给每一位同学找到合适的 MDM 项目进行系统科研训练然后每个人都有自己一作的工作我已经做到了不耽误大家前程我们要团结起来课题组一起做一些有影响力的工作这就是 LLaDA 系列解决 MDM 最难的问题让顶尖的公司在端侧或者云侧上线 MDM 模型或者技术干掉 ARM划掉。就是在这三个目标的牵引下我的课题组和合作者们开始从 MDM 的基础研究转向 Scaling。第一个工作是 2024 年 10 月课题组做了第一个 MDM 的 Scaling LawICLR 2025。并且考虑到似然评估的数值问题之前提到了和大规模应用中下游任务的重要性我们系统评测了 MDM 和 ARM 的表现。实验规模比较小但是数据、算法、模型、计算量全部对齐的。其结论解决了我们认为当时最重要的问题从头训练GPT-2 大小下MDM 不亚于自回归。第二个工作是 2025 年 2 月课题组做了第一个能够多轮对话的 MDMLLaDA 8B。LLaDA 展示了很好的可扩展性指令追随等能力能够和 LLaMA 3 8B 这种代表性工作媲美。这样我们更加坚信这条路是值得探索的。LLaDA 做完之后课题组经过了讨论决定全力支持开源工作把一切能开源的代码和权重全都放了出去并且尽快地回复社区内的所有问题。我们希望有更多的人加入领域完善MDM这样才有机会完成目标 3。后续的发展也确实像我们预想的一样越来越多人关心这个领域。近期在语言对齐和推理相关的工作有 d1, LLaDou, 还有我们最近会放出去的 LLaDA 1.5VRPO在多模态相关的工作有王梦迪老师的 MMaDALaViDA和我们的 LLaDA-V在diffusion上做类似 kv cache 的加速技术也有两篇工作 dimple 和 dLLM-cache。另外除了从头 Scaling还有一条路是 Lingpeng Kong 课题组做的基于自回归模型微调的 diffuLLaMA 和 Dream。2.2 工业界工作LLaDA 2月份开源后Inception Lab 也火速上线了 Mercury coder5月份 Gemini Diffusion 亮相也引起了更多的关注。但是我们做 LLaDA 并没有受到这些产品的任何启发看时间线就知道。工业界的产品我觉得更方面肯定会比学术界做的更好他们做的一些加速效果我个人觉得是真的可以用cache可以跳步也可以蒸馏。不过很遗憾目前二者都没有透露太多的技术细节。关于 LLaDA 的贡献和局限LLaDA 是我做过的最好的工作即便被 ICML 拒稿我从2014年读博开始做 generative model 十一年做过 vae做过 gan做过 ebm做过 diffusion。终于有一次是我告诉别人这个东西是 work 的而不是别人告诉我。有人质疑说 LLaDA 没有新的技术说实话生成模型偏技术方面的工作我做过不少Analytic-DPM 就很技术应用的我也做过不少U-ViT 就非常直接。我认为不管有没有技术最好的研究是改变/加深大家对一个东西的理解和认知我认为做 LLaDA 过程中就改变了我很多的认知。如果你觉得 LLaDA 没有改变你的认知。可以问一问自己时间回退一年在 Diffusion 做 work 之前你觉的这条路会成吗给你 300 张卡只有一个半月的使用时间这是你能争取到最大的资源你会用它做什么很多人提到了变长等问题我觉得非常敏锐这是一个很难的、值得研究的问题。特别是对做研究的朋友们而言如果一个问题大家都觉得简单那可能很卷了。扩散语言模型还是有非常多值得探索的空间机会就在困难之中。写的有点长了累了。也欢迎关注我们课题组 2 月份发的知乎文章 GSAI-ML自回归是否是通往语言智能的唯一路径——生成模型的一些思考3自动驾驶之心端到端与VLA自动驾驶小班课添加助理咨询课程知识星球交流社区

哈尔滨站建好了吗贵阳网站制作软件

哪个网站做网络推好wordpress的主题包

禅城网站建设报价服务器做网站哪个系统好

潍坊专业建站服装网站建设需要什么内容

深圳福田外贸网站建设vue 做网站

安徽网站建设费用网站开发中英文版如何写

网站优化公司网络服务网络运维工程师需要学什么

哈尔滨站建好了吗贵阳网站制作软件

哪个网站做网络推好wordpress的主题包

禅城网站建设报价服务器做网站哪个系统好

潍坊专业建站服装网站建设需要什么内容

深圳福田 外贸网站建设vue 做网站

安徽网站建设费用网站开发中英文版如何写

网站优化公司 网络服务网络运维工程师需要学什么

深圳福田外贸网站建设vue 做网站

网站优化公司网络服务网络运维工程师需要学什么