全球最强开源 AI 大模型来了！Databricks 称 DBRX 吊打 Llama 2 和 GPT-3.5

美国 AI 初创公司 Databricks 公布，在语言理解、编程和数学方面，其将开源的模型 DBRX 的测试得分均高于 GPT-3.5、Mixtral、Meta 的 Llama 2-70B、马斯克旗下 xAI 的 Grok-1。作为混合专家模型，DBRX 的输出 token 速度高 Llama 2 一筹。

来源：硬 AI

作者：李丹

全球最强大的开源人工智能（AI）大语言模型（LLM）将要易主。

美国 AI 初创公司 Databricks 加州当地时间 3 月 27 日周三公布，该司 Mosaic Research 团队开发的通用 LLM DBRX 将开源。DRBX 由 Databricks 耗时几个月、投入约 1000 万美元训练打造，设计类似于 OpenAI 的 ChatGPT。Databricks 将根据一种开源许可证发布 DBRX。

Databricks 的首席神经网络架构师兼开发 DBRX 团队负责人 Jonathan Frankle 声称，DBRX 超越了其他任何开源模型。他分享的数据显示，包括回答一般知识问题、进行阅读理解、解决逻辑难题和生成高质量代码等在内，在衡量 AI 模型能力的约十几个基准测试中，DBRX 的表现都优于现有的一切开源模型。

Databricks 在公司博客文章中介绍，DBRX 在语言理解、编程、数学和逻辑方面轻松击败了 Meta 的 Llama 2-70B、法国 MixtralAI 公司的 Mixtral 和马斯克旗下 xAI 开发的 Grok-1 这类当前流行的开源模型。Databricks 的开源基准指标 Gauntlet 包含了 30 多种不同的最先进模型 (SOTA) 基准指标测试，DBRX 的测试性能均优于前述三种大模型。

下图可见，在语言理解方面，DBRX 的分值为 73.7%，高于 GPT-3.5 的 70.0%；在编程能力方面，DBRX 的得分 70.1% 远超 GPT-3.5 的 48.1%，在数学方面，DBRX 的得分 66.9% 也高于 GPT-3.5 的 57.1%。

DBRX 的大多数基准指标表现也强于 GPT-3.5。Databricks 认为，这点很重要，因为上个季度该司发现，1.2 万余名客户的行为发生了重大转变。企业和组织越来越多地用开源模型取代专有模型提高效率和控制力。根据 Databricks 的经验，许多客户可以通过根据特定的任务定制开源模型，这种量身定制的模型在质量和速度方面都能超越专有模型。

下图可见，在语言理解方面，DBRX 的分值为 73.7%，高于 Llama 2-70B 的 69.8%、Mixtral 的 71.4% 和 Grok-1 的 73.0%；在编程能力方面，DBRX 的得分 70.1% 远超 Llama 2-70B 的 32.3%、Mixtral 的 54.8% 和 Grok-1 的 63.2%，在数学方面，DBRX 的得分为 66.9%，也高于 Llama 2-70B 的 54.1%、Mixtral 的 61.1% 和 Grok-1 的 62.9%。

Databricks 介绍，DBRX 是一个基于 MegaBlocks 研究和开源项目构建的混合专家模型 (MoE)，因此每秒输出 token 的速度极快。Databricks 相信，这将为 MoE 未来最先进的开源模型铺平道路。因为 MoE 本质上可以让用户训练更大的模型，并以更快的吞吐量提供服务。DBRX 在任何给定时间内仅使用 360 亿个参数。但模型本身有 1320 亿个参数，在速度（token/秒）与性能（质量）方面可以鱼与熊掌兼得。

下图可见 DBRX 和 Llama 2-70B 在收到编程方面具体任务指令时的反馈对比，DBRX 的反应速度，即输出 token 超过了 Llama 2-70B。

有评论认为，在目前生成式 AI 热潮中最富盛名的那些公司兑他们 LLM 的代码严格保密，比如 OpenAI 和谷歌，DBRX 开源意味着，Databricks 为挑战这种做法的努力添了一把火。

Databricks 表示，还希望公开创建其开源模型所涉及的工作。这比开源大模型的 Meta 更进一步。Meta 迄今尚未公开创建 Llama 2 模型的一些关键细节。