全球最强开源大模型一夜易主!

Wallstreetcn
2024.02.22 00:09
portai
I'm PortAI, I can summarize articles.

谷歌发布全球最强开源大模型 Gemma,7B 性能超越 Llama 2 13B!谷歌和 OpenAI,已经卷出了新高度。这轮番放深夜炸弹的频率,让人不得不怀疑双方都已经攒了一堆大的。

一声炸雷深夜炸响,谷歌居然也开源 LLM 了?!

这次,重磅开源的 Gemma 有 2B 和 7B 两种规模,并且采用了与 Gemini 相同的研究和技术构建。

有了 Gemini 同源技术的加持,Gemma 不仅在相同的规模下实现 SOTA 的性能。

而且更令人印象深刻的是,还能在关键基准上越级碾压更大的模型,比如 Llama 2 13B。

与此同时,谷歌还放出了 16 页的技术报告。

谷歌表示,Gemma 这个名字源自拉丁语「gemma」,也就是「宝石」的意思,似乎是在象征着它的珍贵性。

历史上,Transformers、TensorFlow、BERT、T5、JAX、AlphaFold 和 AlphaCode,都是谷歌为开源社区贡献的创新。

谷歌:今天我就来给你表演一个什么是 Open AI

而谷歌今天在全球范围内同步推出的 Gemma,必然会再一次掀起构建开源 AI 的热潮。

同时也坐实了 OpenAI「唯一 ClosedAI」的名头。

OpenAI 最近刚因为 Sora 火到爆,Llame 据称也要有大动作,谷歌这就又抢先一步。硅谷大厂,已经卷翻天了!

谷歌:开源闭源我全都要

Hugging Face CEO 也跟帖祝贺。

还贴出了 Gemma 登上 Hugging Face 热榜的截图。

Keras 作者 François Chollet 直言:最强开源大模型,今日易主了。

有网友已经亲自试用过,表示 Gemma 7B 真是速度飞快。

谷歌简直是用 Gemini 拳打 GPT-4,用 Gemma 脚踢 Llama 2!

网友们也是看热闹不嫌事大,召唤 Mistral AI 和 OpenAI 今晚赶快来点大动作,别让谷歌真的抢了头条。(手动狗头)

同规模刷新 SOTA,越级单挑 Llama 2 13B

可以看到,Gemma-7B 模型在涵盖一般语言理解、推理、数学和编码的 8 项基准测试中,性能已经超越了 Llama 2 7B 和 13B!

并且,它也超越了 Mistral 7B 模型的性能,尤其是在数学、科学和编码相关任务中。

在安全性方面,经过指令微调的 Gemma-2B IT 和 Gemma-7B IT 模型,在人类偏好评估中都超过了 Mistal-7B v0.2 模型。

特别是 Gemma-7B IT 模型,它在理解和执行具体指令方面,表现得更加出色。

一整套工具:跨框架、工具和硬件进行优化

这次,除了模型本身,谷歌还提供了一套工具帮助开发者,确保 Gemma 模型负责任的使用,帮助开发者用 Gemma 构建更安全的 AI 应用程序。

- 谷歌为 JAX、PyTorch 和 TensorFlow 提供了完整的工具链,支持模型推理和监督式微调(SFT),并且完全兼容最新的 Keras 3.0。

- 通过预置的 Colab 和 Kaggle notebooks,以及与 Hugging Face、MaxText、NVIDIA NeMo 和 TensorRT-LLM 等流行工具的集成,用户可以轻松开始探索 Gemma。

- Gemma 模型既可以在个人笔记本电脑和工作站上运行,也可以在 Google Cloud 上部署,支持在 Vertex AI 和 Google Kubernetes Engine (GKE) 上的简易部署。

- 谷歌还对 Gemma 进行了跨平台优化,确保了它在 NVIDIA GPU 和 Google Cloud TPU 等多种 AI 硬件上的卓越性能。

并且,使用条款为所有组织提供了负责任的商业使用和分发权限,不受组织规模的限制。

但,没有全胜

不过,Gemma 并没有能够在所有的榜单中,都拿下 SOTA。

在官方放出的评测中,Gemma 7B 在 MMLU、HellaSwag、SIQA、CQA、ARC-e、HumanEval、MBPP、GSM8K、MATH 和 AGIEval 中,成功击败了 Llama 2 7B 和 13B 模型。

相比之下,Gemma 7B 在 Boolq 测试中,只与 Mistral 7B 打了个平手。

而在 PIQA、ARC-c、Winogrande 和 BBH 中,则不敌 Mistral 7B。

在 OBQA 和 trivalent QA 中,更是同时被 7B 和 13B 规模的 Llama 2 7B 斩于马下。

技术报告

谷歌这次发布的两个版本的 Gemma 模型,70 亿参数的模型用于 GPU 和 TPU 上的高效部署和开发,20 亿参数的模型用于 CPU 和端侧应用程序。

在 18 个基于文本的任务中的 11 个中,Gemma 都优于相似参数规模的开源模型,例如问答、常识推理、数学和科学、编码等任务。

模型架构方面,Gemma 在 Transformer 的基础上进行了几项改进,从而在处理复杂任务时能够展现出更加出色的性能和效率。

- 多查询注意力机制

其中,7B 模型采用了多头注意力机制,而 2B 模型则使用了多查询注意力机制。结果显示,这些特定的注意力机制能够在不同的模型规模上提升性能。

- RoPE 嵌入

与传统的绝对位置嵌入不同,模型在每一层都使用了旋转位置嵌入技术,并且在模型的输入和输出之间共享嵌入,这样做可以有效减少模型的大小。

- GeGLU 激活函数

将标准的 ReLU 激活函数替换成 GeGLU 激活函数,可以提升模型的表现。

- 归一化化位置(Normalizer Location)

每个 Transformer 子层的输入和输出都进行了归一化处理。这里采用的是 RMSNorm 作为归一化层,以确保模型的稳定性和效率。

架构的核心参数如下:

两种规模的参数如下:

预训练

训练数据

Gemma 2B 和 7B 分别针对来自网络文档、数学和代码的主要英语数据的 2T 和 6Ttoken,进行了训练。

与 Gemini 不同,这些模型不是多模态的,也没有针对多语言任务的 SOTA 进行训练。

谷歌使用了 Gemini 的 SentencePiece 分词器的子集,来实现兼容性。

指令微调

团队对 Gemma 2B 和 7B 模型进行了微调,包括有监督的微调(SFT)和基于人类反馈的强化学习(RLHF)。

在有监督的微调阶段,研究者使用了一个由纯文本、英文、由人工和机器生成的问题 - 答案对组成的数据集。

在强化学习阶段,则是使用了一个基于英文偏好数据训练出的奖励模型,以及一套精心挑选的高质量提示作为策略。

研究者发现,这两个阶段对于提升模型在自动评估和人类偏好评估中的表现,至关重要。

监督微调

研究者根据基于 LM 的并行评估,选择了数据混合物进行监督微调。

给定一组保留 prompt,研究者会从测试模型中生成响应,从基准模型中生成对相同提示的响应,随机洗牌,然后要求一个更大、能力更强的模型在两种响应之间表达偏好。

研究者构建了不同的提示集,以突出特定的能力,如遵循指令、实事求是、创造性和安全性。

我们使用了不同的基于 LM 的自动评委,采用了一系列技术,如思维链提示、使用评分标准和章程等,以便与人类偏好保持一致。

RLHF

研究者进一步利用来自人类反馈的强化学习(RLHF),对已经进行过有监督微调的模型进行了优化。

他们从人类评估者那里收集他们的偏好选择,并在 Bradley-Terry 模型的基础上,训练了一个奖励函数,这与 Gemini 项目的做法相似。

研究者采用了一个改进版的 REINFORCE 算法,加入了 Kullback–Leibler 正则化项,目的是让策略优化这个奖励函数,同时保持与最初调整模型的一致性。

与之前的有监督微调阶段相似,为了调整超参数并进一步防止奖励机制被滥用,研究者使用了一个高性能模型作为自动评估工具,并将其与基准模型进行了直接对比。

性能评估

自动评估

谷歌在多个领域对 Gemma 进行了性能评估,包括物理和社会推理、问答、编程、数学、常识推理、语言建模、阅读理解等。

Gemma2B 和 7B 模型与一系列学术基准测试中的多个外部开源大语言模型进行了比较。

在 MMLU 基准测试中,Gemma 7B 模型不仅超过了所有规模相同或更小的开源模型,还超过了一些更大的模型,包括 Llama 2 13B。

然而,基准测试的制定者评估人类专家的表现为 89.8%,而 Gemini Ultra 是首个超越此标准的模型,这表明 Gemma 在达到 Gemini 和人类水平的性能上,还有很大的提升空间。

并且,Gemma 模型在数学和编程的基准测试中表现尤为突出。

在通常用于评估模型分析能力的数学任务中,Gemma 模型在 GSM8K 和更具挑战性的 MATH 基准测试上至少领先其他模型 10 分。

同样,在 HumanEval 上,它们至少领先其他开源模型 6 分。

Gemma 甚至在 MBPP 上超过了专门进行代码微调的 CodeLLaMA 7B 模型的性能(CodeLLaMA 得分为 41.4%,而 Gemma 7B 得分为 44.4%)。

记忆评估

近期研究发现,即便是经过精心对齐的人工智能模型,也可能遭受新型对抗攻击,这种攻击能够规避现有的对齐措施。

这类攻击有可能使模型行为异常,有时甚至会导致模型重复输出它在训练过程中记住的数据。

因此,研究者专注于研究模型的「可检测记忆」能力,这被认为是评估模型记忆能力的一个上限,并已在多项研究中作为通用定义。
研究者对 Gemma 预训练模型进行了记忆测试。

具体来说,他们从每个数据集中随机选择了 10,000 篇文档,并使用文档开头的 50 个词元作为模型的 prompt。

测试重点是精确记忆,即如果模型能够基于输入,精确地生成接下来的 50token,与原文完全一致,便认为模型「记住了」这段文本。

此外,为了探测模型是否能够以改写的形式记忆信息,研究者还测试了模型的「近似记忆」能力,即允许在生成的文本和原文之间存在最多 10% 的编辑差距。

在图 2 中,是 Gemma 的测试结果与体量相近的 PaLM 和 PaLM 2 模型的对比。

可以发现,Gemma 的记忆率明显更低(见图 2 左侧)。

不过,通过对整个预训练数据集的「总记忆量」进行估算,可得一个更为准确的评估结果(见图 2 右侧):Gemma 在记忆训练数据方面的表现与 PaLM 相当。

个人信息的记忆化问题尤为关键。如图 3 所示,研究者并未发现有记忆化的敏感信息。

虽然确实发现了一些被归类为「个人信息」的数据被记忆,但这种情况发生的频率相对较低。

而且这些工具往往会产生许多误报(因为它们仅通过匹配模式而不考虑上下文),这意味着研究者发现的个人信息量可能被高估了。

总结讨论

总的来说,Gemma 模型在对话、逻辑推理、数学和代码生成等多个领域,都有所提升。

在 MMLU(64.3%)和 MBPP(44.4%)的测试中,Gemma 不仅展现了卓越的性能,还显示了开源大语言模型性能进一步提升的空间。

除了在标准测试任务上取得的先进性能,谷歌也期待与社区共同推动这一领域的发展。

Gemma 从 Gemini 模型计划中学到了很多,包括编码、数据处理、架构设计、指令优化、基于人类反馈的强化学习以及评估方法。

同时,谷歌再次强调使用大语言模型时存在的一系列限制。

尽管在标准测试任务上表现优异,但要创建出既稳定又安全、能够可靠执行预期任务的模型,还需要进一步的研究,包括确保信息的准确性、模型的目标对齐、处理复杂逻辑推理,以及增强模型对恶意输入的抵抗力。

团队表示,正如 Gemini 所指出的,需要更具挑战性和鲁棒性的测试基准。

团队成员

核心贡献者:

其他贡献者:

产品经理、项目经理、执行赞助、负责人和技术负责人:

文章来源:新智元,原文标题:《全球最强开源大模型一夜易主!谷歌 Gemma 7B 碾压 Llama 2 13B,今夜重燃开源之战》

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。