谷歌上周发布的大型语言模型 PaLM 2 使用的训练数据几乎是其前身的五倍，使其能够执行更高级的编码、数学和创意写作任务。

谷歌最新大语言模型PaLM 2，更细节内幕被曝出来了！

据 CNBC 爆料，训练它所用到的 token 数量多达3.6 万亿。

这是什么概念？

要知道，在去年谷歌发布 PaLM 时，训练 token 的数量也仅为 7800 亿。

四舍五入算下来，PaLM 2 足足是它前身的近 5 倍！

（token 本质是字符串，是训练大语言模型的关键，可以教会模型预测序列中出现的下一个单词。）

不仅如此，当时谷歌发布 PaLM 2 时，只是提到 “新模型比以前的 LLM 更小”。

而内部文件则是将具体数值爆料了出来——3400 亿个参数（初代 PaLM 是 5400 亿）。

这表明，谷歌通过技术 “buff 加持”，在参数量更小的情况下，让模型可以更高效地完成更复杂的任务。

虽然在已经维持了数月的 AIGC 大战中，谷歌一直 “全军出击”，但对于训练数据的大小或其他细节信息，却是遮遮掩掩的态度。

而随着这次内部文档的曝光，也让我们对谷歌最 in 大语言模型有了进一步的了解。

PaLM 2 要在广告上发力了

关于谷歌上周发布 PaLM 2 的能力，我们就不再详细的赘述（可点击此处了解详情），简单总结下来就是：

至于使用方面，谷歌在发布会中就已经介绍说有超过 25 个产品和应用接入了 PaLM 2 的能力。

具体表现形式是 Duet AI，可以理解为对标微软 365 Copilot 的一款产品；在现场也展示了在 Gmail、Google Docs、Google Sheets 中应用的能力。

而现在，CNBC 从谷歌内部文件中挖出了其在 PaLM 2 应用的更多计划——进军广告界。

根据这份内部文件，谷歌内部的某些团队现在计划使用 PaLM 2 驱动的工具，允许广告商生成自己的媒体资产，并为 YouTube 创作者推荐视频。

谷歌也一直在为 YouTube 的青少年内容测试 PaLM 2，比如标题和描述。

谷歌在经历了近 20 年的快速发展后，现在已然陷入了多季度收入增长缓慢的 “泥潭”。

也由于全球经济大环境等原因，广告商们也一直在在线营销预算中挣扎。

具体到谷歌，今年大多数行业的付费搜索广告转化率都有所下降。

而这份内部文件所透露出来的信号，便是谷歌希望抓住 AIGC 这根救命稻草，希望使用生成式 AI 产品来增加支出，用来增加收入并提高利润率。

据文件显示，AI 驱动的客户支持策略可能会在 100 多种谷歌产品上运行，包括 Google Play 商店、Gmail、Android 搜索和地图等。

训练数据缺乏透明度，越发被热议

不过话说回来，包括谷歌在内，纵观大多数大语言模型玩家，一个较为明显的现象就是：

对模型、数据等细节保密。

这也是 CNBC 直接挑明的一个观点。

虽然很多公司都表示，这是因为业务竞争所导致的，但研究界却不这么认为。

在他们看来，随着 AIGC 大战的持续升温，模型、数据等需要更高的透明度。

而与之相关的话题热度也是越发的激烈。

例如谷歌 Research 高级科学家 El Mahdi El Mhamdi 便于二月份辞职，此举背后的原因，正是因为他觉得公司缺乏透明度。

无独有偶，就在 OpenAI CEO Sam Altman 参与听证会期间，便 “反向” 主动提出立法者进行监管：

如果这项技术出了问题，那就可能会是大问题……我们希望合作，防止这种情况发生。

截至发稿，对于 CNBC 所爆料的诸多内容，谷歌方面暂未做出回应。

本文作者：金磊，来源：量子位，原文标题：《谷歌 PaLM 2 细节曝光：3.6 万亿 token，3400 亿参数》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。