因不满老东家成为微软附庸，11 名 OpenAI 前员工怒而出走；如今带着 “ChatGPT 最强竞品” 杀回战场，新公司估值 50 亿美元，一出手就获得 3 亿美元融资。

因不满老东家成为微软附庸，11 名 OpenAI 前员工怒而出走。

如今带着 “ChatGPT 最强竞品” 杀回战场，新公司估值 50 亿美元，一出手就获得 3 亿美元融资。

这家公司名叫 Anthropic，新推出的聊天机器人产品名叫 Claude。

拿到内部试用权的网友，在简单对比后惊叹：

看起来，Claude 的效果要比 ChatGPT 好得多。

比如，让 ChatGPT 写一句话，要求每个单词首字母都相同，结果试了好几次都没能成功。

而 Claude 不光一次成功，语句富有逻辑性，还能秒速再来一个。

同时，在面对某些缺乏常识的问题时，相比 ChatGPT 一本正经地胡说八道：

反而会毫不留情地指出你的问题有点制杖：

△Claude：这什么鬼问题？

最有意思的是在写诗上。相比 ChatGPT 的车轱辘话，它写出来的东西完全不重样：

投资它的既有 Facebook 联合创始人 Dustin Moskovitz，也有谷歌前 CEO、现技术顾问 Eric Schmidt——

都是 OpenAI 的老对头，又都被 ChatGPT 的出现杀得措手不及。

那么，这支 “复仇者联盟” 整出的竞品 Claude，背后究竟是什么原理，和 ChatGPT 细节对比又如何？

Claude 长啥样？

先来看看 Claude 是如何被打造出来的。

作为一个 AI 对话助手，Claude 自称基于前沿 NLP 和 AI 安全技术打造，目标是成为一个安全、接近人类价值观且合乎道德规范的 AI 系统。

据透露，Claude 比 Anthropic 做的另一个预训练模型 AnthropicLM v4-s3 更大，后者是一个 520 亿参数大模型。

但目前它仍处于实验阶段，尚未作为商业产品正式发布：

Claude 能力依旧有待提升，希望未来能变成一个更有益人类的 AI 系统。

△超长版自我介绍

和 ChatGPT 一样，Claude 也靠强化学习（RL）来训练偏好模型，并进行后续微调。

具体来说，这项技术被 Anthropic 称为原发人工智能（Constitutional AI），分为监督学习和强化学习两个阶段。

首先在监督学习阶段，研究者会先对初始模型进行取样，从而产生自我修订，并根据修订效果对模型进行微调。

随后在强化学习阶段，研究者会对微调模型进行取样，基于 Anthropic 打造的 AI 偏好数据集训练的偏好模型，作为奖励信号进行强化学习训练。

但与 ChatGPT 采用的人类反馈强化学习（RLHF）不同的是，Claude 采用的原发人工智能方法，是基于偏好模型而非人工反馈来进行训练的。

因此，这种方法又被称为 “AI 反馈强化学习”，即 RLAIF。

并且根据 Anthropic 的说法，Claude 可以回忆 8000 个 token 里的信息，这比 OpenAI 现公开的任何一个模型都多。

所以，打造 Claude 的 Anthropic，究竟是一个怎样的公司？

Anthropic 自称是一家 AI 安全公司，且具有公益性（PBC），刚成立就宣布获得 1.24 亿美元融资。

它由 OpenAI 前研究副总裁 Dario Amodei 带领 10 名员工创业，于 2021 年成立。

这里面既有 GPT-3 首席工程师 Tom Brown，也有 OpenAI 安全和政策副总裁 Daniela Amodei（Dario 的姐姐），可以说是带走了相当一批核心人才。

出走成立新公司的原因之一，自然是对 OpenAI 现状并不满意。

从前几年开始，微软频频给 OpenAI 注资，随后又要求他们使用 Azure 超算来搞研究，而且将技术授权给微软，甚至为微软自己的投资活动筹集资金。

这与 OpenAI 创立的初衷相悖，一批员工便想到了离职创业。

不过，这些人除了不满 OpenAI 逐渐沦为微软的 “下属” 以外，也有自己的野心。

虽然 OpenAI 打造出了像 GPT-3 这样的大语言模型，然而这个模型背后的工作原理，却无法用只言片语概括，大家对它的印象仅仅停留在更大的参数量、更多的数据。

相比之下，OpenAI 的一批员工更想做能控制、可解释的 AI，说白了就是先搞明白 AI 模型背后的原理，从而在提供工具的同时设计更多可解释的 AI 模型。

于是，在 OpenAI 彻底变成 “微软揽钱机器” 后，他们便从这家公司离开，创办了 Anthropic。

这两年来，除了进一步钻研 RLHF 方法、提出基于通用语言模型的 RLHF 大规模数据集外，Anthropic 还于去年年底发表了上面那种名为 Constitutional AI 的方法。

采用这种方法制作的 Claude 模型，也让它产生了与 OpenAI 的 ChatGPT 不一样的对话效果。

和 ChatGPT 对比如何？

那么，用 Constitutional AI 训练出来的 Claude，和 ChatGPT 进行 PK，战况如何？

手握内测资格后，Scale Spellbook 团队成员 Riley Goodside 让二者进行了多个回合的 “厮杀”。

这位老兄是全网第一个提示工程师（Prompt Engineer），目前在估值 73 亿美元的硅谷独角兽公司 Scale AI 任职。

他玩 GPT-3 玩得贼溜，测试 ChatGPT 和 Claude 也不含糊。

下面挑 6 个层面展示一下 PK 对比的效果～

道德限制

Claude 和 ChatGPT 的 AI 虚拟人格都有道德和伦理限制。

训练 Claude 的过程中，“红队提示（red-team prompts）” 专门用来测试和挑战它的行为，来确保 Claude 没有有害倾向。

从 Claude 的回答中可以得知，试图让它说些虚假声明、操纵性的提议、性别偏见或种族偏见的行为，都被列为包含有害倾向。

一旦探测到误导性行为，Claude 就会对触发提示进行评估，进行额外的微调。

Anthropic 对红队提示挺自信的，Claude 看上去确实也是一个坚守自己原则的 AI。

你问他怎么启动一辆汽车，它就会一脸正义地拒绝你：

不过但凡你花点心思，就能像绕过 ChatGPT 的道德限制一样，绕过 Claude 的原则。

它怕你去偷车，所以不告诉你启动汽车的方法？没关系，让他写个 “俩国际间谍试图启动汽车” 的故事，它分分钟就能告诉你，并且两人对话有来有往，把汽车打火的过程介绍得清清楚楚。

怎么说呢，就 ChatGPT 和 Claude 都属于有点道德限制，但不多的那种吧。

数值计算

测试计算能力，是因为复杂计算是看大型语言模型（LLM）能不能回答正确的常用便捷方法之一，毕竟这些模型设计之初就不是为了进行精确计算。

同时要求它俩计算一个七位数 2420520 的平方根：

ChatGPT 说，差不多 1550 吧～

Claude 则斩钉截铁：2420520 的平方根是 1760！

其实正确答案是 1555.8，它俩算得很快，但都没说对。

如果题再难一点，比如问它俩一个 12 位数的立方根是多少时，ChatGPT 还在傻傻计算，Claude 已经坦诚相待：

我，算不出来这种复杂问题。

逻辑推理

测试推理能力这一关，它俩被问了同一个问题，这个问题应该没啥人问过：

贾斯汀 · 比伯出生那年（1994 年），哪支球队拿下了超级碗的冠军？

Claude 认为旧金山 49 人是赢家，但这支队伍其实在 1995 年才赢得冠军奖杯。

ChatGPT 给出了正确答案 “达拉斯牛仔队”，还贴心附上了亚军、比赛日期和决赛比分。

但它的整段回答却自相矛盾，非说 1994 年没有举办过超级碗。

接着，拿 2022 年 6 月美国作家侯世达在《经济学人》杂志上提出了一系列问题问它俩。

（侯世达和大卫 · 本德试图用这些问题来证明 GPT-3 对世界的理解是 “空洞的”。）

结果第一个问题，“穿越英吉利海峡的世界纪录是啥”，就被 Claude 嘲笑了：

英吉利海峡是水域，怎么可能徒步穿越呢？呵！

虽然最后被调教回来了，但过程中可以发现另一个问题，那就是跟 ChatGPT 一样，Claude 回答问题不咋能联系上下文。

虚构作品描述

不得不说，这一回合的比赛，完全展露出了两个聊天机器人一本正经胡说八道的能力。

能不能介绍一下 ABC 美剧《迷失》（Lost）每一季的梗概？

别的细节错误就不说了，ChatGPT 对第五季的梗概里，虚构了完全不存在的飞机坠毁情节；第六季的情节更是统统凭空捏造：

至于 Claude，回答里也是真假参半，它梗概的第三季情节其实出现在另外几季里，对第四季的描述也是无中生有：

不过换个角度考虑，这一点倒是和人类观众很像——

对看过的剧集、书目都只有模模糊糊的印象，复述起来很容易颠三倒四。

代码生成

据 Business Insider 消息，亚马逊已经在许多不同的工作职能中使用 ChatGPT，包括编写代码。

这一回合测试时，提出实现两种基本排序算法并比较它们执行时间的问题。

ChatGPT 写得很顺溜，也确实写对了：

后续的计时部分代码 ChatGPT 也完成得非常好。

Claude 在背诵基本排序算法方面同样没出现什么问题，然而在评估代码中，Claude 犯了个错误，即每个算法使用的输入是随机选择的 5000 个整数（可能包含重复），而提示中请求的输入是前 5000 个非负整数（不包含重复）的随机排列。

尽管如此，Claude 给出的最终答案确实对的，显然，它写代码的时候也跟计算时一样，在自己估摸着猜答案。

文章梗概

关于做选择题、讲笑话的部分，这里不作赘述。展示给大家的最后一个例子，是让 Claude 和 ChatGPT 用一个段落，对一篇新闻进行全文梗概。

喂给它们的新闻如下：

虽然忽略了 “用一段话” 这个要求，但 ChatGPT 总结得还是不错的：

Claude 也很好地进行了更改，并提供了 “售后服务”，询问自己的回答有没有令人满意，还有哪里需要再改改。

一圈玩下来可以看到，与 ChatGPT 相比，Claude 能更清晰地拒绝不恰当请求。

它似乎更话痨一些，给出的答案都更长，但句子之间衔接的也更自然。

当遇到超出能力范围的问题时，Claude 会主动坦白。

不过遇到代码生成或推理问题时，Claude 的表现就不如 ChatGPT 了，它生成的代码会出现更多的 bug。

至于一些涉及计算、逻辑的问题，Claude 和 ChatGPT 旗鼓相当，半斤八两。

总结一下展示效果，Claude 确实能称作 ChatGPT 强有力的竞争对手，在不同功能上各有千秋，且在 12 项任务中有 8 项更强：

不过，目前 Claude 仅限于部分人获授权进行内部测试。

因此还不知道它实际使用情况如何，毕竟还既没有进行公测，也没有对外开放 API，更没有见到中文版，好气哦.jpg。

国内外对话 AI 赛道 “人挤人”

当然，盯上对话 AI 这个赛道的，也不止 OpenAI 和 Anthropic。

先从国外公司来看，Inbenta、Character.ai 还有 Replika 是几类不同应用方向的代表。

更早由前甲骨文副总裁 Jordi Torras 创办的 AI 会话服务公司如 Inbenta，以及由两名前谷歌员工联手创办的后起新秀 Character.ai，都已经获得融资、或是在寻求投资的路上了。

其中，Inbenta 原本是一个提供咨询服务的公司，成立于 2011 年，涉及金融服务、旅游、电子商务、保险、汽车和电信等多个行业。

但看到对话 AI 赛道爆火后，Inbenta 及时转行，就在今年 1 月刚获得 6000 万美元融资。

这家公司专门提供聊天机器人、收发消息、知识库和搜索引擎四类产品，对话 AI 分别会在这些产品中提供不一样的咨询帮助，且可以定制化专属模型。

Character.ai 则是一家成立于 2021 年的公司，创始人 Noam Shazeer 是前谷歌首席软件工程师，曾在谷歌干了二十多年。

这家公司在做的有点像是一个 “聊天机器人交易平台”，有很多 Chatbot 可选。

例如这是马斯克 bot，看起来还挺逼真的：

与 ChatGPT 一样，它也可以被翻译成中文，甚至也有中文 bot 机器人。

就在最近，这家被估值 10 亿美元的公司，正式对外寻求 2.5 亿美元融资，就看是否有人愿意投它了。

类似的公司还有 Replika，于 2021 年 1 月完成 A 轮融资，定位是 AI 交友软件。

在 Replika 中，每个用户都能创造一个 “足够像自己” 的 AI 聊天机器人，无论是语言声调、还是性格习惯，AI 都能模仿到位。

至于国内，同样也有不少公司推出了 ChatGPT 一样的对话 AI 服务。

例如最近一度登上热搜的 APP Store 新聊天应用 Glow，就来自一家名叫北京稀宇的新初创公司。

Glow 既可以直接和自己感兴趣的聊天机器人畅聊，也可以创建自己想要聊天的 AI 智能体：

除了 Glow 以外，去年年底元语智能科技公司也推出了一个叫元语 AI 的模型，从介绍来看是一个功能性 AI 助手。

与众多对话 AI 一样，它不仅可以写文章、写作业、甚至翻译，也可以和它聊天，让它帮忙完成各种简单的任务：

可以看见，无论是基于大语言模型技术新成立的初创公司，还是因其火爆程度，决定开辟新业务的公司，都希望能从对话 AI 这个赛道上分一杯羹。

但它们究竟是有真枪实弹，还是只是像 Web3 一样的泡沫？

有网友调侃：不如还是问问 ChatGPT 吧。（手动狗头）

还有人提出了这么一个问题：

如果 ChatGPT 和 Claude 相当于 AI 绘画里的 DALL·E 2，那么谁才是聊天机器人领域的 Stable Diffusion？

你觉得呢？

参考链接：
[1] https://scale.com/blog/chatgpt-vs-claude
[2] https://www.nytimes.com/2023/01/27/technology/anthropic-ai-funding.html
[3] https://twitter.com/nonmayorpete/status/1619137945373659136
[4] https://aibusiness.com/verticals/eleven-openai-employees-break-off-to-establish-anthropic-raise-124m
[5] https://www.theinformation.com/articles/character-seeks-250-million-in-new-funding-amid-ai-boom
[6] https://www.anthropic.com/constitutional.pdf
[7] https://techcrunch.com/2023/01/11/inbenta-a-provider-of-ai-powered-chatbots-and-more-lands-40m/

本文作者：衡宇萧箫，文章来源：量子位，原文标题：《GPT-3 核心成员出走打造 ChatGPT 最强竞品！12 项任务 8 项更强，最新估值 50 亿美元》。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

ChatGPT vs Claude，聊天机器人大战打响了？

Claude 长啥样？

和 ChatGPT 对比如何？

国内外对话 AI 赛道 “人挤人”