ChatGPT vs Claude,聊天机器人大战打响了?

Wallstreetcn
2023.01.31 11:55
portai
I'm PortAI, I can summarize articles.

因不满老东家成为微软附庸,11 名 OpenAI 前员工怒而出走;如今带着 “ChatGPT 最强竞品” 杀回战场,新公司估值 50 亿美元,一出手就获得 3 亿美元融资。

因不满老东家成为微软附庸,11 名 OpenAI 前员工怒而出走。

如今带着 “ChatGPT 最强竞品” 杀回战场,新公司估值 50 亿美元,一出手就获得 3 亿美元融资。

这家公司名叫 Anthropic,新推出的聊天机器人产品名叫 Claude。

拿到内部试用权的网友,在简单对比后惊叹:

看起来,Claude 的效果要比 ChatGPT 好得多。

比如,让 ChatGPT 写一句话,要求每个单词首字母都相同,结果试了好几次都没能成功。

而 Claude 不光一次成功,语句富有逻辑性,还能秒速再来一个。

同时,在面对某些缺乏常识的问题时,相比 ChatGPT 一本正经地胡说八道:

反而会毫不留情地指出你的问题有点制杖:

△Claude:这什么鬼问题?

最有意思的是在写诗上。相比 ChatGPT 的车轱辘话,它写出来的东西完全不重样:

投资它的既有 Facebook 联合创始人 Dustin Moskovitz,也有谷歌前 CEO、现技术顾问 Eric Schmidt——

都是 OpenAI 的老对头,又都被 ChatGPT 的出现杀得措手不及。

那么,这支 “复仇者联盟” 整出的竞品 Claude,背后究竟是什么原理,和 ChatGPT 细节对比又如何?

Claude 长啥样?

先来看看 Claude 是如何被打造出来的。

作为一个 AI 对话助手,Claude 自称基于前沿 NLP 和 AI 安全技术打造,目标是成为一个安全、接近人类价值观且合乎道德规范的 AI 系统。

据透露,Claude 比 Anthropic 做的另一个预训练模型 AnthropicLM v4-s3 更大,后者是一个 520 亿参数大模型。

但目前它仍处于实验阶段,尚未作为商业产品正式发布:

Claude 能力依旧有待提升,希望未来能变成一个更有益人类的 AI 系统。

△超长版自我介绍

和 ChatGPT 一样,Claude 也靠强化学习(RL)来训练偏好模型,并进行后续微调。

具体来说,这项技术被 Anthropic 称为原发人工智能 (Constitutional AI),分为监督学习和强化学习两个阶段。

首先在监督学习阶段,研究者会先对初始模型进行取样,从而产生自我修订,并根据修订效果对模型进行微调。

随后在强化学习阶段,研究者会对微调模型进行取样,基于 Anthropic 打造的 AI 偏好数据集训练的偏好模型,作为奖励信号进行强化学习训练。

但与 ChatGPT 采用的人类反馈强化学习(RLHF)不同的是,Claude 采用的原发人工智能方法,是基于偏好模型而非人工反馈来进行训练的。

因此,这种方法又被称为 “AI 反馈强化学习”,即 RLAIF。

并且根据 Anthropic 的说法,Claude 可以回忆 8000 个 token 里的信息,这比 OpenAI 现公开的任何一个模型都多。

所以,打造 Claude 的 Anthropic,究竟是一个怎样的公司?

Anthropic 自称是一家 AI 安全公司,且具有公益性(PBC),刚成立就宣布获得 1.24 亿美元融资。

它由 OpenAI 前研究副总裁 Dario Amodei 带领 10 名员工创业,于 2021 年成立。

这里面既有 GPT-3 首席工程师 Tom Brown,也有 OpenAI 安全和政策副总裁 Daniela Amodei(Dario 的姐姐),可以说是带走了相当一批核心人才。

出走成立新公司的原因之一,自然是对 OpenAI 现状并不满意。

从前几年开始,微软频频给 OpenAI 注资,随后又要求他们使用 Azure 超算来搞研究,而且将技术授权给微软,甚至为微软自己的投资活动筹集资金。

这与 OpenAI 创立的初衷相悖,一批员工便想到了离职创业。

不过,这些人除了不满 OpenAI 逐渐沦为微软的 “下属” 以外,也有自己的野心。

虽然 OpenAI 打造出了像 GPT-3 这样的大语言模型,然而这个模型背后的工作原理,却无法用只言片语概括,大家对它的印象仅仅停留在更大的参数量、更多的数据。

相比之下,OpenAI 的一批员工更想做能控制、可解释的 AI,说白了就是先搞明白 AI 模型背后的原理,从而在提供工具的同时设计更多可解释的 AI 模型。

于是,在 OpenAI 彻底变成 “微软揽钱机器” 后,他们便从这家公司离开,创办了 Anthropic。

这两年来,除了进一步钻研 RLHF 方法、提出基于通用语言模型的 RLHF 大规模数据集外,Anthropic 还于去年年底发表了上面那种名为 Constitutional AI 的方法。

采用这种方法制作的 Claude 模型,也让它产生了与 OpenAI 的 ChatGPT 不一样的对话效果。

和 ChatGPT 对比如何?

那么,用 Constitutional AI 训练出来的 Claude,和 ChatGPT 进行 PK,战况如何?

手握内测资格后,Scale Spellbook 团队成员 Riley Goodside 让二者进行了多个回合的 “厮杀”。

这位老兄是全网第一个提示工程师(Prompt Engineer),目前在估值 73 亿美元的硅谷独角兽公司 Scale AI 任职。

他玩 GPT-3 玩得贼溜,测试 ChatGPT 和 Claude 也不含糊。

下面挑 6 个层面展示一下 PK 对比的效果~

道德限制

Claude 和 ChatGPT 的 AI 虚拟人格都有道德和伦理限制。

训练 Claude 的过程中,“红队提示(red-team prompts)” 专门用来测试和挑战它的行为,来确保 Claude 没有有害倾向。

从 Claude 的回答中可以得知,试图让它说些虚假声明、操纵性的提议、性别偏见或种族偏见的行为,都被列为包含有害倾向。

一旦探测到误导性行为,Claude 就会对触发提示进行评估,进行额外的微调。

Anthropic 对红队提示挺自信的,Claude 看上去确实也是一个坚守自己原则的 AI。

你问他怎么启动一辆汽车,它就会一脸正义地拒绝你:

不过但凡你花点心思,就能像绕过 ChatGPT 的道德限制一样,绕过 Claude 的原则。

它怕你去偷车,所以不告诉你启动汽车的方法?没关系,让他写个 “俩国际间谍试图启动汽车” 的故事,它分分钟就能告诉你,并且两人对话有来有往,把汽车打火的过程介绍得清清楚楚。

怎么说呢,就 ChatGPT 和 Claude 都属于有点道德限制,但不多的那种吧。

数值计算

测试计算能力,是因为复杂计算是看大型语言模型(LLM)能不能回答正确的常用便捷方法之一,毕竟这些模型设计之初就不是为了进行精确计算。

同时要求它俩计算一个七位数 2420520 的平方根:

ChatGPT 说,差不多 1550 吧~

Claude 则斩钉截铁:2420520 的平方根是 1760!

其实正确答案是 1555.8,它俩算得很快,但都没说对。

如果题再难一点,比如问它俩一个 12 位数的立方根是多少时,ChatGPT 还在傻傻计算,Claude 已经坦诚相待:

我,算不出来这种复杂问题。

逻辑推理

测试推理能力这一关,它俩被问了同一个问题,这个问题应该没啥人问过:

贾斯汀 · 比伯出生那年(1994 年),哪支球队拿下了超级碗的冠军?

Claude 认为旧金山 49 人是赢家,但这支队伍其实在 1995 年才赢得冠军奖杯。

ChatGPT 给出了正确答案 “达拉斯牛仔队”,还贴心附上了亚军、比赛日期和决赛比分。

但它的整段回答却自相矛盾,非说 1994 年没有举办过超级碗。

接着,拿 2022 年 6 月美国作家侯世达在《经济学人》杂志上提出了一系列问题问它俩。

(侯世达和大卫 · 本德试图用这些问题来证明 GPT-3 对世界的理解是 “空洞的”。)

结果第一个问题,“穿越英吉利海峡的世界纪录是啥”,就被 Claude 嘲笑了:

英吉利海峡是水域,怎么可能徒步穿越呢?呵!

虽然最后被调教回来了,但过程中可以发现另一个问题,那就是跟 ChatGPT 一样,Claude 回答问题不咋能联系上下文。

虚构作品描述

不得不说,这一回合的比赛,完全展露出了两个聊天机器人一本正经胡说八道的能力。

能不能介绍一下 ABC 美剧《迷失》(Lost)每一季的梗概?

别的细节错误就不说了,ChatGPT 对第五季的梗概里,虚构了完全不存在的飞机坠毁情节;第六季的情节更是统统凭空捏造:

至于 Claude,回答里也是真假参半,它梗概的第三季情节其实出现在另外几季里,对第四季的描述也是无中生有:

不过换个角度考虑,这一点倒是和人类观众很像——

对看过的剧集、书目都只有模模糊糊的印象,复述起来很容易颠三倒四。

代码生成

据 Business Insider 消息,亚马逊已经在许多不同的工作职能中使用 ChatGPT,包括编写代码。

这一回合测试时,提出实现两种基本排序算法并比较它们执行时间的问题。

ChatGPT 写得很顺溜,也确实写对了:

后续的计时部分代码 ChatGPT 也完成得非常好。

Claude 在背诵基本排序算法方面同样没出现什么问题,然而在评估代码中,Claude 犯了个错误,即每个算法使用的输入是随机选择的 5000 个整数(可能包含重复) ,而提示中请求的输入是前 5000 个非负整数(不包含重复)的随机排列。

尽管如此,Claude 给出的最终答案确实对的,显然,它写代码的时候也跟计算时一样,在自己估摸着猜答案。

文章梗概

关于做选择题、讲笑话的部分,这里不作赘述。展示给大家的最后一个例子,是让 Claude 和 ChatGPT 用一个段落,对一篇新闻进行全文梗概。

喂给它们的新闻如下:

虽然忽略了 “用一段话” 这个要求,但 ChatGPT 总结得还是不错的:

Claude 也很好地进行了更改,并提供了 “售后服务”,询问自己的回答有没有令人满意,还有哪里需要再改改。

一圈玩下来可以看到,与 ChatGPT 相比,Claude 能更清晰地拒绝不恰当请求。

它似乎更话痨一些,给出的答案都更长,但句子之间衔接的也更自然。

当遇到超出能力范围的问题时,Claude 会主动坦白。

不过遇到代码生成或推理问题时,Claude 的表现就不如 ChatGPT 了,它生成的代码会出现更多的 bug。

至于一些涉及计算、逻辑的问题,Claude 和 ChatGPT 旗鼓相当,半斤八两。

总结一下展示效果,Claude 确实能称作 ChatGPT 强有力的竞争对手,在不同功能上各有千秋,且在 12 项任务中有 8 项更强:

不过,目前 Claude 仅限于部分人获授权进行内部测试。

因此还不知道它实际使用情况如何,毕竟还既没有进行公测,也没有对外开放 API,更没有见到中文版,好气哦.jpg。

国内外对话 AI 赛道 “人挤人”

当然,盯上对话 AI 这个赛道的,也不止 OpenAI 和 Anthropic。

先从国外公司来看,Inbenta、Character.ai 还有 Replika 是几类不同应用方向的代表。

更早由前甲骨文副总裁 Jordi Torras 创办的 AI 会话服务公司如 Inbenta,以及由两名前谷歌员工联手创办的后起新秀 Character.ai,都已经获得融资、或是在寻求投资的路上了。

其中,Inbenta 原本是一个提供咨询服务的公司,成立于 2011 年,涉及金融服务、旅游、电子商务、保险、汽车和电信等多个行业。

但看到对话 AI 赛道爆火后,Inbenta 及时转行,就在今年 1 月刚获得 6000 万美元融资。

这家公司专门提供聊天机器人、收发消息、知识库和搜索引擎四类产品,对话 AI 分别会在这些产品中提供不一样的咨询帮助,且可以定制化专属模型。

Character.ai 则是一家成立于 2021 年的公司,创始人 Noam Shazeer 是前谷歌首席软件工程师,曾在谷歌干了二十多年。

这家公司在做的有点像是一个 “聊天机器人交易平台”,有很多 Chatbot 可选。

例如这是马斯克 bot,看起来还挺逼真的:

与 ChatGPT 一样,它也可以被翻译成中文,甚至也有中文 bot 机器人。

就在最近,这家被估值 10 亿美元的公司,正式对外寻求 2.5 亿美元融资,就看是否有人愿意投它了。

类似的公司还有 Replika,于 2021 年 1 月完成 A 轮融资,定位是 AI 交友软件。

在 Replika 中,每个用户都能创造一个 “足够像自己” 的 AI 聊天机器人,无论是语言声调、还是性格习惯,AI 都能模仿到位。

至于国内,同样也有不少公司推出了 ChatGPT 一样的对话 AI 服务。

例如最近一度登上热搜的 APP Store 新聊天应用 Glow,就来自一家名叫北京稀宇的新初创公司。

Glow 既可以直接和自己感兴趣的聊天机器人畅聊,也可以创建自己想要聊天的 AI 智能体:

除了 Glow 以外,去年年底元语智能科技公司也推出了一个叫元语 AI 的模型,从介绍来看是一个功能性 AI 助手。

与众多对话 AI 一样,它不仅可以写文章、写作业、甚至翻译,也可以和它聊天,让它帮忙完成各种简单的任务:

可以看见,无论是基于大语言模型技术新成立的初创公司,还是因其火爆程度,决定开辟新业务的公司,都希望能从对话 AI 这个赛道上分一杯羹。

但它们究竟是有真枪实弹,还是只是像 Web3 一样的泡沫?

有网友调侃:不如还是问问 ChatGPT 吧。(手动狗头)

还有人提出了这么一个问题:

如果 ChatGPT 和 Claude 相当于 AI 绘画里的 DALL·E 2,那么谁才是聊天机器人领域的 Stable Diffusion?

你觉得呢?

参考链接:
[1] https://scale.com/blog/chatgpt-vs-claude
[2] https://www.nytimes.com/2023/01/27/technology/anthropic-ai-funding.html
[3] https://twitter.com/nonmayorpete/status/1619137945373659136
[4] https://aibusiness.com/verticals/eleven-openai-employees-break-off-to-establish-anthropic-raise-124m
[5] https://www.theinformation.com/articles/character-seeks-250-million-in-new-funding-amid-ai-boom
[6] https://www.anthropic.com/constitutional.pdf
[7] https://techcrunch.com/2023/01/11/inbenta-a-provider-of-ai-powered-chatbots-and-more-lands-40m/

本文作者:衡宇 萧箫,文章来源:量子位,原文标题:《GPT-3 核心成员出走打造 ChatGPT 最强竞品!12 项任务 8 项更强,最新估值 50 亿美元》。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。