
OpenAI is completely surpassed: Claude is making great strides, and new features are coming again

OpenAI 最近推出了 Claude 3.5 Sonnet 驱动的提示生成器,使编写高质量的提示变得更简单。用户可以在 Anthropic Console 中生成、测试和评估提示,并利用新功能自动生成测试用例和比较输出。这些功能能够帮助用户优化提示并生成最佳响应,加快开发速度并提升结果。现在,用户可以轻松创建高质量提示,并在将其部署到生产环境之前进行测试和评估。这些新功能对于构建 AI 驱动的应用程序非常有帮助。
在构建 AI 驱动的应用程序时,提示(prompt)的质量对结果有重大影响。然而,编写高质量的提示具有挑战性,需要深入了解应用程序需求以及大语言模型(LLM)。为了加快开发速度并提升结果,Claude 简化了这个过程,使用户能够更轻松地创建高质量提示。
现在,你可以在 Anthropic Console 中生成、测试和评估你的提示。Claude 增加了新功能,包括自动生成测试用例和比较输出的功能,让你能够利用 Claude 生成最佳响应。
生成提示
编写一个好的提示就像向 Claude 描述任务一样简单。Console 内置了一个提示生成器,由 Claude 3.5 Sonnet 驱动。你只需描述任务(例如 “分类处理客户支持请求”),Claude 就会为你生成一个高质量的提示。

你可以使用 Claude 的新功能生成测试用例,为提示提供输入变量,例如客户支持消息,并运行提示查看 Claude 的响应。或者,你也可以手动输入测试用例。

生成测试套件
通过将提示与一系列真实世界的输入进行测试,你可以在将提示部署到生产环境之前,对其质量有更高的信心。使用新的评估功能,你可以直接在 Console 中进行此操作,而无需手动在电子表格或代码中管理测试。
手动添加或从 CSV 文件导入新的测试用例,或者使用 “生成测试用例” 功能让 Claude 自动生成。根据需要修改测试用例,然后一键运行所有测试。查看并调整 Claude 对每个变量生成要求的理解,以便更精细地控制生成的测试用例。

评估模型响应并迭代提示
现在,优化提示变得更加简便,你可以创建提示的新版本并重新运行测试套件,以快速迭代和改进结果。Claude 还增加了并排比较多个提示输出的功能。
你甚至可以让专家对响应质量进行 5 分制评分,以评估更改是否提高了响应质量。这些功能使改进模型性能的过程更加快捷和易于访问。
测试用例生成和输出比较功能对所有 Anthropic Console 用户开放。
除此而外,Claude 另外一个重磅功能也来了
Artifacts 分享
真正的技术平权,每个人都可以用 AI 编写代码生成和发布自己的内容,也可以在别人的基础上修改,现在你可以分享 Claude 的 Artifacts 了(分享你的作品),别人也可以修改 Artifacts。

本文作者:AI 寒武纪,来源:AI 寒武纪,原文标题:《OpenAI 被全面超越:Claude 高歌猛进,新的功能又来了》
