回想 Claude 的前两次发布,其在能力上都略微落后于 OpenAI 的最佳模型,且 Anthropic 主要宣传的是上下文窗口长度和安全这些重点。这一次,Anthropic 或许终于在性能方面赶超了 OpenAI 的模型。
性能战和价格战——我全都要
-
王牌 Opus 在衡量本科级别专业知识(MMLU)、研究生级别专业推理能力(GPQA)以及基础数学(GSM8k)的测试中,其表现超越了 OpenAI 和谷歌各自最先进的模型 GPT-4 和 Gemini Ultra。 Opus 的实际速度与 Claude 2 和 2.1 相同,但它的性能要强得多。 -
作为对比,家中老二 Sonnet 的速度则是 Anthropic 先前最佳模型 Claude 2.1 的两倍,并且拥有更高的智能水平。Anthropic 声称,Sonnet 在需要快速响应的知识检索或销售自动化等智能任务上表现出色。 -
性价比之选 Haiku 在性能、速度及成本方面均优于同类尺寸的其他模型。它能够在不到三秒钟的时间里阅读一篇包含图表和图形、大约 7500 字的密集型研究论文。
Anthropic 特别强调,与之前几代及竞品相比,这三个模型在速度和成本效益上均有显著提升(单位为美元):
此外,Claude 3 模型针对部分客户可处理高达 100 万个 token(这一点与 Gemini Pro 1.5 相似),并且在如此庞大的上下文大小的基准测试中,Opus 模型实现了近乎完美的记忆性,准确率超过 99%。同时,Anthropic 声称 Claude 3 模型降低了无害提示的拒绝率,并且在减少错误答案的同时表现出更高的准确度。
这一点被英伟达的高级科学家 Jim Fan 盛赞,因为当前大模型对无害问题过于谨慎的回答已成为一个普遍现象,凡事都要反复“叠甲”个好几次才能给你答案。但 Anthropic 意识到了这一问题,并强调了他们在降低拒绝率方面的努力。
同样被 Fan 好评的还有 Claude 在特定领域的专家基准测试。Claude 特意选择了金融、医学和哲学等专家领域,并报告了在这几个领域的性能表现。
这就不得不提到 Claude 3 的重大突破——合成数据的应用。Anthropic 通过在训练过程中使用合成数据来部分实现 Claude 3 的能力提升。合成数据是指内部使用另一款 AI 语言模型生成的数据,该技术可以拓宽训练数据的深度,以弥补抓取数据集中可能缺失的情景。
Anthropic 提供的基准图表进一步展示了其性能表现
大模型的未来:比卷性能更重要的事
许多企业对生成式人工智能的一大顾虑在于其可能出现的“幻觉”,即提供错误的信息输出。以最近发生的加拿大航空案例为例,其 AI 聊天机器人向旅客提供了不准确的退款信息,最终法院判决要求航空公司赔偿该名因得到错误信息而起诉的旅客。
Anthropic 表示,Claude 3-Opus 在整体能力和低幻觉率方面能够超越当前市场领导者 GPT-4 Turbo。而相较于 Claude 2.1,Opus 在给出正确答案和减少错误答案方面的表现提升了两倍。研究者通过三个类别来衡量准确性:正确的答案、错误的答案以及在不确定时选择回答不知道而非错误作答。
自两年前创立以来,Anthropic 始终将构建负责任的人工智能作为优先任务,旨在避免性别歧视、种族歧视以及其他有害输出,并在这次的更新宣布了一条新准则:尊重残疾人的权利,以减轻任何可能加剧刻板印象和偏见的输出。
在未来几个月内,Anthropic 计划定期更新 Claude 3 模型系列,并推出工具使用、交互式编程和“高级代理能力”(advanced agentic capabilities)等新功能。Anthropic 表示将继续致力于确保安全措施跟上 AI 性能的发展步伐,并强调目前 Claude 3 模型“带来灾难性风险的可能性极小”。
这似乎是在暗示 GPT——毕竟 Anthropic 的创始人们之所以会离开 OpenAI,其实就是因为安全理念的不符。
【开发者福利】
对于国内所有开发者而言,可以通过 Amazon Bedrock 立即试用 Claude 3,无需注册账号。下一代 Claude(Claude 3)的三个模型 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 将陆续登陆 Amazon Bedrock。Amazon Bedrock 是目前第一个也是唯一一个提供 Claude 3 Sonnet 托管服务的平台。
据亚马逊云科技官方表示,Amazon Bedrock 和第三方模型仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助开发者了解行业前沿技术和发展海外业务选择推介该服务。但亚马逊云科技也为开发者申请到了测试资源,短期开放、立即可用,欢迎大家通过下面的链接或点击「阅读原文」在 PC 端访问使用:
https://portal.cloudassist-beta.sign-up.china.aws.a2z.com/demo/qrcode?trk=asdfghjkl12345