AI现状:中国-2025人工分析公司-2025.pdf
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AI 现状 中国 2025 人工 分析 公司
- 资源描述:
-
1、AI 现状:中国人工分析Q1 2025 我们的数据、见解和出版物基于我们对人工智能技术及其应用场景的全面基准测试。这包括从语言模型API的小时级性能测试到我们众包平台上的数百万次投票。我们的公共网站,artificialanalysis.ai,广泛被人工智能创新领域的领先公司引用。如欲讨论本报告、我们的出版物或服务,请通过contactartificialanalysis.ai 联系我们。人工分析人工分析 是领先且独立的AI基准测试和洞察提供商。我们支持工程师和公司了解AI能力,并就其AI战略做出关键决策。1520253035404550556065707580859095233 1主要趋势按
2、起源划分的前沿语言模型按起源划分的前沿语言模型中国 AI 实验室逐渐赶上美国 AI 实验室;来自中国实验室的模型随着 DeepSeek 的 R1 模型的发布,现在正在接近 o1 级智能OpenAI,o3DeepSeek,R1USA中国OpenAI,o1OpenAI,o1-previewOpenAI,GPT-4 Turbo人类,克劳德十四行诗(6 月 24 日)GPT-4oOpenAI,GPT-4DeepSeek,V3阿里巴巴,Qwen 2.5 指令 72B阿里巴巴,Qwen 2 指导 72BDeepSeek,V2阿里巴巴,Qwen 聊天 72BOpenAI,GPT-3.5 Turbo阿里巴巴,
3、Qwen 聊天 7B4Q221Q232Q233Q232Q243Q244Q241Q252Q254Q231Q24模型发布日期1.人工分析智能指数:涵盖一系列语言模型智能和推理评估数据集的平均值。目前包括MMLU、GPQA Diamond、MATH-500及HumanEval。发布日期基于该模型的首次公开发布。2.o3 智能指数通过放大测量的 o1 的智能指数估算得出。3.基于公司声明和可比结果估算。在可用的情况下,尚未通过人工分析进行独立基准测试缩小差距:缩小差距:2024年最后几个月见证了多家顶尖中国AI实验室推出众多高性能模型。这导致了中国AI实验室与美国AI实验室在智能水平上的差距缩小。目前
4、,一些中国模型已与美国顶级实验室的模型竞争。在前沿实验室附近打开模型:在前沿实验室附近打开模型:由 DeepSeek 和阿里巴巴领导的开放权重模型已经接近 o1 级智能。推理模型很快变得司空见惯:推理模型很快变得司空见惯:推理模型(在回答前进行“思考”的模型)最早由OpenAI在2024年第三季度引入。几个月内,以DeepSeek为代表的中国竞争对手已基本复制了o1的智能水平。目前,多家中国AI实验室已经拥有前沿级别的推理模型。美国和中国:随着时间的推移,前沿语言模型情报美国和中国:随着时间的推移,前沿语言模型情报1 1索引人工分析智能 1520253035404550556065707580
5、8590952222231领先的美国前沿语言模型领先的美国前沿语言模型主要趋势自 2023 年初推出 OpenAI 的 GPT-4 以来,美国领先的 AI 实验室已经争先恐后赶上 OpenAIOpenAI人类GoogleMetaGPT-4o1-预览双子座 1.5 Pro克劳德 3.5(Sep 24)Gemini 2.0 闪存十四行诗(6 月 24 日)GPT-4 TurboGPT-4o克劳德 3.5 十四行诗(10 月 24 日)双子座 1.5 Pro(24 年 5 月)美洲驼 3.3Gemini 1.0 Ultra克劳德 3405B克劳德 2.1OpusPaLM 2-LGPT-3.5 Tur
6、bo克劳德 1Llama 3 说明 70BLlama 2 聊天 70B美洲驼 65B4Q221Q232Q233Q232Q243Q244Q241Q252Q254Q231Q24模型发布日期1.人工智能分析指数:涵盖了多种语言模型智能和推理评估数据集的平均值。目前包括MMLU、GPQA Diamond、MATH-500及HumanEval。发布日期基于该模型的第一次公开发布。2.估计依据公司声明和可比结果(如有),尚未由Artificial Analysis独立基准测试。3.o3 智力指数通过缩放测量的智力得分 o1 来估计。GPT-4 以外的智能火花:GPT-4 以外的智能火花:2024年最后几个
7、月见证了除了GPT-4之外的重大智能飞跃,由OpenAI的o3引领。推理模型、数据质量以及新的强化学习技术等主题已与预训练计算扩展一起成为提升模型性能的主要杠杆。Big Tech 关闭了前沿实验室:Big Tech 关闭了前沿实验室:Google和Meta的模型正迅速逼近前沿模型,其中Gemini 2.0 Flash超过了Claude 3.5 Sonnet和GPT 4o的能力。竞争实验室赶上 OpenAI 的 GPT-4:竞争实验室赶上 OpenAI 的 GPT-4:OpenAI于2022年11月通过推出ChatGPT中的GPT-3.5开启了语言模型的竞争;美国领先的实验室已基本赶上OpenA
8、I的前沿模型。随着时间的推移,美国领先的 AI 实验室前沿语言模型智能随着时间的推移,美国领先的 AI 实验室前沿语言模型智能1 1o3 o170B 美洲驼 3.1索引人工分析智能 11520253035404550556065707580859095222领先的中国前沿语言模型领先的中国前沿语言模型主要趋势DeepSeek R1DeepSeek阿里巴巴DeepSeek V3Qwen 2.5 MaxQwen 2.5 指令 72BDeepSeek V2.5Qwen 2 指示 72BDeepSeek V2Qwen 聊天 72BDeepSeek V1Qwen 聊天 7B4Q221Q232Q233Q2
展开阅读全文
