🏆

排行榜

AI 产品热度排行 + AI 模型能力排行，帮你快速找到最强 AI

🔬

评测方法与数据来源

所有排名数据均来自第三方权威评测平台，CoolAI 不参与评分过程，仅做聚合展示。排名反映模型在特定能力维度上的表现，不代表综合实力。

💬 对话 · 👁️ 视觉 · 🔍 搜索

Arena AI 匿名盲测 Elo 评分

arena.ai ↗

💻 编程 · 🎨 文生图 · 🎬 视频

Arena AI 用户盲测投票 Elo

arena.ai ↗

📊 累计投票量 650万+

覆盖 618 个模型，持续同步更新

同步时间：2026-05-28

💬 对话能力榜

综合对话能力评测，基于 Arena AI 盲测 Elo 评分

评分标准

Arena 盲测 Elo

🥇

Claude Opus 4.6 ThinkingAnthropic闭源

1502

🥈

Claude Opus 4.7 ThinkingAnthropic闭源

1500

🥉

Claude Opus 4.6Anthropic闭源

1498

Claude Opus 4.7Anthropic闭源

1494

Muse SparkMeta闭源

1489

Gemini 3.1 Pro PreviewGoogle闭源

1487

Gemini 3 ProGoogle闭源

1486

GPT-5.5 HighOpenAI闭源

1482

GPT-5.4 HighOpenAI闭源

1480

Gemini 3.5 FlashGoogle闭源

1479

GPT-5.5OpenAI闭源

1476

GPT-5.2 Chat LatestOpenAI闭源

1476

Grok 4.20 Beta1xAI闭源

1476

Grok 4.20 Beta ReasoningxAI闭源

1475

Qwen3.7 Max PreviewAlibaba闭源

1475

GLM-5.1Zhipu AI开源

1474

Gpt 5.5 InstantOpenAI闭源

1474

Gemini 3 FlashGoogle闭源

1473

Claude Opus 4.5 ThinkingAnthropic闭源

1473

Grok 4.20 Multi-Agent BetaxAI闭源

1472

数据来源：Arena AI 文本 Arena · 更新：2026-05-28共 20 个模型

📋 评测标准与数据来源详解

📊 各维度评测数据一览

维度	评测方式	总投票	模型数	更新
💬 对话 (Text)	匿名多轮对话盲测	~570万	337	04-01
💻 编程 (Code)	匿名编程任务盲测	~22.5万	59	04-01
👁️ 视觉 (Vision)	图像理解+推理盲测	~73.8万	110	03-31
🎨 文生图 (Image)	图片质量盲选对比	~200万+	52	03-26
🎬 文生视频 (Video)	视频质量盲选对比	~18万	37	03-06
🔍 搜索 (Search)	搜索结果准确性盲测	~35.8万	25	03-31

🏟️ Arena Elo 评分系统原理

Elo 评分源自国际象棋的实力评估算法。在 Arena AI 中：两个匿名模型同时回答同一问题，用户选择更优的回答 → 获胜方加分、失败方扣分（幅度取决于双方预期差距）。累计数百万次真实用户投票后形成稳定排名。评分旁的 ±N 为95%置信区间，值越小排名越可靠；分差 ≥28 分意味着约 75% 的胜率优势。

⚖️ 客观性声明

CoolAI 不参与任何评分或投票过程，仅作为聚合方展示第三方权威评测结果。所有数据均可通过 Arena AI 原始榜单交叉验证。不同维度的排名独立计算，不存在综合加权或人为调整。

🔗 数据流程透明化

1 Arena AI 用户匿名盲测投票（持续进行）

2 Elo 引擎计算排名 + 置信区间（自动）

3 CoolAI 定期同步最新数据 → 导入数据库

4 前端排行榜页面展示（你正在看到的）

📖 局限性与使用建议

Elo 反映的是模型在特定评测场景下的表现（如单轮对话质量、代码生成准确度），可能与实际复杂工作流体验有差异。新上线模型因投票样本少，排名可能波动较大。建议结合多个维度综合判断，不唯分数论。

数据由 CoolAI 从 Arena AI 同步 · 最后同步时间：2026-05-28T05:53 UTC · 原始数据源：arena.ai · 排行榜方法论参考：LMSYS Chatbot Arena 论文 ↗