methodology-draft-v0.1 · 2026-06-09 22:40 CST

按价格、速度和真实任务表现对比 30+ 大模型

面向开发者的模型选型决策表:成本、首字延迟、上下文、中文覆盖和任务质量一起看。第一阶段先交付可用界面与数据管线契约。

30+模型快照
10任务桶
$0.03最低示例价
Daily更新频率
示例数据: 第一阶段示例快照。正式价格抓取和每周跑分任务尚未接入。 所有价格、延迟和分数仅用于验证产品结构,正式上线前必须替换为可追溯数据。

模型价格与延迟表

沿用 demo-v2-design-4 的清爽表格风格,先把决策字段做完整。

价格表
模型输入输出首字延迟上下文性价比更新
DSDeepSeek V3DeepSeek · closed$0.14/1M$0.28/1M124ms128K962026-06-09对比
QWQwen 2.5 72BAlibaba Cloud · open$0.35/1M$0.70/1M156ms128K912026-06-09对比
G4GPT-4oOpenAI · closed$2.50/1M$10.00/1M89ms128K732026-06-09对比
C3Claude 3.5 SonnetAnthropic · closed$3.00/1M$15.00/1M95ms200K702026-06-09对比
GMGemini 2.0 FlashGoogle · closed$0.10/1M$0.40/1M112ms1M942026-06-09对比
DBDoubao ProVolcano Engine · closed$0.11/1M$0.22/1M141ms128K952026-06-09对比
KMKimi K2Moonshot AI · closed$0.18/1M$0.72/1M168ms200K882026-06-09对比
GLGLM-4 PlusZhipu AI · closed$0.80/1M$0.80/1M184ms128K782026-06-09对比

任务桶榜单

10 个任务桶先用示例评分打通页面与排序逻辑。

首阶段核心路径

首页可以直接进入路由、对比、告警和方法论。

路由器

粘贴 prompt,按成本/速度/质量权重获取 Top 3。

对比

并排比较价格、TTFT、上下文、任务分和来源口径。

订阅价格告警

第一阶段表单返回本地 API 确认,后续接入邮件与订阅表。

厂商覆盖

中文模型厂商与海外主流厂商同表展示,避免榜单天然偏英文生态。

先把可信层打稳

每一行数据都预留更新时间、来源类型、测试版本和方法论入口,再进入生产数据抓取与跑分阶段。

方法论

公开方法论

每个任务桶说明 prompt 集、采样参数、评分标准和更新频率。

新鲜度可见

每个数据点展示更新时间、来源类型和测试版本,缺失时显示待更新。

成本可控

跑分队列预留预算上限、缓存、抽样和月度成本监控字段。

报告

首批内容只保留方法论、中文模型选型、路由成本三类。