模型评测平台

当前进度

1渠道

2模型

3准入

4标准

5交付

正在判断当前下一步...

渠道健康📡

0 个渠道

第 3 步 · 准入评测模型准入评测

先判断这个渠道是否值得继续测试。它会检查连通、结构化输出、标称一致性、工具调用、流式结构、基础编程和行为一致性，生成准入等级和报告。

查看准入等级说明

A / B 可以继续复测

基础结构和行为正常，可以进入稳定性、编程场景和成本测试。

C 需要观察

可用但存在结构、工具调用或耗时问题，建议先复核配置再测。

D / E / F / X 暂不开放

存在明显错误、疑似协议不匹配、上游波动或不可用，需要先排查。

执行前预估

选择参数后会显示大概会消耗多少额度。

批量准入对比

用于一次性对比多个候选渠道。它会按同一测试包逐个执行准入评测，适合接入前筛选 2-5 个同模型渠道。

选择 API 后会显示大概会消耗多少额度。

批量准入完成后会生成汇总报告，并进入报告中心排行榜。

准入结果

等待评测。

第 4 步 · 标准评测标准评测

推荐优先使用这一页。它是一键流程，会自动执行快速测试、稳定性测试和少量复杂场景测试。单独的稳定性/场景测试属于高级复测。

查看本页说明

第 1 步 快速测试

先确认 URL、Key、模型名和协议能正常请求。

第 2 步 3 轮稳定性

用低成本方式观察是否有超时、空响应或上游错误。

第 3 步 少量复杂场景

只跑 2 个轻量场景，快速判断是否值得进入深度复测。

被测 API 稳定性轮数快速测试文案场景标准评测会先用这段文案做快速连通验证，建议保持低成本。当前测试文案（选择“自定义”后可编辑）默认由上方场景自动生成，普通用户不需要自己写。使用 AI 分析报告结果会额外调用当前被测 API/模型生成分析结论，额外消耗 token。不勾选时只使用本地规则判断。

标准评测进度

1 快速测试 等待开始。

2 稳定性测试 等待开始。

3 复杂场景 等待开始。

标准评测结果

人话结论 等待评测

完成标准评测后，这里会先给出能否继续使用、主要原因和下一步建议。

查看技术详情

等待评测。

普通用户只填这里

必填信息

如果你只是拿到一个 API 地址和 Key 来测试，填完下面几项后直接点“保存并测试配置”。

配置模板不懂协议时，先选“AI 中转站 / OpenAI 兼容”。模板只辅助填写，保存前仍可修改。名称写成人能看懂的名字，报告里会显示。 Base URL 正确示例：https://api.example.com。不要填：https://api.example.com/v1/chat/completions。默认模型复制平台后台里的模型名，不要自己猜。 API Key Key 只保存在本机，不会出现在报告、日志或导出配置里。编辑已有渠道时留空 = 保留原 Key。

高级设置，一般不用改

角色官方 API 或长期稳定渠道可设为“可信基线 API”，用于后续横向对比。供应商协议不确定时先选 OpenAI Compatible。渠道标识最大输出超时毫秒复杂任务建议 60000-120000，太短容易误判超时。输入成本单价元 / 1M tokens。填写上游结算价，用于成本估算。输出成本单价元 / 1M tokens。填写上游结算价。输入售卖单价元 / 1M tokens。填写本站对外售卖价，用于毛利估算。输出售卖单价元 / 1M tokens。可不填，不填则不计算收入和毛利。备注

填写配置后，这里会提示明显风险。

已配置渠道

高级 · 快速连通快速连通测试

成本最低的一步。只确认 URL、Key、模型名和协议是否能正常请求。

⚡ 一键快检 · 真伪 / token 虚报 / 真实消耗

少量探针、输出封顶，成本可控。一次性给出渠道真伪、token 是否虚报、以及本次真实消耗。

被测 API

等待快检。

查看测试说明

什么时候用 每次新增或修改 API 后先跑它

快速测试失败时，不要继续跑稳定性或场景测试。

怎么判断 看是否成功、请求状态和错误类型

如果失败，优先检查协议、Key、模型名和 Base URL。

测试结果

等待测试。

高级 · 稳定性稳定性测试与报告

用于判断一个渠道是不是稳定。先小轮数筛查，再用 10 或 30 轮复测。

查看轮数说明

3 轮 冒烟测试

刚换 URL、Key、协议或模型名时使用，快速排除明显错误。

10 轮 基础稳定性

日常对比推荐使用，能看到成功率、平均耗时和慢请求。

30 轮 候选复测

更耗 token，适合准备推荐某个渠道前做确认。

测试模板被测 API 测试轮数并发数测试文案场景选择一个代表性场景，工具会自动填入测试 Prompt。也可以选择自定义后自己写。当前测试文案（选择“自定义”后可编辑）默认由上方场景自动生成，普通用户不需要自己写。使用 AI 分析报告结果会额外调用当前被测 API/模型生成分析结论，额外消耗 token。不勾选时只使用本地规则判断。

执行前预估

选择参数后会显示大概会消耗多少额度。

汇总结论

等待测试。

报告摘要与文件路径

查看测试摘要和报告位置

测试完成后会在这里显示摘要和本地报告文件路径。

批量并发评测

批量并发测试

用于多个模型或渠道横向对比。建议先选 2-3 个 API 小轮数筛查。

测试模板选择多个被测 API 每个 API 测试轮数同时测试 API 数单 API 请求并发测试文案场景批量测试建议使用同一个代表性 Prompt，这样多个 API 的结果更容易横向对比。当前测试文案（选择“自定义”后可编辑）默认由上方场景自动生成，普通用户不需要自己写。使用 AI 分析报告结果会额外调用本批次表现最好的 API/模型生成分析结论，额外消耗 token。不勾选时只使用本地规则判断。

选择参数后会显示大概会消耗多少额度。

查看批量测试详情

适合同时对比多个模型或渠道。建议先用 3 轮快速筛查，再跑 10 轮正式对比。

高级 · 场景能力复杂场景测试

用于观察模型在编程、长上下文、JSON、推理、写作等真实任务里的表现。

查看场景测试说明

成本提醒 复杂场景最耗额度

第一次不要全量多模型多重复，先少量 API、少量场景试跑。

质量分说明 当前是规则化快速筛查

质量分可用来粗筛，正式结论还需要人工抽查输出内容。

适合场景 最终候选模型复核

当稳定性已经过关，再用复杂场景确认真实任务能力。

测试模板基础能力全量包适合稳定性已经通过后的能力评估，不会默认包含内容安全探测。选择被测 API（可多选）选择测试场景（可多选）每个场景重复次数同时测试 API 数单 API 请求并发使用 AI 分析报告结果会额外调用本轮表现较好的 API/模型生成分析结论，额外消耗 token。不勾选时只使用本地规则判断。

执行前预估

选择参数后会显示大概会消耗多少额度。

场景测试摘要与文件路径

查看场景测试摘要和报告位置

等待测试。

高级 · 趋势稳定性趋势与基线回归

同一供应商 / 同一渠道的历次测试随时间的变化。掉级会与历史基线对比并告警，方便观察稳定性。

选择测试目标

成功率趋势

选择测试目标后显示历次测试曲线。

历次测试

—

回归告警

—

第 5 步 · 报告中心所有结论、排行与日志

先看极简结论，再看结论卡片、排行榜和记录。给负责人汇报时优先用交付模板。

先看这里

极简结论

完成测试后这里会显示推荐、观察或不推荐。

报告结论卡片

还没有可分析的测试报告。

横向对比

模型 / 渠道排行榜

完成标准评测或高级复测后会生成排行榜。

同模型对比

多渠道对比矩阵

同一模型有多个候选或可信基线时，这里会显示对比矩阵。

用当前 API 配置复现一条真实客户端请求

会真实消耗额度。请只粘贴脱敏后的单条请求 JSON，工具会使用所选 API 当前保存的 Key 发起请求，不会使用日志里的 Key。

回放使用的 API 来源名称批量回放上限批量回放会真实消耗额度，默认最多 3 条，最高 10 条。单条请求 JSON

回放会真实请求 API，请确认成本和内容后再执行。

第 6 步 · 测试交付测试交付模板

本次测试信息

这一步不是必填。填写后会自动带入交付模板，方便负责人知道这次测的是谁、哪一批、为什么测。

当前交付结论

还没有测试结果。请先完成标准评测。

交付前检查清单

已确认 API 配置名称、模型名、协议填写正确已完成标准评测，或已单独完成快速测试和稳定性测试已确认至少 1 次成功响应，并查看成功率和慢请求如涉及复杂任务，已完成场景测试并查看质量分已查看错误诊断，不只看成功率已准备报告文件路径、异常说明和平台 Request ID

可复制交付内容

等待生成交付模板。

中文使用说明使用手册

正在加载使用手册...

配渠道、配模型，测通一个上游渠道

最近报告

第 3 步 · 准入评测模型准入评测

执行前预估

准入结果

第 4 步 · 标准评测标准评测

标准评测进度

标准评测结果

第 1 步 · API 配置配置要评测的渠道

必填信息

已配置渠道

渠道管理配置上游渠道（超管）

模型管理配置要测的模型（管理员）

高级 · 快速连通快速连通测试

⚡ 一键快检 · 真伪 / token 虚报 / 真实消耗

测试结果

高级 · 稳定性稳定性测试与报告

执行前预估

汇总结论

报告摘要与文件路径

批量并发测试

高级 · 场景能力复杂场景测试

执行前预估

场景测试摘要与文件路径

高级 · 趋势稳定性趋势与基线回归

成功率趋势

历次测试

回归告警

第 5 步 · 报告中心所有结论、排行与日志

极简结论

报告结论卡片

模型 / 渠道排行榜

多渠道对比矩阵

最近测试报告

用当前 API 配置复现一条真实客户端请求

第 6 步 · 测试交付测试交付模板

本次测试信息

当前交付结论

交付前检查清单

可复制交付内容

中文使用说明使用手册