第 3 步 · 准入评测模型准入评测
先判断这个渠道是否值得继续测试。它会检查连通、结构化输出、标称一致性、工具调用、流式结构、基础编程和行为一致性,生成准入等级和报告。
查看准入等级说明
基础结构和行为正常,可以进入稳定性、编程场景和成本测试。
可用但存在结构、工具调用或耗时问题,建议先复核配置再测。
存在明显错误、疑似协议不匹配、上游波动或不可用,需要先排查。
执行前预估
批量准入对比
用于一次性对比多个候选渠道。它会按同一测试包逐个执行准入评测,适合接入前筛选 2-5 个同模型渠道。
批量准入完成后会生成汇总报告,并进入报告中心排行榜。
准入结果
等待评测。
第 4 步 · 标准评测标准评测
推荐优先使用这一页。它是一键流程,会自动执行快速测试、稳定性测试和少量复杂场景测试。单独的稳定性/场景测试属于高级复测。
查看本页说明
先确认 URL、Key、模型名和协议能正常请求。
用低成本方式观察是否有超时、空响应或上游错误。
只跑 2 个轻量场景,快速判断是否值得进入深度复测。
标准评测进度
标准评测结果
完成标准评测后,这里会先给出能否继续使用、主要原因和下一步建议。
查看技术详情
等待评测。
已配置渠道
高级 · 快速连通快速连通测试
成本最低的一步。只确认 URL、Key、模型名和协议是否能正常请求。
⚡ 一键快检 · 真伪 / token 虚报 / 真实消耗
少量探针、输出封顶,成本可控。一次性给出渠道真伪、token 是否虚报、以及本次真实消耗。
等待快检。
查看测试说明
快速测试失败时,不要继续跑稳定性或场景测试。
如果失败,优先检查协议、Key、模型名和 Base URL。
测试结果
等待测试。
高级 · 稳定性稳定性测试与报告
用于判断一个渠道是不是稳定。先小轮数筛查,再用 10 或 30 轮复测。
查看轮数说明
刚换 URL、Key、协议或模型名时使用,快速排除明显错误。
日常对比推荐使用,能看到成功率、平均耗时和慢请求。
更耗 token,适合准备推荐某个渠道前做确认。
执行前预估
汇总结论
等待测试。
报告摘要与文件路径
查看测试摘要和报告位置
测试完成后会在这里显示摘要和本地报告文件路径。
批量并发评测
批量并发测试
用于多个模型或渠道横向对比。建议先选 2-3 个 API 小轮数筛查。
查看批量测试详情
适合同时对比多个模型或渠道。建议先用 3 轮快速筛查,再跑 10 轮正式对比。
高级 · 场景能力复杂场景测试
用于观察模型在编程、长上下文、JSON、推理、写作等真实任务里的表现。
查看场景测试说明
第一次不要全量多模型多重复,先少量 API、少量场景试跑。
质量分可用来粗筛,正式结论还需要人工抽查输出内容。
当稳定性已经过关,再用复杂场景确认真实任务能力。
执行前预估
场景测试摘要与文件路径
查看场景测试摘要和报告位置
等待测试。
高级 · 趋势稳定性趋势与基线回归
同一供应商 / 同一渠道的历次测试随时间的变化。掉级会与历史基线对比并告警,方便观察稳定性。
成功率趋势
历次测试
回归告警
第 5 步 · 报告中心所有结论、排行与日志
先看极简结论,再看结论卡片、排行榜和记录。给负责人汇报时优先用交付模板。
先看这里
极简结论
完成测试后这里会显示推荐、观察或不推荐。
最新结论
报告结论卡片
还没有可分析的测试报告。
横向对比
模型 / 渠道排行榜
完成标准评测或高级复测后会生成排行榜。
同模型对比
多渠道对比矩阵
同一模型有多个候选或可信基线时,这里会显示对比矩阵。
最近测试报告
真实客户端日志分析
把 Claude Code、Codex、Gemini CLI 等本地代理日志粘贴进来,生成脱敏分析报告。适合复盘 524、504、client_gone、Content block not found 等真实使用问题。
粘贴日志后生成报告,报告会进入“最近测试报告”。
回放会真实请求 API,请确认成本和内容后再执行。
最近任务状态
用于判断上次测试是否完成、失败、取消或因程序关闭而中断。
最近请求记录
第 6 步 · 测试交付测试交付模板
本次测试信息
这一步不是必填。填写后会自动带入交付模板,方便负责人知道这次测的是谁、哪一批、为什么测。
当前交付结论
还没有测试结果。请先完成标准评测。
交付前检查清单
可复制交付内容
等待生成交付模板。
中文使用说明使用手册
正在加载使用手册...