model-router

wenjunduan/model-router

AI & ML

2 installs

About

SKILL.md

Model Router Skill

路由矩阵

基于 2026-02 Benchmark 数据驱动的路由决策：

任务类型	首选	理由	降级
终端密集型操作	Codex	Terminal-Bench 77.3% > 65.4%	Claude
复杂 Bug 诊断	Claude	OpenRCA 34.9%, 推理更深	Codex
多语言代码修复	Codex	SWE-Bench Pro 领先，token 更省	Claude
架构设计/评审	Claude	ARC AGI 68.8%, 推理深度	不降级
前端 UI 实现	Codex	25%更快 + chrome-devtools	Claude
文档/知识工作	Claude	GDPval-AA 1606 Elo	不降级
安全审查	双引擎	两者互补	单引擎
长上下文任务	Claude	MRCR v2 76% vs 18.5%	拆分任务

自动路由逻辑

任务输入 → 分类
  │
  ├─ 涉及终端/脚本/CLI?
  │   → Codex CLI
  │
  ├─ 涉及前端 UI + 需要实时调试?
  │   → Codex CLI (chrome-devtools)
  │
  ├─ 涉及架构决策/复杂推理?
  │   → Claude Code (effort=max)
  │
  ├─ 涉及文档/分析/知识工作?
  │   → Claude Code
  │
  ├─ 涉及安全审查?
  │   → 双引擎并行 (Agent Teams)
  │
  └─ 其他?
      → 当前平台默认

交叉验证模式

vibe-verify --cross 触发：

Claude 实现 → Codex 审查 → 差异报告
Codex 实现 → Claude 审查 → 差异报告

利用模型差异化能力提高缺陷发现率。

降级策略

条件	动作
目标模型不可用	使用当前平台继续
连续 2 次执行失败	切换到备选模型
API 限流	队列等待或降级

所有降级决策记录到 .ai_state/decisions.md。

Model Router Skill

路由矩阵

基于 2026-02 Benchmark 数据驱动的路由决策：

任务类型	首选	理由	降级
终端密集型操作	Codex	Terminal-Bench 77.3% > 65.4%	Claude
复杂 Bug 诊断	Claude	OpenRCA 34.9%, 推理更深	Codex
多语言代码修复	Codex	SWE-Bench Pro 领先，token 更省	Claude
架构设计/评审	Claude	ARC AGI 68.8%, 推理深度	不降级
前端 UI 实现	Codex	25%更快 + chrome-devtools	Claude
文档/知识工作	Claude	GDPval-AA 1606 Elo	不降级
安全审查	双引擎	两者互补	单引擎
长上下文任务	Claude	MRCR v2 76% vs 18.5%	拆分任务

自动路由逻辑

任务输入 → 分类
  │
  ├─ 涉及终端/脚本/CLI?
  │   → Codex CLI
  │
  ├─ 涉及前端 UI + 需要实时调试?
  │   → Codex CLI (chrome-devtools)
  │
  ├─ 涉及架构决策/复杂推理?
  │   → Claude Code (effort=max)
  │
  ├─ 涉及文档/分析/知识工作?
  │   → Claude Code
  │
  ├─ 涉及安全审查?
  │   → 双引擎并行 (Agent Teams)
  │
  └─ 其他?
      → 当前平台默认

交叉验证模式

vibe-verify --cross 触发：

Claude 实现 → Codex 审查 → 差异报告
Codex 实现 → Claude 审查 → 差异报告

利用模型差异化能力提高缺陷发现率。

降级策略

条件	动作
目标模型不可用	使用当前平台继续
连续 2 次执行失败	切换到备选模型
API 限流	队列等待或降级

所有降级决策记录到 .ai_state/decisions.md。