技能越来越多,但哪个真的有用?42eval 用断言测试 + 盲测对比,量化每个技能的实际贡献。
为什么需要评测技能?
一个技能可能让 AI 的输出结构更清晰,也可能只是多绕了一圈,结果和直接问 AI 差不多。更糟的情况是,技能反而限制了模型本身的能力,输出质量不升反降。
没有评测,这些都只能靠感觉。42eval 把感觉变成数据。
如何启用
42plugin builtin enable 42plugin-eval
启用后你会获得:
- 命令行工具
42plugin eval — 适合批量操作和自动化
- 交互式技能
/42plugin-eval — 在 Claude Code 中使用,AI 引导你完成评测
核心方法:衡量技能的增量贡献
42eval 不问「输出好不好」,而是问「相比不用技能,输出多了什么」。
用同一道题考两遍——一遍让 AI「带着技能」答题,一遍让 AI「裸考」。然后对比两份答卷,逐条检查断言是通过还是失败。差值就是技能的真实贡献。
断言的四种分类
| 分类 | 检查什么 | 举例 |
|---|
| structure(结构) | 输出有没有特定的章节、表格 | 「包含 PICOS 五个章节标题」 |
| content(内容) | 有没有特定的实质性内容 | 「至少分析了 3 个核心实体」 |
| differential(差异化) | 没有技能就做不到的事 | 「使用了技能定义的三阶段分析法」 |
| quality(质量) | 整体输出质量是否达标 | 「给出了可执行的下一步建议」 |
其中 differential(差异化) 断言是重点——它检查的是「只有用了技能才会出现的东西」。
技能矩阵:四种技能类型
42eval 用一个 2×2 矩阵刻画技能的价值来源:AI 模型自身能力和技能编码的人类经验质量。
| 模型能力强 | 模型能力弱 |
|---|
| 人类经验高 | mastery(精通) | codification(规范) |
| 人类经验低 | leverage(杠杆) | scaffolding(脚手架) |
不同象限的技能,价值来源和评测策略不同。42plugin eval classify 会自动分析并推荐对应的评测策略。
断言健康度:评测你的评测
评测完成后,每条断言会被标记健康状态:
| 状态 | 含义 | 建议 |
|---|
| skill-differential | 带技能通过,裸考失败 | 保留——技能的核心贡献 |
| always-pass | 两侧都通过 | 替换——断言没有区分度 |
| always-fail | 两侧都失败 | 检查——断言可能不合理 |
| inverse | 裸考反而通过 | 排查——技能可能帮了倒忙 |
两种使用方式
方式一:在 Claude Code 中交互式评测
适合第一次使用或快速评测一个技能。
AI 会引导你完成完整流程:选择技能 → 自动分类 → 设计测试用例和断言 → 执行评测 → 生成报告。
方式二:命令行独立运行
适合批量评测或 CI 集成。
# 1. 给技能分类
42plugin eval classify <技能路径>
# 2. 初始化评测工作区
42plugin eval init <技能路径>
# 3. 编写测试用例(在 .42eval/技能名/cases/ 目录下创建 JSON 文件)
# 4. 运行评测
42plugin eval run <技能路径> -i 1
# 5. 查看统计摘要
42plugin eval benchmark <技能路径> -i 1
# 6. 生成可视化报告
42plugin eval report <技能路径> -i 1 --open
读懂评测结果
关键指标是 delta(增量)——用了技能后,断言通过率比不用技能高出多少。
| delta | 评价 | 含义 |
|---|
| > 30% | 优秀 | 技能价值非常显著 |
| 20–30% | 良好 | 技能有明确效果 |
| 10–20% | 及格 | 有一定帮助,还能优化 |
| < 10% | 不及格 | 技能可能需要重新设计 |
迭代改进
评测不是终点,而是改进的起点:
# 修改技能后重新快照
42plugin eval init <技能路径> --force
# 用新版本号跑第二轮评测
42plugin eval run <技能路径> -i 2
# 查看两轮之间的提升
42plugin eval benchmark <技能路径> -i 2
benchmark 会自动计算 version_delta(版本间增量),告诉你这次改进提升了多少。
命令速查
| 命令 | 说明 |
|---|
42plugin eval classify <路径> | 技能分类(属于哪个象限) |
42plugin eval init <路径> | 初始化评测工作区 |
42plugin eval init <路径> --force | 重新快照 |
42plugin eval run <路径> -i <轮次> | 运行完整评测 |
42plugin eval benchmark <路径> -i <轮次> | 查看统计摘要 |
42plugin eval report <路径> -i <轮次> --open | 生成并打开 HTML 报告 |
42plugin eval serve <路径> | 启动本地报告查看器 |
所有命令都支持 --json 输出。
42eval 需要 42plugin CLI 0.3.9 或更高版本。运行 42plugin upgrade 升级到最新版。
相关功能