Skip to main content
技能越来越多,但哪个真的有用?42eval 用断言测试 + 盲测对比,量化每个技能的实际贡献。

为什么需要评测技能?

一个技能可能让 AI 的输出结构更清晰,也可能只是多绕了一圈,结果和直接问 AI 差不多。更糟的情况是,技能反而限制了模型本身的能力,输出质量不升反降。 没有评测,这些都只能靠感觉。42eval 把感觉变成数据。

如何启用

42plugin builtin enable 42plugin-eval
启用后你会获得:
  • 命令行工具 42plugin eval — 适合批量操作和自动化
  • 交互式技能 /42plugin-eval — 在 Claude Code 中使用,AI 引导你完成评测

核心方法:衡量技能的增量贡献

42eval 不问「输出好不好」,而是问「相比不用技能,输出多了什么」。 用同一道题考两遍——一遍让 AI「带着技能」答题,一遍让 AI「裸考」。然后对比两份答卷,逐条检查断言是通过还是失败。差值就是技能的真实贡献。

断言的四种分类

分类检查什么举例
structure(结构)输出有没有特定的章节、表格「包含 PICOS 五个章节标题」
content(内容)有没有特定的实质性内容「至少分析了 3 个核心实体」
differential(差异化)没有技能就做不到的事「使用了技能定义的三阶段分析法」
quality(质量)整体输出质量是否达标「给出了可执行的下一步建议」
其中 differential(差异化) 断言是重点——它检查的是「只有用了技能才会出现的东西」。

技能矩阵:四种技能类型

42eval 用一个 2×2 矩阵刻画技能的价值来源:AI 模型自身能力技能编码的人类经验质量
模型能力强模型能力弱
人类经验高mastery(精通)codification(规范)
人类经验低leverage(杠杆)scaffolding(脚手架)
不同象限的技能,价值来源和评测策略不同。42plugin eval classify 会自动分析并推荐对应的评测策略。

断言健康度:评测你的评测

评测完成后,每条断言会被标记健康状态:
状态含义建议
skill-differential带技能通过,裸考失败保留——技能的核心贡献
always-pass两侧都通过替换——断言没有区分度
always-fail两侧都失败检查——断言可能不合理
inverse裸考反而通过排查——技能可能帮了倒忙

两种使用方式

方式一:在 Claude Code 中交互式评测

适合第一次使用或快速评测一个技能。
/42plugin-eval
AI 会引导你完成完整流程:选择技能 → 自动分类 → 设计测试用例和断言 → 执行评测 → 生成报告。

方式二:命令行独立运行

适合批量评测或 CI 集成。
# 1. 给技能分类
42plugin eval classify <技能路>

# 2. 初始化评测工作区
42plugin eval init <技能路>

# 3. 编写测试用例(在 .42eval/技能名/cases/ 目录下创建 JSON 文件)

# 4. 运行评测
42plugin eval run <技能路> -i 1

# 5. 查看统计摘要
42plugin eval benchmark <技能路> -i 1

# 6. 生成可视化报告
42plugin eval report <技能路> -i 1 --open

读懂评测结果

关键指标是 delta(增量)——用了技能后,断言通过率比不用技能高出多少。
delta评价含义
> 30%优秀技能价值非常显著
20–30%良好技能有明确效果
10–20%及格有一定帮助,还能优化
< 10%不及格技能可能需要重新设计

迭代改进

评测不是终点,而是改进的起点:
# 修改技能后重新快照
42plugin eval init <技能路> --force

# 用新版本号跑第二轮评测
42plugin eval run <技能路> -i 2

# 查看两轮之间的提升
42plugin eval benchmark <技能路> -i 2
benchmark 会自动计算 version_delta(版本间增量),告诉你这次改进提升了多少。

命令速查

命令说明
42plugin eval classify <路径>技能分类(属于哪个象限)
42plugin eval init <路径>初始化评测工作区
42plugin eval init <路径> --force重新快照
42plugin eval run <路径> -i <轮次>运行完整评测
42plugin eval benchmark <路径> -i <轮次>查看统计摘要
42plugin eval report <路径> -i <轮次> --open生成并打开 HTML 报告
42plugin eval serve <路径>启动本地报告查看器
所有命令都支持 --json 输出。
42eval 需要 42plugin CLI 0.3.9 或更高版本。运行 42plugin upgrade 升级到最新版。

相关功能