42plugin-eval

技能越来越多，但哪个真的有用？42eval 用断言测试 + 盲测对比，量化每个技能的实际贡献。

为什么需要评测技能？

一个技能可能让 AI 的输出结构更清晰，也可能只是多绕了一圈，结果和直接问 AI 差不多。更糟的情况是，技能反而限制了模型本身的能力，输出质量不升反降。没有评测，这些都只能靠感觉。42eval 把感觉变成数据。

如何启用

42plugin builtin enable 42plugin-eval

启用后你会获得：

命令行工具 42plugin eval — 适合批量操作和自动化
交互式技能 /42plugin-eval — 在 Claude Code 中使用，AI 引导你完成评测

核心方法：衡量技能的增量贡献

42eval 不问「输出好不好」，而是问「相比不用技能，输出多了什么」。用同一道题考两遍——一遍让 AI「带着技能」答题，一遍让 AI「裸考」。然后对比两份答卷，逐条检查断言是通过还是失败。差值就是技能的真实贡献。

断言的四种分类

分类	检查什么	举例
structure（结构）	输出有没有特定的章节、表格	「包含 PICOS 五个章节标题」
content（内容）	有没有特定的实质性内容	「至少分析了 3 个核心实体」
differential（差异化）	没有技能就做不到的事	「使用了技能定义的三阶段分析法」
quality（质量）	整体输出质量是否达标	「给出了可执行的下一步建议」

其中 differential（差异化） 断言是重点——它检查的是「只有用了技能才会出现的东西」。

技能矩阵：四种技能类型

42eval 用一个 2×2 矩阵刻画技能的价值来源：AI 模型自身能力和技能编码的人类经验质量。

	模型能力强	模型能力弱
人类经验高	mastery（精通）	codification（规范）
人类经验低	leverage（杠杆）	scaffolding（脚手架）

不同象限的技能，价值来源和评测策略不同。42plugin eval classify 会自动分析并推荐对应的评测策略。

断言健康度：评测你的评测

评测完成后，每条断言会被标记健康状态：

状态	含义	建议
skill-differential	带技能通过，裸考失败	保留——技能的核心贡献
always-pass	两侧都通过	替换——断言没有区分度
always-fail	两侧都失败	检查——断言可能不合理
inverse	裸考反而通过	排查——技能可能帮了倒忙

两种使用方式

方式一：在 Claude Code 中交互式评测

适合第一次使用或快速评测一个技能。

/42plugin-eval

AI 会引导你完成完整流程：选择技能 → 自动分类 → 设计测试用例和断言 → 执行评测 → 生成报告。

方式二：命令行独立运行

适合批量评测或 CI 集成。

# 1. 给技能分类
42plugin eval classify <技能路径>

# 2. 初始化评测工作区
42plugin eval init <技能路径>

# 3. 编写测试用例（在 .42eval/技能名/cases/ 目录下创建 JSON 文件）

# 4. 运行评测
42plugin eval run <技能路径> -i 1

# 5. 查看统计摘要
42plugin eval benchmark <技能路径> -i 1

# 6. 生成可视化报告
42plugin eval report <技能路径> -i 1 --open

读懂评测结果

关键指标是 delta（增量）——用了技能后，断言通过率比不用技能高出多少。

delta	评价	含义
> 30%	优秀	技能价值非常显著
20–30%	良好	技能有明确效果
10–20%	及格	有一定帮助，还能优化
< 10%	不及格	技能可能需要重新设计

迭代改进

评测不是终点，而是改进的起点：

# 修改技能后重新快照
42plugin eval init <技能路径> --force

# 用新版本号跑第二轮评测
42plugin eval run <技能路径> -i 2

# 查看两轮之间的提升
42plugin eval benchmark <技能路径> -i 2

benchmark 会自动计算 version_delta（版本间增量），告诉你这次改进提升了多少。

命令速查

命令	说明
`42plugin eval classify <路径>`	技能分类（属于哪个象限）
`42plugin eval init <路径>`	初始化评测工作区
`42plugin eval init <路径> --force`	重新快照
`42plugin eval run <路径> -i <轮次>`	运行完整评测
`42plugin eval benchmark <路径> -i <轮次>`	查看统计摘要
`42plugin eval report <路径> -i <轮次> --open`	生成并打开 HTML 报告
`42plugin eval serve <路径>`	启动本地报告查看器

所有命令都支持 --json 输出。

42eval 需要 42plugin CLI 0.3.9 或更高版本。运行 42plugin upgrade 升级到最新版。

创建技能

使用元插件快速创作技能

多代理创作

多代理协作创建高质量技能

开始使用

发现你的插件

使用插件

成为创作者

进阶玩法

你的工具箱

升级 Pro

参考

为什么需要评测技能？

如何启用

核心方法：衡量技能的增量贡献

断言的四种分类

技能矩阵：四种技能类型

断言健康度：评测你的评测

两种使用方式

方式一：在 Claude Code 中交互式评测

方式二：命令行独立运行

读懂评测结果

迭代改进

命令速查

相关功能

创建技能

多代理创作

开始使用

发现你的插件

使用插件

成为创作者

进阶玩法

你的工具箱

升级 Pro

参考

Documentation Index

​为什么需要评测技能？

​如何启用

​核心方法：衡量技能的增量贡献

​断言的四种分类

​技能矩阵：四种技能类型

​断言健康度：评测你的评测

​两种使用方式

​方式一：在 Claude Code 中交互式评测

​方式二：命令行独立运行

​读懂评测结果

​迭代改进

​命令速查

​相关功能

创建技能

多代理创作

为什么需要评测技能？

如何启用

核心方法：衡量技能的增量贡献

断言的四种分类

技能矩阵：四种技能类型

断言健康度：评测你的评测

两种使用方式

方式一：在 Claude Code 中交互式评测

方式二：命令行独立运行

读懂评测结果

迭代改进

命令速查

相关功能