技能越来越多,但哪个真的有用?42eval 用断言测试 + 盲测对比,量化每个技能的实际贡献。Documentation Index
Fetch the complete documentation index at: https://docs.42plugin.com/llms.txt
Use this file to discover all available pages before exploring further.
为什么需要评测技能?
一个技能可能让 AI 的输出结构更清晰,也可能只是多绕了一圈,结果和直接问 AI 差不多。更糟的情况是,技能反而限制了模型本身的能力,输出质量不升反降。 没有评测,这些都只能靠感觉。42eval 把感觉变成数据。如何启用
- 命令行工具
42plugin eval— 适合批量操作和自动化 - 交互式技能
/42plugin-eval— 在 Claude Code 中使用,AI 引导你完成评测
核心方法:衡量技能的增量贡献
42eval 不问「输出好不好」,而是问「相比不用技能,输出多了什么」。 用同一道题考两遍——一遍让 AI「带着技能」答题,一遍让 AI「裸考」。然后对比两份答卷,逐条检查断言是通过还是失败。差值就是技能的真实贡献。断言的四种分类
| 分类 | 检查什么 | 举例 |
|---|---|---|
| structure(结构) | 输出有没有特定的章节、表格 | 「包含 PICOS 五个章节标题」 |
| content(内容) | 有没有特定的实质性内容 | 「至少分析了 3 个核心实体」 |
| differential(差异化) | 没有技能就做不到的事 | 「使用了技能定义的三阶段分析法」 |
| quality(质量) | 整体输出质量是否达标 | 「给出了可执行的下一步建议」 |
技能矩阵:四种技能类型
42eval 用一个 2×2 矩阵刻画技能的价值来源:AI 模型自身能力和技能编码的人类经验质量。| 模型能力强 | 模型能力弱 | |
|---|---|---|
| 人类经验高 | mastery(精通) | codification(规范) |
| 人类经验低 | leverage(杠杆) | scaffolding(脚手架) |
42plugin eval classify 会自动分析并推荐对应的评测策略。
断言健康度:评测你的评测
评测完成后,每条断言会被标记健康状态:| 状态 | 含义 | 建议 |
|---|---|---|
| skill-differential | 带技能通过,裸考失败 | 保留——技能的核心贡献 |
| always-pass | 两侧都通过 | 替换——断言没有区分度 |
| always-fail | 两侧都失败 | 检查——断言可能不合理 |
| inverse | 裸考反而通过 | 排查——技能可能帮了倒忙 |
两种使用方式
方式一:在 Claude Code 中交互式评测
适合第一次使用或快速评测一个技能。方式二:命令行独立运行
适合批量评测或 CI 集成。读懂评测结果
关键指标是 delta(增量)——用了技能后,断言通过率比不用技能高出多少。| delta | 评价 | 含义 |
|---|---|---|
| > 30% | 优秀 | 技能价值非常显著 |
| 20–30% | 良好 | 技能有明确效果 |
| 10–20% | 及格 | 有一定帮助,还能优化 |
| < 10% | 不及格 | 技能可能需要重新设计 |
迭代改进
评测不是终点,而是改进的起点:命令速查
| 命令 | 说明 |
|---|---|
42plugin eval classify <路径> | 技能分类(属于哪个象限) |
42plugin eval init <路径> | 初始化评测工作区 |
42plugin eval init <路径> --force | 重新快照 |
42plugin eval run <路径> -i <轮次> | 运行完整评测 |
42plugin eval benchmark <路径> -i <轮次> | 查看统计摘要 |
42plugin eval report <路径> -i <轮次> --open | 生成并打开 HTML 报告 |
42plugin eval serve <路径> | 启动本地报告查看器 |
--json 输出。
42eval 需要 42plugin CLI 0.3.9 或更高版本。运行
42plugin upgrade 升级到最新版。相关功能
创建技能
使用元插件快速创作技能
多代理创作
多代理协作创建高质量技能