全部播客
AI Eval 是最热新技能 — Hamel Husain & Shreya Shankar
AI产品经理

AI Eval 是最热新技能 — Hamel Husain & Shreya Shankar

拆解AI Eval完整方法论:错误分析→轴向编码→LLM裁判→持续监控。为什么这是AI产品经理最重要的新技能,以及如何从今天开始实践。

📅 2026年3月21日 ⏱ 8:20 👤
AI EvalAI评估产品经理Lenny PodcastHamel HusainShreya ShankarLLM Judge错误分析AI产品
0:00 8:20

📝 Show Notes

🎯 🎯 什么是 Eval

  • Eval = 对AI应用进行系统性评估的方法
  • 核心问题:你怎么知道AI在真实场景中有没有犯错?
  • Vibe check不够——需要系统化的数据反馈
  • 构建AI产品,做Eval是ROI最高的活动

🔍 🔍 错误分析四步法

  • 第一步:打开日志,人工看100条对话记录
  • 第二步:给每条写具体note(不是"janky"而是"没有转人工")
  • 第三步:用AI做轴向编码——把notes分类
  • 第四步:透视表计数——从混沌到清晰的优先级

🤖 🤖 LLM 作为裁判

  • 裁判只判断一个特定问题,输出二元结果(对/错)
  • 不要用1-5分评分——那是逃避决策
  • 上线前必须用人工标注数据验证一致性
  • 大多数产品只需4-7个LLM裁判
  • 可用于单元测试和线上监控

⚡ ⚡ 关键洞见

  • 仁慈的独裁者:选一个最懂业务的人来做错误分析
  • 不要让AI自动做错误分析——它缺少业务上下文
  • Claude Code说不做Eval?他们站在eval肩膀上
  • Eval不是新东西——本质是数据科学思维在AI产品中的应用
  • 理论饱和:一直看到不再发现新问题类型为止

📋 📋 PM 实操建议

  • 今天就开始:随机抽50条AI对话日志,每条30秒写note
  • 第一个小时你一定能发现至少3个未知问题
  • 用AI辅助编程快速搭建标注工具
  • LLM裁判的prompt本质上是活的PRD
📬

想听什么?

告诉我你最感兴趣的话题,也许下期就是为你量身定做的