全部播客
AI产品经理
AI Eval 是最热新技能 — Hamel Husain & Shreya Shankar
拆解AI Eval完整方法论:错误分析→轴向编码→LLM裁判→持续监控。为什么这是AI产品经理最重要的新技能,以及如何从今天开始实践。
AI EvalAI评估产品经理Lenny PodcastHamel HusainShreya ShankarLLM Judge错误分析AI产品
0:00 8:20
在以下平台收听
📝 Show Notes
🎯 🎯 什么是 Eval
- Eval = 对AI应用进行系统性评估的方法
- 核心问题:你怎么知道AI在真实场景中有没有犯错?
- Vibe check不够——需要系统化的数据反馈
- 构建AI产品,做Eval是ROI最高的活动
🔍 🔍 错误分析四步法
- 第一步:打开日志,人工看100条对话记录
- 第二步:给每条写具体note(不是"janky"而是"没有转人工")
- 第三步:用AI做轴向编码——把notes分类
- 第四步:透视表计数——从混沌到清晰的优先级
🤖 🤖 LLM 作为裁判
- 裁判只判断一个特定问题,输出二元结果(对/错)
- 不要用1-5分评分——那是逃避决策
- 上线前必须用人工标注数据验证一致性
- 大多数产品只需4-7个LLM裁判
- 可用于单元测试和线上监控
⚡ ⚡ 关键洞见
- 仁慈的独裁者:选一个最懂业务的人来做错误分析
- 不要让AI自动做错误分析——它缺少业务上下文
- Claude Code说不做Eval?他们站在eval肩膀上
- Eval不是新东西——本质是数据科学思维在AI产品中的应用
- 理论饱和:一直看到不再发现新问题类型为止
📋 📋 PM 实操建议
- 今天就开始:随机抽50条AI对话日志,每条30秒写note
- 第一个小时你一定能发现至少3个未知问题
- 用AI辅助编程快速搭建标注工具
- LLM裁判的prompt本质上是活的PRD
📬
订阅播客速递
每周一封,不错过好内容
📬
想听什么?
告诉我你最感兴趣的话题,也许下期就是为你量身定做的