AI 下半场:聊透 Benchmark 与 Evaluation | 对谈前 Kimi 产品经理丁丁

活动预告🥳:5 月 24 日,我们会请到丁丁和 Fellou 创始人谢扬办一场线上活动,大家记得翻到 shownotes 末尾查看报名信息!像 RL 这个概念一样,Benchmark 和 Evaluation 也是做 AI 的人经常挂在嘴边的词,但到底该怎么理解这个概念,该如何正确的设定这些问题和数值呢?正巧前不久 OpenAI 研究员姚顺雨的那篇《AI 即将进入下半场》特别火,他核心讲的就是「我们当下已经进入了 AI 的第二阶段——从解决问题转向定义问题,评估的意义会超过训练本身。而这其中,评估最关键的不是设置更难的基准测试,而是要在实际落地的场景中重新设计一套实用的评估标准」。所以这期我们请到了前 Kimi 产品经理丁丁,从她在大模型公司一年多的实践经验出发,请她分享些对于 Benchmark 和 Evaluation 的思考,相信大多数人听完这期都会对这些概念有更深的理解,也可以开始自己设定一些评估问题和标准了。P.S. 丁丁之前曾在微信做过 5 年的搜索产品,也在美团做过策略产品,所以在节目最后她也分享了一些从古典产品转型 AI 产品经理的心得。【人类博物馆】导游:曲凯,42章经创始人34 号珍藏:丁丁,前微信、美团、Moonshot 产品(负责 Kimi App)【时光机】 1:27 进入 AI 下半场,「重新定义 Benchmark」比「刷榜提分」更关键 3:23 回顾 AI 上半场,国内大模型公司的发展重心历经了哪些变化? 5:51 一味追求 DAU 是一种偷懒的经验主义 7:07 数据固然重要,但更多的用户数据 ≠ 更好的模型智能 9:28 如果你是梁文锋,你要不要承接这波泼天的用户? 9:59 Evaluation 和 Benchmark 是拉开模型差距的一大关键 14:40 对于没有标准答案的问题,该怎么制定 Benchmark? 17:55 怎么衡量 Benchmark 的好坏? 22:14 创业公司的 Benchmark 有多少道题比较合理? 22:38 能通过高频的用户 Prompt 反推出一套 Benchmark 吗? 24:23 让模型「突出长板」好,还是「全面均衡」好? 25:42 以 C.AI 类产品为例,示范一下该怎么设计 Benchmark 29:28 Benchmark 是团队的核心机密,算法同学都不应该告诉 30:07 AI 产品经理和古典产品经理有什么异同? 31:49 怎么更好地理解模型边界? 33:38 未来每个人都要具备全栈能力 35:38 做微信产品积累下来的 knowhow 39:52 分享一些招 AI 产品经理的标准【Reference】 OpenAI Agent Researcher 姚顺雨的最新博客内容,探讨了 AI 发展的「下半场」:ysymyth.github.io 一个顶级 AI 产品经理的自我修养 | 对谈光年之外产品负责人 Hidecloud【活动预告🥳】5 月 24 日,我们会办一场线上活动。感兴趣的朋友欢迎点击链接或扫描下面的二维码,一起来认识&交流!【The gang that made this happen】 制作人:陈皮、Celia 剪辑:陈皮 Bgm:Mondo Bongo - Joe Strummer & The Mescaleros

Om Podcasten

你好,我是曲凯,42章经的创始人。 小的时候我不太舍得花钱,记得当年一毛钱一袋的牛肉干真的很好吃,但如果偶尔遇到一个很有趣的人,我会欣然花几十、上百块请他吃个饭,还觉得自己赚到了。 后来长大了一些,开始刷人人网、豆瓣、知乎、再到现在的即刻…… 你有没有偶尔在这些平台刷到过一个很有缘的人,然后在一个夏日的午后,把他的发言、转载和收藏全都看了一遍,并觉得心有戚戚焉。 再后来工作和创业以后,每天就是聊各种各样的投资人、创业者。 如果能聊到一个优秀的人,真的会有一种如沐春风的感觉,并真心觉得很幸福。 而同行们见面经常会聊到的问题也是:最近有没有遇到什么有意思的人? 所以,这个播客就是要努力把这些人带到你的身边。 我们只专注和有趣、有独到认知、又愿意坦诚分享的聪明人聊天。 希望你听完每一期都能回到小时候,回到那个因为认识了有趣的人、收获了新知,而感到单纯美好幸福的时刻。 如果听完以后,你还能暗自感慨一句, “我也好想认识这个人啊。” 或者, “哇靠,有被启发到。” 那这个播客也就值了。