You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

46 lines
4.9 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 春节加餐2 | 一次答疑,带你回顾模型评估的所有基础概念
你好,我是海丰。
今天是我们春节假期的第二篇加餐。这节课,我筛选出了一些常见的课后问题,对它们做了统一的整理,同时也对一些优质回答做了补充讲解,希望更多同学可以进行参考。
## 常见问题
问题1老师我总是容易弄混KS、PSI等很多指标。
我看到有很多同学提出类似的问题这些都是AI产品经理需要掌握的基础概念而且在接下来的项目实践篇都会涉及。所以这里我会把一些基础概念进行汇总希望能再帮你巩固一下。
![](https://static001.geekbang.org/resource/image/04/f1/042de3a6c71ed43796d8b2418aeaaff1.jpg)
最后我再补充解释一下OOT这个基础概念。OOT是跨时间测试使用的样本是和模型训练集验证集没有交集的样本目的是用来判断模型的泛化能力。我在[第3讲](https://time.geekbang.org/column/article/322393)提到过:
> 在我刚开始转做 AI 产品经理的时候,遇到过这么一件事儿,我们的用户年龄预测模型训练时候 的 KS 值(模型中用于区分预测正负样本分隔程度的评价指标)很高,但是 OOT 测试的时候 KS 还不足 10。当我拿着结果去找算法同学沟通的时候他就说了一句“可能是过拟合了我再改改”。
也有同学提问说“不明白为什么OOT过高就是模型样本选择的问题”我这里表达的意思其实不是OOT过高就是模型样本选择有问题而是说如果模型在验证集上的KS值不错但到了OOT测试的时候KS反而不好就说明可能是我们当时选择的样本不合理。比如训练和验证样本抽取的时间过早很多数据发生了变化这就导致模型在过去样本上表现好但在目前样本上不适用。
## 课后讨论题
问题2假设我们业务方 HR 团队希望你分析每一个员工的离职概率,你觉得用朴素贝叶斯合不合适?为什么?([12 | 朴素贝叶斯让AI告诉你航班延误险该不该买](https://time.geekbang.org/column/article/330159)
![](https://static001.geekbang.org/resource/image/69/ed/69523164a1700ccb735468520e1fd5ed.jpeg)
首先,我非常认可这位同学的观点。离职率的预测是一个非常复杂的模型,正常情况来说,只用朴素贝叶斯大概率是不够的。但作为产品经理,我们要回到场景上看问题,场景不同,选择的模型不同。因此,我认为对于这个问题,我们可以分为两个阶段来考虑。
第一个阶段快速响应从0到1。我们要结合成本来考量因为一般公司内部部门的诉求样本比较少并且他们对准确率的接受程度比较大他们在意的是从无到有。那么针对启动期没有效果指标可以参考的情况我们可以先用朴素贝叶斯来完成业务方从无到有的需求做到快速响应。
第二个阶段:根据实际情况,考虑资源倾斜。这个阶段,我们就要看模型的实际使用情况。不过,一般来说,内部部门的项目就到此为止。但如果你是在众包机构工作,就需要切实投入更多的资源,来训练一个模型解决资源倾斜的问题。
希望同学们可以根据我提供的思路,来继续深入思考一下这个问题。
问题3假设你们公司是做电商业务的现在领导打算让你做流失用户的召回你认为评估这个模型的指标都有哪些为什么[18 | 核心技能:产品经理评估模型需要关注哪些指标?](https://time.geekbang.org/column/article/337764)
![](https://static001.geekbang.org/resource/image/d9/32/d985b475a956c4dd2c506d6654a2bf32.jpeg)
这位同学的思路很好!下面,我们再来说一下我的思路。对于产品经理来说,我们首先需要明确做一件事情的目的是什么,领导预期达到的目标是怎么样的,然后明确指标的计算口径。
其次我们要明确这个问题属于什么问题。对于判断流失用户大部分场景都定义为分类问题。在实际操作中它也可能被当作一个回归问题来处理比如我们判断用户多久之后会流失。总的来说分类问题还是使用KS作为评估指标比较多。
最后,就是模型的评估。一般来说,我们给到业务评估指标会使用精确率和召回率,这是一对经常被同时使用的指标。这里,我还要提醒你一点,精确率和准确率是两个不一样的指标,它们的概念,我都总结在了刚才的脑图中,我们要记住。除此之外,因为流失用户在整个用户群体中占比不会太大,所以我们一般不使用准确率作为评估指标。
最后,春节假期就快结束了,我也希望这次加餐能帮助你做好准备,迎接新的挑战,我们节后再见!