贝叶斯模型(贝叶斯在实际应用简单举例)

说到贝叶斯模型,即使是不从事数据分析的人也应该有所耳闻,因为它的应用范围非常广泛,大数据、机器学习、数据挖掘、数据分析等几乎所有领域都可以找到它的身影,甚至我们在金融投资、日常生活中也可以用到它,但真正了解这个模型的人却很少。

贝叶斯模型是什么?

在介绍贝叶斯模型之前,我们先来看一个经典的贝叶斯数据挖掘案例:

如果你在一家购房中介公司工作,今天有八个客户来和你沟通购房事宜,最后你把这八个客户的信息录入系统:

贝叶斯模型(贝叶斯在实际应用简单举例)

这时候又有一个客户进来了,你通过沟通得到了这个客户的信息:

贝叶斯模型(贝叶斯在实际应用简单举例)

所以你能判断这个客户会不会买你的房子吗?

如果你没有接触过贝叶斯理论,你会认为原来的8个客户中只有3个买了房,5个没有,那么新客户的买房意愿应该只有3/8。

这代表了传统的频率理论,就像抛硬币一样。如果扔硬币100次,50次都是正面,可以得出结论,硬币朝上的概率永远是50%。该值是固定的,不会改变。例子中的8个客户相当于重复测试了8次,结果基本代表了后续所有重复测试的结果,即之后所有客户买房的概率基本都是3/8。

但是这个时候,你觉得好像有点不对劲。不同的客户条件不同,买房的概率也不同。一个趋势结果如何代表所有客户?

没错!这就是贝叶斯理论的思想。简单来说,就是在条件已知的前提下,先设定一个假设,然后通过先验实验来更新这个概率。每个不同的实验都会带来不同的概率。这是贝叶斯公式:

贝叶斯模型(贝叶斯在实际应用简单举例)

根据这个公式,我们可以完美地解决上面的例子:

先搞清楚在年龄、性别、收入、婚姻状况四个维度上买房和不买房的概率:

年龄

p(B1 | A1):30到40买房的概率是1/3。

p(B1 | A2):30到40不买房的概率是2/5。

收入

P (B2 | A1)-20-40买房的概率是2/3。

p(B2 | A2)——20岁到40岁不买房的概率是2/5。

婚姻状况

p(B3 | A1)-不结婚买房的概率是1/3

p(B3 | A2)-不结婚不买房的概率是3/5。

性别:

p(B4 | A1)-女人买房的概率是1/3。

p(B4 | A2)-女性不买房的概率是1/5。

好了,现在把所有数据代入贝叶斯公式进行积分:

新用户买房的统计概率为P(B | A1)P(A1)= 0.33 * 0.66 * 0.33 * 0.33 * 3/8 = 0.0089。

新用户不买房的统计概率为P(B | A2)P(A2)= 0.4 * 0.4 * 0.6 * 0.2 * 5/8 = 0.012。

所以可以得出结论,新用户不买房的概率更大。

如何制作贝叶斯模型

贝叶斯工作流可以分为三个阶段:准备阶段、分类器训练阶段和应用阶段。

贝叶斯模型(贝叶斯在实际应用简单举例)

1.准备阶段:

这一阶段的任务是为朴素贝叶斯分类做必要的准备。主要工作是根据具体情况确定特征属性,对每个特征属性进行适当划分,去除高度相关的属性,然后对一些待分类的项目进行人工分类,形成训练样本集。

这个阶段的输入是所有要分类的数据,输出是特征属性和训练样本。(相当于上例中八个客户的信息,这一步需要手工整合)

2.分类器训练阶段:

这个阶段的任务是生成分类器。主要工作是通过每个特征属性划分,计算每个类别在训练样本中的出现频率,估计每个类别的条件概率,并记录结果。它的输入是特征属性和训练样本,输出是分类器。

这个阶段是一个机械阶段,可以由程序根据前面讨论的公式自动计算出来。

3.申请阶段:

这个阶段的任务是使用分类器对待分类的项目进行分类。它的输入是分类器和待分类项,输出是待分类项和类别之间的映射关系。

这个阶段也是机械阶段,由程序完成。

贝叶斯的优缺点是什么?

贝叶斯模型有四个优点,即:

贝叶斯模型发源于古典数学理论,有稳定的分类效率。对缺失数据不太敏感,算法也比较简单,常用于文本分类。分类准确度高,速度快。对小规模的数据表现很好,能处理多分类任务,适合增量式训练,当数据量超出内存时,我们可以一批批的去增量训练

贝叶斯模型有三个缺点,即:

对训练数据的依赖性很强,如果训练数据误差较大,那么预测出来的效果就会不佳。在实际中,属性个数比较多或者属性之间相关性较大时,分类效果不好。需要知道先验概率,且先验概率很多时候是基于假设或者已有的训练数据所得的,这在某些时候可能会因为假设先验概率的原因出现分类决策上的错误。

贝叶斯模型(贝叶斯在实际应用简单举例)

作战数据分析中的贝叶斯陷阱

通过以上案例,大家一定对贝叶斯定律有了一定的了解。贝叶斯在运营中有什么应用?说实话,直到在恢复日常活动中发了下面这个案例,我才知道贝氏在操作中能起到多大的作用。

我们经常举办一些训练营,分为招募期和课程期。我们会在招聘过程中投放很多渠道,结束后我们会做一个复招报告。

在复检的过程中,我们发现了一个有趣的数据。在我们训练营的用户画像调查中,大部分有1-3年工作经验的开发者占到了70%以上。因此,在每份活动恢复报告中,我们将进行如下分析:

参与活动的大部分开发者都有1-3年的工作经验,这说明我们的课程内容对这类开发者更有吸引力,我们可以针对这类开发者优化课程设计。

那么,你有没有发现这个数据的重新分析有什么问题?

我们训练营用户的工作年限大多是1-3年,这是一个结果,我们只分析了这个结果。那么根据贝叶斯定律,很明显我们忽略了导致这个结果的前提条件。忽视这个前提,最终可能会影响我们对整个事情的判断。这个前提是:我们的投放渠道。

我们投放渠道覆盖的用户工作年限是多少?如果这个活动的渠道覆盖的用户多是有1-3年工作经验的开发者,自然报名参加训练营的用户也会是这个群体,那么我们的复盘是错误的,并不代表我们的课程对工作1-3年的开发者更有吸引力。

如果我们分发渠道的用户分布是均匀的,事件中注册用户的分布如上,那么我们对复盘的总结是有意义的。

在认识到上述因素后,我们在后续活动的数据模型中加入了分销渠道用户画像的收集,以提高数据的完整性,避免原来错误的分析结论。

所以,以上就是贝叶斯定律在日常经营活动中的应用。掌握贝叶斯的理论可以防止我们在运营活动中做出错误的数据分析,避免被错误的数据误导,影响运营策略。

来源:数据分析不是个东西

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。系信息发布平台,仅提供信息存储空间服务。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

本文来自网络,若有侵权,请联系删除,作者:陈原,如若转载,请注明出处:

发表回复

登录后才能评论