贝叶斯算法

2024-05-19 11:34

1. 贝叶斯算法

贝叶斯算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。
在许多场合，朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。

由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值，而此假设在实际情况中经常是不成立的，因此其分类准确率可能会下降。为此，就衍生出许多降低独立性假设的贝叶斯分类算法，如TAN（tree augmented Bayes network）算法。
TAN算法树增强型朴素贝叶斯算法
TAN算法通过发现属性对之间的依赖关系来降低NB中任意属性之间独立的假设。它是在NB网络结构的基础上增加属性对之间的关联来实现的。实现方法是：用结点表示属性，用有向边表示属性之间的依赖关系，把类别属性作为根结点，其余所有属性都作为它的子节点。

通常，用虚线代表NB所需的边，用实线代表新增的边。属性Ai与Aj之间的边意味着属性Ai对类别变量C的影响还取决于属性Aj的取值。这些增加的边需满足下列条件：类别变量没有双亲结点，每个属性有一个类别变量双亲结点和最多另外一个属性作为其双亲结点。
由于在TAN算法中考虑了n个属性中（n-1）个两两属性之间的关联性，该算法对属性之间独立性的假设有了一定程度的降低，但是属性之间可能存在更多其它的关联性仍没有考虑，因此其适用范围仍然受到限制。

贝叶斯算法

2. 贝叶斯算法是？

贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯(Naïve Bayes，NB)分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。
由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值，而此假设在实际情况中经常是不成立的，因此其分类准确率可能会下降。为此，就衍生出许多降低独立性假设的贝叶斯分类算法，如TAN(tree augmented Bayes network)算法。

相关信息：
TAN算法通过发现属性对之间的依赖关系来降低NB中任意属性之间独立的假设。它是在NB网络结构的基础上增加属性对之间的关联(边)来实现的。
实现方法是：用结点表示属性，用有向边表示属性之间的依赖关系，把类别属性作为根结点，其余所有属性都作为它的子节点。通常，用虚线代表NB所需的边，用实线代表新增的边。属性Ai与Aj之间的边意味着属性Ai对类别变量C的影响还取决于属性Aj的取值。

3. 朴素贝叶斯算法

 贝叶斯算法是由英国数学家托马斯·贝叶斯提出的，这个算法的提出是为了解决“逆向概率”的问题。首先我们先来解释下正向概率与逆向概率的含义：
                                            正向概率 ：假设一个箱子里有5个黄色球和5个白色球，随机从箱子里拿出一个球，请问取出的是黄球的概率是多少？很容易计算P（黄球）= N（黄球）/N（黄球）+ N（白球） = 5/5+5 = 1/2。    逆向概率 ：起初我们并不知道箱子里有多少个球，我们依次从箱子里取出10个球，发现这个10个球中有7个白球，3个黄球，那么我们会根据我们观察到的结果去推测箱子里白球与黄球的分布比例大概是7:3，但是我们无法推测出箱子里的球的个数。
   贝叶斯算法是一种基于概率统计的机器学习算法，它会计算出每种情况发生的概率，然后对其进行分类，贝叶斯算法经常用于文本分类问题和垃圾邮件过滤问题。假设有一篇新闻报道news report，我们使用贝叶斯算法来判断它们的类别，结果如下：   p(politics|news) = 0.2   p(entertainment|news) = 0.4   p(sports|news) = 0.7   因为p(sports|news)的概率最大，所以我们判断这篇新闻报道为体育类报道。“|”左边为要判断的类别，右边是我们给定的文章。
    贝叶斯公式推导    接下来，我们将通过一个例子来推导贝叶斯公式。在一所学校里，男生和女生的比例分别是60%和40%，男生全部穿长裤，女生一半穿长裤，一半穿裙子。现迎面走来一个同学，你只能看清他（她）穿的是长裤，而无法分辨出他（她）的性别，请问他（她）是女生的概率？   
                                           
   下面我们逐步计算这个问题：   假设学校里的学生总数为N。   男生人数：N * P(boys)，女生人数：N * P(girls)。   穿长裤的男生人数：N * P(boys) * P(pants|boys)，其中P(pants|boys)是条件概率的表达形式，意思是男生中穿长裤的概率。因为男生都穿长裤，所以N * P(boys) * P(pants|boys) = 60% * N。   穿长裤的女生的人数：N * P(girs) * P(pants|girls) = 0.2 * N。   穿长裤的总人数：N * P(boys) * P(pants|boys) + N * P(girs) * P(pants|girls)   穿长裤的同学是女生的概率：P(girl|pants) = N * P(girs) * P(pants|girls) / N * P(boys) * P(pants|boys) + N * P(girs) * P(pants|girls) = P(girs)*P(pants|girls) / P(pants)，分母用P(pants)表示穿长裤的概率。   最终结果：P(girl | pants) = P(pants | girl) * P(girl) / P(pants)   其中：P(girl)我们称为先验概率，是已知值，在这个例子中P(girl) = 40%。先验概率：根据以往的经验和分析得到的结果，先验概率和其他条件的影响不受样本影响。   P(girl | pants)我们称为后验概率，根据观察到的结果，去反推是女生的概率。    贝叶斯数学表达式    
                                           
    贝叶斯算法在垃圾邮件过滤中的应用    给定一封邮件，判定它是否属于垃圾邮件？用D 来表示这封邮件，注意D 由N 个单词组成。我们用h+ 来表示垃圾邮件，h-表示正常邮件。   有贝叶斯公式可得：   P(h+ | D) = P(D | h+) * P(h+) / P(D)   P(h- | D) = P(D | h-) * P(h-) / P(D)   其中P(h+)，P(h-)为先验概率，假如我们有1000封邮件，其中有50封是垃圾邮件，其他都是正常邮件，那么P(h+)，P(h-)的概率就是已知的。两个式子的分母都是P(D)，所以P(D)对于最终结果的比较是没有影响的。接下来就是要求P(D | h+),P(D | h-)垃圾邮件中或正常邮件中是邮件D的概率。   我们都知道一封邮件是由许多词构成的，所以我们将P(D | h+)的表达式转化为P(d1,d2,d3......dn | h+)，就是看垃圾邮件中出现d1,d2...dn这些词的概率是多少。   P(d1,d2,d3......dn | h+) = P(d1 | h+) * P(d2 |d1,h+) * P(d3 |d1,d2,h+) ...   这个式子计算起来非常困难，所以在这里我们做一个假设，假设每个词都是独立的并且互不影响，那么这个式子就可以表示为：   P(d1,d2,d3......dn | h+) = P(d1 | h+) * P(d2 | h+) * P(d3 | h+) ...P(dn | h+)   P(h+ | D) =  {P(d1 | h+) * P(d2 | h+) * P(d3 | h+) ...P(dn | h+)}* P(h+) / P(D)   上述这个式子我们就称为朴素贝叶斯公式，朴素贝叶斯公式是对贝叶斯公式的简化，它建立在每个条子互相独立的基础上。   在现实生活中，我们写的每一句话中词与词之间肯定是有相互联系，如果没有联系，那么这句话是读不通的。那么为什么朴素贝叶斯能够在计算中使用，首先是计算简单，其次对最终结果的影响非常小。    参考资料    1.唐宇迪，《机器学习与数据分析实战》课程。   2.Peter，《机器学习实战》。

朴素贝叶斯算法

4. 贝叶斯算法是什么?

贝叶斯算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯（Naïve Bayes，NB)分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。
由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值，而此假设在实际情况中经常是不成立的，因此其分类准确率可能会下降。为此，就衍生出许多降低独立性假设的贝叶斯分类算法，如TAN(tree augmented Bayes network)算法。


贝叶斯算法的主要步骤：
1、收集大量的垃圾邮件和非垃圾邮件，建立垃圾邮件集和非垃圾邮件集。
2、提取邮件主题和邮件体中的独立字符串，例如ABC32，￥234等作为TOKEN串并统计提取出的TOKEN串出现的次数即字频。按照上述的方法分别处理垃圾邮件集和非垃圾邮件集中的所有邮件。
3、每一个邮件集对应一个哈希表，hashtable_good对应非垃圾邮件集而hashtable_bad对应垃圾邮件集。表中存储TOKEN串到字频的映射关系。

5. 贝叶斯分类算法的介绍

贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯(Naïve Bayes，NB)分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值，而此假设在实际情况中经常是不成立的，因此其分类准确率可能会下降。为此，就衍生出许多降低独立性假设的贝叶斯分类算法，如TAN(tree augmented Bayes network)算法。

贝叶斯分类算法的介绍

6. 贝叶斯分类算法的基本步骤

主要有以下7个步骤：1. 收集大量的垃圾邮件和非垃圾邮件，建立垃圾邮件集和非垃圾邮件集。2. 提取邮件主题和邮件体中的独立字符串，例如 ABC32，￥234等作为TOKEN串并统计提取出的TOKEN串出现的次数即字频。按照上述的方法分别处理垃圾邮件集和非垃圾邮件集中的所有邮件。3. 每一个邮件集对应一个哈希表，hashtable_good对应非垃圾邮件集而hashtable_bad对应垃圾邮件集。表中存储TOKEN串到字频的映射关系。4. 计算每个哈希表中TOKEN串出现的概率P=（某TOKEN串的字频）/（对应哈希表的长度）。5. 综合考虑hashtable_good和hashtable_bad，推断出当新来的邮件中出现某个TOKEN串时，该新邮件为垃圾邮件的概率。数学表达式为：A 事件 ---- 邮件为垃圾邮件；t1,t2 …….tn 代表 TOKEN 串则 P （ A|ti ）表示在邮件中出现 TOKEN 串 ti 时，该邮件为垃圾邮件的概率。设P1 （ ti ） = （ ti 在 hashtable_good 中的值）P2 （ ti ） = （ ti 在 hashtable_ bad 中的值）则 P （ A|ti ） =P2 （ ti ） /[ （ P1 （ ti ） +P2 （ ti ） ] ；6. 建立新的哈希表hashtable_probability存储TOKEN串ti到P（A|ti）的映射7. 至此，垃圾邮件集和非垃圾邮件集的学习过程结束。根据建立的哈希表 hashtable_probability可以估计一封新到的邮件为垃圾邮件的可能性。当新到一封邮件时，按照步骤2，生成TOKEN串。查询hashtable_probability得到该TOKEN 串的键值。假设由该邮件共得到N个TOKEN 串，t1,t2…….tn,hashtable_probability中对应的值为 P1 ， P2 ， ……PN ， P(A|t1 ,t2, t3……tn) 表示在邮件中同时出现多个TOKEN串t1,t2……tn时，该邮件为垃圾邮件的概率。由复合概率公式可得P(A|t1 ,t2, t3……tn)=（P1*P2*……PN）/[P1*P2*……PN+（1-P1）*（1-P2）*……（1-PN）]当 P(A|t1 ,t2, t3……tn) 超过预定阈值时，就可以判断邮件为垃圾邮件。

7. 04 贝叶斯算法 - 贝叶斯网络

  01 贝叶斯算法 - 朴素贝叶斯     02 贝叶斯算法 - 案例一 - 鸢尾花数据分类     03 贝叶斯算法 - 案例二 - 新闻数据分类 
   之前聚类算法中讲了 无向图 的聚类算法 -  谱聚类 。    13 聚类算法 - 谱聚类 
   本章介绍的贝叶斯算法是 有向图 的聚类算法。
    区别:     谱聚类 的无向图里的点里放的是 样本 。    贝叶斯网络 的有向图的点里放的是 样本的特征 。
   把某个研究系统中涉及到的 随机变量 ，根据是否条件独立绘制在一个有向图中，就形成了贝叶斯网络。 贝叶斯网络(Bayesian Network) ，又称有向无 环图模型 (directed acyclic graphical model, DAG)；
    贝叶斯网络  是一种概率图模型，根据概率图的拓扑结构，考察一组随机变量：{X1,X2,...,Xn}及其N组条件概率分布(Conditional ProbabililtyDistributions, CPD)的性质。
   当多个特征属性之间 存在着某种相关关系 的时候，使用朴素贝叶斯算法就没法解决这类问题，那么贝叶斯网络就是解决这类应用场景的一个非常好的算法。
    分析:  很好理解上面的概念，先回顾下面的算法，朴素贝叶斯算法要求的是互相独立的事件形成出x1~xn，这些特征彼此概率互不影响，所以才能求出联合概率密度。贝叶斯网络算法就是来解决有关联的特征组成的样本分类的。
                                           一般而言，贝叶斯网络的有向无环图中的节点表示随机变量，可以是可观察到的变量，或隐变量，未知参数等等。连接两个节点之间的箭头代表两个随机变量之间的因果关系(也就是这两个随机变量之间非条件独立)；如果两个节点间以一个单箭头连接在一起，表示其中一个节点是“因”，另外一个节点是“果”，从而两节点之间就会产生一个条件概率值。
    PS： 每个节点在给定其直接前驱的时候，条件独立于其非后继。
                                           贝叶斯网络的关键方法是图模型，构建一个图模型我们需要把具有因果联系的各个变量用箭头连在一起。贝叶斯网络的有向无环图中的节点表示随机变量。连接两个节点的箭头代表此两个随机变量是具有因果关系的。     
   贝叶斯网络是模拟人的认知思维推理模式的，用一组条件概率以及有向无环图对不确定性因果推理关系建模。     
   目标，求P(a,b,c)   a的概率和任何别的特征都无关，所以先求a的概率:P(a);   b的生成和a有关。即a发生的情况下，b发生的概率：P(b|a);   c的生成和a、b有关。即a和b同事发生的情况下，c发生的概率。P(c|a,b);
                                                                                                                           有一天早晨，白尔摩斯离开他的房子的时候发现他家花园中的草地是湿的，有两种可能，第一：昨天晚上下雨了，第二：他昨天晚上忘记关掉花园中的喷水器，接下来，他观察他的邻居华生，发现他家花园中的草地也是湿的，因此，他推断，他家的草地湿了是因为昨天晚上下雨的缘故。
                                                                                   那么在贝叶斯网络中，哪些条件下我们可以认为是条件独立的？
    条件一：    在C给定的条件下，a和b被阻断(blocked)是独立的。   即只要C给定了，a、b就独立。   条件独立：tail - to -tail
                                            条件二：    在C给定的条件下，a和b被阻断(blocked)是独立的。   条件独立：head- to -tail
                                            条件三：    在C未知的情况下，a和b被阻断(blocked)，是独立的。   条件独立：head - to - head

04 贝叶斯算法 - 贝叶斯网络

8. 贝叶斯分类算法的分类算法

关联规则挖掘是数据挖掘研究的一个重要的、高度活跃的领域。近年来，数据挖掘技术己将关联规则挖掘用于分类问题，取得了很好的效果。 CBA(classification based on association)是基于关联规则发现方法的分类算法。该算法分两个步骤构造分类器。第一步：发现所有形如xi1∧x => Ci 的关联规则，即右部为类别属性值的类别关联规则(classification association rules，CAR)。第二步：从已发现的CAR中选择高优先度的规则来覆盖训练集，也就是说，如果有多条关联规则的左部相同，而右部为不同的类，则选择具有最高置信度的规则作为可能规则。文献[4]对该过程进行了较深入的研究，使得算法在此步骤不需要对训练数据集进行过多的扫描。CBA算法的优点是其分类准确度较高，在许多数据集上比C4.5更精确。此外，上述两步都具有线性可伸缩性。 CBA(Classification Based on Association)是关联分类。此算法把分类规则挖掘和关联规则挖掘整合到一起。与CART和C4.5只产生部分规则不同的是,CBA产生所有的类关联规则CARs(Class Association Rules)，然后选择最好的规则去覆盖训练集。另外，在此算法的框架中，数据库可以驻留在磁盘中CAEP使用项集支持度挖掘HV露模式(Emerging Pattern), 而EP用于构造分类。CAEP找出满足给定支持度和增长率阈值的EP。已经发现，在许多数据集上，CAEP比C4.5和基于关联的分类更精确。一种替代的、基于跳跃的HV露模式JEP(Jnmping Emerging Pattern)是一种特殊类型的EP，项集的支持度由在一个数据集中的0陡峭地增长到另一个数据集中的非0。在一此大的多维数据库中，JEP性能优于CAEP, 但在一些小型数据库中，CAEP比JEP优，这二种分类法被认为是互补的。 CPAR(Classification Based on Predictive Association Rules)整合了关联规则分类和传统的基于规则分类的优点。为避免过度适合，在规则生成时采用贪心算法，这比产生所有候选项集的效率高;采用一种动态方法避免在规则生成时的重复计算;采用顶期精确性评价规则，并在预测时应用最优的规则，避免产生冗余的规则。另外，MSR(Minimnm Set Rule)针对基于关联规则分类算法中产生的关联规则集可能太大的问题，在分类中运用最小关联规则集。在此算法中，CARS并不是通过置信度首先排序，因为高置信度规则对噪声是很敏感的。采用早期剪枝力方法可减少关联规则的数量，并保证在最小集中没有不相关的规则。实验证实，MSR比C45和CBA的错误率要低得多。