博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
分类(一):朴素贝叶斯文本分类
阅读量:6047 次
发布时间:2019-06-20

本文共 751 字,大约阅读时间需要 2 分钟。

hot3.png

    

1、朴素贝叶斯假设

    为了处理这种维数过高的情况,我们做一个假设:X的每一维特征之间都是独立的。这也就是朴素贝叶斯假设。

根据独立分布的条件,我们就能够容易地写出P(d|C),如下:

        P(d/C) = ∏ P(ti / C)

    d代表文档,ti代表文档中的每个词,C代表类。

2、朴素贝叶斯分类器

    朴素贝叶斯分类器是一种有监督学习,常见有两种模型,多项式模型(multinomial model)和伯努利模型(Bernoulli model)。

先验概率在《信息检索导论》里面都是以类c下的文档数占比来衡量,而有些博客则以下面两种形式区分对待。

2.1、多项式模型

    在多项式模型中, 设某文档d=(t1,t2,…,tk),tk是该文档中出现过的单词,允许重复,则:

    1. 先验概率P(c)= 类c下单词总数/整个训练样本的单词总数。

    2. 类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/(类c下单词总数+|V|)。V是训练样本的单词表(即抽取单词,单词出现多次,只算一个),|V|则表示训练样本包含多少种单词。

    P(tk|c)可以看作是单词tk在证明d属于类c上提供了多大的证据,而P(c)则可以认为是类别c在整体上占多大比例(有多大可能性)。

2.2、伯努利模型

P(c)= 类c下文件总数/整个训练样本的文件总数

P(tk|c)=(类c下包含单词tk的文件数+1)/(类c下单词总数+2)

类c下包含单词tk的文件数也就是说,一个文档中单词t出现多次但是只算作一次

二者的计算粒度不一样,多项式模型以单词为粒度,伯努利模型以文件为粒度,因此二者的先验概率和类条件概率的计算方法都不同。

转载于:https://my.oschina.net/u/1020238/blog/520155

你可能感兴趣的文章
Windows Server 2012正式版RDS系列⒀
查看>>
技术分享连载(十九)
查看>>
红军vs蓝军
查看>>
如何做地图标注
查看>>
微软桌面虚拟技术
查看>>
全文检索 -- Solr从概念到实战(一)
查看>>
Oracle 10g RAC 升级(CPU Update)之--升级数据库软件
查看>>
输出数组第k大的元素
查看>>
Linux信号实践(2) --信号分类
查看>>
QListView的子项的ViewMode
查看>>
CCNA初学者应该知道的词
查看>>
Makefile万能写法(gcc程序以及arm-linux-gcc程序)
查看>>
kettle中denormalizer(列转行)的使用
查看>>
Centos6.0开启syslog之keepalived
查看>>
ORACLE 收集统计信息
查看>>
upstream sent too big header while reading response header from upstream
查看>>
Java开源报表JasperReport、iReport4.5.1使用详解(五)Table组件
查看>>
图解使用Telnet程序手工发送邮件
查看>>
Python你可能会用到的时间比较
查看>>
SQL Server数据库安全资源
查看>>