自动检测停用词的方法 _ 路由器设置|192.168.1.1|无线路由器设置|192.168.0.1

自动检测停用词的方法

2016-09-04 12:52:36 来源:www.45fan.com 【大中小】

自动检测停用词的方法

令一个停用词为f(i)，

nj(f(i))表示停用词i在时间窗口j内所有文本中出现的次数。时间窗口典型的选择1天。时间窗口出现的文本，为这个时间产生的网页文章。例如在今天“沙达姆”出现在1000个文档中的20篇，则nj(f(i))=20。

另Pj [nj(f(i))=K] 表示停用词i在时间窗口j内所有文本中出现的次数为K的概率。K符合超几何分布。（不妨回忆一下超几何分布，在一个已知正品概率的总体空间中，任取n个零件，则其中正品的数量，这一随机变量就是超几何分布。），超几何分布在总体足够大的时候接近与二项分布，由于二项分布的计算比较简单，所以采用二项分布近似。

Pj [nj(f(i))=K] = C(K,N)* pi^k*(1-pi)^N-k

N为在时间窗口j中的总文档数，K为包含停用词f(i)的文档数，pi,为停用词f(i)的一般出现文档频率。pi可以理解成一系列时间窗口的出现频率的均值。

在一个时间窗口中的二项分布一般是不对称的除非pi=0.5,我们正是利用这个不对称，来判别停用词。

来看这个

自动检测停用词的方法

X轴表示时间窗口中的文档数，N为最大值。Y轴表示出现x个文档包含特征f(i)的概率，对于停用词来说，N个文档

中出现N个文档包含特征f(i)的概率都相当大，所以可以判定该词为停用词。

本文地址：http://www.45fan.com/a/question/72155.html

国足对战卡塔尔里皮：一支球队的队长不	钟丽缇张伦硕大婚：希望给太太一个热闹的
皮特申请6名子女监护权：有两个孩子表示	怎么样搭配奇迹暖暖游光世界上另一个我？
黄子韬抵京被包围：为了发小学会手语··	郭川夏威夷海域于北京时间25日失联
90后姑娘于深山花2个月时间6万元亲手建仙	短时间内学好一门语言的方法技巧
vbs脚本病毒的原理是什么？	泰国国王去世享年88岁，为了每一个子民

45fan.com - 路饭网

自动检测停用词的方法

Tags：一个时间表示

45fan.com - 路饭网

自动检测停用词的方法

Tags： 一个 时间 表示

Tags：一个时间表示