TF-IDF的解释
2024-10-12 12:35:39
转自:http://www.cnblogs.com/gongxijun/p/8673241.html
TF(词频): 假定存在一份有N个词的文件A,其中‘明星‘这个词出现的次数为T。那么 TF = T/N;
所以表示为: 某一个词在某一个文件中出现的频率.
TF-IDF(词频-逆向文件频率): 表示的词频和逆向文件频率的乘积.
比如: 假定存在一份有N个词的文件A,其中‘明星‘这个词出现的次数为T。那么 TF = T/N; 并且‘明星’这个词,在W份文件中出现,而总共有X份文件,那么
IDF = log(X/W) ;
而: TF-IDF = TF * IDF = T/N * log(X/W); 我们发现,‘明星’,这个出现在W份文件,W越小 TF-IDF越大,也就是这个词越有可能是该文档的关键字,而不是习惯词(类似于:‘的’,‘是’,‘不是’这些词),
而TF越大,说明这个词在文档中的信息量越大.
最新文章
- webservice入门实例,CXF方式
- php-cgi not found
- Android 实现分页(使用TabWidget/TabHost)
- 【单点登录】【两种单点登录类型:SSO/CAS、相同一级域名的SSO】
- Reprojection Matrix Q
- JS源码(条件的判定,循环,数组,函数,对象)整理摘录
- webservice asmx 无法序列化接口 System.Collections.Generic.IList
- 【转】Appium 服务器端从启动到case完成的活动分析
- Xtrabackup构建MySQL主从环境
- 深入浅出:JavaScript作用域链
- 仔细讲解socket(转载https://www.zybuluo.com/phper/note/47110)
- Linux-Shell编程之判断文件类型
- 一、MyCat的搭建
- puppeteer端对端测试demo
- 批量屏蔽符合条件的IP地址,支持添加白名单,IP段,增量,大于指定次数的IP
- 【splunk】一些查询例子
- 原生态JDBC
- laravel 标签
- pandas 的算术运算和数据对齐
- telnet退出
热门文章
- 牛客网校招全国统一模拟笔试(三月场)- Java方向
- Python3 tkinter基础 Entry state 不可写 不可选 不可复制的输入框
- 如何查看linux程序被何种版本的编译器编译的?
- 编译openwrt时报错:fstools-2018-01-02-11efbf3b/libfstools/overlay.c: At top level: cc1: error: unrecognized command line option '-Wno-format-truncation' [-Werror]
- JXOI2018守卫 区间DP
- 4819: [Sdoi2017]新生舞会 分数规划
- 推荐一个静态博客兼笔记的工具:WDTP
- (zhuan) Variational Autoencoder: Intuition and Implementation
- Neo4j 文档
- Java创建对象的几种方式。