转自:http://www.cnblogs.com/gongxijun/p/8673241.html

TF(词频):  假定存在一份有N个词的文件A,其中‘明星‘这个词出现的次数为T。那么 TF = T/N;

所以表示为: 某一个词在某一个文件中出现的频率.

TF-IDF(词频-逆向文件频率):  表示的词频和逆向文件频率的乘积.

比如:  假定存在一份有N个词的文件A,其中‘明星‘这个词出现的次数为T。那么 TF = T/N;  并且‘明星’这个词,在W份文件中出现,而总共有X份文件,那么

IDF = log(X/W) ;

而: TF-IDF =  TF *  IDF = T/N * log(X/W);   我们发现,‘明星’,这个出现在W份文件,W越小 TF-IDF越大,也就是这个词越有可能是该文档的关键字,而不是习惯词(类似于:‘的’,‘是’,‘不是’这些词),

而TF越大,说明这个词在文档中的信息量越大.

最新文章

  1. webservice入门实例,CXF方式
  2. php-cgi not found
  3. Android 实现分页(使用TabWidget/TabHost)
  4. 【单点登录】【两种单点登录类型:SSO/CAS、相同一级域名的SSO】
  5. Reprojection Matrix Q
  6. JS源码(条件的判定,循环,数组,函数,对象)整理摘录
  7. webservice asmx 无法序列化接口 System.Collections.Generic.IList
  8. 【转】Appium 服务器端从启动到case完成的活动分析
  9. Xtrabackup构建MySQL主从环境
  10. 深入浅出:JavaScript作用域链
  11. 仔细讲解socket(转载https://www.zybuluo.com/phper/note/47110)
  12. Linux-Shell编程之判断文件类型
  13. 一、MyCat的搭建
  14. puppeteer端对端测试demo
  15. 批量屏蔽符合条件的IP地址,支持添加白名单,IP段,增量,大于指定次数的IP
  16. 【splunk】一些查询例子
  17. 原生态JDBC
  18. laravel 标签
  19. pandas 的算术运算和数据对齐
  20. telnet退出

热门文章

  1. 牛客网校招全国统一模拟笔试(三月场)- Java方向
  2. Python3 tkinter基础 Entry state 不可写 不可选 不可复制的输入框
  3. 如何查看linux程序被何种版本的编译器编译的?
  4. 编译openwrt时报错:fstools-2018-01-02-11efbf3b/libfstools/overlay.c: At top level: cc1: error: unrecognized command line option '-Wno-format-truncation' [-Werror]
  5. JXOI2018守卫 区间DP
  6. 4819: [Sdoi2017]新生舞会 分数规划
  7. 推荐一个静态博客兼笔记的工具:WDTP
  8. (zhuan) Variational Autoencoder: Intuition and Implementation
  9. Neo4j 文档
  10. Java创建对象的几种方式。