在文本分类问题中,某些高频词一直出现,这样的词对区分文档的作用不大,例如:

  D1:  'Job was the chairman of Apple Inc.'

  D2:  'I like to use apple computer.'

以上两个文档都关于苹果电脑,词条‘apple’ 对分类意义不大,因此有必要抑制那些在很多文档中都出现了的词条的权重。

在 tf-idf 模式下,词条 t 在文档 d 中的权重计算为:

w(t) = tf(t,d) * idf(t)

其中,tf(t,d)表示为词条t在文档d中的出现频率,idf(t)是倒排文档频率(inverse document frequency),即包含词条t的文档数越多,idf(t)取值越小。所以对上述例子中的词条apple会起到弱化的作用。

其中,nd是文档的总数,df(t) 是包含词条t的文档数,为防止分母为0,采用了平滑处理。以下举个例子来说明如何计算。

counts为文档向量,这里有6个文档,3列即向量空间维度为3,以文档1为例,三个词条的权重分别对应以上的123,最终 [3,0,1] 计算得到 [3,0,2.0986],还可以经过进一步的正则化,即得到[0.819,0,0.573]。

第一次写博客,希望自己能坚持下去,总结,经历,积累。

最新文章

  1. cocos2d-x3.3 以前版本 工程Xcode6编译时的问题
  2. pyqt5
  3. Python中的参数
  4. 安装 phoneGap
  5. JavaScript中Math--random()/floor()/round()/ceil()
  6. 2.5 ListView
  7. Flip Game I && II
  8. 3036: 绿豆蛙的归宿 - BZOJ
  9. 异常:必须先将 ContentLength 字节写入请求流,然后再调用 [Begin]
  10. Http2改造实践:statusText丢失问题
  11. Android StringEntity() 和 UrlEncodedFormEntity() 的区别
  12. post请求中body数据类型
  13. js:苹果手机页面返回,数据不刷新问题
  14. idea去掉无效引用
  15. Python基础(协程函数、内置函数、递归、模块和包)-day05
  16. node版本控制之nvm
  17. class="no-js"
  18. 构建工具 —— Groovy 与 Gradle
  19. 使用Visual VM 查看linux中tomcat运行时JVM内存
  20. CentOS 7安装Hadoop 3.0.0

热门文章

  1. mysql-视图及索引简介
  2. Django过滤器之safe
  3. Magento多语言注意事项
  4. Delphi实现获取句柄并发送消息的方法(FindWindow、FindWindowEx、EnumChildWindows、SendMessage)
  5. xml配置离线约束的目的和ecplipse离线约束配置
  6. 百度API获取位置范围内的周边服务
  7. linux进阶之路(二):linux文件目录
  8. CSS margin属性
  9. 2019牛客多校第三场B-Crazy Binary String(前缀和+思维)
  10. vue-lic脚手架中引入font-awesome