简介
fastText是Facebook AI Research在2016年提出的文本分类和词训练的工具。它最大的特点:模型非常简单,训练速度快,并且能够达到与深度学习旗鼓相当的精度。

最近在做一个给微博内容分类的项目,主要目的是给微博打上商业标签。这个项目是一个经典的多分类任务,传统的方法包括:SVM、TextCNN、LSTM等。上面这些方法都略有尝试,而大名鼎鼎的fastText一直没有尝尝鲜,正好借此机会尝尝鲜。

原理
fastText主要有两个功能:训练词向量和文本分类。除此之外,它的训练中还考虑了N-gram。

训练词向量
word2vec的训练粒度是词语,而fastText进一步考虑了subword粒度。subword是一种character-level的n-gram。例如使用tri-gram,那么词语where可以分解成:

文本分类
若熟悉Continuous Bag of Words(CBOW)的模型结构,你会发现它完全有潜力扩展成一个分类模型:

上图左边是word2vec中CBOW的结构,右边是fastText的结构。两类模型的结构区别是:

CBOW使用context(wt−2,wt−1,...,wt+1,wt+2wt−2,wt−1,...,wt+1,wt+2)作为模型输入,而fastText使用document的词(w1,w2,...,wnw1,w2,...,wn)。
fastText使用label作为学习目标,而CBOW使用wtwt。
总结而言,学习目标是造成模型结构不同的决定性因素,即fastText是有监督模型,而word2vec是无监督模型。

在上述模型结构下,hidden层的计算方式是:

hidden=1n∑i=1nwi
hidden=1n∑i=1nwi
由于分类是模型的最终目标,因此需要一个从hidden层到label的映射,常见的映射方法:

Softmax
Hierarchical Softmax
Noise Contrastive Estimation
Negative Sampling
上述方法中,softmax是常见的多分类分类器,其余三种均是对Softmax的近似(通过近似计算,避免过大的归一化代价)。关于Softmax的近似计算,我会在以后的博客中介绍,这里介绍Softmax在fastText的应用。基于Softmax的fastText,其代价函数如下所示:

loss=−1N∑i=1N∑j=1M1(yi=j)log(y^ij)
loss=−1N∑i=1N∑j=1M1(yi=j)log(y^ij)
其中:

y^i=softmax(hiddeni)
y^i=softmax(hiddeni)
N-gram特征
根据上面的介绍,fastText本质上仍是一类基于词袋(bag-of-words)的分类模型,而丢失词顺序是词袋模型最受人诟病的地方。在词袋模型中,常见增加词顺序信息的方法是N-gram。但是增加N-gram的方法,将带来词典包含大量的词汇,进而导致内存溢出。为了解决此类问题,fastText采用了Hash桶的方式,把所有的N-gram哈希到buckets中,哈希到同一个bucket内的n-gram共享一个vector。具体实现过程如下所示:

为了更好的表述,如何将n-gram特征转化为hidden层,这里举一个例子。假设一个文本由三个词组成w1w1,w2w2,w3w3,其bigram是w12w12,w23w23,那么此时hidden层的计算公式如下所示:

hidden=15(w1+w2+w3+w12+w23)
hidden=15(w1+w2+w3+w12+w23)
结语
以上便是fastText的基本原理,接下来将介绍fastText在微博中的应用。

[1] 玩转fastText
[2] P. Bojanowski*, E. Grave*, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information
[3] A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classification
[4] facebookresearch/fastText
---------------------
作者:cptu
来源:CSDN
原文:https://blog.csdn.net/AckClinkz/article/details/81907555
版权声明:本文为博主原创文章,转载请附上博文链接!

最新文章

  1. CentOS安装Apache-2.4.10+安全配置
  2. HTML中块级元素与行内元素
  3. 信号量sem
  4. HDFS shell
  5. Mysql忘记用户密码的解决办法
  6. computer repair services in Hangzhou
  7. Android应用开发多语言drawable目录
  8. [状压dp]HDOJ4539 郑厂长系列故事——排兵布阵
  9. android:http下载文件并保存到本地或SD卡
  10. Stm32高级定时器(三)
  11. C#中Cache用法
  12. birdnest是什么意思_birdnest在线翻译_英语_读音_用法_例句_海词词典
  13. 推荐几个在线PDF转化成Word网站
  14. 使用T4模板生成POCO类
  15. Oracle11g温习-第十九章:审计(audit)
  16. myBatis组件之缓存实现及使用
  17. 【CSS-进阶之元素:focus伪类模拟点击事件】
  18. js异步任务处理方式
  19. Java-jdbc工具类DBUtils
  20. [leetcode]253. Meeting Rooms II 会议室II

热门文章

  1. 42.QT-QSqlQuery类操作SQLite数据库(创建、查询、删除、修改)详解
  2. jfinal使用idea启动 访问报404 action not found
  3. CSS - 如何实现强制不换行、自动换行、强制换行
  4. linux驱动开发流程
  5. setState 是异步的
  6. 按字节寻址and按字编址
  7. The user's guide what comes in the kernel Documentation directory
  8. openwrt gstreamer实例学习笔记(七. gstreamer 缓冲区(Buffers)和事件(Events))
  9. Boost源代码学习---weak_ptr.hpp
  10. iOS优秀博文合集