“自然语言处理”(Natural Language Processing 简称 NLP)包含所有用计算机对自然语言进行的操作。

自然语言工具包(NLTK)

语言处理任务与相应 NLTK 模块以及功能描述

NLTK 频率分布类中定义的函数

示例:简单的语音对话系统的流程架构:

分析语音输入(左上),识别单词,文法分析和在 上下文中解释,应用相关的具体操作(右上);响应规划,实现文法结构,然后是适当的词 形变化,最后到语音输出;处理的每个过程都蕴含不同类型的语言学知识

在自然语言处理的实际项目中,通常要使用大量的语言数据或者语料库,

文本语料库的结构

通常,文本会按照其可能对应的文体、来源、作者、 语言等分类。有时,这些类别会重叠,尤其是在按主题分类的情况下,因为一个文本可能与 多个主题相关。偶尔的,文本集有一个时间结构,新闻集合是最常见的例子

文本语料库的常见结构:最简单的一种语料库是一些孤立的没有什么特别的组织的 文本集合;一些语料库按如文体等分类组织结构;一些分类会重叠,如主题 类别;另外一些语料库可以表示随时间变化语言用法的改变。

NLTK 中定义的基本语料库函数

NLTK 中的条件频率分布:定义、访问和可视化一个计数的条件频率分布的常用方法和习惯用法

标注是典型的 NLP 流水线中分词之后的第二个步骤

将词汇按它们的词性(parts-of-speech,POS)分类以及相应的标注它们的过程被称为词 性标注(part-of-speech tagging, POS tagging)或干脆简称标注。词性也称为词类或词汇范 畴。用于特定任务的标记的集合被称为一个标记集。

分类是为给定的输入选择正确的类标签的任务。在基本的分类任务中,每个输入被认为 是与所有其它输入隔离的,并且标签集是预先定义的

(a)在训练过程中,特征提取器用来将每一个输入值转换为特征集。 这些特征集捕捉每个输入中应被用于对其分类的基本信息,我们将在下一节中讨论它。特征 集与标签的配对被送入机器学习算法,生成模型。(b)在预测过程中,相同的特征提取器被 用来将未见过的输入转换为特征集。之后,这些特征集被送入模型产生预测标签

分类器可以帮助我们理解自然语言中存在的语言模式,允许我们建立明确的模型捕捉这些模式。

自动生成分类模型的三种机器学习方法:决策树、朴素贝叶斯分类器和最大熵分类器

最新文章

  1. 区块链(Blockchain)
  2. LINQ系列:Linq to Object相等操作符
  3. ASP.NET MVC之国际化(十一)
  4. Android QQ群:343816731 欢迎大家加入探讨
  5. Oracle索引简单介绍与示例
  6. 用友华表Cell一些用法小结(cs.net版本)
  7. 安装sqlserver2008r2 服务器配置,服务帐户配置出错,提示Sql server服务指定的凭据无效
  8. sublime相关设置
  9. 使用WebClient上传文件时的一些问题
  10. 破解简单Mifare射频卡密钥杂记
  11. Highcharts属性
  12. Linux笔记——linux下的语音合成系统
  13. SpringMVC拦截器和过滤器
  14. 01 The Learning Problem
  15. JAVA常见简答题
  16. Linux(Ubuntu)安装libpcap
  17. WebApi设置HttpContext.Current.User
  18. Paths on a Grid POJ - 1942 组合数学 (组合数的快速计算)
  19. AJAX请求头Content-type
  20. ACM-ICPC 2018 沈阳赛区网络预赛 J Ka Chang

热门文章

  1. 第二届蓝桥杯C++B组国(决)赛真题
  2. java实现三角螺旋阵
  3. ReentrantLock原理分析
  4. Myeclipse 2014 破解补丁以及Y2课件迅雷下载
  5. SpringMVC+Mybatis初尝试
  6. @RequestMAPPPING映射请求占位符@PathVariable注解
  7. 获取ul下面最后一个li或ul中有多少个li
  8. 01.DRF-Web应用模式
  9. Spring Cloud 系列之 Alibaba Nacos 配置中心
  10. php 判断设备是手机还是平板还是pc