NLP情感分析监督学习样本打标
2024-10-08 13:32:08
1). 情感打标
a). 全句
单句 | 标签 |
---|---|
好吃是好吃 | pos |
真材实料 | pos |
不过感觉一人份的量就有点小贵 | neg |
点的是肥牛米线 | neu |
b). 全文本
文本 | 标签 |
---|---|
分量足,味道不错,味道也不错 | pos |
汤内有小强,实在无语 | neg |
c)分词
具体参见大连理工情感词汇文本库
词语 | 词汇种类 | 情感分类 | 强度 | 极性 |
---|---|---|---|---|
棒棒哒 | adj | PH | 7 | 1 |
你怎么不上天 | nw | NN | 9 | 2 |
给力 | adj | PH | 7 | 1 |
涨价 | verb | NJ | 3 | 2 |
- 情感分类按照论文《情感词汇本体的构造》所述,情感分为7大类21小类。情感强度分为1,3,5,7,9五档,9表示强度最大,1为强度最小。
- 情感词汇本体中的词性种类一共分为7类,分别是名词(noun),动词(verb),形容词(adj),副词(adv),网络词语(nw),成语(idiom),介词短语(prep)。
- 每个词在每一类情感下都对应了一个极性。其中,0代表中性,1代表褒义,2代表贬义,3代表兼有褒贬两性。
2). 分词纠正
a). 合并分词
麻辣,香锅 --> 麻辣香锅, n
棒棒,哒 --> 棒棒哒, a
百岁,山大瓶 --> 百岁山, n
大瓶, n
注:n,a为词性,分别指名词和形容词
b). 删除错误分词
甜口会,好吃 --> 甜口会
吃,出筋 --> 出筋
最新文章
- Linux iptables配置错误导致ORA-12535 &; ORA-12170
- 基于web的IM软件通信原理分析
- SSD硬盘 全盘安全擦除
- Process manufacturing和Discrete manufacturing的区别
- boost环境搭建
- datagridview的某些属性以及增删改查
- springmvc03 非注解和注解处理器映射器和适配器
- u-boot代码学习内容
- jps命令(Java Virtual Machine Process Status Tool)
- Python多线程,threading的用法
- linux安装php5.3
- 固定表头,单元格td宽度自适应,多内容出现-横向纵向滚动条数据表格的<;前世今生>;
- JAVA之旅(三)——数组,堆栈内存结构,静态初始化,遍历,最值,选择/冒泡排序,二维数组,面向对象思想
- 微信小程序之onLaunch与onload异步问题
- Exception和解决方案
- QTcpSocket 相关知识总结
- HTTL之初印象
- eclipse上搭建mybatis
- 常用的cpl 命令 运行直接打开控制台的简单方法
- PHP 依赖注入(DI) 和 控制反转(IoC)