本人小白一枚,专业统计,之前做过质量工程,现转行将近一年,开始记录我的学习过程及踩过的坑。

第一篇:用贝叶斯分类器(本文使用NLTK中的NaiveBayesClassifier)将5000多个样本进行分类,判断是否属于脑科学,样本存储为excel格式,选取特征值分类号前四位及摘要(先结巴分词)按频率计数。

首先要搞清楚做这个分类模型的思路:

读取文本—清洗文本—获取特征词列表—定义特征提取器—构造特征集—朴素贝叶斯分类器评价结果

在做这个分类器之前我对贝叶斯分类器不太了解,所以遇到很多问题,最重要的问题就是分类器的传入参数,因为他有固定的参数形式,否则就会报错,参数形式如下:

[

({"特征1":value1,"特征2":value2..."特征n":valuen},label),

({"特征1":value1,"特征2":特征2..."特征n":valuen},label),

...

]

这是一个三层复合结构,首先它是一个list,第二层是一个元组,最里面是一个字典

把这个问题搞清楚了其他问题就好办了。

1. 读取数据

path=os.getcwd()+'\\data_checked.xlsx'
df_data = pd.read_excel(path)
dataSetNP = np.array(df_data)
NP_row=len(dataSetNP)

在这里我使用的是pandas 和numpy将数据化为多维数组进行读取,

每一行用dataSetNP[i],每一列用dataSetNP[:][j]

2.取特征值

取ipc前四位不重复

Content_IPC_Num =set([j[:4] for j in [w for w in dataSetNP[:,1]]])

摘要分词,原来用停词表做的代码比较冗余

# 获取高频词列表--特征1

def abstract_fre_list(abst):
content_abst_allwords=[x.word for x in psg.cut(abst) if not re.findall(r'm|mq|q|qv|qt', x.flag)]
with open("stopwords.txt", encoding='utf-8') as f:
stopwords = f.read()
content_abst_cleanwords=[w for w in content_abst_allwords if w not in stopwords]
content_abst_freword=nltk.FreqDist(content_abst_cleanwords)
content_abst_freword = content_abst_freword.most_common(2000)
feature_abst_list=[w[0] for w in content_abst_freword]
return feature_abst_list Content_abst_words=abstract_fre_list(get_data(3))#高频词列表

可以改进一下变成如下形式:

with open("stopwords.txt", encoding='utf-8') as f:
stopwords = f.read()
sbste=str([j for j in dataSetNP[: ,3]])
allwords_stop=[x.word for x in psg.cut(sbste) if not re.findall(r'm|mq|q|qv|qt', x.flag)]
word_all=nltk.FreqDist(reduce(lambda x,y:x+y,allwords_stop))
Content_abst_words2=[i[0] for i in word_all.most_common(2000)if i[0] not in stopwords]

3.构造特征提取器

def gender_features(IPC,abstract):
features={}
for IPC_num in range(len(Content_IPC_Num)):
features["IPC_has({})".format(Content_IPC_Num[IPC_num])]=(Content_IPC_Num[IPC_num] in IPC)
for abstract_num in range(len(Content_abst_words)):
features["abstract_has({})".format(Content_abst_words[abstract_num])]=(Content_abst_words[abstract_num] in abstract)
return features

 

4.构造特征集

# 构造特征集

size = int(NP_row * 0.1)
features_apply= []
for i,apply_class in enumerate(list(dataSetNP[:, 8])):
features_apply.append((gender_features(dataSetNP[:, 1][i] ,dataSetNP[:, 3][i]), apply_class))
random.shuffle(features_apply)
test_set_apply,train_set_apply = features_apply[:size], features_apply[size:] features_tech = []
for w,tech_class in enumerate(list(dataSetNP[:, 9])):
features_tech.append((gender_features(dataSetNP[:, 1][w], dataSetNP[:, 3][w]), tech_class))
random.shuffle(features_tech)
test_set_tech,train_set_tech = features_tech[:size],features_tech[size:]

5.贝叶斯分类器

classifier_apply = nltk.NaiveBayesClassifier.train(train_set_apply)
classifier_tech = nltk.NaiveBayesClassifier.train(train_set_tech)

6.评价

#精确度-召回率-分类准确率分数
predict_test_apply=[]#预测值
predict_test_tech=[]
for i in range(size):
predict_apply=classifier_apply.classify(gender_features(dataSetNP[:,1][i],dataSetNP[:,3][i]))
predict_tech = classifier_tech.classify(gender_features(dataSetNP[:,1][i],dataSetNP[:,3][i]))
predict_test_apply.append(predict_apply)
predict_test_tech.append(predict_tech)
actual_test_apply=list(dataSetNP[:,8][:size])#真实值
actual_test_tech=list(dataSetNP[:,9][:size])
'''或者预测值+真实值
predict_test_apply2 = [classifier_apply[app[0]] for app in test_set_apply]
predict_test_tech2 = [classifier_tech[tech[0]] for tech in test_set_tech]
actual_test_apply2 = [i[1] for i in test_set_apply]
actual_test_tech2 = [i[1] for i in test_set_tech]'''

def evaluate(Y_actual,Y_pre):
brain_sci_precison = metrics.precision_score(Y_actual, Y_pre, average='macro')
brain_sci_recall = metrics.recall_score(Y_actual, Y_pre, average='macro')
brain_sci_accuracy = metrics.accuracy_score(Y_actual, Y_pre, normalize=True)
return brain_sci_precison, brain_sci_recall,brain_sci_accuracy
evaluate_apply=evaluate(actual_test_apply,predict_test_apply)
evaluate_tech = evaluate(actual_test_tech,predict_test_tech)
print("应用-精确度、召回率、分类准确率分数分别为 {}".format(evaluate_apply))
print("技术-精确度、召回率、分类准确率分数分别为 {}".format(evaluate_tech)) 结果:

 

												

最新文章

  1. mysql 1067 启动错误!!!
  2. windows服务异常值framework版本
  3. devenv compile errors collection
  4. maven项目显示红叉的解决方法
  5. 如何做好PPT?
  6. YourSQLDba介绍
  7. 01: kerberos认证原理
  8. WINDOWS SERVER 2016 IE使用FLASH PLAYER的方法
  9. 6.context对象
  10. AtCoder arc061C Snuke's Subway Trip
  11. nuxtjs中修改head及vuex的使用
  12. C# 获取CPU序列号、网卡MAC地址、硬盘序列号封装类,用于软件绑定电脑
  13. ID的故事
  14. Git 常用命令备份
  15. [转] Haproxy、Keepalived双主高可用负载均衡
  16. Oracle11g 查询长时间运行的SQL
  17. Mybatis工作原理(含部分源码)
  18. 【DUBBO】dubbo的LoadBalance接口
  19. RN_ 错误整理
  20. Web目录结构

热门文章

  1. MongoDB连接
  2. Actifio如何保护和管理Oracle-带外篇
  3. C# 判断文件编码
  4. C# 每个字节接受 处理串口数据 的方法
  5. JavaScript 集合对象
  6. 虚拟机中的linux系统文件突然全部变成只读的问题
  7. 前端-JavaScript1-8——JavaScript之作业练习
  8. 20164310Exp1 PC平台逆向破解和BOF基础
  9. javaAgent介绍
  10. Scrapy实战篇(六)之爬取360图片数据和图片