首先我运用的分词工具是结巴分词 import jieba  然后调用jieba.cut( )  但是jieba.cut 返回的是一个generator的迭代器

他可以显示分词结果 但是无法将结果写入txt 各种报错。类似于a bytes-like object is required, not 'generator'

然后我将结果进行了Str( )处理 还是报类似的错误 只不过变成了not ' generator'

然后经过思考我将结果作list( )处理 然后对生成的list进行处理,去' [  ' ,' ] '和' ,'

def text_save(filename,data):
file = open(filename,'a+')
for i in range(len(data)):
s = str(data[i]).replace('[','').replace(']','')
s = s.replace("'",'').replace(',','')+' '
l = clearSen(s)
file.write(l)
# file.close(s)

然后可以写进去了  但是遇到乱码问题,写入txt中的文本乱码mmp。

在终端测试各个步骤的输出结果,发现是在对list( )处理时,应该加入utf-8操作。

def text_save(filename,data):
file = open(filename,'a+',encoding='utf-8')
for i in range(len(data)):
s = str(data[i]).replace('[','').replace(']','')
s = s.replace("'",'').replace(',','')+' '
l = clearSen(s)
file.write(l)
# file.close(s) #添加句子功能
def usr_add_sentence():
correct_sentence = entry_add.get()
correct_sentences = list(jieba.cut(correct_sentence))
# clearSen(correct_sentences)
print(correct_sentences)
text_save('./data/kenlm/2014_words.txt',correct_sentences)
text_save('./data/kenlm/people2014_words.txt',correct_sentences)

over~

最新文章

  1. 20161117__修改yum源
  2. apache2 多站点虚拟主机配置
  3. ubuntu安装ssh
  4. PHP、Java对称加密中的AES加密方法
  5. Codeforces Testing Round #10 B. Balancer
  6. MySQL数据库学习笔记(九)----JDBC的ResultSet接口(查询操作)、PreparedStatement接口重构增删改查(含SQL注入的解释)
  7. 项目总结(四)--- 网络封包分析工具Charles
  8. missing artifact com.oracle:ojdbc14:jar:10.2.0.2.0解决办法
  9. Prince2学习有感:PRINCE2项目管理到底是什么?
  10. Binary Tree Xorder Traversal
  11. .NET并行计算和并发8:硬件支持
  12. Django 2.1.3 文档
  13. Eclipse打印GC日志
  14. go-micro介绍 摘自https://www.cnblogs.com/s0-0s/p/6874800.html
  15. JavaWeb学习 (九)————HttpServletRequest对象(一)
  16. android 使用广播 接收和拦截 android系统短信
  17. 开源ckplayer 网页播放器去logo去广告去水印修改
  18. openstack neutron 深入
  19. JavaScript学习总结(十四)——JavaScript编写类的扩展方法
  20. WPF 嵌入字体文件

热门文章

  1. memcpy 与strcpy的区别
  2. 2018 焦作网络赛 G Give Candies ( 欧拉降幂 )
  3. BeetleX之快速构建Web多房间聊天室
  4. 一、MySQL一些简述
  5. Spring Boot教程(四十二)LDAP来管理用户信息(2)
  6. linux内核中的数据结构
  7. flink杂记
  8. flask第二篇 三剑客+特殊返回值
  9. IP输出 之 ip_local_out
  10. QT的UDP组播技术