想法1:
  分成147(3*7*7)类, 后来觉得这样效果不好,后来看了看竞赛要求的也是分别预测,分别评分,而不是一次就把3类的标签都给出
  所有后来我们改进了当时的想法,决定对年龄,性别,学历进行分别预测
 想法2:  
  我们先对所有的单词进行分类,分成比如体育,经济,教育等等,一些大类别,然后看看每个用户搜索的关键词属于哪一类。作为特征
  后来,因为无法确定分为多少类,,所以否定了这个想法。
 想法3:  
   
  Step1:进行文本分词处理,提取出搜索词中的关键词;
  Step2:建立向量空间模型 (1)权值计算(布尔权值,词频权值,TF/IDF,TFC,ITC等方法)
  (2) 向量相似度量(内积,绝对值距离,切比雪夫距离等) ;
  Step3:对文本进行分类(概率分类器,决策树分类器,神经网络分类器等)
  Step4:进行数据测试,根据给定的查询词,首先也对它先分词,提取关键词,然后和一个大类进行相关性测量,
  VSM中的(两个向量的夹角越小说明关联度越大),然后决定出它是属于哪一个类,
  之后再和这个类别下的关键词进行相关性对比,然后逐个决定出人物属性(年龄,性别,学历)
   
  确定了思路之后,我用skleran 这个机器学习包进行了实现。
 初赛思路v1:  
  一 Preprocessing
  1分词 采用结巴分词
  2数据清洗,删掉缺失数据,例如数据中的未知(标签为0)
  二 Feature extraction
   1 countvector:计算词频
  2 tfidfvector: 计算tfidf作为权重值
  3 hashvector: 利用hash 算法将单词映射到向量空间
  三 Feature selection 
  选择特征的数量,也就是数据矩阵的维度。v1没有使用算法,直接指定特征的维度。
  四 Feature union
  初赛中没有使用特征融合
  五 Model selection
  KNN
  SVM 效果最好
  贝叶斯
  六 Model Evaluation and Optimization
  利用准确率衡量分类的结果
   
 初赛思路v2:  
   
  在特征提取的时候,我们担心数据过拟合,所以进行特征选择
  我们的特征选择的方法主要是卡方跟LDA主题模型
  但是经过测试,LDA+TFIDF的效果不如单纯的tfidf
  TFIDF+卡方的效果稍好一点点
  特征提取我们也试过n-gram效果也不是很好
   
   
 最终初赛思路(v2):  
  1.jieba分词
  2.特征提取:tfidf
  3.特征选择:卡方
  4.分类:SVM

github:

https://github.com/zle1992/2016-ccf-data-mining-competition

最新文章

  1. 十五天精通WCF——第八天 对“绑定”的最后一点理解
  2. Deep Copy cv::StereoBM 深度拷贝
  3. Golang之sdl2学习之路(零) -- 环境工具准备
  4. [原创]java WEB学习笔记92:Hibernate学习之路-- -QBC 检索和本地 SQL 检索:基本的QBC 查询,带 AND 和 OR 的QBC,统计查询,排序,分页
  5. 在本地机器上能访问tomcat,远程机器访问不了的解决方法
  6. Combox和DropDownList控件的区别
  7. 转:ASP.NET中的SESSION实现与操作方法
  8. 1、C语言中的函数指针
  9. .net+easyui系列--搜索框
  10. 软件开发人员真的了解SQL索引吗(索引使用原则)
  11. Android MemInfo
  12. springmvc图片上传(兼容ie8以上,实时预览)
  13. AssemblyExecuteAdapter
  14. struts2 Action获取表单传值(属性,类))
  15. 「插件」Runner更新Pro版,帮助设计师远离996
  16. !!常用HTML5代码
  17. Ubuntu16.04 导入tensorflow报错
  18. May 31. 2018 Week 22nd Thursday
  19. 12.scrapy框架
  20. 编译RocketMQ

热门文章

  1. POJ 1038 Bug Integrated Inc(状态压缩DP)
  2. H5 readfile 多图片预览
  3. kafka中配置细节
  4. Burp Suite使用教程
  5. Linux 任务计划:crontab
  6. EventBus 简单原理(一)
  7. excel——之锁定表头不可编辑
  8. SQL 根据日期精确计算年龄
  9. bigpipe&bigrender
  10. bootstrap之输入框组