测试数据源:20 Newsgroups (http://qwone.com/~jason/20Newsgroups/),其中包含20个领域的新闻,此次我们使用20news-bydate-train作为测试数据.。

其结构如下

Spark Task:

对多篇文章提取其特征关键字以备检索、分类使用(关键字视为一个单词)

输入内容文件格式

(article_id,content...)

(article_id,content...)

(article_id,content...)

要求输出格式

(article_id,文章前20个特征关键字)

The Question to be solved:

1.虽然MLib提供了TF-IDF的实现,但是文章id无法跟踪.(提示:使用wholefile和zip函数)

2.MLib输出的结果是该文章所有单词对于的TF-IDF,格式必得转换

最新文章

  1. Recover Binary Search Tree
  2. ios中tableSection的颜色
  3. 3D开发的基本知识
  4. go mobile 得生命周期事件
  5. 2014多校第四场1005 || HDU 4901 The Romantic Hero (DP)
  6. Android ViewPager的简单实现
  7. .net 将excel转成html文件
  8. java.lang.ExceptionInInitializerError的原因(转)
  9. Mac maven环境变量配置
  10. whm 设置共享IP
  11. Python学习记录----IDE安装
  12. xcode7.3 iTunes Store operation failed解决
  13. vue学习记录②(hello world!)
  14. linux运维架构师职业规划
  15. 20175312 2018-2019-2 《Java程序设计》结对编程练习_四则运算(第二周:整体性总结)
  16. hdu 3911 Black And White (线段树 区间合并)
  17. 爬虫mm131明星照片
  18. 同一域环境下SQLServer DB Failover故障转移配置详解
  19. Permutations II - LeetCode
  20. Java 与 JavaScript 对websocket的使用

热门文章

  1. 编译 openssl 0.9.8zc 出现 error C2220: warning treated as error - no 'object' file generated
  2. 使用vue开发webApp,安卓手机自带回退键的问题解决
  3. hive向表格中插入数据并分析语句
  4. 【51NOD】1486 大大走格子
  5. 卡片选项页面 JTabbedPane 的使用
  6. jquery的ajax提交
  7. LCD实验学习笔记(二):head.S
  8. Codeforces 950E Data Center Maintenance 强连通分量
  9. How to learn wxPython
  10. Windows下卸载Oracle