大数据竞赛的第二阶段须要通过远程桌面的方式连接阿里提供的虚拟机, 全部操作都是在远程主机上进行。 在搞清楚文件回传方式之前真是各种麻烦(写博客都没有办法贴代码)。

用了两个上午初步上手, 希望接下来进展顺利, 不要第一个月就慘遭淘汰。

首先在cmd 通过mstsc 链接远程桌面,  远程桌面上仅仅有一个我的电脑图标。 C盘文件夹下的TOOLS文件夹中有eclipse ,python,xlab 和odpsclient等工具。

这一阶段是把结果保存为odps中的一个指定名称的表, 所以直接在ODPS中 用sql操作训练集并生成结果表 比較简单(操作上), 可是只用sql 非常难实现比較复杂的模型,由于我sql是在太渣 。 xlab 中支持sql的批量提交。

登入时须要依据ODPS的配置文件里的信息来填写账户, 这样进入工作空间后就能看见训练集。 而且这个训练集是能够导出的,这也为通过其它方式生成结果表提供可能。

除了sql外, 也能够通过mr编程来实现分类。

可是要把分类模型写成符合mr的规范还是须要好好想想, 并且提供的框架里 mapper reducer 是分开的两个类文件。要通过某种方式实现全局变量的訪问。

依据实例实现了Wordcount 程序,  可是在ide的文件夹下看不到执行的结果文件, 要到项目空间中自己去找。

这个mr框架貌似输入输出都是表类型, 直接打包后通过在命令行中调用的方式应该就能够生成结果了。 使用mr来实现这一阶段应该是初步方向。

下一次淘汰在半个月后, 祝好运。

最新文章

  1. COGS396. [网络流24题]魔术球问题(简化版
  2. 国内最全最详细的hadoop2.2.0集群的MapReduce的最简单配置
  3. jQ选择器学习片段(JavaScript 部分对应)
  4. linux学习资料
  5. HDU 3853-loop(概率dp入门)
  6. 关于windows中的快捷键
  7. border-radius导致overflow:hidden失效问题。
  8. (转)《深入理解java虚拟机》学习笔记9——并发编程(一)
  9. php正则失效-最大回溯(pcre.backtrack_limit)/递归限制
  10. [学习笔记] TensorFlow 入门之基本使用
  11. python 接口自动化测试--框架定型(六)
  12. 微信小程序开发《二》:http请求的session管理
  13. 【USACO】奶牛抗议 树状数组+dp
  14. 浏览器加载和渲染html的顺序(html/css/js)
  15. Codeforces 785D - Anton and School - 2 - [范德蒙德恒等式][快速幂+逆元]
  16. Git学习之第一次使用PR
  17. openGL-计算机图形大作业中出现的几个错误及解决
  18. 18-09-20 关于Xlrd和Xlwt的初步学习
  19. Django CSRF提交遇见的问题
  20. [Linux]Linux下rsync服务器和客户端配置

热门文章

  1. 【Android开发】XML文件解析
  2. Java 基础入门随笔(8) JavaSE版——静态static
  3. java多线程(线程通信-等待换新机制-代码优化)
  4. sql常用手法(二)
  5. 牛客多校Round 4
  6. Python基础之简介
  7. uva 272 Tex中的引号(Tex Quotes)
  8. Linux学习笔记记录(六)
  9. CentOS 6 Yum本地源配置
  10. L2-014. 列车调度(带图详解)