最近需要处理海量数据的分布式计算及数据挖掘,经过多次选择(hadoop,Spark,DPark),最后还是选择了DPark,主要是看中DPark的轻量级及python的灵活性,且除了豆瓣外,在几个友公司都有成功的应用案例。

不过很痛苦的是DPark的资料太少了,连github上的官方wiki都不够详细,暂时只能主要靠自己摸索。

这篇文章主要记录DPark的一些资料及我在安装时的一些问题(其实基本是python问题,由于我暂时对python不熟导致的)。

1. DPark一句话简介:

DPark是豆瓣开发的基于Mesos的开源分布式计算框架,是spark的python版克隆。

2. python2.6下DPark安装:

git clone git://github.com/douban/dpark.git
cd dpark
python setup.py install

DPark使用easy_install进行安装,我这边没有setuptools,因此安装下:

yum -y install python-setuptools

问题继续出现,如下:

error: Couldn't find a setup script in /tmp/easy_install-riZxUs/protobuf-2.5.0.zip

坑爹,查了很久才在protobuf的google code中的issue 66中发现了如下说明:

#52 gregory....@gmail.com

Workaround: use easy_install's --allow-hosts options to force downloading from PyPI:

easy_install --allow-hosts pypi.python.org protobuf

Worked for me

配置了easy_install的下载域名:

easy_install --allow-hosts pypi.python.org protobuf

之前的错误消失了,个人推测是之前默认下载google code的protobuf有问题?麻烦知情者告诉我一声,非常感谢!

新的错误总是会出现,又来:

error: Setup script exited with error: command 'gcc' failed with exit status 1

这个问题一般是由于缺少python-dev包导致的,继续装吧!

yum -y install python-devel

总算OK了,对python不熟确实不行,最近只是学习了python的语法,各种常用包的使用还不太清楚,需要继续努力。

3. 最后附上DPark的一些资料

官方中文wiki: https://github.com/jackfengji/test_pro/wiki

google group:https://groups.google.com/forum/#!forum/dpark-users

支持迭代计算的MapReduce框架PDF:http://velocity.oreilly.com.cn/2011/ppts/dpark.pdf

没了。。好惨。有知道其他资料的麻烦继续告诉我,多谢!

最新文章

  1. EEG preprocessing - A Trick Before Doing ICA
  2. Python – locals和globals
  3. 基于SpringMVC下的Rest服务框架搭建【集成Swagger】
  4. HoloLens开发手记 - Unity之Gestures手势识别
  5. 毫秒数转换为指定格式日期的js代码
  6. 关于Scala JDK与IDEA版本兼容的问题
  7. 两篇很牛的vim使用技巧
  8. svn: E175002: can not read HTTP status line
  9. 各种html5 的 polyfill
  10. mysql init_connect 参数的其他用处
  11. 修改Tomcat命令窗口的名字
  12. [补档][Usaco2015 Jan]Grass Cownoisseur
  13. 配置sonarqube与gitlab sso认证集成
  14. IIS PHP
  15. python进阶(三) 内建函数getattr工厂模式
  16. SpringBoot整合Druid(阿里巴巴)数据源
  17. python3+ftplib实现ftp客户端
  18. VMware虚拟机安装Ubuntu系统英文改中文的方法
  19. XTU 1261 - Roads - [最小割][2017湘潭邀请赛B题(江苏省赛)]
  20. 经典模块化的前端框架:layer

热门文章

  1. springMVC+ freemark多视图配置
  2. MSP430F149模拟IIC读写24C02程序
  3. 使用Qt编写服务器端程序(包括Http传输服务器端)的方法
  4. SQL Server索引 - 非聚集索引 <第七篇>
  5. C# Nullable可空类型
  6. 【Xamarin挖墙脚系列:Xamarin.IOS的多个Storybord分隔视图的导航】
  7. python处理.seq文件
  8. android gridview布局,实现长按某一个,所有项都显示删除的图标
  9. java设计模式--创建模式--原型模式
  10. MyCat 主键ID自增长配置