一、MPI为何物?

初步了解:MPI集群环境搭建

二、重新认识Spark

链接:https://www.zhihu.com/question/48743915/answer/115738668

马铁大神的phd thesis 总结里面说了一句话 大概意思是说 单纯的如果使用mpi 来实现一个算法 比spark 快五六倍是很正常的 但是spark 是一个 general 的 data flow 处理框架 就是可以在数据的生命周期里面 可以使用spark 之上的具体实现来处理数据 ml 只是一部分而已 这就是spark 最大的卖点之一

所以你用这个Prophet平台来和spark 比 ml这方面的效率当然你要快了的 因为还有很多ml 专业的平台都要比spark 快 这就不列举了
因为spark 基于 mapreduce的 这种program model 就不是适合ml的 特别是ml 里面大量参数的模型 比如lda 之类的

btw: 如果作为一个严格的论文来看的话 把spark 作为baseline 而不是做广泛的实验比较的话比如 各种平台算法 数据集 算法

三、Microsoft Distributed Machine Learning Toolkit (DMTK)

<Parallelization in Machine Learning with Multiple Processes>
 

DMTK includes the following projects:

  • DMTK framework(Multiverso): The parameter server framework for distributed machine learning.
  • LightLDA: Scalable, fast and lightweight system for large-scale topic modeling.
  • LightGBM: LightGBM is a fast, distributed, high performance gradient boosting (GBDT, GBRT, GBM or MART) framework based on decision tree algorithms, used for ranking, classification and many other machine learning tasks.
  • Distributed word embedding: Distributed algorithm for word embedding implemented on multiverso.
 

四、GPU隆重登场

 
 
在2.4版本中,kmean是opencl实现。
 
 
在4.1版本中,LogisticRegression是opencl实现的么?
class  cv::ml::LogisticRegression
貌似不是gpu版本。
 

In a nutshell

Ref: How to use NVIDIA GPUs for Machine Learning with the new Data Science PC from Maingear

看样子大家才刚刚意识到这个事情,或者dnn就足够了。

Goto: [CUDA] Install H2O.ai,有部分GPU实现的算法。

  • GLM: Lasso, Ridge Regression, Logistic Regression, Elastic Net Regulariation
  • KMeans
  • Gradient Boosting Machine (GBM) via XGBoost
  • Singular Value Decomposition(SVD) + Truncated Singular Value Decomposition
  • Principal Components Analysis(PCA)

Real time bench mark: https://www.youtube.com/watch?v=LrC3mBNG7WU,速度快二十倍。

 

五、ML in OpenCV

End.

最新文章

  1. 使用drawBitmapMesh扭曲图像
  2. Oracle 不同故障的恢复方案
  3. ASP.Net定时任务执行
  4. PHP面向对象(OOP):__set(),__get(),__isset(),__unset()四个方法的应用
  5. 【NIO】dawn在buffer用法
  6. JSR330: DI
  7. 再来写一个随机数解决方案,对Random再来一次封装
  8. 笔记︱范数正则化L0、L1、L2-岭回归&amp;Lasso回归(稀疏与特征工程)
  9. nginx的限流问题
  10. linux查看服务器并发连接数
  11. 等积投影(equal-area projection)
  12. mqtt 客户端 基于Python
  13. HDU 5724 Chess(SG函数+状态压缩)
  14. python零碎知识点
  15. 三篇文章了解 TiDB 技术内幕 —— 谈调度
  16. 启动yarn
  17. WebApi 数据保护操作未成功。这可能是由于未为当前线程的用户上下文加载用户配置文件导致的。当线程执行模拟时,可能会出现此情况。&quot;,&quot;ExceptionType&quot;:&quot;System.Security.Cryptography.CryptographicException&quot;,&quot;StackTrace
  18. DrawGrid DrawFocusRect
  19. LM3S之boot loader学习笔记-1
  20. Emgucv3.0的安装与配置

热门文章

  1. PAT Basic 1062 最简分数 (20 分)
  2. MyBatis-13-缓存
  3. windows 10安装mongodb数据库
  4. 报错Too many connections
  5. webpack给目录起别名
  6. 小米oj 找小"3"(数位dp)
  7. [Luogu] 引水入城
  8. 20190908 NOIP 模拟40
  9. python 装饰器,传递类以及参数
  10. [C语言]结构体初始化的不同方法