新闻实时分析系统 基于IDEA环境下的Spark2.X程序开发
1.Windows开发环境配置与安装
下载IDEA并安装,可以百度一下免费文档。
2.IDEA Maven工程创建与配置
1)配置maven
2)新建Project项目
3)选择maven骨架
4)创建项目名称
5)选择maven地址
6)生成maven项目
7)选择scala版本
8)新建Java 和 scala目录
9)编辑pom.xml文件
a)地址一
b)地址二
3.开发Spark Application程序并进行本地测试
1)idea编写WordCount程序
package com.spark.test
import org.apache.spark.{SparkConf, SparkContext}
object MyScalaWordCout {
def main(args: Array[String]): Unit = {
//参数检查
if (args.length < 2) {
System.err.println("Usage: MyWordCout ")
System.exit(1)
}
//获取参数
val input=args(0)
val output=args(1)
//创建scala版本的SparkContext
val conf=new SparkConf().setAppName("myWordCount")
val sc=new SparkContext(conf)
//读取数据
val lines=sc.textFile(input)
//进行相关计算
val resultRdd=lines.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
//保存结果
resultRdd.saveAsTextFile(output)
sc.stop()
}
}
4.Spark Application程序打包
1)项目打jar包,参考之前讲过的项目打包方式
2)spark-submit方式提交作业
bin/spark-submit --master local[2] /opt/jars/sparkStu.jar hdfs://bigdata-pro01.kfk.com:9000/user/data/stu.txt
最新文章
- 通过修改host文件来允许和禁止主机的访问
- windows phone 豆瓣api的封装
- Ant 入门
- java使用xheditor Ajax异步上传错误
- js获取当前的时间(包含星期)
- Erlang调度器细节探析
- Android输入事件详解
- VS2017安装过程中【工作负载】选择安装
- 泊爷带你学go -- 加锁的问题
- vs11 微软下载地址
- ORACLE 计算时间相减间隔
- JavaScript中 null 的 typeof是object
- 吴裕雄 09-MySQL删除数据表
- [转]java的(PO,VO,TO,BO,DAO,POJO)类名包名解释
- Coding 代码管理快速入门(转)
- zabbix微信报警
- C++实现文件自校验的一种方法
- initialization 与 finalization 执行顺序 研究
- ios UITableView多选删除
- 每周荐书:Kotlin、分布式、Keras(评论送书)
热门文章
- 用Wireshark抓包分析请求
- RSA学习1
- 数据后台管理(五)AOP日志
- 干货:.net core实现读取自定义配置文件,有源代码哦
- [windows篇] 使用Hexo建立个人博客,自定义域名https加密,搜索引擎google,baidu,360收录
- 如何做seo优化才能获取搜索引擎排名?
- *args和**kwargs的作用
- Java实现多态的机制是什么?
- Asp.net Core 系列之--1.事件驱动初探:简单事件总线实现(SimpleEventBus)
- 控制UI界面