Spark教程——(3)编写spark-shell测试Demo
2024-10-08 14:30:13
创建一个文件aa.txt,随便写点内容:
hello world! aa aa d d dg g
登录HDFS文件系统:
[root@node1 ~]# su hdfs
在HDFS文件系统中创建文件目录保存要上传的数据:
bash-4.2$ hdfs dfs -mkdir -p /user/cf
然后将CentOS文件系统上的aa.txt文件上传到HDFS文件系统中:
bash-4.2$ hdfs dfs -put /home/cf/aa.txt /user/cf
执行以下命令,进入spark-shell环境:
bash-4.2$ spark-shell
在spark-shell环境中用scala编写spark程序,按空格分割数据
scala> sc.textFile()).reduceByKey(_+_).saveAsTextFile("/user/cf/out")
执行后得到结果文件:
bash-4.2$ hadoop fs -ls /user/cf/out Found items -rw-r--r-- hdfs supergroup -- : /user/cf/out/_SUCCESS -rw-r--r-- hdfs supergroup -- : /user/cf/out/part- -rw-r--r-- hdfs supergroup -- : /user/cf/out/part-
需要更改CentOS系统中文件目录的访问权限,以便将文件从HDFS文件系统中下载到CentOS文件系统:
[root@node1 ~]# /home/cf
下载结果文件:
bash-4.2$ hadoop fs -get /user/cf/out/_SUCCESS /home/cf bash- /home/cf bash- /home/cf
查看结果文件:
[root@node1 ~]# cat /home/cf/_SUCCESS [root@node1 ~]# (d,) (aa,) (hello,) [root@node1 ~]# (world!,) (dg,) (g,)
参考:https://blog.csdn.net/csdnliuxin123524/article/details/80630174
最新文章
- java selenium后报错Element not found in the cache元素定位要重新赋值之前的定义
- 第一讲:WCF介绍
- 大家一起和snailren学java-(13)字符串
- 数据库逆向框架代码生成工具:MyBatis Generator的使用
- 二叉树节点个数题目[n0,n1,n2]
- 使用WebRequest 检测 手机号归属地。 C#通用 使用json 和可设定超时的WebClient
- IIS 发布后文件拒绝访问
- 通过从代码层面分析Linux内核启动来探知操作系统的启动过程
- [转] C#实现自动化Log日志
- Maven学习小结(四 聚合与继承)
- Unity Panel open &; close
- poj1006 孙子定理
- ImageView 各种工具类
- Moq的使用心得
- Spring MVC动态切换数据源(多数据库类型)
- [原创]K8 Cscan 3.6大型内网渗透自定义扫描器
- A1129. Recommendation System
- 彻底弄懂jsonp原理及实现方法
- js中实现cookie的增删改查(document.cookie的使用详情)
- 解决下载的CHM文件无法显示网页问题