SparkSQL External Datasource简易使用之AVRO
2024-10-15 10:54:16
下载源码&编译:
git clone https://github.com/databricks/spark-avro.git
sbt/sbt package
Maven GAV:
groupId: com.databricks.spark
artifactId: spark-avro_2.10
version: 0.1
$SPARK_HOME/conf/spark-env.sh
export SPARK_CLASSPATH=/home/spark/software/source/spark_package/spark-avro/target/scala-2.10/spark-avro_2.-0.1.jar:$SPARK_CLASSPATH
测试数据下载:
wget https://github.com/databricks/spark-avro/raw/master/src/test/resources/episodes.avro
Scala API:
import org.apache.spark.sql.SQLContext
val sqlContext = new SQLContext(sc)
import com.databricks.spark.avro._
val episodes = sqlContext.avroFile("file:///home/spark/software/data/episodes.avro")
import sqlContext._
episodes.select('title).collect()
SQL:
CREATE TEMPORARY TABLE episodes
USING com.databricks.spark.avro
OPTIONS (path "file:///home/spark/software/data/episodes.avro"); select * from episodes;
最新文章
- iOS通知的整理笔记
- 手机CPU和GPU厂商
- C#基础-关于用json给控制台程序传值的坑
- EntityFrameWork使用
- sqoop的命令行操作
- POI中getLastRowNum() 和getLastCellNum()的区别
- sequenza细胞纯度计算
- Linux命令之type
- spoj 665
- 看雪 安卓 dex文件
- Spring MVC源码分析(续)——请求处理
- LeetCode 二叉树后序遍历(binary-tree-postorder-traversal)
- Windows系统下Redis的安装
- InnoDB: ERROR: the age of the last checkpoint
- spring学习笔记2---MVC处理器映射(handlerMapping)三种方式(附源码)
- Android WebKit 内核
- DTO/DO等POJO对象的使用场景和 orika-mapper 框架的使用
- JQuery中的Ajax(六)
- gcc优化引起get_free_page比__get_free_page返回值多4096
- opsmanage 自动化运维管理平台
热门文章
- Notepad++前端开发常用插件介绍 - BorisHuai前端修炼 - 博客频道 - CSDN
- C# winform 右下角弹出窗口结果
- Networking in too much detail
- css布局实践总结(part2)
- 【NCDC数据】获取 hadoop权威指南3中的NCDC数据
- linux系统中rsync+inotify实现服务器之间文件实时同步
- TX Textcontrol 使用总结二——常见异常
- System.Data.SqlClient.SqlException.Number的所有错误值列表
- item30,最小的k个数
- 在Visual Studio 2010/2012中 找不到创建WebService的项目模板