week4

streaming data format

下面讲 data lakes

  

schema-on-read: 从数据源读取raw data 直接放到 data lake 里,然后再读到model里

schema-on-write: 传统模式,把raw data 经过处理后放到data warehouse里,此时已经是结构化的数据,然后直接load 出来

  

  

data lake summary

  

week5 - big data management

针对大数据,传统DBMS 需要提高的地方

  

some solutiion

  

from DBMS to BDMS

BDMS 应该具有的特征

  

  

BASE 就是基于CAP理论的

  

 

一些常用的BDMS及其优缺点

Redis: an enhanced key-value store

  

  

  

  

  

Aerospike: a new generation KV store

这是一个分布式NoSQL database + KV store.  是强一致性的

  

  

  

  

AsterixDB: a DBMS for semistructured data.  大家都知道的mongodb 以json 格式存储j数据, 这个Asterix 和 mongodb 类似. 它提供ACID保证.

  

Solr : Text data searching. 基于Lucene的

应该是一种search engine, 不知道和 ES 什么区别.

  

反向索引,至少要包含 doc id list, 也可以包含更多信息

  

除了full text search, 还有下面的功能

   

Vertica:a columnar DBMS

  

  

最新文章

  1. javascript的window.ActiveXObject对象,区别浏览器的方法
  2. NOSQL场景梳理
  3. go get安装第三方包的前提条件和步骤
  4. 用fontAwesome代替网页icon小图标
  5. SQL Server 存储过程自定义生成ID号
  6. Given a binary tree containing digits from0-9only, each root-to-leaf path could represent a number. An example is the root-to-leaf path1->2->3which represents the number123. Find the total sum of a
  7. 20150206读书笔记<深入理解计算机系统>
  8. 大陆用户如何下载Google Play中的apk文件
  9. ORA-00928: 缺失 SELECT 关键字
  10. Java中,&&与&;||与|的区别
  11. C++ Primer第九章课后编程问题
  12. 对jsp的初步了解及生成war包(一)
  13. 尚学堂马士兵struts2 课堂笔记(一)
  14. 2018-2019-2 20165232《网络对抗技术》Exp1 缓冲区溢出实验
  15. 2019-泰迪杯c题数据处理,WGS-84(世界标准地理坐标系) 转为 BD-09(百度地理坐标系)
  16. docker创建镜像及push镜像出错问题
  17. 初入TensorFlow————配置TensorFlow
  18. Installing IIS 8 on Windows Server 2012微软官方安装指导
  19. Python时钟,计算程序运行时间
  20. DNS 解释 --- 解析域名给电脑,电脑只看得懂1.1.1.1.1 这些ip地址 所以要翻译给他

热门文章

  1. 做自己的docker镜像(基于ubuntu:16.04)
  2. yum工作原理
  3. jmeter(二十五)linux环境运行jmeter并生成报告
  4. 《通过C#学Proto.Actor模型》之Prpos
  5. Ansible第二章:palybook介绍与使用--小白博客
  6. D. The Beatles
  7. 定位z-index
  8. Linux 学习 (十) 网络配置
  9. 洛谷P1262间谍网络
  10. 【XSY2887】【GDOI2018】小学生图论题 分治FFT 多项式exp