整理大数量期末考试复习提纲

大额简单介绍

大数量的定义

Volume(数据体积)、Variety(数据类型卡塔尔、Viscosity(价值密度State of Qatar、Velocity(速度卡塔尔国、维拉city(真实性卡塔尔

大额的属性

非结构性、不完备性、时间效果与利益性、安全性、可信性

大数量管理的全经过

数据搜罗与记录 –>  数据抽出、清洗、标识  –> 
数据集成、转变、简约  –>  数据深入剖判与建立模型  –>  数据悉明

大数目工夫的特征

1.深入分析宏观的数码而非随机取样

2.尊重数量的纷纷,弱化准确性

3.关注数据的相关性,而非因果关系

大数据的关键手艺

流管理、并行化、摘要索引、可视化

大数量应用趋向

细分商场、推动公司提升、大数量拆解解析的新章程出现、大数目与云总计中度融入、大额全部设施时断时续现身、大数据安全

是的切磋范式

首先范式(科学实验卡塔尔国、第二范式(科学理论State of Qatar、第三范式(系统模拟卡塔尔(قطر‎、第四范式(数据密集型总括卡塔尔国

Gray法规

1.科学总计数据爆炸式增加

2.解决方案为横向扩展的种类构造

3.将总计用于数据并非数额用于计算(把程序向数据迁移。以总结为着力转移为以数量为中央State of Qatar

CAP理论

Consistency(风流浪漫致性State of Qatar、Availability(可用性卡塔尔、Partition
Tolerance(分区容错性卡塔尔

CAP定理

一个遍布式系统不容许同一时间满足后生可畏致性、可用性、分区容错性多少个体系要求,最多只好同期知足四个。

CAP选择

1.放弃分区容错,引致可扩张性不强:MySQL、Postgres

2.抛弃可用性,以致质量不是特意高:Redis、MongoDB、MemcacheDB、HBase、BigTable、Hypertable

3.放任生机勃勃致性,对风姿罗曼蒂克致性必要低:Cassandra、Dynamo、Voldemort 、CouchDB

HDFS

HDFS目标

1.包容减价的硬件器材

2.流多少读写

3.大数据集

4.大约的文件模型

5.强劲的跨平台包容性

HDFS主要组件(图来源阿拉木图理工业余大学学学大数目课程李先生的课件卡塔尔国

图片 1

HDFS读文件

图片 2


 

图片 3

HDFS写文件

图片 4

HDFS容错

1.心跳检查实验:NameNode和DataNode之间

2.文件块完整性:记录新建文件全数块的校验和

3.集群载重均衡:自动从负载重的DataNode上迁移数据

4.文书删除:寄放在/trash下,过大器晚成段时间才正式删除。在hdfs-site.xml中布署

MapReduce

函数式编制程序优点

1.逻辑可证

2.模块化

3.组件化

4.便于调节和测量试验

5.易于测量试验

6.更加高的临盆率

函数式编制程序的天性

1.并未有副功能:未有改正过函数在其功能域之外的量并被其他函数使用

2.无状态的编制程序:将气象保存在参数中,作为函数的附赠品来传递(不是很懂State of Qatar

3.输入值和输出值:在函数式编制程序中,独有输入值和输出值。函数是大旨的单位。在面向对象编制程序中,将对象传来传去;在函数式编程中,是将函数字传送来传去。

MapReduce流程图(图来源南大黄宜华先生的课件State of Qatar

图片 5

大数目流式计算

流式数据的风味

实时性、易失性、突发性、无序性、无限性、准确性

大数目流式总计模型

数据流管理种类:固定查询、ad hoc查询

大数额流式总计:Twitter Storm、Yahoo S4

Storm总体结构

主节点Nimbus:担负全局财富分配、职责调治、状态监察和控制、故障检查评定

从节点Supervisor:选拔职责,运转或甘休专门的学业进程Worker。每一种Worker内部有多少个Executor。每一种Executor对应二个线程。每一种Executor对应一个或多个Task。

Zookeeper:和睦、存储元数据、从节茶食跳新闻、存款和储蓄整个集群的兼具情状新闻、全数配置信息

Storm特征

1.编制程序轻松

2.扶植多语言

3.作业级容错

4.水准增添

5.底层使用Zero音信队列,快

Storm缺点

1.财富分配未有设想职责拓扑的布局特征,不能适应数据负载的动态变化

2.接收集英式的作业级容错,约束了系统的可扩大性

探索引擎

搜寻引擎的定义

据书上说早晚的布署、运用特定的微Computer程序、从互联英特网搜集新闻,对新闻进行集体和拍卖未来,将这个新闻展现给客商的种类叫寻找引擎。

寻找引擎的结合

寻找器:搜罗音讯

索引器:抽出索引

检索器:在库中检索,排序。

顾客接口:突显

寻找引擎的办事历程

爬行 -> 抓取存款和储蓄 -> 预管理 -> 排行

探索引擎的评价目标

查全率、查准率、响应时间、覆盖面积、顾客方便性

大数目剖判

数据深入解析的目标

对七颠八倒的多寡实行集中、萃取、提炼,进而寻找所商讨对象的内在规律,开掘其价值。

多少解析的含义

在纷纷洋洋的多寡中解析出有价值的开始和结果,拿到对数码的体味。

数量分析的花色

1.革命性数据深入深入分析(为了变成值得假如的查实State of Qatar

2.定性数据解析(非数值型数据卡塔尔国

3.离线数据深入分析(先存于磁盘,批管理卡塔尔(قطر‎

4.在线数据深入解析(实时卡塔尔

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图