收拾大数据期末考试复习提纲

大数据简单介绍

大额的定义

Volume(数据体量)、Variety(数据类型)、Viscosity(价值密度)、Velocity(速度)、维拉city(真实性)

大数指标习性

非结构性、不完备性、时效性、安全性、可信性

大数目管理的全经过

数据采撷与记录 –>  数据收取、洗濯、标志  –> 
数据集成、转变、简约  –>  数据分析与建立模型  –>  数据书上表明

大数目手艺的性状

1.分析宏观的数额而非随机取样

2.刮目相看数量的纷纭,弱化正确性

3.关心数据的相关性,而非因果关系

大额的关键手艺

流管理、并行化、摘要索引、可视化

大数目运用趋势

细分市集、拉动公司升高、大数量剖判的新点子现身、大数额与云总计中度融入、大数据完整设施陆陆续续出现、大数目安全

是的钻探范式

先是范式(科学实验)、第二范式(科学理论)、第三范式(系统模拟)、第四范式(数据密集型计算)

Gray法规

1.科学总括数据爆炸式增进

澳门1495,2.缓慢解决方案为横向增添的系统布局

3.将总计用于数据实际不是数额用于总括(把程序向数据迁移。以总括为着力转移为以数量为要旨)

CAP理论

Consistency(一致性)、Availability(可用性)、Partition
Tolerance(分区容错性)

CAP定理

多少个分布式系统不容许同期餍足一致性、可用性、分区容错性七个系统要求,最八只能同不时候满足八个。

CAP选择

1.丢掉分区容错,导致可增加性不强:MySQL、Postgres

2.遗弃可用性,导致品质不是特地高:Redis、MongoDB、MemcacheDB、HBase、BigTable、Hypertable

3.放弃一致性,对一致性须要低:Cassandra、Dynamo、Voldemort 、CouchDB

HDFS

HDFS目标

1.包容廉价的硬件设备

2.流数据读写

3.大数据集

4.轻便易行的文书模型

5.精锐的跨平台包容性

HDFS首要组件(图来自罗兹理文高校大数额课程李先生的课件)

澳门1495 1

HDFS读文件

澳门1495 2


 

澳门1495 3

HDFS写文件

澳门1495 4

HDFS容错

1.心跳检查实验:NameNode和DataNode之间

2.文书块完整性:记录新建文件全数块的校验和

3.集群载荷均衡:自动从负载重的DataNode上迁移数据

4.文书删除:贮存在/trash下,过一段时间才正式删除。在hdfs-site.xml中布局

MapReduce

函数式编制程序优点

1.逻辑可证

2.模块化

3.组件化

4.便于调节和测量试验

5.易于测验

6.更加高的生产率

函数式编制程序的特征

1.未曾副作用:没有退换过函数在其成效域之外的量并被其余函数使用

2.无状态的编制程序:将景况保存在参数中,作为函数的附赠品来传递(不是很懂)

3.输入值和输出值:在函数式编制程序中,独有输入值和输出值。函数是基本的单位。在面向对象编制程序中,将目的传来传去;在函数式编制程序中,是将函数字传送来传去。

MapReduce流程图(图来源南大黄宜华先生的课件)

澳门1495 5

大数量流式总结

流式数据的特色

实时性、易失性、突发性、无序性、无限性、准确性

大数据流式总括模型

数据流管理种类:固定查询、ad hoc查询

大数据流式总计:Twitter Storm、Yahoo S4

Storm总体框架结构

主节点Nimbus:担当全局财富分配、职分调解、状态监察和控制、故障检查测量检验

从节点Supervisor:接收职务,运营或停止事业进度Worker。各种Worker内部有八个Executor。各个Executor对应一个线程。每一个Executor对应一个或五个Task。

Zookeeper:协和、存款和储蓄元数据、从节点心跳音讯、存款和储蓄整个集群的拥有境况音讯、全数配置音信

Storm特征

1.编制程序轻易

2.支持多语言

3.作业级容错

4.水平扩展

5.底层使用Zero新闻队列,快

Storm缺点

1.能源分配未有虚拟职务拓扑的结构特征,不可能适应数据负载的动态变化

2.施用集英式的作业级容错,限制了系统的可扩大性

研究引擎

寻找引擎的定义

依靠早晚的国策、运用特定的管理器程序、从互联互连网收集音讯,对音讯进行集体和拍卖今后,将这么些音信显示给用户的体系叫寻找引擎。

检索引擎的构成

搜索器:收集新闻

索引器:收取索引

检索器:在库中检索,排序。

用户接口:体现

追寻引擎的劳作经过

爬行 -> 抓取存款和储蓄 -> 预管理 -> 排行

搜寻引擎的评说目标

查全率、查准率、响应时间、覆盖范围、用户方便性

大数据解析

多少剖析的目标

对一无可取的多寡开始展览聚焦、萃取、提炼,从而搜索所切磋对象的内在规律,发掘其股票总市值。

多少剖析的意思

在纷繁扬扬的数额中深入分析出有价值的内容,获得对数据的体会。

数码分析的种类

1.探求性数据剖判(为了产生值得假使的考察)

2.定性数据深入分析(非数值型数据)

3.离线数据深入分析(先存于磁盘,批管理)

4.在线数据剖判(实时)

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图