澳门1495概念整理

大数额简介

大数量简介

大数目标概念

Volume(数据容量)、Variety(数据类型)、Viscosity(价值密度)、Velocity(速度)、维拉city(真实性)

大数据的概念

Volume(数据容量)、Variety(数据类型)、Viscosity(价值密度)、Velocity(速度)、维拉city(真实性)

大数目标特性

非结构性、不完备性、时效性、安全性、可信性

大数量的习性

非结构性、不完备性、时效性、安全性、可相信性

大数量处理的全经过

多少收集与记录 –>  数据抽取、清洗、标记  –> 
数据集成、转换、简约  –>  数据解析与建模  –>  数据表达

大数据处理的全经过

数量搜集与记录 –>  数据抽取、清洗、标记  –> 
数据集成、转换、简约  –>  数据解析与建模  –>  数据表达

大数额技术的表征

1.剖析宏观的数码而非随机取样

2.器重数量的复杂,弱化精确性

3.关怀数据的相关性,而非因果关系

大数目技术的特征

1.解析宏观的数额而非随机取样

2.刮目相看数量的错综复杂,弱化精确性

3.体贴数据的相关性,而非因果关系

大数量的关键技术

流处理、并行化、摘要索引、可视化

大数据的关键技术

流处理、并行化、摘要索引、可视化

大数目运用趋势

分割市场、拉动集团发展、大数量解析的新章程出现、大数目与云总结中度融合、大数据总体设施陆续现身、大数目安全

大数目利用趋势

分割市场、拉动集团提升、大数量解析的新章程出现、大数目与云统计中度融合、大数额总体设施陆续出现、大数量安全

没错商量范式

率先范式(科学实验)、第二范式(科学理论)、第三范式(系统模拟)、第四范式(数据密集型计算)

没错琢磨范式

首先范式(科学实验)、第二范式(科学理论)、第三范式(系统模拟)、第四范式(数据密集型统计)

格雷法则

1.科学统计数据爆炸式拉长

2.缓解方案为横向伸张的种类布局

3.将计算用于数据而不是多少用于统计(把程序向数据迁移。以总括为主导转变为以数据为主导)

格雷法则

1.科学统计数据爆炸式增加

2.化解方案为横向扩充的系统布局

3.将总括用于数据而不是数据用于计算(把程序向数据迁移。以统计为骨干转变为以数量为基本)

CAP理论

Consistency(一致性)、Availability(可用性)、Partition
Tolerance(分区容错性)

CAP理论

Consistency(一致性)、Availability(可用性)、Partition
Tolerance(分区容错性)

CAP定理

一个分布式系统无法还要知足一致性、可用性、分区容错性七个系统必要,最六只能够同时满足五个。

CAP定理

一个分布式系统不容许同时满意一致性、可用性、分区容错性几个种类要求,最七只好同时满意两个。

CAP选择

1.扬弃分区容错,导致可伸张性不强:MySQL、Postgres

2.甩掉可用性,导致品质不是专门高:Redis、MongoDB、MemcacheDB、HBase、BigTable、Hypertable

3.屏弃一致性,对一致性要求低:卡Sandra、Dynamo、Voldemort 、CouchDB

CAP选择

1.扬弃分区容错,导致可扩充性不强:MySQL、Postgres

2.放任可用性,导致品质不是尤其高:Redis、MongoDB、MemcacheDB、HBase、BigTable、Hypertable

3.抛弃一致性,对一致性要求低:Cassandra、Dynamo、Voldemort 、CouchDB

HDFS

HDFS

HDFS目标

1.包容让利的硬件装备

2.流数额读写

3.大数据集

4.简短的文件模型

5.有力的跨平台包容性

HDFS目标

1.包容廉价的硬件设备

2.流数据读写

3.大数据集

4.简单易行的公文模型

5.强有力的跨平台包容性

HDFS主要组件(图来自哈里斯堡理军事高校大数量课程李先生的课件)

澳门1495 1

HDFS主要组件(图来自圣Pater罗苏拉理哲大学大数据课程李先生的课件)

澳门1495 2

HDFS读文件

澳门1495 3


 

澳门1495 4

HDFS读文件

澳门1495 5


 

澳门1495 6

HDFS写文件

澳门1495 7

HDFS写文件

澳门1495 8

HDFS容错

1.心跳检测:NameNode和DataNode之间

2.文本块完整性:记录新建文件所有块的校验和

3.集群载荷均衡:自动从负载重的DataNode上迁移数据

4.文书删除:存放在/trash下,过一段时间才正式删除。在hdfs-site.xml中配备

HDFS容错

1.心跳检测:NameNode和DataNode之间

2.文件块完整性:记录新建文件所有块的校验和

3.集群载重均衡:自动从负载重的DataNode上迁移数据

4.文件删除:存放在/trash下,过一段时间才正式删除。在hdfs-site.xml中布置

MapReduce

MapReduce

函数式编程优点

1.逻辑可证

2.模块化

3.组件化

4.便于调试

5.易于测试

6.更高的生产率

函数式编程优点

1.逻辑可证

2.模块化

3.组件化

4.便于调试

5.易于测试

6.更高的生产率

函数式编程的性状

1.尚未副功效:没有改动过函数在其成效域之外的量并被其他函数使用

2.无状态的编程:将景况保存在参数中,作为函数的附赠品来传递(不是很懂)

3.输入值和输出值:在函数式编程中,唯有输入值和输出值。函数是焦点的单位。在面向对象编程中,将目的传来传去;在函数式编程中,是将函数传来传去。

函数式编程的特征

1.不曾副成效:没有改动过函数在其功能域之外的量并被其余函数使用

2.无状态的编程:将景况保存在参数中,作为函数的附赠品来传递(不是很懂)

3.输入值和输出值:在函数式编程中,唯有输入值和输出值。函数是着力的单位。在面向对象编程中,将对象传来传去;在函数式编程中,是将函数传来传去。

MapReduce流程图(图来自南京大学黄宜华先生的课件)

澳门1495 9

MapReduce流程图(图来源底特律高校黄宜华先生的课件)

澳门1495 10

大数额流式统计

大数据流式计算

流式数据的特性

实时性、易失性、突发性、无序性、无限性、准确性

流式数据的特色

实时性、易失性、突发性、无序性、无限性、准确性

大数据流式总计模型

数据流管理连串:固定查询、ad hoc查询

大数据流式计算:推文(Tweet) Storm、Yahoo S4

大数目流式总计模型

数据流管理种类:固定查询、ad hoc查询

大数目流式计算:推特(TWTR.US) Storm、Yahoo S4

Storm总体架构

主节点Nimbus:负责全局资源分配、职责调度、状态监控、故障检测

从节点Supervisor:接收职责,启动或终止工作经过Worker。每个Worker内部有多个Executor。每个Executor对应一个线程。每个Executor对应一个或七个Task。

Zookeeper:协调、存储元数据、从节点心跳音讯、存储整个集群的有所情况新闻、所有配置信息

Storm总体架构

主节点Nimbus:负责全局资源分配、义务调度、状态监控、故障检测

从节点Supervisor:接收任务,启动或停止工作进程Worker。每个Worker内部有四个Executor。每个Executor对应一个线程。每个Executor对应一个或多少个Task。

Zookeeper:协调、存储元数据、从节点心跳音信、存储整个集群的兼具景况新闻、所有配置音信

Storm特征

1.编程简单

2.支撑多语言

3.作业级容错

4.品位扩充

5.底层使用Zero音信队列,快

Storm特征

1.编程简单

2.支持多语言

3.作业级容错

4.水准增加

5.底层使用Zero信息队列,快

Storm缺点

1.资源分配没有设想职分拓扑的结构特征,无法适应数据负载的动态变化

2.施用集中式的作业级容错,限制了系统的可伸张性

Storm缺点

1.资源分配没有设想职分拓扑的结构特征,不可以适应数据负载的动态变化

2.应用集中式的作业级容错,限制了系统的可增添性

找寻引擎

摸索引擎

搜索引擎的定义

依据早晚的策略、运用特定的微机程序、从互连网上征集音信,对音讯进行企业和处理将来,将那几个信息呈现给用户的系统叫搜索引擎。

摸索引擎的概念

依据早晚的策略、运用特定的电脑程序、从网络上采访音讯,对音信举办公司和拍卖将来,将那个新闻呈现给用户的种类叫搜索引擎。

找寻引擎的咬合

搜索器:搜集音讯

索引器:抽取索引

检索器:在库中搜寻,排序。

用户接口:显示

探寻引擎的结缘

搜索器:搜集音讯

索引器:抽取索引

检索器:在库中摸索,排序。

用户接口:浮现

追寻引擎的行事经过

爬行 -> 抓取存储 -> 预处理 -> 名次

寻找引擎的工作经过

爬行 -> 抓取存储 -> 预处理 -> 排行

搜寻引擎的评头品足目标

查全率、查准率、响应时间、覆盖范围、用户方便性

探寻引擎的评价目标

查全率、查准率、响应时间、覆盖范围、用户方便性

大数额解析

大数据解析

数量解析的目标

对乌烟瘴气的数码开展汇总、萃取、提炼,进而找出所商量对象的内在规律,发现其市值。

数据解析的目标

对乌烟瘴气的数目进行集中、萃取、提炼,进而找出所商讨对象的内在规律,发现其市值。

数码解析的意思

在纷繁扬扬的数目中分析出有价值的内容,获得对数据的体味。

多少解析的意义

在纷繁扬扬的数据中剖析出有价值的内容,得到对数码的体味。

数量解析的档次

1.革命性数据解析(为了形成值得即使的印证)

2.定性数据解析(非数值型数据)

3.离线数据解析(先存于磁盘,批处理)

4.在线数据解析(实时)

多少解析的系列

1.革命性数据解析(为了形成值得若是的验证)

2.定性数据解析(非数值型数据)

3.离线数据解析(先存于磁盘,批处理)

4.在线数据解析(实时)

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图