大数据概念-白红宇

大数据概念

阅读量：520 次

发布时间：2019-03-07

本文共 1185 字，大约阅读时间需要 3 分钟。

大数据计算技术

大数据概念

大数据计算体系

数据采集与建模

大数据分析算法

大数据处理技术

数据可视化

Hadoop计算体系

HDFS/HBase存储架构

MapReduce计算模型

图并行计算框架

流计算

内存计算

大数据概念

数据是什么？

数据科学是什么？

大数据基本属性是什么？

什么是大数据（Big Data）？ 4V

Volume: 数据量异常庞大，一般达到PB量级

Variety: 数据呈异构化，数据来源呈多样性

Velocity: 数据处理要求时效性

Value: 单个数据无价值，但大规模数据拥有巨大价值

什么是大数据？

数据种类的多样性：文字、语音、图片、视频、信息等

数据对象的多样性：个人信息、个人数据、商业服务数据、社会公共数据、自然界数据、物质世界的数据

数据来源的多样性：在数据层面打破现实世界的界限，多家公司的共享替代一家公司的数据

大数据概念——数据的定义

数据的定义

数据的基本定义

计算机学科中数据的定义

数据的多样化

数据的形式多样化

数据的来源多样化

数据的范围多样化

数据转换过程

数据-信息-知识-价值转换模型

大数据概念——基本属性

Volume：大数据的超大规模

规模体现

带来的影响：

数据存储架构：

基于行-键表格存储格式的关系型数据库？

基于分布式文件系统的分布式数据库！

计算模型：

离线批处理计算框架（ MapReduce）

BSP图并行计算框架（Pregel、Hama）

交互式计算模型

大内存计算系统

Variety：大数据来源多样性与异构性

大数据类型划分：

依结构特征划分

依时效性划分

依关联特性划分

依数据类型划分

依数据来源划分

带来影响：

数据存储、管理和快速查询异常困难

Value：价值低密度特性

区别于传统数学统计学方法的关键之处

传统数学统计学

大数据分析计算方法

处理对象

局部数据或数据子集

以数据整体或完整数据集作为处理对象

处理方法

基于抽样调查的随机分析方法

机器学习方法

通过数据的积累来训练和改进算法和计算程序

结果正确性

取决于随机抽样模型产生的数据集的代表性

处理数据量越大，

计算结果越越优化

大数据技术特征

大数据算法特性

大数据计算系统特性

大数据开发技术特性

大数据算法特性

大数据计算

传统统计学

样本空间

整个数据集

基于独立同分布原理抽取样本集

计算方法

机器学习方法

按照固定数学模型进行预测

优势
避免样本失真

预测结果的精度改进是一个动态

大数据计算系统特性

大数据计算系统

传统数据库系统

优势

基础模型

分布式文件系统

NoSQL非关系型数据库

关系型模型

支持非结构化或异构数据的存储和处理

支持分布式系统部署

支持超大规模数据集完成快速查询操作

存储格式

基于键值对的列存储格式

基于主键的行存储格式

更优的查询效率

更好的对计算模型的支持

转载地址：http://meznz.baihongyu.com/

你可能感兴趣的文章

mysql problems

查看>>

mysql replace first,MySQL中处理各种重复的一些方法

查看>>

MySQL replace函数替换字符串语句的用法（mysql字符串替换）

查看>>

mysql replace用法

查看>>

Mysql Row_Format 参数讲解

查看>>

mysql select， from ，join ，on ，where groupby,having ,order by limit的执行顺序和书写顺序

查看>>

MySQL Server 5.5安装记录

查看>>

mysql server has gone away

查看>>

mysql skip-grant-tables_MySQL root用户忘记密码怎么办?修改密码方法:skip-grant-tables

查看>>

mysql slave 停了_slave 停止。求解决方法

查看>>

MySQL SQL 优化指南：主键、ORDER BY、GROUP BY 和 UPDATE 优化详解

查看>>

MYSQL sql语句针对数据记录时间范围查询的效率对比

查看>>

mysql sum 没返回,如果没有找到任何值，我如何在MySQL中获得SUM函数以返回'0'？

查看>>

mysql sysbench测试安装及命令

查看>>

mysql Timestamp时间隔了8小时

查看>>

Mysql tinyint(1)与tinyint(4)的区别

查看>>

MySQL Troubleshoting：Waiting on query cache mutex

查看>>

mysql union orderby 无效

查看>>

mysql v$session_Oracle 进程查看v$session

查看>>

mysql where中如何判断不为空

查看>>

	传统数学统计学	大数据分析计算方法
处理对象	局部数据或数据子集	以数据整体或完整数据集作为处理对象
处理方法	基于抽样调查的随机分析方法	机器学习方法通过数据的积累来训练和改进算法和计算程序
结果正确性	取决于随机抽样模型产生的数据集的代表性	处理数据量越大，计算结果越越优化

	大数据计算	传统统计学
样本空间	整个数据集	基于独立同分布原理抽取样本集
计算方法	机器学习方法	按照固定数学模型进行预测
优势	避免样本失真预测结果的精度改进是一个动态