大数据的起源是(大数据的来源)

生活 0 585

大数据的概念在维克托的《大数据时代》一书中提到,书中大数据指不用随机分析法,而采用所有数据进行分析处理。书中的三个思想就是:数据不是随机样本,而是全部数据;数据不是精确性,而是混杂性;数据间不是因果关系,而是相关关系。那么大数据的应用框架是怎样的呢?

随着信息社会的发展,数据在不断地增长,而且是超几何的增长。特别是在浏览器端产生的数据,万亿用户的浏览数据如何进行存储和分析计算,这就是Google这样的公司天然就需要面对的现实。Google在2003年发表文章《The Google File System 》,在2004年发表文章《MapReduce: Simplified Data Processing》。

GFS大数据

GFS大数据解决的问题就是海量的数据如何进行存储。海量的数据并不是传统的MB或者GB级数据,而是TB、PB级的数据概念。这就需要低成本、高效率、高可靠的储存设计。

大数据的起源是(大数据的来源)

2003年,Google发表了《The Google File System》文章,阐述了解决海量数据储存的设计思想。在Apache下Lucene的子项目研究下,实现了海量数据的存储设计:分布式文件系统(也称之为分布式存储) HDFS( Hadoop Distributed File System)。

MapReduce大数据

MapReduce大数据解决的问题就是海量数据如何进行分析与计算。在编程计算里,有并行编程计算框架,这并不是什么新兴的技术。同样Google在2004年发表了《MapReduce: Simplified Data Processing》。

BigTable大数据

BigTable大数据解决的问题就是对于海量的数据进行分析后,提高查询和利用数据的效率就是需要解决的重点。这就不得不说到数据库的起源了,数据库的产生就是为了查询和利用数据的效率提高,然而现有的数据库并不能满足基于分布式储存的需求。

Google工程师在2006年发表了《Bigtable: A Distributed Storage System for Structured Data》文章,文中阐述了基于分布式储存的数据库设计思想。就这样数据库时代从关系型数据库进入了非关系型数据库时代,一张大表BigTable设计思想,BigTable就是把所有的数据保存到一张表中,采用冗余方式(提高效率和可靠性),基于其设计思想就开源实现了基于HDFS的非关系型数据库( NoSQL数据库)HBase。

提 示

其实在我们常用的云盘或者网盘,其设计思想就是这样的,笔者常用的百度网盘也就类似于这样分布式的储存。笔者建议感兴趣的读者,可以阅读Google的三篇文章,最好是原文,这样我们就更能理解其设计思想。

今天为大家整理了部分大数据学习教程与大家共享,每个人可以根据自己的需要来选择。

End.

作者:天听行

8个数据分析方法,指导营销策略

优秀的数据可视化原来是这样做的!

相关推荐: