大数据的起源是(大数据的来源)

2024-04-19 12:40:14 生活 0 585

大数据的概念在维克托的《大数据时代》一书中提到，书中大数据指不用随机分析法，而采用所有数据进行分析处理。书中的三个思想就是：数据不是随机样本，而是全部数据；数据不是精确性，而是混杂性；数据间不是因果关系，而是相关关系。那么大数据的应用框架是怎样的呢？

随着信息社会的发展，数据在不断地增长，而且是超几何的增长。特别是在浏览器端产生的数据，万亿用户的浏览数据如何进行存储和分析计算，这就是Google这样的公司天然就需要面对的现实。Google在2003年发表文章《The Google File System 》，在2004年发表文章《MapReduce: Simplified Data Processing》。

GFS大数据

GFS大数据解决的问题就是海量的数据如何进行存储。海量的数据并不是传统的MB或者GB级数据，而是TB、PB级的数据概念。这就需要低成本、高效率、高可靠的储存设计。

大数据的起源是(大数据的来源)

2003年，Google发表了《The Google File System》文章，阐述了解决海量数据储存的设计思想。在Apache下Lucene的子项目研究下，实现了海量数据的存储设计：分布式文件系统（也称之为分布式存储） HDFS（ Hadoop Distributed File System）。

MapReduce大数据

MapReduce大数据解决的问题就是海量数据如何进行分析与计算。在编程计算里，有并行编程计算框架，这并不是什么新兴的技术。同样Google在2004年发表了《MapReduce: Simplified Data Processing》。

BigTable大数据

BigTable大数据解决的问题就是对于海量的数据进行分析后，提高查询和利用数据的效率就是需要解决的重点。这就不得不说到数据库的起源了，数据库的产生就是为了查询和利用数据的效率提高，然而现有的数据库并不能满足基于分布式储存的需求。

Google工程师在2006年发表了《Bigtable: A Distributed Storage System for Structured Data》文章，文中阐述了基于分布式储存的数据库设计思想。就这样数据库时代从关系型数据库进入了非关系型数据库时代，一张大表BigTable设计思想，BigTable就是把所有的数据保存到一张表中，采用冗余方式（提高效率和可靠性），基于其设计思想就开源实现了基于HDFS的非关系型数据库（ NoSQL数据库）HBase。

提示

其实在我们常用的云盘或者网盘，其设计思想就是这样的，笔者常用的百度网盘也就类似于这样分布式的储存。笔者建议感兴趣的读者，可以阅读Google的三篇文章，最好是原文，这样我们就更能理解其设计思想。

今天为大家整理了部分大数据学习教程与大家共享，每个人可以根据自己的需要来选择。

End.

作者：天听行

8个数据分析方法，指导营销策略

优秀的数据可视化原来是这样做的！