首页 > 编程笔记

什么是大数据

想了解什么是大数据？首先需要知道什么是数据，其实文本、声音、图片、视频都是数据，例如你用手机数据线连上电脑的时候上传的都是数据。

那么大数据如何定义呢？大数据指的就是数据体量达到了一定的级别，而我们现有的算法和工具无法在合理的时间内给予处理，这样的数据才可以称为大数据。

当然，大数据还包括多样性（Variety）、价值密度低（Valueless）、处理速度快（Velocity）等特点，但最重要的特点还是数据量（Volume）要大。

我们知道描述一个物品很大的时候是需要带上单位的。比方说，姚明很高，身高 230，这样描述显然不准确，是 cm（厘米）还是 mm（毫米），如果 230mm，那它只是个模型。同样道理，大数据也需要带有度量单位，下面是一些数据单位之间的换算关系。

表：数据单位
数据单位	含义	换算公式
B	Byte，字节	1B = 8bit
KB	Kilobyte，千字节	1KB = 1024B
MB	Mega byte，兆字节，简称兆	1MB = 1024KB
GM	Giga byte，吉字节，又称千兆	1GB = 1024MB
TB	Tera byte，万亿字节，太字节	1TB = 1024GB
PB	Peta byte，千万亿字节，拍字节	1PB = 1024TB
EB	Exa byte，百亿亿字节，艾字节	1EB = 1024PB
ZB	Zetta byte，十万亿亿字节，泽字节	1ZB = 1024 EB
YB	Yotta byte，一亿亿亿字节，尧字节	1YB = 1024 ZB
BB	Bronto byte，一千亿亿亿字节	1BB = 1024 YB
NB	Nona byte	1NB = 1024BB
DB	Dogga byte	1DB = 1024NB

大家使用迅雷下载电影，下载速度显示的 500KB，B 指的就是基本单位，即字节 byte。其实大家对 KB、MB、GB 应该都是有一定的概念，例如使用手机拍一幅帅照大约 1MB 左右，一部电影差不多是几个 GB，甚至大家对 TB 也有概念，大家现在买移动硬盘基本都是 TB 级的容量了。而真正的大数据是需要至少达到这些单位的级别的，比如 PB、EB、ZB、YB、NB 等。

其实，这些单位是为大数据而生的，本来没有这些单位。1PB 就相当于美国国家图书馆藏书的所有内容之和。而 Google 每天都在处理 20PB 的数据。一般认为达到 PB 级别的数据才可以称为大数据。

这里最大的单位是 YB，有家统计机构给出 1YB 相当于世界上所有海滩上的沙子粒数总和，准不准确无法验证，这只是说明数据体量达到了一个海量的级别。当然，还有更大的单位没有列出，比如比 YB 更大还有 NB，等等，数据增长不停止的话，单位定义不会停止。

大数据的来源

大数据一共有三个来源。

第一个来源是传统互联网企业依旧在产生巨大的数据，如京东、淘宝，等等。例如淘宝双 11 的当天，交易额可以突破千亿元，由交易产生的数据高达 46GB，这仅仅是一天的数据。

第二个来源是物联网的发展带来了大数据。我们已经进入了物联网时代，也就是在原来只有计算机组成的互联网基础上，加入许多非计算机节点。大街小巷的监控每天都在记录视频数据，物流中转站每天都在用手持设备扫描货物入库/出库记录，门禁数据，校园卡消费数据，家居智能产品产生的数据等。这些物联网设备在城市的每个角落随处可见，所以现在就有了智慧城市、智慧地球的概念，这是大数据很重要的一个来源。

第三个来源就是移动应用快速发展，人们都成了低头族，聊着 QQ，发着微信，顾不上跟人打招呼，都在忙着造大数据。移动应用也是大数据的重要来源。

如何处理大数据

随着数据越来越多，我们自然就会面临两个问题，第一个问题是这些大量历史数据还有用吗，为了节省空间可否删除呢？毕竟硬件资源有限。

答案是有用的，而且可能带来意想不到的价值。我们可能从大量数据中找到某些行业的规律或规则，这些规则可能会带来巨大收益。

第二个问题就是如何处理这些海量历史大数据呢？我们的处理办法就是传统的商业智能领域的数据挖掘技术。另外，还有一种处理技术是目前比较火的云计算技术，这种技术对数据处理的实时性要求很高，一般要求秒级处理。

数据分析与挖掘

分享一个真正通过数据挖掘收益的经典案例，最大零售超市沃尔玛拥有世界上最大的数据仓库系统，为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。通过数据挖掘和分析，一个意外的发现是：美国中年男子购买尿布的同时一般存在很大的可能会购买啤酒。通过分析后超市将啤酒和尿布摆放位置靠近，这样给超市带来了巨大收益。

国内百度大数据也做过很多次预测分析。2014 年世界杯足球赛，百度通过大数据分析了所有比赛，小组赛准确率达到 60%，淘汰赛阶段高达 100%。还有微软、Google等几家公司都利用大数据做了相应的预测。

这两个案例都是传统的数据分析领域，最终目的都是为了从大数据中找到一些规则或者作出预测，为企业决策提供帮助，有点像沙里淘金。为了一点点金粒，就要留住所有沙子。这里的金子就是规则和结果，大量沙子就是大数据。

数据分析的步骤类似于从沙子里淘金的步骤，其步骤如下：

采集大数据：可能有很多来源，这里要说明一下，数据必须真实可靠，否则得到的规则也将是错误的。
数据抽取：清洗，把对结果形成干扰的或者异常的数据剔除。比如运动员档案的数据里面出现一些名字，各项指标都是空着的，这样没意义的数据要删除。
在清洗完毕的数据基础上构建数据仓库，实际上就是对我们感兴趣的维度构建一个模型，比如你要考察的是足球运动员，可能关注身高、体重、坐高、下肢长、小腿长，而对长得帅不帅、哪里人不感兴趣。模型建好之后，最后一步运用数据挖掘算法进行计算得到结论，这就是大数据处理的传统领域——数据分析，也叫作商业智能。

上面讲到的两个案例都是实时性要求不高，不要求马上得到结果。如果希望快速得到结果，比如几秒钟得到处理结果，这就是大数据处理的另一个领域，即云计算。

基于云平台的分布式处理

介绍云计算之前，首先思考一个小问题：给出一篇文档，让你从中找出出现的单词以及这些单词出现的次数。

解题思路其实很简单，就是从头到尾读取文档，碰到单词记录下来，同时记录它出现的次数，如果之前出现过，计数就加1。

理清了思路，再思考一个问题，如果读取一个 100GB 的文档，使用原来的算法还能处理吗？还能在合理的时间内给出答案吗？我们知道从硬盘读取文件到内存是通过 IO 流进行的，而计算的大量时间耗费都在 IO 上了。由于读取的数据体量很大，所以无论你对算法本身如何调整和优化，数据处理的效率依然会很低。

那么应该如何快速处理呢？有两种解决方法，一是找一台运算性能非常高的服务器，存储和运算能力都很惊人，但造价同样惊人。SAP 公司内存数据库产品 HANA，直接将所有数据存储到内存，全部数据存储和运算在内存中进行。但造价非常昂贵。国内有几家公司在使用这样的产品，比如农夫山泉。但并不是所有企业都负担得起。

另一个方法就是把一些廉价的服务器形成集群，每个服务器都需要承担一定运算任务，合作完成。就这个例子而言，可以用 100 台普通计算机，每台计算 1GB 的数据，最后统计出来的结果合并在一起就可以了。这个方法既节省成本，而且速度又快，因为服务器之间是并行运算的。这种技术早期叫网格计算，后来叫分布式计算，其实本质上就是如今的云计算。

上面这个思想需要解决两个问题：一是分布式存储，大数据分别存储到不同机器，而对使用者感觉好像是一台机器；二是分布式计算问题，每台机器都需要分配一个任务执行运算，所有任务同时进行，最后还需要对各个节点的运算结果进行合并得到结果。能够解决这两个问题流行的云计算框架就是Apache的Hadoop项目，里面包含好多的子项目和模块。

Hadoop 被公认是一套行业大数据标准开源软件，在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop在开发工具、开源软件、商业化工具和技术服务。大型企业，如 Oracle、IBM、Microsoft、Intel、Cisco 都明显增加了 Hadoop 方面的投入。

淘宝从 2009 年开始，用于对海量数据的离线处理，例如对日志的分析、交易记录的分析等。规模从当初的 3~400 台节点，增加到现在的一个集群有 3000 个节点。淘宝现在已经有 2~3 个这样的集群，在支付宝的集群规模也有 700 台节点，对用户的消费记录可以实现毫秒级查询。

随着以博客、社交网络、基于位置的服务 LBS 为代表的新型信息发布方式的不断涌现，以及云计算、物联网等技术的兴起，数据正以前所未有的速度在不断地增长和累积，大数据时代已经到来。

什么是大数据

大数据的来源

如何处理大数据

数据分析与挖掘

基于云平台的分布式处理

推荐阅读