什么是大数据(非常详细)
如果要追溯“大数据”这个专业术语最初的出处的话,就必然要提及 apache org 的开源项目 Nutch。在那个时候,大数据的意思是更新网络搜索索引,同时还需要批量处理和分析大量的数据集。谷歌的 Map Reduce 和 Google File System(GFS)发布了之后,大数据的定义中除了涵盖大量数据之外,还包括数据处理的速度。
研究机构 Gartner 曾给大数据(Big data)下过这样的定义:
麦肯锡全球研究所所做的《大数据:创新、竞争和生产力的下一个前沿》中是这么定义“大数据”的:
随着时间的推移和技术的发展,我们必须知道“大数据”的量会越来越大。还有一点,这定义也会因为部门的差异而发生标准的变化,这和通用的是什么软件以及特定行业数据集的大小有密切的关系。所以,现有各行业的大数据可以是几十 TB,也可以是几千 TB。
按照 EMC 的界定,大数据一定是指大型数据集,规模大概在 10TB。通过多用户将多个数据集集合在一起,能构成 PB 的数据量。
在 IBM2011IOD 大会上,负责 IBM 软件和硬件两大集团的高级副总裁 Steve Mills 曾说过:“分析已经成为必要的能力,不再只是一个工具,是一种能让业务流程运转的智慧能力。企业要转化信息的洞察力为行动,而不是仅仅去争取竞争的优势,要将其转换为生存的根本。”
IBM 公司概括大数据时有三个 V,也就是大量化(Volume),多样化(Variety)和快速化(Velocity),此外它们还针对客户有了“大数据解决方案”的服务。IBM 公司对大数据所概括出的三个 V,其实也说明大数据潜藏的另一个 V,也就是价值(Value)。就这么说的话,大数据确实具备这四个 V 的基本特征。
大数据的第一个特征是数据的量大。电脑的数据运算和储存单位都是字节(byte),1KB(kilobyte)等于 1024B,就是千字节。除此之外还有更高的单位 MB(Megabyte兆字节),GB(Gigabyte,吉字节),TB(Trillion byte,太字节)、PB(Pet byte,拍字节),EB(Exabyte,艾字节),ZB(Zetta byte,泽它字节)和 YB(Yotta byte,尧字节)。每一级之间的换算关系是 1024。
到了 2009 年,几乎每一个美国企业,只要是雇员人数超过 1000 人的,它的数据存储量大概都超过了 200TB,这是十年前沃尔玛公司数据仓库存储量的 2 倍还多。在不少经济部门当中,企业平均的数据存储量甚至都达到了 1PB。
2010 年欧洲组织的存储总量大概为 11EB,这个数字几乎是整个美国数据总量(16EB)的 70%。2010 年全球企业在硬盘上的数据存储量已经超过了 7EB,而在 PC 和笔记本电脑等设备上的个人存储量也超过了 6EB。美国国会图书馆当时存储的数据大概只是 1EB 的 4000 分之一(James,2011)。
硬件技术的发展速度远远赶不上数据容量的增长速度,为此数据存储和处理的危机应运而生。巨大数量的数据被处理掉,例如医疗卫生提供商会将它们 90% 的数据给处理掉(这其中包括几乎所有在手术过程中产生的实时视频和图像资料)。
只不过,大数据不单纯只是大。海量数据存储危机的产生不仅仅是由于数据量爆炸性的增长,还有数据类型的改变带来的,这就是第二个 V,多样化。此前的数据库用二维表结构存储方式就可以储存数据,譬如常见的 Excel 软件中处理的数据,这称为结构化数据。可是现在随着互联网多媒体应用的出现,像是声音、图片和视频等等非结构化的数据所占的比重在日益增多。有统计表明,全世界非结构化数据的增加率是 63%,相对而言结构化数据增长率只有 32%。2012 年,非结构化数据在整个互联网数据中的占比已经超过了 75%。
Informatica 中国区的首席产品顾问但彬就提到过,大数据里有海量数据的含义,但它又大于海量数据的定义。简单来说,海量数据加上其他复杂类型的数据就是大数据的概念了。但彬还提到,所有交易和交互数据集都属于大数据,它的规模和复杂程度早已在依据合理成本和时限进行捕捉、管理和处理数据集的传统技术的能力之上。
简而言之,三种主要技术趋势汇聚成了大数据:
1) 其一是海量交易数据,包括半结构化和非结构化信息,在从 ERP 应用程序到基于数据仓库应用程序的在线交易处理(OLTP)和分析系统的过程当中总在不断增长。企业很多的数据和业务流程也在不断走向公共和个人云转移,将造成更为复杂的局面。
2) 其二是海量交互数据。因为 Facebook、Twitter、LinkedIn 以及其他更多的社交媒体的兴起,这一部分数据诞生了海量的交互数据,其中涵盖了呼叫详细记录(CDR)、设备和传感器信息、GPS和地理定位映射数据,还有利用管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web 文本和点击流数据、科学信息、电子邮件,等等。
3) 其三就是海量数据处理。随着大数据的涌现,已经有很多用于密集型数据处理的架构应运而生,比如 Apache Hadoop,它具有开放源码以及在商品硬件群中运行的特性。此外还有能以可靠、高效、可伸缩的方式分布式处理大数据的软件框架 Hadoop。它之所以可靠,是因为它能够提前假定计算元素和存储失败,所以它能够维护多个工作数据副本,用并行处理的方式来加快处理能力和速度。Hadoop 也是可伸缩的,PB 级的数据它也可以处理。另外,Hadoop 因为依赖于社区服务器,所以它的成本很低,不论是谁都可以使用。
对企业来说,最难的在于如何通过成本效益的方式从 Hadoop 中存取数据。Hadoop 最知名的用户是脸谱。通过 Hadoop,像脸谱这一类的网站,也就可以自由地处理海量的数据,同时获得较高的收益。
研究机构 Gartner 曾给大数据(Big data)下过这样的定义:
大数据是一种基于新的处理模式而产生的具有强大的决策力、洞察力以及流程优化能力的多样性的、海量的且增长率高的信息资产。
大数据一词源于英文的“Big Data”一词,以往也有类似的词语,如“信息爆炸”、“海量数据”等等似乎都很难去准确描述这个词的具体内涵。麦肯锡全球研究所所做的《大数据:创新、竞争和生产力的下一个前沿》中是这么定义“大数据”的:
大数据通常指的是大小规格超越传统数据库软件工具抓取、存储、管理和分析能力的数据群。
这个定义也有很强的主观色彩,因为究竟什么样规格的数据才是大数据,没有统一的标准,也就是无法确定超过多少 TB(1000GB)的数据才是大数据。随着时间的推移和技术的发展,我们必须知道“大数据”的量会越来越大。还有一点,这定义也会因为部门的差异而发生标准的变化,这和通用的是什么软件以及特定行业数据集的大小有密切的关系。所以,现有各行业的大数据可以是几十 TB,也可以是几千 TB。
按照 EMC 的界定,大数据一定是指大型数据集,规模大概在 10TB。通过多用户将多个数据集集合在一起,能构成 PB 的数据量。
在 IBM2011IOD 大会上,负责 IBM 软件和硬件两大集团的高级副总裁 Steve Mills 曾说过:“分析已经成为必要的能力,不再只是一个工具,是一种能让业务流程运转的智慧能力。企业要转化信息的洞察力为行动,而不是仅仅去争取竞争的优势,要将其转换为生存的根本。”
IBM 公司概括大数据时有三个 V,也就是大量化(Volume),多样化(Variety)和快速化(Velocity),此外它们还针对客户有了“大数据解决方案”的服务。IBM 公司对大数据所概括出的三个 V,其实也说明大数据潜藏的另一个 V,也就是价值(Value)。就这么说的话,大数据确实具备这四个 V 的基本特征。
大数据的第一个特征是数据的量大。电脑的数据运算和储存单位都是字节(byte),1KB(kilobyte)等于 1024B,就是千字节。除此之外还有更高的单位 MB(Megabyte兆字节),GB(Gigabyte,吉字节),TB(Trillion byte,太字节)、PB(Pet byte,拍字节),EB(Exabyte,艾字节),ZB(Zetta byte,泽它字节)和 YB(Yotta byte,尧字节)。每一级之间的换算关系是 1024。
到了 2009 年,几乎每一个美国企业,只要是雇员人数超过 1000 人的,它的数据存储量大概都超过了 200TB,这是十年前沃尔玛公司数据仓库存储量的 2 倍还多。在不少经济部门当中,企业平均的数据存储量甚至都达到了 1PB。
2010 年欧洲组织的存储总量大概为 11EB,这个数字几乎是整个美国数据总量(16EB)的 70%。2010 年全球企业在硬盘上的数据存储量已经超过了 7EB,而在 PC 和笔记本电脑等设备上的个人存储量也超过了 6EB。美国国会图书馆当时存储的数据大概只是 1EB 的 4000 分之一(James,2011)。
硬件技术的发展速度远远赶不上数据容量的增长速度,为此数据存储和处理的危机应运而生。巨大数量的数据被处理掉,例如医疗卫生提供商会将它们 90% 的数据给处理掉(这其中包括几乎所有在手术过程中产生的实时视频和图像资料)。
只不过,大数据不单纯只是大。海量数据存储危机的产生不仅仅是由于数据量爆炸性的增长,还有数据类型的改变带来的,这就是第二个 V,多样化。此前的数据库用二维表结构存储方式就可以储存数据,譬如常见的 Excel 软件中处理的数据,这称为结构化数据。可是现在随着互联网多媒体应用的出现,像是声音、图片和视频等等非结构化的数据所占的比重在日益增多。有统计表明,全世界非结构化数据的增加率是 63%,相对而言结构化数据增长率只有 32%。2012 年,非结构化数据在整个互联网数据中的占比已经超过了 75%。
Informatica 中国区的首席产品顾问但彬就提到过,大数据里有海量数据的含义,但它又大于海量数据的定义。简单来说,海量数据加上其他复杂类型的数据就是大数据的概念了。但彬还提到,所有交易和交互数据集都属于大数据,它的规模和复杂程度早已在依据合理成本和时限进行捕捉、管理和处理数据集的传统技术的能力之上。
简而言之,三种主要技术趋势汇聚成了大数据:
1) 其一是海量交易数据,包括半结构化和非结构化信息,在从 ERP 应用程序到基于数据仓库应用程序的在线交易处理(OLTP)和分析系统的过程当中总在不断增长。企业很多的数据和业务流程也在不断走向公共和个人云转移,将造成更为复杂的局面。
2) 其二是海量交互数据。因为 Facebook、Twitter、LinkedIn 以及其他更多的社交媒体的兴起,这一部分数据诞生了海量的交互数据,其中涵盖了呼叫详细记录(CDR)、设备和传感器信息、GPS和地理定位映射数据,还有利用管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web 文本和点击流数据、科学信息、电子邮件,等等。
3) 其三就是海量数据处理。随着大数据的涌现,已经有很多用于密集型数据处理的架构应运而生,比如 Apache Hadoop,它具有开放源码以及在商品硬件群中运行的特性。此外还有能以可靠、高效、可伸缩的方式分布式处理大数据的软件框架 Hadoop。它之所以可靠,是因为它能够提前假定计算元素和存储失败,所以它能够维护多个工作数据副本,用并行处理的方式来加快处理能力和速度。Hadoop 也是可伸缩的,PB 级的数据它也可以处理。另外,Hadoop 因为依赖于社区服务器,所以它的成本很低,不论是谁都可以使用。
对企业来说,最难的在于如何通过成本效益的方式从 Hadoop 中存取数据。Hadoop 最知名的用户是脸谱。通过 Hadoop,像脸谱这一类的网站,也就可以自由地处理海量的数据,同时获得较高的收益。