大数据是什么(新手必看)
2012 年的全球大数据浪潮,让人们充分认识到了数据的重要性。时至如今,人们已经不再关心数据大或者不大,也不再区分大数据和数据。
回顾一下当时的情形,从事大数据相关工作的人群可以被分为 3 类:
那时候大家谈论大数据,实际上是在谈论不同的东西,即有大数据的人在谈论数据资源及其规模,做大数据的人在谈论大数据带来的技术挑战,用大数据的人则在谈论大数据带来的决策变革。
那么,大数据是数据、技术还是应用呢?事实上,数据的价值和挖掘这些价值的时效是大数据的核心内涵。
因此,真正的大数据是价值密度低的数据集,从数据集中获取价值像大海捞针一样。大数据是高难的技术挑战。
这样来看,给定一个大数据,如果没有技术能够在期望的时间内挖掘出其价值,那么大数据是一个技术挑战,否则其就是一个大数据应用。
需要注意的是,一个大数据应用可能会转化成大数据的技术挑战。例如,无人驾驶汽车在道路上行驶时,会获取汽车自身的工作数据(行驶速度、油量、引擎工作状态等)、实时路况数据(前车车速、车距、行人等)、道路管理数据(红绿灯、限速等),并及时分析这些数据、及时作出驾驶判断。当汽车时速小于 50km/h 时,发现 50m 外车道上有行人后,经过 2s 的数据分析得出需要刹车的结论是可以接受的;但当车速提高到 100km/h 时,数据分析的时间就需要小于 1s。这时,大数据应用变成了大数据技术挑战。
事实上,数据、技术和应用是大数据的 3 个要素,数据隐含价值,技术发现价值,应用实现价值。大数据是为决策问题提供服务的大数据集、大数据技术和大数据应用的总称。其中:
大数据是否能为一个决策问题提供服务,关键在于能否在决策希望的时间内有效完成所有的任务。但是数据增长的速度远远大于技术进步的速度,因此,大数据问题出现了。
大数据问题是指不能用当前技术在决策希望的时间内处理分析的数据资源开发利用问题。大数据问题的关键技术挑战在于找到隐含在低价值密度数据资源中的价值,在期望的时间内完成所有的任务。
“能否在决策期望的时间内有效完成所有的任务”可能是数据领域存在的持续性问题。尽管现在人们更喜欢用名词“数据”而不是“大数据”,但是问题没有变化,是一样的。
回顾一下当时的情形,从事大数据相关工作的人群可以被分为 3 类:
- 有大数据的人群;
- 做大数据的人群;
- 用大数据的人群。
那时候大家谈论大数据,实际上是在谈论不同的东西,即有大数据的人在谈论数据资源及其规模,做大数据的人在谈论大数据带来的技术挑战,用大数据的人则在谈论大数据带来的决策变革。
那么,大数据是数据、技术还是应用呢?事实上,数据的价值和挖掘这些价值的时效是大数据的核心内涵。
1) 关于价值
首先,如果一个数据集没有价值,就不需要被关注;其次,如果一个数据集的价值密度高,即大部分数据是有价值的,那么直接读取数据集就能获得价值,没有技术难度。因此,真正的大数据是价值密度低的数据集,从数据集中获取价值像大海捞针一样。大数据是高难的技术挑战。
2) 关于时效
首先,所有的大数据处理和分析都应该在决策期望的时间内做完,如果过了期望的时间,就没有意义了,这是一个技术难题;其次,在竞争中,要比竞争对手更快地完成大数据处理和分析。这样来看,给定一个大数据,如果没有技术能够在期望的时间内挖掘出其价值,那么大数据是一个技术挑战,否则其就是一个大数据应用。
需要注意的是,一个大数据应用可能会转化成大数据的技术挑战。例如,无人驾驶汽车在道路上行驶时,会获取汽车自身的工作数据(行驶速度、油量、引擎工作状态等)、实时路况数据(前车车速、车距、行人等)、道路管理数据(红绿灯、限速等),并及时分析这些数据、及时作出驾驶判断。当汽车时速小于 50km/h 时,发现 50m 外车道上有行人后,经过 2s 的数据分析得出需要刹车的结论是可以接受的;但当车速提高到 100km/h 时,数据分析的时间就需要小于 1s。这时,大数据应用变成了大数据技术挑战。
事实上,数据、技术和应用是大数据的 3 个要素,数据隐含价值,技术发现价值,应用实现价值。大数据是为决策问题提供服务的大数据集、大数据技术和大数据应用的总称。其中:
- 大数据集是指一个决策问题用到的所有可能的数据,通常数据量巨大、来源多样、类型多样;
- 大数据技术是指大数据资源获取、存储管理、挖掘分析、可视展现等技术;
- 大数据应用是指用大数据集和大数据技术来支持决策活动,是新的决策方法。
大数据是否能为一个决策问题提供服务,关键在于能否在决策希望的时间内有效完成所有的任务。但是数据增长的速度远远大于技术进步的速度,因此,大数据问题出现了。
大数据问题是指不能用当前技术在决策希望的时间内处理分析的数据资源开发利用问题。大数据问题的关键技术挑战在于找到隐含在低价值密度数据资源中的价值,在期望的时间内完成所有的任务。
“能否在决策期望的时间内有效完成所有的任务”可能是数据领域存在的持续性问题。尽管现在人们更喜欢用名词“数据”而不是“大数据”,但是问题没有变化,是一样的。