什么是数据分析(非常详细)
数据分析是结合数学、统计学理论的科学统计分析方法,对 Excel 数据、数据库中的数据、收集的大量数据、网页抓取的数据进行分析,从中提取有价值的信息并形成结论进行展示的过程。
数据分析的本质,是通过总结数据的规律解决业务问题,以帮助管理者在实际工作中做出判断和决策。
数据分析包括如下主要内容。
在实际工作中,无论从事哪种行业,如数据分析师、销售运营、市场策划、金融、客户服务、人力资源、财务管理、教育等行业(如下图所示),数据分析都是基本功,是职场必备技能,能够掌握一定的数据分析技能必然是职场中的加分项。

图 1 数据分析的行业需求
下面举两个例子为大家说明数据分析的重要性。

图 2 全国销量及环比增长情况
如果你是管理者,更青睐哪一种?
其实,管理者要的是真正简单、清晰的分析,以及接下来的决策方向。根据运营人员给出的解决方案,他可以预见公司未来的发展,解决真正的问题,提高平台的业务量。

图 3 啤酒和纸尿裤
因为沃尔玛很好地运用了数据分析方法,发现了“啤酒”和“纸尿裤”的潜在联系。原来,美国的太太们常叮嘱她们的丈夫在下班后为孩子买纸尿裤,而丈夫们在购买纸尿裤的同时又随手带回了几瓶啤酒。这一消费行为导致这两件商品经常被同时购买。所以,沃尔玛索性就将它们摆放在一起,既方便顾客,又提高了商品销量。
还有很多通过数据分析而获得成功的例子。比如,在营销领域对客户分群数据进行统计、分类等,判断客户购买趋势;对产品数据进行统计,预测销量,找出销量薄弱点进行改善;在金融领域基于大量的过往数据预测股价波动。
综上所述,数据分析之所以如此重要,是因为数据具有真实性。我们对真实的数据进行统计分析,就是对问题进行思考和分析,在这个过程中,我们会发现问题,并寻找解决问题的方法。
未来如果不懂数据分析,可能会与很多热门职位失之交臂。

图 4 数据分析的基本流程
在数据分析方面,首先要花一些时间搞清楚为什么要做数据分析。例如,是为了评估产品改版后的效果比之前是否有所提升,或是要通过数据分析找到产品迭代的方向等。
只有明确了分析目的,才能找到适合的分析方法,并有效地进行数据处理、数据分析和数据预测等后续工作,最终得到结论,应用到实际中。
获取数据之前首先要知道需要什么时间段的数据、哪个表中的数据,以及如何获取,是下载、复制还是爬取等。
数据处理主要包括数据规约、数据清洗、数据加工等方法,具体如下图所示:

图 5 数据处理
① 数据规约:在接近或保持原始数据完整性的同时将数据规模减小,以提高数据处理的速度。例如,一个Excel表中包含近三年的几十万条数据,由于我们只分析近一年的数据,所以选取近一年的数据即可,这样做的目的就是减小数据规模,提高数据处理速度。
② 数据清洗:在获取到原始数据后,其中的很多数据可能都不符合数据分析的要求,这时就需要按照如下步骤进行处理。
③ 数据加工包括数据抽取、数据计算、数据分组和数据转换:
经过上述标准化处理后,数据中的各项指标将会处在同一数量级别上,可以更好地对数据进行综合测评和分析。
例如,数据分析结果显示某产品点击量非常高,但实际下载量平平。在这种情况下,不要轻易定论这个产品受欢迎,而要进一步验证,找到真正影响点击量的原因,这样才能做出更好的决策。
数据分析结果的应用是数据产生实际价值的直接体现,而这个过程需要具有数据沟通能力、业务推动能力和项目工作能力。如果看了数据分析结果后并不知道要做什么,那么此次数据分析就是失败的。
但是在今天,大数据、人工智能时代已来,对于数据量很大的情况,Excel 已经无法胜任,不仅处理起来很麻烦,而且处理速度也会变慢。从数据分析的层面上看,Excel 只是停留在描述性分析阶段,例如对比分析、趋势分析、结构分析等。
Python 则非常强大和灵活,可以编写代码来执行所需的任何操作,从专业和便利的角度来看,它比 Excel 更加强大。另外,Python 可以实现 Excel 难以实现的应用场景。
① 专业的统计分析。例如正态分布,使用算法对数据进行聚类和回归分析等。这种分析就像用数据做实验一样,它可以帮助我们回答以下问题:
② 预测分析。例如,我们打算预测消费者的行为。他会在我们的商店停留多长时间?他会花多少钱?对此,我们可以找出他的个人信用情况,并根据他的在线消费记录确定他的喜好。或者,我们可以根据他在网页上的浏览历史为其推送不同的商品。这也涉及当前流行的机器学习和人工智能相关概念。
综上所述,Python 作为数据分析工具的首选,具有以下优势:
当然,如果你既会 Excel 又会 Python,那么这绝对是职场中的加分项!
数据分析的本质,是通过总结数据的规律解决业务问题,以帮助管理者在实际工作中做出判断和决策。
数据分析包括如下主要内容。
- 现状分析:分析已经发生了什么。
- 原因分析:分析为什么会出现这种现状。
- 预测分析:预测未来可能发生什么。
数据分析的重要性
大数据、人工智能时代到来,数据分析无处不在。数据分析可以帮助人们做出判断,以便采取适当的措施,比如发现机遇、创造新的商业价值,以及发现企业自身的问题并预测企业的未来。在实际工作中,无论从事哪种行业,如数据分析师、销售运营、市场策划、金融、客户服务、人力资源、财务管理、教育等行业(如下图所示),数据分析都是基本功,是职场必备技能,能够掌握一定的数据分析技能必然是职场中的加分项。

图 1 数据分析的行业需求
下面举两个例子为大家说明数据分析的重要性。
情景一
运营人员向管理者汇报工作,说明销量增长情况:- 表达一:这个月比上个月销量好。
- 表达二:11 月销量环比增长 69.8%,全网销量排名第一。
- 表达三:近一年全国销量及环比增长情况如下图所示,月平均销量 2834.5 册,整体呈上升趋势,其中受“618”和“双十一”影响,6 月环比增长 43.7%,7 月环比增长 16.1%,9 月环比增长 56.8%、11 月环比增长 69.8%。虽然“618”大促销量比 5 月有所提高,但表现并不好,与“双十一”相比差很多,未来要加大“618”前后的宣传力度,做好预热和延续。

图 2 全国销量及环比增长情况
如果你是管理者,更青睐哪一种?
其实,管理者要的是真正简单、清晰的分析,以及接下来的决策方向。根据运营人员给出的解决方案,他可以预见公司未来的发展,解决真正的问题,提高平台的业务量。
情景二
啤酒和纸尿裤的故事。为什么沃尔玛将看似毫不相干的啤酒和纸尿裤(如下图所示)摆在一起销售,两者的销量均增长了呢?
图 3 啤酒和纸尿裤
因为沃尔玛很好地运用了数据分析方法,发现了“啤酒”和“纸尿裤”的潜在联系。原来,美国的太太们常叮嘱她们的丈夫在下班后为孩子买纸尿裤,而丈夫们在购买纸尿裤的同时又随手带回了几瓶啤酒。这一消费行为导致这两件商品经常被同时购买。所以,沃尔玛索性就将它们摆放在一起,既方便顾客,又提高了商品销量。
还有很多通过数据分析而获得成功的例子。比如,在营销领域对客户分群数据进行统计、分类等,判断客户购买趋势;对产品数据进行统计,预测销量,找出销量薄弱点进行改善;在金融领域基于大量的过往数据预测股价波动。
综上所述,数据分析之所以如此重要,是因为数据具有真实性。我们对真实的数据进行统计分析,就是对问题进行思考和分析,在这个过程中,我们会发现问题,并寻找解决问题的方法。
未来如果不懂数据分析,可能会与很多热门职位失之交臂。
数据分析的基本流程
下图展示了数据分析的基本流程,其中数据分析的重要环节是明确目的,这也是做数据分析最有价值的部分。
图 4 数据分析的基本流程
1) 熟悉工具
掌握一款数据分析工具至关重要,它能够帮助你快速解决问题,从而提高工作效率。常用的数据分析工具有 Excel、SPSS、R语言、Python 语言等。2) 明确目的
“如果给我 1 小时解答一道决定我生死的问题,我会花 55 分钟来弄清楚这道题到底在问什么。一旦清楚了它到底在问什么,剩下的 5 分钟足够回答这个问题。”——爱因斯坦在数据分析方面,首先要花一些时间搞清楚为什么要做数据分析。例如,是为了评估产品改版后的效果比之前是否有所提升,或是要通过数据分析找到产品迭代的方向等。
只有明确了分析目的,才能找到适合的分析方法,并有效地进行数据处理、数据分析和数据预测等后续工作,最终得到结论,应用到实际中。
3) 获取数据
数据的来源有很多,像我们熟悉的 Excel数据、数据库中的数据、网站数据及公开的数据集等。获取数据之前首先要知道需要什么时间段的数据、哪个表中的数据,以及如何获取,是下载、复制还是爬取等。
4) 数据处理
数据处理是指从大量杂乱无章、难以理解、缺失的数据中,抽取并推导出对解决问题有价值、有意义的数据。数据处理主要包括数据规约、数据清洗、数据加工等方法,具体如下图所示:

图 5 数据处理
① 数据规约:在接近或保持原始数据完整性的同时将数据规模减小,以提高数据处理的速度。例如,一个Excel表中包含近三年的几十万条数据,由于我们只分析近一年的数据,所以选取近一年的数据即可,这样做的目的就是减小数据规模,提高数据处理速度。
② 数据清洗:在获取到原始数据后,其中的很多数据可能都不符合数据分析的要求,这时就需要按照如下步骤进行处理。
- 数据探索分析:分析数据的规律,通过一定的方法统计数据,通过统计结果判断数据是否存在缺失、异常等情况。例如,通过最小值判断是否包含缺失数据,如果最小值为0,那么这部分数据就是缺失数据,也可以通过查看数据是否存在空值来判断数据是否缺失。
- 重复数据处理:对于重复的数据,删除即可。
- 缺失数据处理:对于缺失的数据,如果缺失比例高于30%,可以选择放弃这些数据,删除即可;如果缺失比例低于30%,可以对这部分缺失数据进行填充,以0或均值填充。
- 异常数据处理:对于异常数据,需要根据具体业务进行具体分析和处理,对于不符合常理的数据可进行删除。例如,性别数据中除男和女以外的其他值,以及超出正常年龄范围的年龄数据,这些都属于异常数据。
③ 数据加工包括数据抽取、数据计算、数据分组和数据转换:
- 数据抽取:选取数据中的部分内容。
- 数据计算:进行各种算术和逻辑运算,以便得到进一步的信息。
- 数据分组:按照有关信息进行有效的分组。
- 数据转换:数据标准化处理,以适应数据分析算法的需要,常用的有 z-score 标准化、“最小、最大标准化”和“按小数定标标准化”等。
经过上述标准化处理后,数据中的各项指标将会处在同一数量级别上,可以更好地对数据进行综合测评和分析。
5) 数据分析
在数据分析的过程中,选择适合的分析方法和工具很重要,所选择的分析方法应兼具准确性、可操作性、可理解性和可应用性。但对于业务人员(如产品经理或运营人员)来说,最重要的是具有数据分析思维。6) 验证结果
通过数据分析我们会得到一些结果,但是这些结果只是数据的主观结果的体现,有些时候不一定完全准确,所以必须要进行验证。例如,数据分析结果显示某产品点击量非常高,但实际下载量平平。在这种情况下,不要轻易定论这个产品受欢迎,而要进一步验证,找到真正影响点击量的原因,这样才能做出更好的决策。
7) 结果呈现
现如今,企业越来越重视数据分析给业务决策带来的有效作用,而可视化是数据分析结果呈现的重要步骤。可视化是以图表方式呈现数据分析结果的,这样的结果更清晰,更直观,更容易理解。8) 数据应用
数据分析的结果并不仅仅要把数据呈现出来,而更应该关注通过分析这些数据,后面可以做什么。如何将数据分析结果应用到实际业务中才是学习数据分析的重点。数据分析结果的应用是数据产生实际价值的直接体现,而这个过程需要具有数据沟通能力、业务推动能力和项目工作能力。如果看了数据分析结果后并不知道要做什么,那么此次数据分析就是失败的。
数据分析的常用工具
工欲善其事,必先利其器,选择合适的数据分析工具尤为重要。下面介绍两款常用的数据分析工具,Excel 工具和 Python 语言。1) Excel工具
Excel 具备多种强大的功能,例如创建表格、数据透视表、VBA 等。Excel 如此强大,确保了大家可以根据自己的需求分析数据。但是在今天,大数据、人工智能时代已来,对于数据量很大的情况,Excel 已经无法胜任,不仅处理起来很麻烦,而且处理速度也会变慢。从数据分析的层面上看,Excel 只是停留在描述性分析阶段,例如对比分析、趋势分析、结构分析等。
2) Python语言
虽然 Excel 已尽最大努力考虑到数据分析的大多数应用场景,但它是定制软件,很多操作都固化了,不能自由修改。Python 则非常强大和灵活,可以编写代码来执行所需的任何操作,从专业和便利的角度来看,它比 Excel 更加强大。另外,Python 可以实现 Excel 难以实现的应用场景。
① 专业的统计分析。例如正态分布,使用算法对数据进行聚类和回归分析等。这种分析就像用数据做实验一样,它可以帮助我们回答以下问题:
- 数据分布是正态分布、三角分布还是其他类型的分布?
- 离散情况如何?
- 结果是否在我们想要达到的统计可控范围内?
- 不同参数对结果的影响如何?
② 预测分析。例如,我们打算预测消费者的行为。他会在我们的商店停留多长时间?他会花多少钱?对此,我们可以找出他的个人信用情况,并根据他的在线消费记录确定他的喜好。或者,我们可以根据他在网页上的浏览历史为其推送不同的商品。这也涉及当前流行的机器学习和人工智能相关概念。
综上所述,Python 作为数据分析工具的首选,具有以下优势:
- 简单易学,处理数据简单高效,对于初学者来说更加容易上手;
- 第三方扩展库不断更新,可用范围越来越广;
- 在科学计算、数据分析、数学建模和数据挖掘方面占据越来越重要的地位;
- 可以和其他语言进行对接,兼容性稳定。
当然,如果你既会 Excel 又会 Python,那么这绝对是职场中的加分项!