Pandas是什么,Pandas安装教程(新手必看)
2008 年,美国纽约一家量化投资公司的分析师韦斯·麦金尼(Wes McKinney)由于在日常数据分析工作中备受 Excel 与 SQL 等工具的折磨,于是开始构建一个新项目——Pandas,用来解决数据处理过程中遇到的全部任务。就这样,Pandas 诞生了。
那么,什么是 Pandas?
Pandas 并非大熊猫 Panda 的某种形式,它其实是面板数据(Panel data)和 Python 数据分析(Python data analysis)的简称(如图 1 所示),是 Python 的核心数据分析库,它提供了快速、灵活、明确的数据结构,能够简单、直观、快速地处理各种类型的数据。

图 1 Pandas名字的由来
综上所述,Pandas 是处理数据最理想的工具。

图 2 “Settings”窗口
这里要注意,在“Python Interprter”列表中应选择当前工程项目使用的 Python 版本。
单击添加按钮“+”,打开“Available Packages”窗口,在搜索文本框中输入需要安装的模块关键字,例如“pandas”,然后在列表中选择需要安装的模块,如下图所示,单击“Install Package”按钮即可实现 Pandas 模块的安装。

图 3 在PyCharm开发环境中安装Pandas模块
还需要注意一点,Pandas 有一些依赖库。
例如,当通过 Pandas 读取 Excel 文件时,如果只安装 Pandas 模块,就会出现如下图所示的错误,意思是缺少依赖库 openpyxl。

图 4 缺少依赖库openpyxl
解决办法是安装 openpyxl 模块,方法是在“命令提示符”窗口输入
那么,什么是 Pandas?
Pandas 并非大熊猫 Panda 的某种形式,它其实是面板数据(Panel data)和 Python 数据分析(Python data analysis)的简称(如图 1 所示),是 Python 的核心数据分析库,它提供了快速、灵活、明确的数据结构,能够简单、直观、快速地处理各种类型的数据。

图 1 Pandas名字的由来
Pandas的功能与优势
众所周知,Pandas 是 Python 数据分析“三剑客”之一,是 Python 的核心数据分析库,其具体功能和优势如下:- 拥有成熟的导入导出工具,支持导入文本文件(CSV 等支持分隔符的文件)、Excel 文件、数据库的数据,支持导出 Excel 文件、文本文件等,利用HDF5格式快速保存或加载数据;
- 能够处理浮点与非浮点数据里的缺失数据,表示为 NaN;
- 自动、显式地进行数据对齐,显式地将对象与一组标签对齐,也可以忽略标签,在 Series、Data Frame 计算时自动与数据对齐;
- 支持类似于 SQL 的表查询功能,使数据查询事半功倍;
- 基于 NumPy 数值计算,高效进行数据汇总与运算;
- 能够处理重复、缺失、异常数据,快速完成数据探查;
- 支持数字、文本等多种类型数据,能够轻松实现数据清洗;
- 拥有智能标签,能对大型数据集进行切片、花式索引、子集分解等操作;
- 支持直观的数据合并(merge)、数据连接(join);
- 支持灵活的数据重塑(reshape)、数据透视表(pivot);
- 拥有强大、灵活的分组统计(groupby)功能,即数据聚合、数据转换;
- 时间序列支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。
综上所述,Pandas 是处理数据最理想的工具。
安装Pandas模块
下面介绍两种安装 Pandas 模块的方法。1) 使用pip命令安装
在系统“搜索”文本框中输入 cmd,打开“命令提示符”窗口,输入如下安装命令:pip install pandas
2) 在Pycharm开发环境中安装
运行 Pycharm,选择“File”→“Settings”命令,打开“Settings”窗口,选择当前工程下的“Python Interpreter”选项,然后单击添加模块的按钮“+”,如下图所示。
图 2 “Settings”窗口
这里要注意,在“Python Interprter”列表中应选择当前工程项目使用的 Python 版本。
单击添加按钮“+”,打开“Available Packages”窗口,在搜索文本框中输入需要安装的模块关键字,例如“pandas”,然后在列表中选择需要安装的模块,如下图所示,单击“Install Package”按钮即可实现 Pandas 模块的安装。

图 3 在PyCharm开发环境中安装Pandas模块
还需要注意一点,Pandas 有一些依赖库。
例如,当通过 Pandas 读取 Excel 文件时,如果只安装 Pandas 模块,就会出现如下图所示的错误,意思是缺少依赖库 openpyxl。

图 4 缺少依赖库openpyxl
解决办法是安装 openpyxl 模块,方法是在“命令提示符”窗口输入
pip install openpyxl
命令或通过 PyCharm 开发环境安装 openpyxl 模块,其方法与安装 Pandas 模块一样。