首页 > 编程笔记 > Python笔记阅读：162

特征工程是什么，Pandas实现特征工程（附带实例）

在机器学习和数据科学中，特征工程是一个至关重要的步骤，它涉及创建新的特征，从原始数据中提取信息，以便模型能够更好地理解数据并做出准确的预测或分类。

特征工程概述

特征工程是指对原始数据进行预处理、选择、修改和构建新的特征的过程，以便提高模型的性能。这个过程包括数据清洗、特征选择、特征转换和降维等。其重要性在于：

提高模型性能：通过选择合适的特征，可以显著提高模型的准确性和泛化能力；
减少过拟合：通过降维和正则化技术，可以减少过拟合的风险；
提高训练速度：通过减少特征数量，可以加快模型的训练速度。

特征工程的具体内容包括：

数据清洗：处理缺失值、异常值和重复值，确保数据的质量和一致性；
特征选择：从原始特征中选择最相关的特征，可以使用相关性分析、卡方检验等方法；
特征转换：将原始特征转换为更有意义的形式，例如对数变换、归一化、标准化等；
特征构造：创建新的特征，以捕捉数据中的模式和关系，例如文本数据的词频统计、时间序列数据的滞后特征等；
降维：通过主成分分析（Principal Component Analysis，PCA）、线性判别分析（Linear Discriminant Analysis，LDA）等方法减少特征数量，降低模型复杂度。

1) 主成分分析

主成为分析（PCA）是一种数据降维技术，它的核心目的是通过变换找到数据中最重要的特征，也就是主成分，以减少数据的复杂性，同时保留大部分信息。

想象一下，你有一张充满数字的照片，这些数字就是数据的“维度”。PCA 就像是一个照相机的镜头，它可以旋转角度，捕捉到最能代表照片特点的那个方向，这个方向就是“第一主成分”。它能够捕获数据中最大方差的方向，即数据变化最大的方向。

在 PCA 中，这个过程并不仅仅是简单地选择原始特征中的一个子集，而是重新构造出一组全新的、互相正交（即相互独立）的特征，这些特征被称为主成分。正交性确保了这些新特征之间没有冗余信息，每个主成分都是从原始数据中提取出来的独特信息。

通常，PCA 会尽量保留数据中方差较大的部分，因为方差可以看作数据分布的宽度，方差越大，数据分布越广，包含的信息也就越多。通过保留前几个方差最大的主成分，PCA 可以在牺牲最少信息量的前提下，将数据从高维降至低维。

主成分分析就像是用一个滤镜来优化你的照片，只保留最精华的部分，去掉那些不重要的杂乱背景，使得图片更加清晰和突出重点。

2) 线性判别分析

线性判别分析是一种统计方法，它用于找到能够最大化不同类别数据之间差异的方向。这种方法在机器学习和统计中被广泛用于降维和分类。让我们用一个简单的例子来通俗地解释线性判别分析。

想象一下，你有一组数据点，这些数据点来自两个不同的类别，比如苹果和橙子。这些数据点有很多特征，比如颜色、大小、重量等。我们的目标是找到一个最佳的方向，通过这个方向最容易区分苹果和橙子。

线性判别分析的工作原理如下：

计算每个类别的均值：计算苹果和橙子各自的平均值。均值是所有苹果或橙子特征的平均值；
计算类内散度：查看每个类别内部的分散程度。苹果之间和橙子之间都有一定的差异，我们想要了解这些差异有多大；
计算类间散度：计算苹果和橙子之间的差异。我们想要最大化这个差异，这样在新的方向上，苹果和橙子就会分开得更远；
寻找最佳方向：寻找一个方向，这个方向能够同时最大化类间散度和最小化类内散度。在这个方向上，苹果和橙子尽可能分开，而且每个类别内部的点尽可能紧凑。找到这个最佳方向后，我们可以将原始数据投影到这个方向上。这样，我们就得到了一组新的数据，这些数据只有一维，但是仍然能够很好地区分苹果和橙子。这个一维数据就可以用来训练一个简单的分类器，比如一条直线，来区分苹果和橙子。

线性判别分析就是找到一个能够最好地区分不同类别的方向，通过这个方向可以简化数据，同时保留最重要的区分信息。这种方法在许多领域都有应用，比如人脸识别、生物信息学和市场营销等。

特征工程是数据科学和机器学习中不可或缺的一环，好的特征工程可以事半功倍，帮助你构建更准确、更高效的模型。初学者应该重视特征工程的学习，掌握基本的概念和方法，并通过实践不断提高自己的技能。

用Pandas实现特征工程

接下来通过一个示例来介绍如何使用 Pandas 对数据进行特征选择、特征提取和特征缩放等操作。

首先导入 Pandas 库，然后创建一个数据集。接着对数据进行特征工程，包括特征选择、特征提取和特征缩放。代码如下：

import pandas as pd
from sklearn.preprocessing import StandardScaler
# 创建数据集
data = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})
# 特征选择（以相关系数为例）
correlations = data.corr().abs()
features = correlations[correlations['C'] > 0.5].index.tolist()
# 特征提取（以PCA为例）
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
data_pca = pca.fit_transform(data)
# 特征缩放
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)
# 显示处理后的数据
print("特征选择结果：", features)
print("特征提取结果：", data_pca)
print("特征缩放结果：", data_scaled)

程序运行结果如下：

特征选择结果：['A', 'B']
特征提取结果：
[[-1.73205081  0.          0.        ]
[ 0.          0.          0.        ]
[ 1.73205081  0.          0.        ]]
特征缩放结果：
[[-1.34164079 -1.34164079 -1.34164079]
[-0.4472136   0.4472136  -0.4472136 ]
[ 1.34164079  1.34164079  1.34164079]]

上述代码主要进行了以下几个步骤：

创建数据集：使用Pandas库创建一个DataFrame，包含三列数据'A', 'B', 'C'；
特征选择：计算各列之间的相关系数，然后选择与 'C' 列相关系数大于 0.5 的列作为特征；
特征提取：使用 PCA（主成分分析）方法对数据进行降维，将数据的维度从 3 降到 2；
特征缩放：使用 StandardScaler 对数据进行标准化处理，使得每一列的数据都符合标准正态分布。

特征工程是什么，Pandas实现特征工程（附带实例）

特征工程概述

1) 主成分分析

2) 线性判别分析

用Pandas实现特征工程

相关文章