DM预处理技术：数据清洗与特征选择的完整指南

一、为什么数据预处理是机器学习的命脉

想象你要做一道红烧肉，如果直接拿带毛的猪肉下锅，结果肯定难以下咽。数据预处理就像是给食材去毛、焯水的过程，决定了最终模型的"口感"。在实际项目中，数据科学家80%时间都在做这件事。

去年我们团队做过一个电商用户画像项目，原始数据里充斥着"未知性别"、"-1"这样的无效值，还有用户年龄写着"256岁"的离谱记录。如果不处理这些"脏数据"，训练出的推荐系统可能会给老年人推荐尿不湿。

二、数据清洗的十八般武艺

2.1 处理缺失值的三种策略

以Python的pandas为例，我们有个包含用户信息的数据框：

import pandas as pd
import numpy as np

# 示例数据（包含故意设置的缺失值）
data = {'年龄': [25, np.nan, 35, -1, 256],
        '性别': ['男', '女', np.nan, '未知', '男'],
        '消费金额': [1500, 2400, np.nan, 800, 30000]}
df = pd.DataFrame(data)

# 策略1：直接删除缺失行
df_drop = df.dropna()  
# 适合缺失比例<5%的情况

# 策略2：均值/众数填充
df['年龄'].fillna(df['年龄'].median(), inplace=True)
df['性别'].fillna(df['性别'].mode()[0], inplace=True) 
# 适合数值型和类别型特征

# 策略3：构建缺失标志
df['金额缺失'] = df['消费金额'].isnull().astype(int)
# 适合缺失本身具有业务含义的情况

2.2 异常值检测的实战技巧

继续用上面的数据，我们处理那个256岁的"老寿星"：

# 方法1：3σ原则（适合正态分布数据）
age_mean, age_std = df['年龄'].mean(), df['年龄'].std()
df = df[(df['年龄'] <= age_mean + 3*age_std) & (df['年龄'] >= age_mean - 3*age_std)]

# 方法2：箱线图法则
Q1 = df['年龄'].quantile(0.25)
Q3 = df['年龄'].quantile(0.75)
IQR = Q3 - Q1
df = df[~((df['年龄'] < (Q1 - 1.5*IQR)) | (df['年龄'] > (Q3 + 1.5*IQR)))]

# 方法3：业务规则过滤
df = df[(df['年龄'] > 0) & (df['年龄'] < 120)]  # 合理年龄范围

三、特征选择的艺术与科学

3.1 过滤法：快速筛选特征

使用sklearn计算特征与目标的相关系数：

from sklearn.datasets import load_boston
from sklearn.feature_selection import SelectKBest, f_regression

# 加载波士顿房价数据集
boston = load_boston()
X, y = boston.data, boston.target

# 选择与目标最相关的5个特征
selector = SelectKBest(score_func=f_regression, k=5)
X_new = selector.fit_transform(X, y)

# 查看被选中的特征索引
print(selector.get_support(indices=True))  # 输出：[ 5  7  8  9 12]

3.2 包裹法：让模型自己选特征

使用递归特征消除(RFE)方法：

from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import RFE

# 用线性回归作为基础模型
model = LinearRegression()

# 递归消除直到剩下5个特征
rfe = RFE(model, n_features_to_select=5)
X_rfe = rfe.fit_transform(X, y)

# 查看特征排名（1表示被选中）
print(rfe.ranking_)  # 输出各特征的排名情况

3.3 嵌入法：L1正则化的妙用

Lasso回归会自动进行特征选择：

from sklearn.linear_model import LassoCV

# 使用交叉验证的Lasso回归
lasso = LassoCV(cv=5).fit(X, y)

# 查看系数不为零的特征
print(lasso.coef_ != 0)  # 布尔数组表示特征是否被选中

四、实战中的避坑指南

4.1 时间序列数据的特殊处理

处理销售数据时，我们发现直接填充均值会导致未来信息泄露：

# 错误做法：用整个数据集均值填充
df['销售额'].fillna(df['销售额'].mean(), inplace=True)

# 正确做法：用历史数据滚动均值
df['销售额'] = df['销售额'].fillna(df['销售额'].expanding().mean())

4.2 类别型特征的编码陷阱

处理产品类别时，直接LabelEncoder会导致模型误认为类别有大小关系：

# 不推荐做法：
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['类别'] = le.fit_transform(df['类别'])

# 推荐做法：OneHot编码
df = pd.get_dummies(df, columns=['类别'])

五、技术选型的经验之谈

5.1 何时选择哪种方法

小数据集（<10万样本）：包裹法或嵌入法
大数据集：过滤法先行，再用嵌入法优化
高维数据（如图像）：先用PCA降维

5.2 常见工具性能对比

工具	优点	缺点
pandas	易用，功能全面	大数据性能差
Dask	支持分布式	API与pandas略有不同
Spark MLlib	适合超大数据	学习曲线陡峭

六、从理论到生产的跨越

在某金融风控项目中，我们开始时用常规方法处理缺失值，结果模型在生产环境表现异常。后来发现是因为线上数据缺失模式与训练集不同。解决方案是：

在训练集中模拟各种缺失模式
构建更鲁棒的填充策略
添加缺失模式作为新特征

# 最终采用的鲁棒填充方案
class RobustImputer:
    def __init__(self):
        self.fill_values = {}
        
    def fit(self, X):
        for col in X.columns:
            # 用中位数填充数值型
            if np.issubdtype(X[col].dtype, np.number):
                self.fill_values[col] = X[col].median()
            # 用众数填充类别型
            else:
                self.fill_values[col] = X[col].mode()[0]
        return self
    
    def transform(self, X):
        return X.fillna(self.fill_values)

七、未来发展趋势

自动化机器学习(AutoML)正在改变预处理方式：

自动特征工程工具（如FeatureTools）
智能异常检测（基于GAN的方法）
可解释的特征选择（SHAP值分析）

但记住，没有银弹。最近我们测试某AutoML工具时，发现它把用户ID当作数值特征进行了标准化，导致模型完全失效。所以无论工具多智能，业务理解永远不可或缺。

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。