数据治理：质量控制实践-数字化转型网www.szhzxw.cn

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

今天我们来聊聊数据治理中非常重要的一环 – 数据质量控制。在实际工作中，经常会遇到脏数据、重复数据等问题。让我们学习如何用Python来处理这些常见的数据质量问题。

一、数据去重处理

重复数据会影响分析结果的准确性，我们先来看看如何优雅地处理重复数据：

import pandas as pd

# 创建示例数据
data = {
    'name'： ['张三'， '李四'， '张三'， '王五']，
    'age'： [25， 30， 25， 35]，
    'city'： ['北京'， '上海'， '北京'， '广州']
}
df = pd.DataFrame(data)

# 查找重复行
duplicates = df.duplicated()
print(“重复的行：”)
print(df[duplicates])

# 删除重复行
df_clean = df.drop_duplicates()
print(“\n去重后的数据：”)
print(df_clean)

小贴士 ：drop_duplicates()方法默认保留第一次出现的数据。如果想保留最后一次出现的数据，可以使用参数keep='last'。

二、缺失值处理

在实际数据中，缺失值是很常见的问题。以下是几种处理缺失值的方法：

import numpy as np

# 创建包含缺失值的数据
data = {
    'name'： ['张三'， '李四'， np.nan， '王五']，
    'age'： [25， np.nan， 28， 35]，
    'salary'： [8000， 12000， np.nan， 15000]
}
df = pd.DataFrame(data)

# 检查缺失值
print(“缺失值统计：”)
print(df.isnull().sum())

# 填充缺失值
df['age'] = df['age'].fillna(df['age'].mean())  # 用平均年龄填充
df['name'] = df['name'].fillna('未知')  # 用特定值填充
df['salary'] = df['salary'].interpolate()  # 用插值法填充

print(“\n处理后的数据：”)
print(df)

注意事项 ：选择填充方法时要考虑业务场景，不同类型的数据可能需要不同的填充策略。

三、异常值检测

异常值可能会严重影响数据分析结果，让我们来看看如何检测和处理异常值：

def detect_outliers(df， column)：
    # 计算Q1、Q3和IQR
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1

    # 定义异常值范围
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    # 找出异常值
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    return outliers， lower_bound， upper_bound

# 创建示例数据
data = {
    'salary'： [8000， 12000， 15000， 18000， 100000， 5000]
}
df = pd.DataFrame(data)

# 检测工资异常值
outliers， lower， upper = detect_outliers(df， 'salary')
print(f“异常值范围： < {lower：.2f} 或 > {upper：.2f}”)
print(“\n异常数据：”)
print(outliers)

四、总结

我们学习了三个重要的数据质量控制技巧：

使用drop_duplicates()处理重复数据
使用多种方法处理缺失值
使用箱线图法检测异常值

练习题 ：

尝试对一个包含姓名、年龄、工资的数据集同时应用这三种数据质量控制方法
思考在你的实际工作中，这些方法如何帮助你提高数据质量

记住，数据质量控制是一个持续的过程，需要根据具体业务场景选择合适的处理方法。建议大家动手实践，熟悉这些技术的使用。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

数字化转型网数据专题包含哪些内容

数字化转型网数据专题包含：数字化转型网（www.szhzxw.cn）

1、数据相关外脑支持：100+数据相关专家、100+数据实践者、1000+相关资料

2、数据研习社：与全球数据相关专家、实践者共同探讨相关问题，推动产业发展！

3、国际认证培训：目前已引进DAMA国际认证CDMP，其他国内外认证也在逐步引进中

4、典型案例参考：与数字化转型网数据要素X研习社社员一起学习典型案例，共探企业数据落地应用

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网默然。

数据治理：质量控制实践

一、数据去重处理

二、缺失值处理

三、异常值检测

四、总结

大模型给To B企业带来的真正变化是什么？

人工智能案例|Meta Platforms 如何利用人工智能和个性化来提高用户参与度和广告效率

中共中央国务院关于促进民营经济发展壮大的意见

应急管理部工业和信息化部关于加快应急机器人发展的指导意见

一图读懂丨二十大报告多处@信息通信业

联系我们

微信扫一扫关注我们

一、数据去重处理

二、缺失值处理

三、异常值检测

四、总结

数据质量评估维度及方法

如何构建以高效数据为驱动的质量管理体系？

相关推荐

联系我们

微信扫一扫关注我们