数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。俗话说:garbage in, garbage out。分析完数据后,特征工程前,必不可少的步骤是对数据进行清洗。
数据清洗作用是利用有关技术如数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。主要包括缺失值处理、异常值处理、数据分桶、特征归一化/标准化等流程。
一、缺失值处理
关于缺失值处理的方式, 有几种情况:
不处理:针对xgboost等树模型,有些模型有处理缺失的机制,所以可以不处理;
如果缺失的太多,可以考虑删除该列;数字化转型网www.szhzxw.cn
插值补全(均值,中位数,众数,建模预测,多重插补等);
分箱处理,缺失值一个箱。
二、异常值处理
常用的异常值处理操作包括BOX-COX转换(处理有偏分布),箱线图分析删除异常值, 长尾截断等方式, 当然这些操作一般都是处理数值型的数据。
BOX-COX转换:用于连续的变量不满足正态的时候,在做线性回归的过程中,一般需要做线性模型假定。
箱线图分析:依据实际数据绘制,真实、直观地表现出了数据分布的本来面貌,其判断异常值的标准以四分位数和四分位距为基础。
三、数据分桶
连续值经常离散化或者分离成“箱子”进行分析, 为什么要做数据分桶呢?
离散后稀疏向量内积乘法运算速度更快,计算结果也方便存储,容易扩展;
离散后的特征对异常值更具鲁棒性,如 age>30 为 1 否则为 0,对于年龄为 200 的也不会对模型造成很大的干扰;数字化转型网www.szhzxw.cn
LR 属于广义线性模型,表达能力有限,经过离散化后,每个变量有单独的权重,这相当于引入了非线性,能够提升模型的表达能力,加大拟合;
离散后特征可以进行特征交叉,提升表达能力,由 M+N 个变量编程 M*N 个变量,进一步引入非线形,提升了表达能力;
特征离散后模型更稳定,如用户年龄区间,不会因为用户年龄长了一岁就变化
当然还有很多原因,LightGBM 在改进 XGBoost 时就增加了数据分桶,增强了模型的泛化性。现在介绍数据分桶的方式有:
等频分桶:区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。比如说 N=10 ,每个区间应该包含大约10%的实例。
等距分桶:从最小值到最大值之间,均分为 N 等份;数字化转型网www.szhzxw.cn
Best-KS分桶:类似利用基尼指数进行二分类;
卡方分桶:自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。
四、数据转换
数据转换的方式有:
数据归一化(MinMaxScaler);
标准化(StandardScaler);
对数变换(log1p);数字化转型网www.szhzxw.cn
转换数据类型(astype);
独热编码(OneHotEncoder);
标签编码(LabelEncoder);
修复偏斜特征(boxcox1p)等。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于Datawhale;编辑/翻译:数字化转型网Jack。

