数智化转型网szhzxw.cn 数字化转型网专题栏目 模型训练和模型评估有什么区别和联系?

模型训练和模型评估有什么区别和联系?

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

现在数据原材料已经准备完毕,准备构建能够实现预测目标的模型。在此之前,我们再回顾一下数据挖掘模型的的核心目标,刚刚我们在分析特征的时候,其实心里已经大致有一个大概的结论了,如果要我们说出什么样的乘客生还率更高,那么我们可能会回答:女性,有钱人,乘头等舱等特征。就好比在分析某个APP的时候,我们会描述“该APP的主要受众是16~24岁青年人,主要分布在三线以下城市”,那么模型的主要作用就是,可以预测一个联合概率:当一个39岁的中年女性乘2等舱,在C港上船,带着老公和孩子,她生还的概率有多大,这个是数据分析解决不了的问题。

在本示例中,我们先用比较火热的随机森林模型进行尝试,模型训练的底层原理在这里先不赘述,我们用sklearn的工具包快速实现:

model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1,verbose=1)#初始化

model.fit(X_train, y_train)#训练

y_pred = model.predict(X_val)#预测

最终预测得到的结果如下,获得的是对应样本的0/1标签:

然后我们只要把数据整理成需要提交的格式,就可以去kaggle上参加比赛啦!真的这么丝滑吗?总觉的少了点什么东西,对,那就是我们根本不知道模型效果到底好不好!数字化转型网www.szhzxw.cn

我们拿到的测试集是根本没有标签的,这样模型预测的结果也不知道对不对,也不知道要怎么优化。在这里我们会一般采取类似A/B实验的方法,将训练数据集分为训练集和验证集,以模型在验证集上的预测效果作为依据进行调优。我们这里采取80%的训练集,20%的验证集进行划分,实现方式如下:

X_train, X_val, y_train, y_val = train_test_split(

X, y, test_size=0.2, random_state=1)

评价模型的好坏指标有很多,在这里我们介绍4个常用指标:准确率(Accuracy),精确率(Precision),召回率(Recall),F1值(F1-score)。

我们首先定义几种预测结果:

TP:True Positive。预测为1,实际为1,预测正确。

FP:False Positive。预测为1,实际为0,预测错误。

FN:False Negative。预测为0,实际为1,预测错误。

TN:True Negative。预测为0,实际为0,预测正确。

1、准确率 = (TP+TN) / (TP+FP+FN+TN),即模型预测正确的样本数/总样本数,这个指标相对来说比较好理解,但是在样本不均衡的情况下不适用。假设一个10万的数据集当中有99999个正样本,负样本只有一个,那么我的模型只要把所有样本都预测为正,这样准确率就能够达到99.999%的好成绩,但是这样的模型并没有什么卵用。数字化转型网www.szhzxw.cn

2、精确率 = TP/(TP+FP),即所有我预测为正的样本当中,有多少预测对了,又叫查准率。

3、召回率 = TP/(TP+FN),即样本当中所有的正样本,有多少被识别出来了,又叫查全率。

4、F1值 = (2*精确率*召回率)/(精确率+召回率),是一个综合衡量精确率和召回率的指标。

在不同的业务场景中,模型关注的指标可能也都不太一样,但整体来说我们需要选取一个主要的核心指标,不断地重复训练-调优的过程。以我们示例当中的数据集为例,上一段落我们把觉得相关的数据维度都放进去训练了,对预测结果分别计算4个指标看看:

# 模型评估

print(“accuracy:%f” % accuracy_score(y_val, y_pred))

print(“precision:%f” % precision_score(y_val,y_pred))

print(“recall:%f” % recall_score(y_val, y_pred))

print(“f1_score:%f” % f1_score(y_val, y_pred))

结果如下:

模型准确率只有77.6%,有点不尽人意,主要问题是召回率比较低,此时就需要对模型进行调优。我们尝试对数据维度进行优化,刚刚分析的时候发现仓位编号其实跟票价,客舱等级都是正相关的,这个特征的加入有可能会导致模型过拟合,我们把这个特征去掉试试看:数字化转型网www.szhzxw.cn

模型效果显著提升!所以说数据集的构建在整个数据挖掘过程当中扮演了非常重要的角色,那么除了优化数据特征本身,我们还可以对模型参数进行调优,由于数据集本身较少,随机森林的深度不需要过深,那么我们试着把树的深度调整为3:模型效果再度提升!后续的优化手段也是围绕着特征和模型进行优化的,尤其是特征工程,我们可以利用业务知识构造出更多关键特征来提高模型准确度,至于模型本身,作为数据人员除了参数以外很难有算法上的改进。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

数字化转型网数据专题包含哪些内容

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)

1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料

2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!

3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中

4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于 渭河数分星球;编辑/翻译:数字化转型网Jack。

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/64615.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部