数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

一、数据挖掘的起源与早期应用
20世纪80年代,随着计算机存储容量的增加,许多公司开始存储更多的事务性数据。由此产生的记录集合(通常称为数据仓库)太大,无法用传统的统计方法进行分析。举办了几次计算机科学会议和讲习班,以审议人工智能领域的最新进展–例如专家系统、遗传算法, 机器学习和神经网络-可以适应知识发现(计算机科学界的首选术语)。数字化转型网www.szhzxw.cn
1995年,这一进程导致在蒙特利尔举行了第一次知识发现和数据挖掘国际会议,并于1997年发行了该杂志。数据挖掘与知识发现。这也是许多早期数据挖掘公司成立和产品引进的时期。
数据挖掘最早的成功应用之一,也许仅次于市场研究,是信用卡-欺诈侦测到了。通过研究消费者的购买行为,寻找规律一个典型的模式通常会变得明显;然后,在这个模式之外进行的购买可以被标记出来,以供以后的调查或拒绝交易。然而,各种各样的正常行为使这一问题具有挑战性;对正常行为和欺诈性行为没有一种单一的区分,对每个人或任何时候都是如此。
每个人都可能会购买一些与他以前做过的不同类型的东西,所以依赖于对单个人来说正常的东西可能会发出太多的错误警报。数字化转型网www.szhzxw.cn
提高可靠性的一种方法是首先对具有相似购买模式的个人进行分组,因为小组模式对小的不太敏感。异常。例如,一个“经常出差的人”群体可能会有一种模式,其中包括多种多样的位置,但此组的成员可能会被标记为其他事务,如目录购买,这些事务不符合该组的配置文件。
二、建模和数据挖掘方法
完整的数据挖掘过程涉及多个步骤,从理解项目的目标和可获得的数据到实施基于最终分析的过程变更。这三个关键的计算步骤是模型学习过程、模型评估和模型的使用。这种划分在数据分类方面是最清晰的。模型学习算法应用于已知组(或类)属性的数据,以便生成分类器或算法从数据中学到的。然后,使用包含具有已知属性的数据的独立评估集对分类器进行测试。然后,可以使用模型的分类与目标属性的已知类相一致的程度来确定模型的预期精度。如果模型足够精确,则可用于对目标属性未知的数据进行分类。
三、数据挖掘技术
有许多类型的数据挖掘,通常分为已知的信息类型(属性)和从数据挖掘模型中寻求的知识类型。
1.预测建模
当目标是估计特定目标属性的值,并且存在已知该属性值的样本训练数据时,使用预测建模。一个例子是分类,它使用一组已经划分为预定义组的数据,并搜索以下数据中的模式:辨析那些团体。然后,这些已发现的模式可用于对正确组的其他数据进行分类。指定因为目标属性是未知的(尽管可能知道其他属性)。例如,制造商可以开发一个预测模型来区分在极端高温、极端寒冷或其他条件下失效的部件。环境,可以使用该模型来确定每个部分的适当应用程序。另一种用于预测建模的技术是回归分析,当目标属性是一个数值,并且目标是预测新数据的值时,可以使用它。数字化转型网www.szhzxw.cn
2.描述性建模
描述性建模或聚类也将数据分成组。但是,对于聚类,没有预先知道适当的组;通过分析数据发现的模式被用来确定组。例如,广告商可以分析一般人群,以便将潜在客户划分为不同的集群,然后针对每个群体开展单独的广告活动。欺诈检测还利用聚类来识别具有相似采购模式的个人群体。
3.模式挖掘
模式挖掘专注于识别描述数据中特定模式的规则。市场篮子分析是数据挖掘最早的应用之一,它识别在购买交易中通常一起出现的事物。例如,超市使用市场篮子分析来识别经常一起购买的商品-例如,一家以鱼类打折为特色的商店也会进酱油。虽然对这种关联的测试长期以来是可行的,并且在小数据集中通常很容易看到,但是数据挖掘使得在巨大的数据集中发现不太明显的关联成为可能。最令人感兴趣的是发现意想不到的关联,这可能会为营销或研究开辟新的途径。模式挖掘的另一个重要用途是发现序列模式;例如,设备故障之前的错误或警告序列可用于安排预防性维护或提供对设计缺陷的洞察。
4.异常检测
可以将异常检测视为群集的另一面-即查找不寻常且不符合任何已建立模式的数据实例。欺诈检测是异常检测的一个例子。虽然欺诈检测可能被视为预测建模的问题,但欺诈性交易的相对稀有性以及犯罪分子发展新型欺诈的速度意味着任何预测模型都可能具有较低的精确度,并且很快就会过时。因此,异常检测转而专注于对什么是正常行为进行建模,以便识别异常事务。异常检测还与各种监控系统一起使用,例如用于入侵检测。数字化转型网www.szhzxw.cn
已经开发了许多其他数据挖掘技术,包括时间序列数据(例如,股票价格)、流数据(例如,传感器网络)和关系学习(例如,社交网络)中的模式发现。
四、隐私问题和未来发展方向。
使用数据挖掘侵犯隐私的可能性一直是许多人担心的问题。商业数据库可能包含人们的病史、购买交易和电话使用的详细记录,以及他们生活的其他方面。公民自由主义者认为,企业和政府持有的一些数据库是毫无根据的入侵,是对滥用的邀请。例如,美国公民自由联盟(American Civil Liberties Union)起诉美国国家安全局(NSA),指控他们通过从一些美国电信公司获取通话记录,对美国公民进行未经授权的间谍活动。该项目始于2001年,直到2006年信息开始泄露时才被公众发现。通常,风险不是来自数据挖掘本身(其目的通常是产生一般知识,而不是了解关于特定问题的信息),而是来自这些数据库中的信息的误用或不适当的披露。
在美国,许多联邦机构现在被要求出具年度报告,专门解决其数据挖掘项目对隐私的影响。美国法律要求联邦机构提供隐私报告,对数据挖掘的定义相当严格,称为“…。发现或定位任何一个或多个人的恐怖主义或犯罪活动的预测性模式或异常情况的分析。“。随着各种地方、国家和国际执法机构开始共享或整合他们的数据库,滥用或安全漏洞的可能性迫使政府与业界合作开发更安全的计算机和网络。具体地说,已经研究了保护隐私的数据挖掘技术,这些技术对扭曲、转换或加密的数据进行操作,以降低任何个人数据泄露的风险。数字化转型网www.szhzxw.cn
数据挖掘正在发展,其中一个驱动力是挑战问题上的竞争。这方面的一个商业例子是100万美元的Netflix奖。Netflix是一家提供邮寄或网络流媒体电影租赁服务的美国公司,该公司在2006年开始了这项竞赛,看是否有人可以将其推荐系统改进10%。推荐系统是一种根据之前的租赁数据预测个人电影偏好的算法。该奖项于9月9日颁发。2009年6月21日,由来自美国、加拿大、奥地利和以色列的7名数学家、计算机科学家和工程师组成的团队在2009年6月26日实现了10%的目标,并在30天后用改进的算法最终取得了胜利。为期三年的公开比赛激发了参赛者许多聪明的数据挖掘创新。例如,2007年和2008年关于知识发现和数据挖掘的会议举办了关于Netflix奖的研讨会,会上发表了研究论文,主题从新的协作过滤技术到更快的矩阵分解(许多推荐系统的关键组成部分)。对这类数据隐私的担忧也促进了对隐私和匿名性的理解。
然而,数据挖掘不是万能的,必须像对待任何统计分析一样仔细查看结果。数据挖掘的优势之一是能够分析大量的数据,这些数据对于手动分析来说是不切实际的,而且找到的模式可能很复杂,人类很难理解;这种复杂性需要在评估模式时小心。然而,统计评估技术可以产生不受人类偏见的知识,而大量的数据可以减少较小样本固有的偏差。如果使用得当,数据挖掘可以提供对大型数据集的有价值的见解,否则这些数据集是不实用的或不可能获得的。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于情报分析师;编辑/翻译:数字化转型网Jack。

