数据挖掘教程数据挖掘通常用于从数据源中收集知识。数据挖掘过程可能涉及以下任务:数据过滤、研究、数据检索和查询、统计、分析、图形模型开发等。betwayapp下载安装数据搜索和数据分析可以手工进行,也可以使用基于自动化的方法。数据挖掘实践起源于机器学习,随着数据挖掘的发展;从数据挖掘中收集的信息在许多领域发挥着作用,包括以下领域:医疗创新、预测模型、软件开发、分析应用、市场营销、战略竞争、游戏设计、库存补充、报告等。betwayapp下载安装通过一个全面的教程了解数据挖掘可以呈现的优点。

模式和分析

在某些情况下,分析程序;可能涉及算法的使用、历史数据的研究、模式的发现和统计学的应用。研究数据中发现的模式的一个目标是根据发现的模式得出结论。当在数据中发现模式时;在一个接受许多可能场景的环境中,相同的模式出现得越频繁,就表明了得出的结论所涉及的精度水平,因此,数据分析往往需要使用大量的数据。作为一个案例的例子,当研究相对较少的数据时,可能不能提供准确的结论,如同样的研究进行了大量的数据:一位分析师发现,研究中10个顾客中有2个一起购买了同样的两件感兴趣的商品,所以他们最初得出的结论是,这两件商品一起购买的可能性应该是20%。当同一类型的研究包括10,000个订单时,发现实际上有35%的可能性这两件商品是一起购买的;这项研究产生了更准确的结果,因为更多的订单有机会不包括任何一个问题的项目,一个问题的项目,或至少一个问题的每一个项目。当一项研究被证明是更准确的,这也是一项也排除了巧合或随机因素的研究。

前面的示例是一个示范的研究结果基于项目集模式作为项目集的频率(在这个例子中,感兴趣的两个项目的项目集)被一起购买(已被搜索的模式)被测定的主要因素。除了关注项的频繁模式项目集之外,其他频繁模式还包括子序列和子结构。研究者的商店建立了会考虑储存在itemset至少有60%的机会活在当下是一个频繁项集,所以在商店的研究问题中的两个项目没有什么商店会考虑频繁项目集。商店有一个目标让购买的两个物品一起频繁项目集,由于相关的因素和他们的业务关系与这两个供应商的产品兼容,并开发了一个推广,提供客户一个折扣当他们购买的物品在同一个订单。

手动分析10,000个订单的大量数据将花费相当多的时间;对于前面的例子,一个工具已经被用来在分析过程中应用自动过程和Apriori算法。Apriori算法包含了一些编程方面的内容,比如If…Then…Else语句,用来排除不符合搜索项集的条件的数据;该算法的公式基本上搜索符合规则集中概述的标准的值(例如感兴趣值的number值和最小计数),然后可以在哈希表中对项目集进行分组。在分析数据时,Apriori算法可以和关联规则一起使用。在零售企业试图确定在同一订单中购买两种特定商品是否频繁的例子中,数据分析的结果帮助商店做出促销/营销决策。在某些情况下,关联规则有助于预测分析和建模。

我最近看到了Five开发的一款应用,它能从用户在Facebook上发布的帖子中检索单词,然后在分析帖子的基础上总结出个性特征。人格特质决定的分析基础涉及到与已定义的行为、表情和沟通相关的特质的先前知识;因此,有关特质相关因素的知识是来自心理学的研究。我的假设是,当一个人在Facebook上发布的帖子被分析后,模式就会被搜索,然后与性格特征进行匹配,这些性格特征已经被证明与程序发现的模式有关。例如,一个使用情感驱动词汇的人可能更敏感;发完帖子后又迅速删除的人可能有神经质的倾向;一个不经常发帖的人可能是孤独的;一个能准确地撰写他们的帖子并包含有深刻见解的帖子的人可能更有可能是认真的。你可能对应用分析信息有自己的理论,并得出它所呈现的结论;无论如何,该应用程序是应用数据挖掘所涉及的收集和分析方法的众多例子之一。

在另一个场景中,数据挖掘通过分析帮助提供更多的见解,这是在帮助台中执行的根本原因分析。一个技术支持小组一直在监视最近在处理某些事务时发生的问题;当对这个问题进行研究时,在错误日志中发现了不同的错误。查询(包括SQL数据库查询),被用来找出哪些类型的交易受到影响导致了发现比如交易不能完成,导致相同类型的错误在同一时间框架的项目,以前保存的在销售时被召回。经过进一步的研究,包括首先提取与最近保存的项目以及最近发布的版本(系统更新)有关的数据,发现的错误变得更加排外。最后,在报告的问题中,所有的项目都发现了信号量相关的错误。符合相同标准且有未报告的相同症状的可能问题怎么办?查询和ROC(接收者操作特征)模型被用来确定同样的错误在采购订单中发生的频率;结果有助于提供信息,表明错误发生过多次,甚至在一天之内。 Therefore; the help desk had been able to do the following: locate the purchase orders affected before an attempt had been made to recall the saved projects, provide others who may have not been aware of the issue with details on the issue, estimate how much call volume related to the issue could increase, and forward the information to analysts who could then work towards resolving the issue.

流程

数据挖掘的第一步通常是规划。数据挖掘过程通常包括:计划、数据收集、清理、查询、分析、建模、考虑建模输出、表示的进一步分析。规划可以帮助确定应该收集什么类型的数据,并概述研究的目标。数据收集可以包括为多个数据存储库或数据源收集的数据。数据收集后,数据准备,使其可以更容易地工作;准备数据涉及数据清理。在前面的场景中使用了数据清理,因为在收集了数据并执行了数据分析过程之后,没有直接提到的一个因素是,不相关的数据和对分析无益的其他数据(例如重复值)在分析的早期阶段被忽略了。为了减少浪费时间分析相对宝贵的数据的可能性和可能性的研究是乏味的比必要的,数据清理被用于数据挖掘;数据清理有助于确保所分析的数据将提供价值。 Moreover, data cleansing can help with discovering discrepancies and/or cases of missing data.

帮助集群和转换数据的操作可以帮助进行数据处理,因为可以在不同的系统中为数据执行函数。然后可以使用手动方法和自动化工具对数据执行搜索和分析。如果您对发现数据提取技术和/或试图扩展您当前的数据挖掘知识感兴趣,那么您可能会从演示数据挖掘概念的教程中受益。建模可用于创建从数据中收集的信息的可视化表示,提供预测分析,并确定各种因素如何影响结果。可以创建图表或其他类型的潜在决定性数据的可视化表示,以便以相对容易理解的形式显示所收集的信息。在提出研究结果之后,就可以确定要采取的决定和行动。

工具

有大量可供选择的工具可以帮助进行数据挖掘。像RapidMiner这样的工具包含的特性可能包括允许从Excel电子表格或其他数据源导入数据,项目管理,基于数据和选定因素建立模型,以及过程控制。当你想到提取和分析大量数据的公司时,你可能会想到谷歌。谷歌不仅在很多(如果不是全部的话)服务中使用了数据挖掘技术;谷歌还为用户提供了一个帮助数据挖掘的工具。谷歌提供的用于数据挖掘的工具叫做谷歌Analytics。谷歌Analytics包括以下内容:帮助组织和访问功能的仪表板,能够导入和导出与谷歌Analytics API的使用,跟踪事件,目标管理选项,搜索引擎优化选项,生成视觉效果等。如果你发现谷歌Analytics应用于电子商务和其他领域的潜力,那么你应该考虑学习Udemy教程,该教程旨在帮助你掌握谷歌Analytics。

其他应用程序示例

数据挖掘有很多可能的应用,一些例子如下:异常检测可以帮助发现,如用于IRS审计的那些,分类分析可以帮助过滤器,如用于电子邮件垃圾邮件过滤器。网络分析中的数据挖掘有助于选择性广告出现在页面上;当用户浏览页面时,cookie可以存储浏览年龄的信息,数据挖掘可以帮助从这些数据中提取信息,以便根据用户可能感兴趣的内容定制广告,这些内容是由用户浏览的年龄决定的。您可能亲身经历过这样的情况:在浏览了与所宣传内容相关的页面后不久,就在页面上看到了广告

总结

数据挖掘包含的步骤往往依赖于广泛的研究。数据挖掘在各个领域有许多不同的应用。已经开发了一些工具来帮助自动化过程,并为完成数据挖掘过程提供相当友好的选择。所收集的只是数据挖掘的一部分,从所提取的数据中收集到的知识也是数据挖掘的主要概念之一。数据挖掘的一个关键原则是,明确的目标以及对相关和有效数据的直接分析,可以帮助产生可用于有益目的的知识“金块”。

特色课程

Python 2021中的商业数据挖掘

2021年4月最后更新

畅销书
  • 9小时
  • 137课
  • 初学者水平
5 (11)

数据科学,机器学习和可解释人工智能的数据挖掘算法。|作者:Diogo Alves de Resende

探索课程

数据挖掘的学生也在学习

让你的团队。领导行业。

使用Udemy for Business订阅在线课程库和数字学习工具。

请求一个演示