数据库中的知识发现数据库中的术语知识发现或简称KDD,指的是寻找知识和数据的广泛过程,并强调特定数据介意方法的高级应用。研究人员对机器学习,模式识别,数据库,统计,人工智能,专家系统知识获取以及数据可视化的研究人员感兴趣。

了解如何开始使用数据

KDD流程的统一目标是从大型数据库上下文中的数据中提取知识。知识发现过程是重复的、交互的,包括九个步骤。请注意,该过程在每一步都是重复的,这意味着您可能必须回到前面的步骤。这个过程有很多艺术方面,因为我们不能只给出一个公式或技术来为每个步骤和应用类型分类正确的选择。因此,更好的方法是理解流程以及每个步骤的不同需求和可能性。

该过程始于确定KDD目标,并以所发现的知识的实现结束。然后循环关闭。因此,必须在应用程序域中进行更改。这将关闭循环,然后在新数据存储库上测量效果,并再次启动KDD进程。

以下是与管理步骤开始的九步KDD过程的简要说明。

步骤1

开发和理解应用领域。这是设置场景的准备步骤,以了解应使用转换,算法和表示应采用什么。负责KDD项目的人需要了解并定义最终用户的目标,然后在知识发现过程将发生,以及其他相关的先验知识。

使用SQL Server来存储您的数据并创建大报告

随着KDD进程进行的,甚至可能是对这一步骤的修订。据了解了KDD目标,预处理在接下来的三个步骤中定义的数据开始。请注意,一些方法类似于数据挖掘算法,但用于预处理上下文。

步骤2

选择并创建一个数据集,根据目标执行发现。确定将用于知识发现的数据,例如:哪些数据可用,获取额外的必要数据,以及将知识发现的所有数据集成到一个数据集中,包括将为该过程考虑的属性。这个过程非常重要,因为数据挖掘从可用的数据中学习和发现。这是构建模型的证据基础。如果缺少一些重要的属性,那么整个研究可能会失败。从这方面来看,考虑的属性越多越好。

另一方面,收集、组织和操作复杂的数据存储库是非常昂贵的,而且需要权衡最好地理解这种现象的机会。这种权衡体现了KDD的交互性和迭代性。

这从最佳可用数据集开始,然后扩展并观察知识发现和建模方面的效果。三个主要源包括:一个数据仓库、一个或多个事务数据,或一个或多个平面表。

步骤3

预处理和清洗。该阶段可提高数据的可靠性。它包括数据清理,比如处理缺失的值,以及移除离群值。

它可能涉及复杂的统计方法,或在此上下文中使用数据挖掘算法。例如:如果有人怀疑某个属性的可靠性不够,或者有很多缺失的数据,那么这个属性就可能成为数据挖掘监督算法的目标。建立该属性的预测模型,对缺失数据进行预测。人们对这一层次的关注程度取决于许多因素。在任何情况下,研究方面都是很重要的,而且常常本身就能揭示企业信息系统。

立即开始数据库设计

第四步

接下来是数据转换。在此阶段,准备和开发了用于数据挖掘的更好数据的产生。这里的方法包括尺寸减小,例如特征选择和提取,以及记录采样,以及属性转换,例如数值属性的离散化和功能转换。

这一步骤对于整个KDD项目的成功可能是至关重要的,通常是特定的项目。例如,在体检中,属性的商通常是最重要的因素,而不是本身。在营销中,我们可能需要考虑超出我们控制的事实,以及研究广告积累的效果,如努力和努力和时间问题。但是,即使我们在开始时不使用正确的转换,我们也可能获得令人惊讶的效果,这提示了关于下一次迭代所需的转换。

因此,KDD过程自身反映,并导致了解所需的变换。完成上述四个步骤,以下四个步骤与数据挖掘有关,其中重点是每个项目所采用的算法方面。

第5步

选择合适的数据挖掘任务。现在我们可以决定使用哪种类型的数据挖掘。例如:分类、回归或聚类。这主要取决于KDD目标,也取决于前面的步骤。数据挖掘有两个主要目标:预测和描述。预测通常被称为监督数据挖掘,而描述性数据挖掘包括数据挖掘的无监督和可视化方面。

大多数数据挖掘技术基于归纳学习,通过从足够数量的训练示例中归纳出显式或隐式地构建模型。归纳方法的基本假设是,训练的模型适用于未来的情况。该策略还考虑到特定可用数据集的元学习水平。

第6步

选择数据挖掘算法。既然你有了策略,我们就可以决定采用哪种策略了。这一阶段包括选择搜索模式的具体方法,包括多个诱导剂。例如,当考虑精确度与可理解性时,前者与神经网络更好,而后者与决策树更好。

对于元学习的每一种策略,都有几种实现它的可能性。元学习侧重于解释是什么导致数据挖掘算法成功,或者在特定问题中失败。因此,这种方法试图了解数据挖掘最适合的条件。每个算法都有参数和学习策略。比如十倍交叉验证,或者培训和测试的另一个部门。

第7步

接下来采用数据挖掘算法。最后,您可以实现适当的数据挖掘算法。在该步骤中,我们可能需要多次使用算法,直到获得满足结果。例如,通过调整算法控制参数,例如决策树的单个叶子中的最小次数。

第8步

评估。在这个阶段,我们根据第一步中定义的目标来评估和解释被挖掘的模式。在这里,我们考虑预处理步骤对数据挖掘算法结果的影响。这一步主要关注诱导模型的可理解性和有用性。在此步骤中,还将对发现的知识进行记录,以供进一步使用。

最后一步是使用数据挖掘获得的模式和发现结果的整体反馈。

第9步

利用已发现的知识。现在我们准备将这些知识整合到另一个系统中,以便采取进一步的行动。知识变得活跃是因为我们可以对系统进行更改,并测量其效果。实际上,这一步的成功决定了整个KDD过程的有效性。

在这一步骤中有许多挑战,如失去我们所操作的实验室条件。例如,知识是从某个静态快照中发现的,通常是数据的一个样本,但现在数据变成了动态的。数据结构可能会改变,数据域可能会被修改。

有兴趣学习更多吗?参加这门关于理解模式、过程和数据工具的入门课程!

特色课程

Oracle SQL Developer:掌握其功能+提示和技巧

2021年4月最后更新

畅销书
  • 3.5总计
  • 45讲座
  • 所有级别
4.5 (4,481)

使用Oracle SQL Developer,如Pro:了解将帮助您成为最高效的SQL开发人员的功能和技巧来自山顶开发学院的Carlos

探索课程

数据库开发者工具学生也会学习

让你的团队。领导行业。

通过Udemy为Business获取组织的在线课程和数字学习工具库的订阅。

请求一个演示