弗兰克凯恩

什么是机器学习?简单地,机器学习描述了用真实世界数据训练的计算机算法来构建预测模型。

尽管它是人工智能(AI)的一个子场,但机器学习并不像它​​看起来一样复杂。作为一个简单的例子,想象一下,我们已经收集了100人的身高和体重的数据。我们称之为我们培训数据。我们可以在X轴上的测量高度和Y轴上的重量进行绘制我们收集的数据,如下所示。

机器学习,数据科学与Python的深度学习

上次更新8月2020年8月

  • 111讲座
  • 初学者级
4.5 (22,076)

完整的实践机器学习教程,具有数据科学,纹身流,人工智能和神经网络|弗兰克凯恩的尚多教育由弗兰克凯恩

探索课程

该图中的每个点代表给定人的高度和重量。简单的机器学习算法可以适合该数据。然后,我们可以使用那条线来预测赋予他们身高的新人体重。将其视为一个高中数学问题。一条线的一个等式是y = mx + b,在哪里m是线的斜率和B.是y-erlcept。一种称为机器学习算法线性回归可以用来学习最好的价值mB.适合我们拥有的数据。在这种情况下,我们最终得到y = 2.75x + 16.5,这导致这一行:

现在我们已经了解了最适合我们培训数据的线路,我们可以插入新的高度值X并产生重量的预测y。看看机器学习如何?

机器学习类型

有不同类型的机器学习最适合不同类型的问题。他们通常分为两类:监督和无人监督 - 但有时我们也结合了两种。

监督机器学习

我们上面看到的线性回归是一个例子监督学习。这意味着我们的培训数据包含已知的,正确的答案,我们正在尝试预测。对于每个人进行线性回归模型培训,我们知道它们的身高。它被称为监督因为我们可以轻松评估模型在培训的时候,通过将其与已知正确的答案进行比较来培训。大多数机器学习算法属于监督学习类别,包括回归,决策树,XGBoost等等。

在机器学习的世界中,我们正在努力预测的是标签。所以,我们说监督机器学习涉及标记为培训数据。

无监督的机器学习

有时,我们正在尝试在我们拥有的数据中揭开不间断的模式。例如,描述一组文档的更广泛的主题是什么?我们可以根据他们的情节摘要和脚本如何分类电影?我们可能不知道提前的主题或电影类型是什么,但无监督的学习技巧可以揭示它们。这些未知属性称为潜在特征。诸如K-means聚类,主成分分析,潜在Dirichlet分配和k最近邻居的技术可用于揭示这些潜在特征。

由于我们不知道提前的正确答案,无监督的算法使用未标记培训数据。

半监督学习

现实世界的项目并不总是如此削减和干燥。想象一下,你有一系列训练数据,但只有一些标签(已知正确的答案。)这是一个常见的情况;在它可以用于训练机器学习算法之前,许多问题需要人类标记数据。例如,训练图像识别系统可能需要人类在用于训练系统的一组图像中手动对象进行手动对象。但是,您可能有更多的图像需要标签,而不是您实际上能够标记,因为您只有这么多人类。

这是半监督学习进入的地方。您可以使用受监管学习来培训一个模型,该模型根据其接收的人为生成的标签为未标记数据分配标签。随着时间的推移,我们可以将监督算法产生的标签与人类产生的标签进行比较。在他们开始同意的时候,我们可以使用监督模型来标记我们的培训数据而不是人类,因为模型具有高信心的情况。调用这些机器生成的标签伪标签

由于我们的培训数据现在包含由人类分配的已知标签的混合和模型推断的数据,因此调用这些模型半监督

神经网络怎么样?

神经网络不适合上述机器学习类别。相反,它们是高度灵活的算法,可用于监督,无监督和半监督的学习。如果您正在寻找一个可以解决几乎任何问题的机器学习算法,那么神经网络就是它。

神经网络受到人类脑的生物学的启发,尽管现代神经网络与他们的生物对应物相当多分散。今天,神经元仍然是一个有用的隐喻,用于了解神经网络如何工作,但在引擎盖下,它们基本上由线性代数和微积分驱动,这些模糊已经针对最佳结果进行了优化。

概念上,您可以将神经网络视为全部相互连接的虚拟“神经元”的层。这是神经网络架构的一个例子:

这个假设的网络将用于根据其分类特征。也许我正在努力预测电影是基于涉及的董事和演员的类型。我们喂养这些功能 - 演员和董事 - 进入这个神经网络的底部。一旦网络训练,它将产生电影在顶部输出中的许多不同类型之一中的概率。

该图中的每个圆形代表了神经元,尽管这些天虽然它们主要被称为“单位”。在该网络的顶部和底部之间是几层神经元,所有这些都是互连的。每个神经元的工作都是总结到它的所有信号(这是Sigma符号意味着什么)并应用激活功能确定输出到下一层的信号(这就是弯曲线代表的)。

当我们训练他们学习每个神经元之间的最佳重量和偏差时,就会发生神经网络的魔力。一种叫做技术梯度下降用于找到分配给每个连接的最佳权重。由于存在许多不同的权重,可以具有许多不同的值,神经网络可以代表非常复杂的问题。我们最终的大量混乱的重量使得难以直观地理解为什么一个训练有素的神经网络产生它所做的答案,但它通常很好地工作。

神经网络近年来主导了机器学习研究,因为它们非常灵活,可应用于广泛的复杂问题。但是,它们并不总是最佳解决方案,并为最佳性能调整它们可能是非常具有挑战性的。

人工智能怎么样?

神经网络,AI和机器学习通常可互换使用 - 但它们是不同的东西。

AI是比机器学习更广泛的类别。AI的早期尝试根本没有使用机器学习算法;相反,许多是基于规则的系统。早期会话机器人实际上是由预先编程的响应组成,这些关键字他们可以参考,具体取决于所要求的问题。如果你说“快乐”这个词,那么机器人可能会有一个人类生成的规则来回应“我很高兴你对此感觉很好!”像这样的AI系统的行为是明确编程的,而不是它所学习的东西。

现代AI倾向于更多地依赖机器学习,其中神经网络是几种方法之一。神经网络可以了解到对“我觉得快乐”的适当回应是“我很高兴你对此感到乐意”,就在训练期间的反馈。

神经网络不是人工智能领域使用的唯一机器学习技术。调用另一种流行的算法加强学习,这将根据在培训期间作出的决策后果来学习不同状态之间的最佳方式。例如,加强学习系统可以通过尝试随机移动和观察被鬼魂杀死的方式来学习如何玩PAC-MAN,这导致了寻找能力丸和吃鬼魂。当您阅读有关在视频游戏或棋盘游戏中击败人类的AI系统的故事时,可能正在使用的强化学习技术。

复杂的AI系统,如自动驾驶汽车,可能会结合不同的技术。神经网络可用于识别街道标志,而强化学习用于学习如何最好的导航街道,也可能存在大量基于规则的系统。

所以,工作方式,神经网络是机器学习的一部分,机器学习是人工智能的子集。他们不是一回事。

机器学习的肮脏秘密

机器学习研究中的世界沉浸在富有数学,算法和术语中 - 但这隐藏了一些令人不快的真理。如果您在现实世界中进入机器学习领域,您会发现与算法一起使用是工作的相当小部分。

尽管其复杂的算法,成功的机器学习系统在很大程度上主要是试验和错误的结果。我们给出这个花哨的名字:HyperParameter调整。这些模型通常有很多普遍存在如学习率,您的神经网络有多少层,以及每层中有多少个神经元 - 并且很少知道这些参数的最佳值用于给定问题的好方法。机器学习从业者通过简单地尝试这些参数的各种组合来调整其模型,并查看哪些在实验上最佳地工作。在一天结束时,它在墙上扔了一堆隐喻意大利面,看到了什么棍子。没有什么比这一点更有意思!

实际机器学习往往比实际机器学习更有关数据处理。您选择的算法和参数的选择远非您培训机器学习系统的数据质量。数据科学家经常花费更多时间分析和清洁用于训练系统的数据,而不是与算法本身一起使用。有一个叫做整个纪律特征工程致力于准备和预处理您的培训数据以产生最佳结果。这通常是机器学习研究人员如何在现实世界中花费大部分时间。数据分析,统计分析和处理缺失数据是工作的重要组成部分。当您使用云计算添加要素工程到大量数据的挑战时,它很快成为应用机器学习的硬部分。

即使您在作业上选择最佳算法的能力可能是不重要的。“Automl”系统可以在培训数据上尝试不同的算法,并自动弄清楚通过实验使用的最佳算法。可以简单地向Automl系统提供您的培训数据,执行自动化的HyperParameter调整,并产生高度优化的机器学习系统,具有非常少的参与或来自您的专业知识。机器学习系统现在可以创建自己的机器学习系统!
对于那些新的人来说,这是一个好消息 - 机器学习比曾经更容易进入。但是那些了解在引擎盖下发生了什么的人为什么怎么样在当今的就业市场中,机器学习仍然非常有价值。

机器学习中的顶级课程

机器学习模型部署
Soledad Galli,克里斯托弗·萨米卢拉
4.5 (1,866)
无监督机器在Python中学习隐藏的马尔可夫模型
懒惰的程序员公司
4.6 (2,677)
畅销书
贝叶斯机器学习在Python:A / B测试
懒惰的程序员公司
4.5 (3,795)
畅销书
Python的集合机器学习:随机森林,adaboost
懒惰的程序员公司
4.6 (1,353)
将无服务器机器学习模型部署到AWS Lambda
米兰帕夫洛维奇
4.5 (120)
用Javascript进行机器学习
斯蒂芬格莱德里
4.7 (2,017)
数据科学:Python中的监督机器学习
懒惰的程序员公司
4.6 (1,896)
机器学习和AI:Python中的支持向量机
懒惰的程序员公司
4.6 (590)
使用MATLAB的数据科学机器学习
Nouman Azam.
4.6 (190)
使用SWIFT的机器学习和人工智能
穆罕默德阿扎姆
4.4 (44)
机器学习实用锻炼|8个现实世界项目
Ryan Ahmed,Ph.D.,MBA,MBA,Kirill Eremenko,Hadelin de Ponteves,Superdatascence团队,Mitchell Bouchard
4.5 (619)

更多机器学习课程

机器学习学生也会学习

赋予你的团队。引领行业。

通过Udemy为Business获取组织的在线课程和数字学习工具库的订阅。

请求演示

弗兰克凯恩课程

终极实践Hadoop - 驯服您的大数据!
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.5 (21,145)
畅销书
Apache Spark与scala - 用大数据的手!
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.5 (11,548)
畅销书
用Spark Streaming和Scala流媒体大数据 - 手上!
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.6 (2,709)
机器学习,数据科学与Python的深度学习
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.5 (22,076)
用Apache Spark和Python驯服大数据 - 手上!
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.5 (8,900)
用Mapreduce和Hadoop - 手驯服大数据!
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.4 (2,421)
畅销书
用AWS Lambda建立一个无要的应用程序 - 手上!
弗兰克凯恩,布莱恩·泰德丁的晒街教育
4.4 (1,359)
Elasticsearch 6和弹性堆叠 - 深入和手
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.5 (2,274)
建立带机学习和AI的推荐系统
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.5 (1,355)
畅销书
自治车:Python的深度学习和计算机视觉
弗兰克凯恩,弗兰克凯恩,瑞安·艾哈迈德博士,博士,MBA,Mitchell Bouchard
4.5 (649)
终极,非官方UDEMY在线课程创作指南
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.3 (111)
AWS认证数据分析专业2020 - 手上!
弗兰克凯恩,斯蒂芬马雷克的Sundog教育|AWS认证解决方案架构师&Developer Associate,Frank Kane
4.6 (4,558)
畅销书

弗兰克凯恩课程