弗兰克·凯恩

Udemy导师和Sundog软件的创始人

什么是机器学习?简单地说，机器学习描述的是用真实世界的数据训练的计算机算法，以建立预测模型。

尽管机器学习是人工智能(AI)的一个子领域，但它并不像看起来那么复杂。举个简单的例子，假设我们收集了100个人的身高和体重数据。我们称其为训练数据. 我们可以用X轴上的测量高度和Y轴上的重量绘制我们收集的数据，如下所示。

机器学习、数据科学和Python深度学习

最后更新日期：2021年9月

116课
初学者水平

4.7 (25925)

使用数据科学，Tensorflow，人工智能和神经网络完成机器学习教程|由Frank Kane、Frank Kane、Sundog教育团队提供的Sundog教育

探索课程

这张图上的每一点都代表一个人的身高和体重。一个简单的机器学习算法可以适合这一数据。然后，我们可以利用这条线来预测考虑到身高的新人的体重。把它想象成一道高中数学题。直线的一个方程式是Y = mx + b,在那里米这条线的斜率是多少b是y轴截距。一个机器学习算法叫做线性回归可以用来学习的最佳价值米和b符合我们现有的数据。在这种情况下，我们最终得到y=2.75x+16.5，结果如下：

现在我们已经知道了最适合我们训练数据的直线，我们可以代入新的高度值x并对重量进行预测Y．看到机器学习有多简单了吗?

机器学习的类型

有不同类型的机器学习最适合不同类型的问题。它们通常分为两类:有监督的和无监督的——但有时我们也把这两类结合起来。

监督机器学习

我们上面看到的线性回归就是一个例子监督式学习. 这意味着我们的训练数据包含我们试图预测的已知、正确的答案。对于每个接受线性回归模型训练的人，我们根据他们的身高知道他们的体重。叫做被监督的因为我们可以很容易地评估我们的模型有多好，当它被训练的时候，通过将它与已知的正确答案进行比较。大多数机器学习算法都属于监督学习的范畴，包括回归、决策树、XGBoost等。

在机器学习的世界里，我们试图预测的是标签．所以，我们说有监督的机器学习处理标记培训数据。

无监督机器学习

有时，我们试图在现有数据中发现看不见的模式。例如，描述一组文档的更广泛主题是什么？我们能根据电影的情节摘要和剧本的相似程度对电影进行分类吗？我们可能不知道什么样的主题或电影类型提前，但无监督的学习技术可以发现它们。这些未知属性称为潜在的特征．可以使用K-means聚类、主成分分析、潜在Dirichlet分配和k -最近邻等技术来揭示这些潜在特征。

由于我们事先不知道正确答案，所以使用无监督算法无标号培训数据。

Semi-Supervised学习

现实世界中的项目并不总是那么简单。假设您有一大组培训数据，但其中只有一部分带有标签（已知正确答案）。这是一种常见情况；许多问题都需要人工标记数据才能用于训练机器学习算法。例如，在训练系统中，可能需要对图像集进行手动分类，以便对图像进行识别。然而，你可能有更多的图像需要标记，而你实际上无法标记，因为你只有这么多的人。

这就是半监督学习的由来。您可以使用监督学习来训练一个模型，该模型根据接收到的人工生成的标签为未标记的数据分配标签。随着时间的推移，我们可以将监督算法生成的标签与人工生成的标签进行比较。当他们开始达成一致时，我们可以使用监督模型来标记我们的训练数据，而不是在模型有高可信度的情况下人类。这些机器生成的标签被称为pseudo-labels．

由于我们的训练数据现在包含由人工分配的已知标签和由模型推断的数据的混合，因此调用这些模型semi-supervised．

那么神经网络呢?

神经网络并不完全符合前面提到的机器学习类别。相反，它们是高度灵活的算法，可以用于监督、非监督和半监督学习。如果你在寻找一种可以解决几乎所有问题的一刀切的机器学习算法，神经网络就是最好的选择。

神经网络的灵感来自于人类大脑的生物学，尽管现代神经网络与它们的生物学对等物有很大的不同。今天，神经元仍然是理解神经网络如何工作的一个有用的隐喻，但在引子之下，它们基本上是由线性代数和微积分驱动的，已经为最佳结果进行了优化。

从概念上讲，你可以把神经网络看作是一层层相互连接的虚拟“神经元”。下面是一个神经网络架构的示例：

这个假设的网络将被用来根据事物的性质对事物进行分类特征．也许我是想根据导演和演员来预测电影的类型。我们把这些特征——演员和导演——输入神经网络的底部。一旦网络被训练，它就会产生在上面输出的许多不同类型电影中的一个的概率。

这张图中的每个圆圈代表一个神经元，尽管现在它们在很大程度上被称为“单位”。在这个网络的顶部和底部之间是几层神经元，它们相互连接。每个神经元的工作是将所有传入它的信号相加（这就是Sigma符号的意思），并应用激活函数来决定向下一层输出什么信号(这就是弯曲的线所代表的)。

当我们训练神经网络学习每个神经元之间的最佳权值和偏差时，神经网络的魔力就发生了。了一种叫做梯度下降用于查找要分配给每个连接的最佳权重。由于有许多不同的权重可以有许多不同的值，神经网络可以代表非常复杂的问题。我们最终得到的权重的巨大混乱使得我们很难直观地理解为什么一个给定的经过训练的神经网络会产生答案，但它通常工作得很好。

神经网络近年来在机器学习研究中占据主导地位，因为它们非常灵活，可以应用于广泛的复杂问题。然而，它们并不总是最佳解决方案，调优它们以获得最佳性能可能非常具有挑战性。

人工智能呢?

神经网络、人工智能和机器学习通常可以互换使用，但它们是不同的东西。

人工智能是一个比机器学习更广泛的范畴。人工智能的早期尝试根本没有使用机器学习算法;相反，许多都是基于规则的系统。早期的会话机器人它们实际上是由一组关键字的预编程响应组成的，这些关键字可以根据所问的问题进行引用。如果你说“快乐”这个词，机器人可能会有一个人类生成的规则来回应“我很高兴你感觉很好！”像这样的人工智能系统的行为是明确编程的，而不是通过学习来实现的。

现代人工智能倾向于更多地依赖机器学习，神经网络是其中的几种方法之一。神经网络可以学习到，对“我感到高兴”的适当反应是“我很高兴你对此感觉良好”，这只是基于它在训练中的反馈。

神经网络并不是人工智能领域使用的唯一机器学习技术。另一种流行的算法被称为强化学习，它根据训练过程中所做决定的结果，学习在不同状态之间做出决定的最佳方法。例如，强化学习系统可以通过尝试随机移动并观察哪些导致被幽灵杀死，哪些导致找到能量药丸并吃掉幽灵来学习如何玩《吃豆人》。当你读到关于人工智能系统在电子游戏或桌面游戏中打败人类的故事时，这可能是在强化学习技术的使用。

复杂的人工智能系统，比如自动驾驶汽车，可能会结合不同的技术。神经网络可以用来识别路标，而强化学习可以用来学习如何最好地在街道上导航，而且可能还有很多基于规则的系统。

所以，从我们的角度来看，神经网络是机器学习的子集，而机器学习是人工智能的子集。它们不是一回事。

机器学习的肮脏秘密

机器学习研究的世界充斥着花哨的数学、算法和术语——但这掩盖了一些令人不快的事实。如果你在现实世界中进入机器学习领域，你会发现玩弄算法只是工作的一小部分。

尽管机器学习系统的算法复杂，但成功的机器学习系统在很大程度上是反复试验的结果。我们给它起了个好听的名字:hyperparameter调优．这些模型通常有很多hyperparameters比如学习速率，你的神经网络有多少层，每层有多少神经元——对于一个给定的问题，没有什么好方法可以知道这些参数的最佳值。机器学习的实践者通过简单地尝试各种各样的参数组合来调整他们的模型，并看看哪些参数在实验中效果最好。在一天结束的时候，它就像往墙上扔一堆隐喻性的意大利面，然后看看什么能粘住。那没有什么了不起的!

现实世界的机器学习更多的是关于数据处理，而不是实际的机器学习。你对算法和参数的选择远不如你训练机器学习系统的数据质量重要。数据科学家通常花更多的时间分析和清理用于训练系统的数据，而不是使用算法本身。有一整个学科叫做工程特性致力于准备和预处理你的训练数据，以产生最好的结果。这通常是机器学习研究人员在现实世界中花费大部分时间的方式。数据分析、统计分析和处理缺失的数据是工作的重要组成部分。当使用云计算将特征工程应用于海量数据时，它很快就成为应用机器学习的难点。

在工作中，甚至你为问题选择最佳算法的能力也可能不重要。“AutoML”系统可以在训练数据上尝试不同的算法，并通过实验自动找出最适合使用的算法。您可以简单地将您的培训数据提供给AutoML系统，对其执行自动超参数调优，并生成一个高度优化的机器学习系统，而无需您的参与或专业知识。机器学习系统现在可以创建自己的机器学习系统了!
对于这个领域的新手来说，这是个好消息——机器学习比以往任何时候都更容易理解。但那些了解幕后情况的人为什么和如何机器学习在今天的就业市场仍然非常有价值。

你想知道机器学习和深度学习之间的区别吗？请在中阅读这篇文章。