最小二乘回归线高斯(Carl Friedrich Gauss)发明了一种最小二乘法,它可以作为一种求解超定方程组的方法。超确定系统定义为:

“当存在的问题而不是未知数时,当存在更多方程时,确定线性方程的系统。”

从另一个角度来看,计算最小二乘回归线可以让您找到问题的正确方程。

最小二乘本身表明,所计算的解减小了有关方程结果的偏差。这允许您减少用于确定数据的任何方程的总体误差,并可将影响任何结果的残余值最小化。最小二乘回归线常用于需要更高精度的数据拟合应用。此数据拟合应用程序允许您创建更准确的最佳拟合数据,并得出更准确的结论。

在统计和数学的情况下,线性最小二乘是非常有用的,因为它们允许您将数据拟合到任何模型和任何数据点提供的任何数字。这就产生了一个模型,该模型可以用来总结数据,也可以用来预测来自同一模型/系统的未观察到的值,并且可以用来理解和发现系统作用的任何新机制。统计数据很难让你理解,但如果你有一些指导,它就会变得容易得多。参加统计数据可能会帮助你更有把握地使用最小二乘回归线。

线性最小二乘只适用于线性方程。顾名思义,线性最小二乘只处理线性函数和参数。这与非线性最小二乘技术不同,非线性最小二乘技术必须通过试错来解决。

在统计学上,线性最小二乘问题允许分析一种非常有用的统计模型,称为线性回归,一种由最小二乘回归线形成的分析。

线性最小二乘的最简单的变体是标准最小二乘模型。

线性最小二乘回归是一种事实上的方法,用来寻找最适合的直线,它总结了任意两个给定变量之间的关系,受变量x的约束。这个公式看起来像这样,只要稍加实践和思考就很容易使用。

Y = a + b X

b = r SDY/SDx

a= y - b!X

用这个公式创建一个图形,包含X解释变量和Y因变量。这个图的斜率是b, a是图的截点。

截距点的定义是当x = 0时,y的值。

对于绘图方面的帮助,我们建议您使用计算机软件,如Microsoft Excel。对于使用这个软件的高级统计的帮助看一看Microsoft Excel中的统计

如上所述,线性回归通常用于建模两个变量之间的关系。这意味着你可以用一个线性方程来拟合你收集的数据。变量X是解释其他变量依赖于它的关系的变量。作为演示,服装裁缝想要弄清楚他/她的顾客的体重和他/她的顾客的身高之间的关系。他/她可以使用线性回归模型来做这件事,这样在将来他/她可以推断数据,并节省从头测量的时间。

当您尝试使用最小二乘回归线来找到您收集的数据的线性模型时,您总是要确定是否可以找到任何感兴趣的变量之间的关系。在这一点上胡乱猜测会导致非常不准确的答案,所以不要疯狂地把身高和眼睛的颜色联系起来。这意味着你应该试着找出那些有意义的关系,同时用心思考这是否是正确的关系。这其中的一些例子是,更高的早期考试成绩并不一定意味着更好的大学成绩在未来,尽管可能有一些关系。在使用最小二乘回归线时,这是一个很好的变量。

统计分析可以是普遍有用的和研究一些描述性统计是你简历上很好的补充。

回到裁缝的例子,身高和鞋码可能与鞋码作为补偿变量有关。

有些人使用散点图来确定任何类型的关系,以及任何两组数据之间的关系有多强。这是很有帮助的,因为散点图可以以简单而简单的方式暴露关系,而表格数据可能更难从中提取收集到的数据。通常,如果您在散点图上看到很少或没有相关性,那么可以肯定地认为绘制最小二乘回归线是浪费时间。散点图应该表明增加或减少的值和关系。如果没有模式来创建直线,那么最小二乘回归线就不值得您花费时间。

创建散点图之后,确保计算出与相关系数相对应的数字。这很方便,可以向您显示数据的价值以及它们如何相互关联。该值通常为-1到+1。

最小二乘回归线用于计算最佳拟合线,以使给定直线上任何数据的平方差最小。这意味着数据点离直线越远,它对直线的拉力就越大。同样,这意味着如果一个数据点恰好在最佳拟合线上,它的有效偏差为0。这些值是平方的,所以没有负数可以抵消正的值,使得最小二乘回归线更精确。

要查看数据,您应该将计算出的回归结果与实际数据点绘制在一起,以分析数据结果。如果您的数据有很多相关性,那么您的数据点将主要聚集在一起,并遵循您计算的最小二乘回归线。任何远离主数据点群的点都是你需要注意的标志。这些被称为异常值或异常的点是一个警告信号。这些点可以显示计算错误的数据,绘制错误的数据,甚至是错误的原始数据。当然,如果这些情况都不是真的,这就是一个真正的统计异常值,应该进行进一步的调查。回到我们的裁缝例子,我们可以找到一个统计异常值,一个非常高的人的体重与他或她的身高非常奇怪。这种数据点会给你的最小二乘回归线带来麻烦,因为它会让最小二乘回归线偏离正确的位置,这意味着你从曲线图和最小二乘回归线中推断出的任何信息都不太准确。有时最好从图中删除离群值,然后重新计算,特别是在离群值不多的情况下。如果有很多异常值,你必须检查你的工作或者回忆数据来确认你的假设。

由于您的异常值可能不是错误数据,您的数据有可能具有差的拟合最小二乘回归线。如果点从水平方向距线大距离,请确保您考虑数据点。删除任何错误数据意味着最小二乘回归线将适合更好的数据。这反过来又会增加所观察到的任何数据之间的相关值,并允许您进行更准确的观察。这种影响很大,不应该被忽略。

计算出最小二乘回归线后,用很大的审查分析偏远的数据。这些偏差意味着您可以以更准确度分析您的原始索赔。您可以在单独的图形的一个轴上绘制这些值,并将它们映衬到其他结果,以查看是否存在任何相关性。偶尔,这将引起您的注意力对您原始假设可能重要的变量,并导致进一步调查和数据收集。所有这些都仅使原始数据更有用。在图中使用最小二乘回归线还可以指出所收集的数据中的任何非线性,这也可以向您展示数据不正确的位置。

假设您已经创建了一条最小二乘回归线,并分析了生成的图形和数据,您可能会发现这些非线性。如果你碰巧在你的数据中发现X和其他变量之间的非线性趋势,你可以考虑一些被称为影响变量的东西。当数据与每个变量的关系受到波动或重要的第三方变量(如风速、湿度、气压等)的影响时,这些影响变量就出现了。受这些因素影响的事物往往会受到它们的高度影响。以吉他为例。吉他通过使用张力和反张力来保持调谐。如果你在一个房间里给吉他调音,然后把它带到不同温度或湿度的地方,吉他很快就会走调。这些潜伏的或有影响的变量(温度,压力)对吉他的音准有很大的影响。这些有影响的非线性值真的会让你的最小二乘回归线偏离,使它不准确。

如果您没有将有影响的变量添加到建模工作中,您很快就会发现,寻找非线性将向您展示需要建模以获得正确的最小二乘回归线的其他内容。

最终,您将有一个准确的最小二乘回归线,可以用来试图预测或推断数据以应用于您目前没有数据的东西。每当您将数据拟合到最小二乘回归线时,您需要高度小心,介意您在应用最小二乘回归线到的范围。将数据范围放到最小二乘回归线错误地将产生不适合在未来执行外推的不准确结果。

这些不准确的预测可能是非常错误和有害的,特别是在应用最小二乘回归线之前的第一组数据中有任何糟糕的数据片段。仅仅使用最小二乘回归线来进行数据拟合并不一定是很好的利用时间的方法,因为试图使用回归最佳拟合线来预测值是行不通的。当获得的数据是准确的,并且最小二乘回归线有意义时,您就可以开始推断信息,记住基于原始数据的任何限制。回到裁缝的例子,如果所有的顾客都是男性或女性成年人,裁缝试图使用他们的回归模型来计算每个顾客的平均尺寸,那么裁缝在处理儿童和青少年时就会非常不准确。身高/体重分布只适用于任何给定的年龄组,因此从最小二乘回归线推断的数据只适用于这些情况。外推法是一种非常有用的技术,在许多企业、研究论文和其他基于数学的项目中都有应用。在商业中,它可以用来预测利润率和股票价格。在这个例子中,最小二乘回归线只有在股票和公司的行为方式已经插入到建模方程中时才有用。一旦数据出现较大的干扰或更有影响的变量出现,您就必须调整最小二乘回归线和图表,以吸收任何您发现的似乎有效的新证据。

如果你很难弄明白这篇文章中涉及的数学问题,高等数学将帮助您进一步理解最小二乘回归线。

特色课程

选择适当的分配

最近更新于2020年7月

  • 2小时
  • 30的讲座
  • 初学者水平
4.8 (3)

@RISK和其他Monte Carlo仿真软件用户通过了解如何选择适当的发行版来获益。|在费尔南多·埃尔南德斯

探索课程

统计建模的学生也学习

让你的团队。领导行业。

通过Udemy for Business为您的组织订阅在线课程图书馆和数字学习工具。

请求一个演示