成为数据科学家需要哪些技能?
如果您想成为数据科学家,您需要了解广泛的主题和几种技能。虽然顶级大学提供教学这些主题的课程,但采取这些课程可能会花费数千美元和几个月的努力。如此自然,我们大多数人都希望自己学习数据科学。理想情况下,您可以在空闲时间学习,而不放弃其他承诺。
您可以了解成为数据科学家所需的技能。事实是,数据科学家永远不会停止学习 - 我知道我没有。
让我来告诉你怎么做。
最后更新于3月2021日
Machine Learning A-Z, Data Science, Python for Machine Learning, Math for Machine Learning, Statistics for Data Science |由Jitesh Khurkhuriya, Python,数据科学和机器学习A-Z团队
探索课程为什么大多数有抱负的数据科学家会放弃
如果你已经试图自学数据科学并放弃了,不要惊慌。大多数声称能教你数据科学的资源都存在一个问题,那就是它们没有提供一个清晰的学习路径。要成为一名数据科学家,你不需要掌握每一项技能。你只需要学习以下5个学科的基础知识:
- 数学
- 统计数据
- Python
- 数据可视化
- 机器学习
让我们深入了解这些并找出你需要学习的东西以及你没有的东西。
数学:数学的原因吗?
让我们从数学开始。你为什么要懂数学?你需要数学才能和电脑沟通。机器学习中的大多数算法都用数学术语表示。
数据科学家应该学习哪些数学领域?
- 初学者应该从函数的变化率和极限开始
- 微分学或导数
- 衍生品和部分衍生品来了解梯度下降或优化如何运作
- 线性代数,特别是:
- vectors.
- 单位向量
- 矩阵
- 对向量和矩阵执行算术运算
- 向量的点积
- 矢量变换
- 改变基础
- 特征向量和特征值。
- 基本概率术语如:
- 条件概率
- 随机过程
- 随机变量
这看起来很像很多。请记住,这些是来自更大的区域的关键技能。例如,您不需要学习所有线性代数,只需一些选择即可。
一个好的数据科学家必须熟悉一些数学的基本概念。这些包括指数、对数、多项式方程、因式分解、二次方程和函数。在这个阶段,你不需要进行太多的练习或深入研究。只要确保你理解了这些概念,并对它们有所了解。微分学或导数的概念对任何数据科学家来说都是必须的。
几乎所有的机器学习算法都是基于最优化原理。这包括神经网络。梯度下降实现了这种优化。这意味着,如果你想在神经网络的流行领域工作,你需要了解优化。
如果你想做预测分析,你需要了解线性代数。它是数据科学和机器学习的预测分析的支柱。线性代数将帮助你理解各种算法是如何工作的。
分类问题都使用概率。概率可以帮助你做出诸如“这个客户会买吗?”以及“该客户会拖欠贷款吗?”推理统计创建概率分布来推断数据。理解常见的概率术语很重要。
统计:为什么统计?
现在我们已经学习了数学技能,是时候谈谈统计学了。有一些统计的特定领域对数据科学很重要。你需要了解这些才能了解数据科学的数据。
数据科学家应该学习哪些统计概念?
- 描述性统计
- 相关性
- 推论统计学。主要概念是:
- 概率分布
- 钟曲线或正态分布
- 中心极限定理
- 置信区间
- 假设检验
描述性统计帮助我们得到一些简单但非常重要的数据。描述性统计是对数据的直接解释。他们使用数据的集中趋势。我们确定一个中心值,大部分数据都在那里。我们还确定了离散度的度量,这有助于我们理解数据的传播。
如果您想了解不同的机器学习算法,您需要能够查看相关性。数据点之间的各种相关性在数据理解和数据选择中是有用的。
对于真实的数据,通常需要推理统计。推理统计帮助我们基于样本对真实数据进行推理或结论。推理统计创建概率分布来推断数据。
Python:为什么Python ?
Python是一种编程语言,许多数据科学家使用它。这是因为Python有数据科学所需的各种模块和函数。记住,您不需要成为Python编程专家。你只需要知道你将在数据科学和机器学习中使用什么。然后你需要在不同的场景中练习它们。
数据科学家应该在Python中知道什么?
- 文件处理
- 数据类型
- 循环
- 各种数学函数
文件处理是Python中最重要的概念之一,每个数据科学家都应该知道。您需要关注文件的基本读、追加和写。此外,还应该知道如何对读取的数据应用循环。
您还需要了解对所有数据类型的基本了解。特别是,数据科学使用字符串,数字和列表类型的变量。一旦了解这些,您将需要使用列表和字符串变量主控循环。
你应该专注于学习Python中的各种数学函数。您还需要日期模块和字符串函数。对于数据科学来说,最重要的是长度、切片和索引、分割和条带。您还需要了解用于搜索、长度以及如何处理多维列表的列表函数和方法。
数据可视化:为什么要使用数据可视化?
他们说,一张图片胜过千言万语。可视化给出了这张照片。数据的简单可视化可以帮助我们绘制推论或识别数据模式。
要实现数据可视化,数据科学家需要知道什么?
- 一个类似Matplotlib的库,用于创建图形
- 基本的情节:
- 柱状图
- 柱状图
- 线情节
- 散点图
- 箱线图
- 图表创建和定制
- 定性特征,如频率图、直方图和饼图
您可以使用库集中精力构建数据可视化技能。Matplotlib是Python数据可视化的一个优秀包。Matplotlib有许多特性和现成的函数。尝试使用Python列表使用简单的数据创建绘图,然后再从大文件中获取复杂的实际数据。
作为数据科学家,您还需要了解图表定制的基础知识。专注于使用默认参数绘制图表,然后进入自定义。快速了解和创建模板可以帮助您在几乎所有未来的项目中可视化数据。您可能需要使用图表自定义,作为对各种利益相关者演示文稿的一部分。您必须解释您使用不同图表观察的数据模式。在这种情况下,您可以尝试创建多个绘图。您希望在视觉上呼吸这些图表。这就是各种图表定制工具,如数字和子统计图表成为必不可少的地方。此时,您还需要编辑像标记和行属性等多个图表元素。
您还需要对定性数据进行图形化可视化。定性数据可以是文字而不是数字。可以是汽车颜色、性别和婚姻状况等信息。定性数据的图形化可视化会有所帮助。它可以识别数据元素之间的相似点或各种关系。
机器学习:为什么机器学习?
数据科学家70%的时间都花在数据操作和数据处理上。你可以使用各种工具和机器学习算法来分析数据进行预测。在这样做之前,您需要清理数据、研究并处理它。它非常高效,容易学习,在处理各种数据时非常灵活。
机器学习需要什么工具?
- 熊猫
- 回归
- 多元线性回归
- 多项式回归
- 分类方法:
- 物流回归
- 决策树
- 支持向量机
- 特征选择
每个数据科学家都应该学习熊猫。从不同类型的源读取数据很重要。您可能必须将各种文本转换为数字数据。您可能还需要将数据划分为训练和测试类别。这意味着您还需要学习将数据分解为train和test的模块。
回归有助于数据科学家了解不同类型变量之间的关系。您可以使用回归来预测数字值。这些可以是股票或下一季度销售的未来价格。当您这样做时,您可以重新使用数据处理模板以节省时间并更多地关注核心概念。
回归是每个人在机器学习过程中首先学习的模型之一。集中在多元线性回归和多项式回归从scikit学习图书馆。学习和实践这些模块和函数的各个参数的效果。
与回归分析一样,分类方法是预测分类结果的流行。这些可能是这样的东西,“这位客户会购买我的产品吗?”或者“这位客户是否违约贷款偿还?”学习Logistic回归,决策树和支持向量机对于解决分类问题是重要的。了解这些3以及这些算法的每个参数。虽然还有其他类型的方法,请记住,我们这里的焦点不是学习每种算法。
特征选择将专业人士和业余爱好者区分开来。根据常识,您可以包含几乎所有或部分预测功能。在处理数百个特性时,不可能理解每个变量。这就是为什么我们需要使用各种统计分析。我们需要选择具有最大预测能力的特性。重点从不同类型的文件读取数据,创建数据帧,并从数据帧读取数据。您还应该关注各种流行的方法和函数,如shape、index、columns、sum、describe、sort_values和loc。
别忘了跟踪你的进步
当你学习这些技能时,跟踪你的进步是很重要的。你可以制定一个计划,每周或每天跟踪你的进步。您可以了解关于创建跟踪器或计划器的详细信息。
在研究这些主题的同时,您还应该专注于向世界展示您的知识和成就。这些天您的公开个人资料可以对招聘决策产生巨大差异。只有你的简历不会削减它。您需要了解如何制作自己的数据科学项目组合。
成为数据科学家的旅程现在就开始了
这篇文章强调了哪些技能和哪些科目是必须学习的,以及在什么水平上。你不需要了解每一个技能和主题的细节,尽管有些技能需要深入学习。这些都是成为一名成功的数据科学家的关键技能。关于Udemy的课程解决所有这些技能,可以帮助你踏上成为一名数据科学家的旅程。了解为什么和如何自学数据科学这个博客文章。