您需要哪些技能成为数据科学家?
如果您想成为数据科学家,您需要了解广泛的主题和几种技能。虽然顶级大学提供教学这些主题的课程,但采取这些课程可能会花费数千美元和几个月的努力。如此自然,我们大多数人都希望自己学习数据科学。理想情况下,您可以在空闲时间学习,而不放弃其他承诺。
您可以了解成为数据科学家所需的技能。事实是,数据科学家永远不会停止学习 - 我知道我没有。
让我告诉你怎么做。
最后更新于3月2021日
机器学习A-Z,数据科学,Python用于机器学习,数学机器学习,数据科学统计数据|由Jitesh Khurkhuriya,Python,数据科学与机器学习A-Z团队
探索课程为什么大多数抱负的数据科学家放弃了
如果您已经尝试教授自己的数据科学并放弃,请不要恐慌。声称教授数据科学的大多数资源的问题是他们没有提供清晰的学习路径。要成为数据科学家,您不需要掌握每一项技能。您只需要学习5个学科的基础知识:
- 数学
- 统计数据
- Python
- 数据可视化
- 机器学习
让我们深入了解这些并找出你需要学习的东西以及你没有的东西。
数学:为什么数学?
让我们从数学开始。为什么你需要了解数学?您需要数学以与计算机进行通信。数学术语在机器学习中表达大多数算法。
数据科学家应该学习哪些数学领域?
- 初学者应以功能的变化率和限制开始
- 差分微积分或衍生物
- 衍生品和部分衍生品来了解梯度下降或优化如何运作
- 线性代数,具体:
- vectors.
- 单位向量
- 矩阵
- 对向量和矩阵执行算术运算
- 矢量圆点产品
- 矢量转型
- 改变基础
- 特征向量和特征值。
- 基本概率术语如:
- 有条件的概率
- 随机过程
- 随机变量
这看起来很像很多。请记住,这些是来自更大的区域的关键技能。例如,您不需要学习所有线性代数,只需一些选择即可。
一个良好的数据科学家必须熟悉一些数学的基本概念。这些包括指数,对数,多项式方程,因子,二次方程和功能。您不需要在此阶段练习这些太多或深入。只要确保你了解概念并了解它们。差分微积分或衍生物的概念是任何数据科学家的必要条件。
几乎所有机器学习算法都在优化原则上工作。这包括神经网络。梯度下降实现了这种优化。这意味着如果您想与神经网络的流行区域合作,您需要了解优化。
如果您想做预测的分析,您需要了解线性代数。它形成了数据科学和机器学习预测分析的骨干。线性代数将帮助您了解各种算法的工作原理。
分类问题所有使用概率。概率可以帮助您提出预测,“这位客户会购买吗?”“这位客户是否会违约贷款?”推理统计数据创建概率分布以借出关于数据的推广。了解常见概率术语非常重要。
统计:为什么统计?
现在我们已经涵盖了数学技能,是时候谈论统计数据了。有特定的统计区域对数据科学很重要。您需要知道这些来查看并理解数据科学的数据。
数据科学家应该学习哪些统计概念?
- 描述性统计
- 相关性
- 推论统计。关键概念是:
- 概率分布
- 钟曲线或正态分布
- 中心极限定理
- 置信区间
- 假设检验
描述性统计数据帮助我们获得一些简单但非常重要的数据方面。描述性统计数据是对数据的简单解释。他们使用数据的中心趋势。我们确定大多数数据的一个中心值。我们还确定了分散的衡量标准,这有助于我们了解数据的传播。
如果您想了解不同的机器学习算法,您需要能够查看相关性。数据点之间的各种相关性在数据理解和数据选择中是有用的。
对于真实数据,您通常需要推理统计数据。推理统计数据帮助我们基于样本的真实数据的推断或结论。推理统计数据创建概率分布以借出关于数据的推广。
Python:为什么Python?
Python是一种编程语言,许多数据科学家们使用其他语言。这是因为Python具有数据科学所需的各种模块和功能。请记住,您不需要成为Python编程的专家。您只需要知道将用于数据科学和机器学习的内容。然后你需要在不同的场景中练习它们。
数据科学家应该在Python中知道什么?
- 文件处理
- 数据类型
- 循环
- 各种数学函数
文件处理是每个数据科学家应该知道的Python中最关键的概念之一。您需要专注于文件的基本读取,附加和写入文件。此外,应该知道如何在读取数据上应用循环。
您还需要了解对所有数据类型的基本了解。特别是,数据科学使用字符串,数字和列表类型的变量。一旦了解这些,您将需要使用列表和字符串变量主控循环。
您应该专注于在Python中学习各种数学函数。您还需要日期模块和字符串函数。数据科学最重要的是长度,切片和索引,拆分和条带。您还需要知道搜索,长度以及如何处理多维列表的列表功能和方法。
数据可视化:为什么数据可视化?
他们说,一张图片胜过千言万语。可视化给出了这张照片。数据的简单可视化可以帮助我们绘制推论或识别数据模式。
数据科学家需要了解数据可视化的是什么?
- 像matplotlib这样的库来创建图
- 基本情节如:
- 直方图
- 条形图
- 线条图
- 散点图
- Boxplots.
- 图表创建和定制
- 定性特征等频率图表,直方图和饼图
您可以专注于使用库构建您的数据可视化技能。用于Python的数据可视化的一个优秀包是Matplotlib。Matplotlib具有许多功能和Readymade功能。尝试使用Python列表使用简单数据创建图表,然后再将其从大文件迁移到复杂的真实数据。
作为数据科学家,您还需要了解图表定制的基础知识。专注于使用默认参数绘制图表,然后进入自定义。快速了解和创建模板可以帮助您在几乎所有未来的项目中可视化数据。您可能需要使用图表自定义,作为对各种利益相关者演示文稿的一部分。您必须解释您使用不同图表观察的数据模式。在这种情况下,您可以尝试创建多个绘图。您希望在视觉上呼吸这些图表。这就是各种图表定制工具,如数字和子统计图表成为必不可少的地方。此时,您还需要编辑像标记和行属性等多个图表元素。
您还需要定性数据的图形可视化。定性数据可以是单词而不是数字。这可以是汽车颜色,性别和婚姻状况等信息。定性数据的图形可视化可以提供帮助。它可以识别数据元素之间的相似性或各种关系。
机器学习:为什么机器学习?
数据科学家在数据操纵和数据处理中花费了70%的时间。您可以使用各种工具和机器学习算法分析数据以进行预测。在此之前,您需要清理数据,探索和处理它。它非常高效,易于学习,并且在处理各种数据时非常多才多艺。
机器学习需要哪些工具?
- 熊猫
- 回归
- 多元线性回归
- 多项式回归
- 分类方法:
- 物流回归
- 决策树
- 支持矢量机器
- 功能选择
每个数据科学家都应该学习熊猫。从不同类型的来源读取数据非常重要。您可能必须将各种文本转换为数字数据。您可能还需要将数据拆分为列车和测试类别。这意味着您还需要学习用于将数据分成列车和测试的模块。
回归有助于数据科学家了解不同类型变量之间的关系。您可以使用回归来预测数字值。这些可以是股票或下一季度销售的未来价格。当您这样做时,您可以重新使用数据处理模板以节省时间并更多地关注核心概念。
回归是每个人在机器学习旅程中学习的第一个型号之一。专注于Scikit-Learn图书馆的多元线性回归和多项式回归。学习和练习这些模块和功能的各种参数的效果。
与回归分析一样,分类方法是预测分类结果的流行。这些可能是这样的东西,“这位客户会购买我的产品吗?”或者“这位客户是否违约贷款偿还?”学习Logistic回归,决策树和支持向量机对于解决分类问题是重要的。了解这些3以及这些算法的每个参数。虽然还有其他类型的方法,请记住,我们这里的焦点不是学习每种算法。
功能选择将专业人员与业余爱好者分开。您可以基于常识,包括几乎所有或一些特征的预测。在处理数百个功能时,无法理解每个变量是不可能的。这就是为什么我们需要使用各种统计分析。我们需要选择具有最大预测功能的功能。专注于从不同类型的文件中读取数据,创建数据帧以及从数据帧读取。您还应该专注于各种流行的方法和功能,如Shape,Index,Columns,Sum,Deffrice,Sort_Values和Loc。
别忘了跟踪你的进步
当您了解这些技能时,跟踪您的进度非常重要。您可以创建计划每周或每天跟踪您的进度。您可以详细了解创建跟踪器或规划员。
在研究这些主题的同时,您还应该专注于向世界展示您的知识和成就。这些天您的公开个人资料可以对招聘决策产生巨大差异。只有你的简历不会削减它。您需要了解如何制作自己的数据科学项目组合。
成为数据科学家的旅程现在开始
本文突出了哪些技能以及哪些科目对于学习至关重要,以及在什么级别。尽管某些技能需要深入学习,但您无需详细了解每个技能和主题。这些是成为成功数据科学家的关键技能。我的udemy课程解决所有这些技能,可以帮助您获得数据科学家的旅程。了解为什么和如何教授自己的数据科学这个博客文章。