为什么和如何学习数据科学
在你决定成为一名数据科学家之前,你可能会有很多问题。这是一个很好的职业选择吗?我能自学数据科学吗?它值得所有的投资和时间吗?我会尽力回答你们所有的问题。
什么是数据科学?
维基百科将数据科学定义为,
“一个统一统计、数据分析、机器学习、领域知识及其相关方法的概念,以便用数据理解和分析实际现象。”它使用了来自数学、统计学、计算机科学、领域知识和信息科学等许多领域的技术和理论。”
最后更新2021年3月
机器学习A-Z,数据科学,Python用于机器学习,数学机器学习,数据科学统计数据|作者Jitesh Khurkhuriya, Python, Data Science & Machine Learning A-Z Team
探索课程数据科学是个好职业吗?
数据科学是一个伟大的职业选择。数据科学家平均每年达到113,000美元至140,000美元。学习数据科学可以帮助您在此奖励领域工作。了解您自己的一些技能可能听起来很难,有时可能会昂贵。
它值得所有的投资吗?
为了避免顶级大学课程的费用和时间,您可以自己学习数据科学。自学最大的挑战就是不知道要学什么,要学多少,要学的话题的顺序。那么你应该怎么做呢?
成为数据科学家需要的5项技能
除了专业技能(每个人的专业技能都不一样),让我们看看为什么我们需要学习以下技能。
- 为什么数学?
大多数机器学习算法将以数学术语表示。因此,它是绝对的必须熟悉自己并刷新指数,对数,多项式方程,因子,二次方程和功能的一些基本概念。
基本的概率知识,如在概率、条件概率、随机过程和随机变量中使用的各种术语,就足够了。
- 为什么统计?
描述性统计数据帮助我们获得一些简单但非常重要的数据方面。它是利用数据的中心趋势的数据更直接地解释,其中我们确定了大多数数据的一个中心值以及使用色散的量度,这有助于我们了解数据的传播.
顾名思义,推断统计学帮助我们基于样本对整个数据做出推断或结论。一些关键的概念是概率分布,钟形曲线或正态分布,中心极限定理,置信区间和假设检验。
推理统计数据创建概率分布以借出关于数据的推广。因此,对概率术语有一些基本的理解是绝对必要的。
- 为什么数据可视化?
有时,数据的简单可视化可以帮助我们绘制推论或识别数据模式。一些可以帮助可视化数据的基本图表是直方图,条形图,线图,散点图和Boxplots。专注于首先使用默认参数绘制图表,然后在自定义上进行进度。
定性数据是字母数字或文本形式的形式,如汽车的颜色,性别,婚姻状况等。与数字特征一样,定性数据的图形可视化可以帮助我们识别不同数据元素之间的相似性或各种关系。
- 为什么python?
对所有数据类型的基本了解,特别强调字符串,数字和列表类型的变量。如果 - else,循环和循环播放,才能获得一些良好的动手。请记住,您不需要成为Python编程的专家。您应该知道数据科学和机器学习所需的基础。Python拥有其他语言的最大优势之一是数据科学所需的各种模块和功能的可用性。如果您专注于学习多个数学函数,日期模块,字符串函数和方法,尤其是搜索,长度以及如何处理多维列表的长度,切片和索引,拆分,条带和列表功能和方法以及如何处理多维列表的长度,切片和索引,拆分,条带和列表功能和方法。
- 为什么机器学习?
机器学习非常高效,易于学习,并且在处理各种数据方面非常灵活。熊猫是每个数据科学家工具包中的必备工具。重要的是要从不同类型的源读取数据。您可能必须将各种文本转换为数值数据,并需要将数据分割为train和test。另外,学习将数据分解为训练和测试的模块。
在他们的机器学习旅程中,每个人都学到的第一个模型之一就是回归。回归有助于我们了解不同类型变量之间的关系。回归用于预测数字价值观,如股票的未来价格将是下一季度的未来价格。
与回归分析一样,分类方法在预测分类结果方面也很流行。我们可以预测结果,比如“这个客户会买我的产品吗?”或者“这位客户会拖欠贷款吗?”学习逻辑回归、决策树和支持向量机对解决分类问题有重要意义。
深度学习是数据科学和机器学习中最重要的研究课题之一。通过深度学习,一个人可以处理大量的特征。此外,创建大型神经网络的能力提高了准确性。最重要的优势是它能够循序渐进地学习特性。这减少了对领域专家的需求。
那么你要怎么做呢?
用下面的表格来指导你学习什么和花多少时间在上面。
部分 | 主题 | 小标题/图书馆/模块 | 分钟时间(小时) | 最大时间(小时) |
---|---|---|---|---|
数学 | 基本的代数 | 指数、对数、多项式、二次方程和函数的基本概念 | 1 | 2 |
微积分 | 变动率 函数的极限 导数 偏导数 |
1 | 2 | |
线性代数 | 向量 矩阵 矢量变换 特征向量和特征值 |
4 | 6 | |
概率 | 概率论的基本术语 有条件的概率 随机过程 随机变量 |
1 | 2 | |
统计数据 | 描述性统计 | 数据集中趋势 离差的量度 变量之间的相关性 |
2 | 4 |
推论统计 | 概率分布 正态分布 中心极限定理 置信区间 假设检验 |
12 | 16 | |
数据可视化 | 数值数据图表 | Matplotlib图书馆 散点图 线图 柱状图 条形图 箱线图 |
2 | 4 |
分类数据的图表 | Matplotlib图书馆 柱状图 饼图 |
1 | 2 | |
图定制 | Matplotlib图书馆 数据 小板 编辑图表元素 |
2 | 4 | |
Python编程 | 数据类型 | 字符串 整数和浮动 列表 元组 字典 |
1 | 2 |
控制流 | if - else 对于循环 While循环 |
2 | 4 | |
文件处理 | 处理像CSV,TSV和文本文件等各种文件类型 | 2 | 4 | |
模块和功能 | 数学 日期 Split、Strip的字符串功能 列表排序,兰 |
4 | 6 | |
机器学习 | 数据处理 | 使用熊猫阅读数据集 访问数据 检查并替换缺失的值 转换分类为数字 Scikit学习预处理 scikit学习model_selection.train_test_split |
16 | 20. |
回归 | scikit linear_model学习。LinearRegression scikit学习预处理。PolynomialFeatures |
12 | 16 | |
分类 | scikit linear_model学习。LogisticRegression scikit学习支持向量机。SVC scikit学习树。DecisionTreeClassifier scikit学习合奏。RandomForestClassifier |
16 | 20. | |
特征选择 | scikit feature_selection学习。RFE scikit feature_selection学习。GenericUnivariateSelect |
12 | 16 | |
模型调整和模型选择 | scikit学习model_selection.cross_val_score Scikit学习model_selection.gridsearchCv. scikit model_selection学习。RandomizedSearchCV |
16 | 20. | |
深度学习 | Keras模型建立 层 激活功能 损失函数 优化 初始化器 编译Keras神经网络 |
24 | 32 | |
实践项目 | 项目1 | 波士顿房屋价格预测 | 8 | 16 |
项目2 | 自行车的需求预测 | 16 | 24 | |
项目3 | 汽车价格的预测 | 8 | 16 | |
项目4 | 虹膜物种分类 | 4 | 8 | |
项目5 | PIMA印第安人糖尿病分类 | 4 | 8 | |
项目6 | 葡萄酒质量预测 | 4 | 8 | |
项目7 | 银行电话销售 | 8 | 16 | |
近似的小时 | 183 | 278 | ||
总共一周,每周20个小时 | 9周 | 12周 | ||
每周40-50个小时 | 4周 | 6周 |
每个话题应该深入到什么程度?
在4到12周内,您将获得足够的技能,开始您在数据科学领域的旅程。在之前共享的计划中输入日期,然后开始。让我们建立一些积极的压力。所以,别忘了把它打印出来并钉上。关于Udemy的课程帮助您详细了解这些主题,并将帮助您以极大的信心开始您的数据科学之旅。学习如何制作自己的数据科学作品集这篇博客文章.