2018年数据科学三大技能趋势| Udemy for Business - betwayiosapp,betwayapp下载安装,betway必威注册官网

何塞波罗拉

Pierian Data Inc.和Udemy教练的数据科学负责人

数据科学工作不仅仅存在于十年前，现在是市场上最热门的工作。最后3年连续3年，玻璃门根据招聘人口，工资和工作满意度分数命名为“最佳工作”的数据师。

随着机器学习和人工智能的创新，预测未来的能力使数据科学对企业如此强大。机器学习能够学习和检测人类无法识别的数据模式。例如，通过筛选历史数据和识别呼叫模式，数据科学可以检测出呼叫是否可能是一个骗局。你也可以用数据科学来预测下个月有多少客户会流失。数据科学是一种非常强大的工具，可以帮助增强企业的核心优势。

数据科学也是跨学科技能。如果您认为具有三个圈子机学习的Venn图，概率和统计数据和计算机科学数据科学坐在这三个领域的交叉点。数据科学的这种跨学科性质意味着传统教育机构难以保持这种空间的快速变化。

您的员工应留在2018年之上的最热门趋势和数据科学技能是什么？

Python：增长最快的编程语言

Python在数据科学和机器学习世界中普及。五年前，大多数数据科学家都被引起了他们的编程语言。但今天，StackOverflowPython作为增长最快的编程语言，许多大学从教导Java或C ++切换到Python，因为它是一种更容易使用的语言。对于需要获得Python技能的员工，我的课程用于数据科学和机器学习训练营的Python上Udemy.和Udemy for Business.是一个很好的开始。

数据可视化技能:Plotly和Dash

在Python生态系统中也有越来越多的数据可视化代码库，这些代码库使数据科学家可以轻松地创建很酷的图形。数据科学家可以使用这些Python代码库通过完全定制的控件来可视化他们的数据，而不是依赖于Tableau或Chartio等第三方。

例如，如果您的销售团队希望通过地区理解客户流失，您的数据科学团队可以在彩色地图中可视化此数据。数据科学家可以依赖于Python中的流行数据可视化库，而不是使用代码构建此图形，而不是构建此图形。Matplotlib和海运用于静态图形或情节用于交互式图形。

事实上，数据可视化的趋势很快就朝着高度交互式的图形移动。最近发布的情节破折号在2017年6月。Dash可以让你创建完全交互的、可以彼此链接的图形(类似于Tableau等第三方供应商所做的)。你可以放大或缩小，或者你可以输入数据并获得实时更新。例如，如果您正在查看按地区划分的全球客户流失地图，那么您可以放大并查看按国家划分的详细图表，如损失金额和负责的销售代表。此外，你的数据科学家不需要从头编写这些图形，也不需要依赖Tableau等第三方。Dash代码库的强大功能意味着他们可以通过剪切和粘贴代码来创建漂亮的交互式图形，还可以灵活地集成他们使用的任何其他Python库。

在2018年，Plotly和Dash迅速成为用Python创建可视化的高需求技能。为了应对这一趋势，我已经在Udemy上开设了一门关于如何使用这种新技术的课程。你在其他任何地方都找不到这种培训，因为大学和其他学习资源在跟上最新创新的速度方面都不够灵活。但在Udemy.和Udemy for Business.，您的数据科学家可以使用我最近发布的课程留在最热门的新技能之上互动python仪表板与斑点和破折号。

目前，Plotly在Dash上只提供了一个官方的2天的现场培训课程，非常昂贵。然而，我的Udemy和Udemy for Business的成本低廉的课程是自定节奏的，只需要10个小时，并且通过易于理解的视频和相应的自定义电子书提供相同的信息。我们还提供实践作业，要求学生重新创建数据可视化仪表板。

Spark：加工大数据集更快更容易

虽然火花一定是一段时间，但它在2018年的普及时爆炸。为什么火花起飞？由于没有足够的空间，您的计算机无法分析巨大的数据集。让我们说你有一个100千兆字节的数据集。像优步和沃尔玛这样的公司每天都像这样分析大量数据集。

通常，您必须学习Java和Hadoop MapReduce，同步多个服务器，并希望您没有沿途发出任何错误。Apache Spark在Hadoop MapReduce必须从并写入磁盘时内存中内存中的数据，使其变得更加慢.. Hadoop语法也更复杂并且容易出错，与Spark可用的简单API呼叫不同。

Spark是在加利福尼亚大学伯克利加州大学的庞大创建的，并被捐赠给Apache软件基础，使其完全开放。通过将内存保持内存，Spark能够通过Hadoop MakReduce对应于其性能提高100倍。这种内存处理可以帮助提供来自事物传感器，社交媒体网站，安全分析等信息的数据的近实时分析。

Spark真正伟大的方面是它的可访问API。通常您需要在更简单的语法和性能之间进行权衡。但在这种情况下，Spark在许多用例中都更快，而且提供了更易于使用和更抽象的API(用几种语言)。有了Spark，你就真正得到了两个世界的精华。

这是否意味着Hadoop MapReduce将被淘汰?我不认为Hadoop MapReduce会过时，因为Hadoop上运行着太多的遗留系统，而且在某些情况下，你仍然希望实现基于Hadoop MapReduce的解决方案。然而，对于想要保持领先地位的数据科学团队，我教授两门关于Spark on Udemy和Udemy for Business的课程:Spark and Python for Big Data with PySpark和SCALA和MIST FIRL为大数据和机器学习。