谷歌云平台解锁深度数据洞察的5种方式
由于采用云技术使公司能够扩展其技术基础设施,因此了解如何利用存储在云服务器中的所有数据成为一项竞争的当务之急。公有云平台允许数据科学家收集深入的见解,因为服务支持数据科学的整个生命周期,从数据探索和收集到部署模型或解释一个人的发现。
与58必威外网 随着云计算越来越流行,企业不再需要依赖单一供应商来满足每一个云计算需求。数据团队在这方面有很多选择工具和平台有几个因素影响着我们的选择。这就是为什么我鼓励公司和我的学生考虑谷歌云平台(GCP)解决方案,用于他们的多云结构中的任何数据科学应用。
GCP作为公共云基础设施提供商越来越受欢迎,目前是仅次于亚马逊AWS和微软Azure的第三大公共云提供商。在特性方面,每个云提供商都有自己的优势和劣势,但我认为GCP真正脱颖而出的地方是数据科学和机器学习。
在本文中,我将分享使GCP成为数据科学团队强大工具的五个不同之处。
1.易用性
用户首先注意到的事情之一谷歌云平台(GCP)就是开始使用虚拟机和云存储有多容易。数据科学家可以从图形用户界面启动虚拟机和容器、上传数据和开始分析工作。此外,GCP为许多基础设施配置参数提供了合理的默认值,这意味着数据科学家花在配置防火墙规则和安全组等方面的时间更少。
如果您正在处理大型数据集,您可以将数据上传到云存储,您可以在多个存储类别中进行选择。如果需要低延迟访问来自不同地理区域的数据,可以使用多区域存储;较不频繁访问的数据可以存储在近线或冷线存储。同样,所有这些都可以通过图形用户界面完成。
2.计算选项范围
GCP提供了各种计算资源,您可以根据需要选择最优配置。如果您需要完全控制服务器和操作系统,您可以使用Compute Engine。托管实例组使得创建实例和根据需求自动伸缩实例变得很容易。
如果您喜欢部署容器,Kubernetes引擎提供托管集群,而Cloud Run是一个用于运行无状态容器的无服务器选项。Compute Engine和Kubernetes Engine都支持gpu和tpu的使用。
3.数据科学的管理服务
花在配置和管理服务器上的时间,会减少用于分析数据和构建模型的时间。使用GCP,团队可以使用托管服务来减少普通数据科学工作的操作开销。
Cloud Dataproc是一个受管理的Spark/Hadoop服务,允许您快速启动集群。与通常持续运行的本地Spark集群不同,datproc集群通常是短暂的。你可以在需要的时候启动它们,在工作结束的时候关闭它们——这些能力可以带来显著的节省。
Cloud Dataflow是一个用于蒸汽和批处理的托管服务,非常适合在分析之前对大型数据集进行预处理。云数据融合(Cloud Data Fusion)是GCP服务集的最新成员,它也可用于提取、转换和加载(ETL)和ELT工作流。
4.使用SQL构建模型
存储了这么多结构化数据关系数据库, SQL是一项必要的数据科学技能。GCP提供了BigQuery,这是一个托管的分析数据库SQL作为查询语言。
更重要的是,BigQuery SQL允许用户在SQL中创建回归和分类模型,包括线性回归、二元和多类逻辑回归、K-means聚类、时间序列预测、XGBoost以及运行TensorFlow模型。如果您想使用SQL,并且需要扩展到pb的卷数据集,那么BigQuery是一个可以考虑的选项。
5.告诉你的故事
一旦您完成了分析,就该构建数据背后的故事,并在整个组织中共享这些结果。像Cloud Data Studio这样的工具使团队能够构建交互式仪表板,包括可以帮助非技术团队成员更好地理解数据故事的可视化。
云数据工作室集成了BigQuery以及其他服务,包括谷歌Analytics和谷歌Ad。随着谷歌的收购流行商业智能平台,Looker在美国,客户现在有了一个高端的商业智能分析和报告平台,可以让他们理解不断涌入公司的数据。
为了开始使用GCP中的数据进步,我建议你和你的团队通过完成谷歌准云工程师认证.通过此考试所需的技能有助于理解计划和配置云解决方案、监控云操作、部署应用程序、管理公司云环境等所需的GCP基础知识。