二进制R Hadoop

Apache Hadoop是一个开源软件的框架在本文中。

R是一套软件和编程语言套件,目的是进行数据可视化,统计计算和数据分析。它具有强大的图形功能,并且具有面向对象的功能的高度扩展R课程介绍向你展示。从本质上讲,R带有命令行解释器,是一种可解释的语言,可用于Mac,Windows和Linux机器。

如果您进入预测性建模或统计数据,则R可以提供大量好处。就应用统计的包装可用性数量而言,R基本上是无与伦比的。R还可以处理您使用其他代码语言所需的某些任务。对于那些定期使用其他语言代码并首次使用R的人来说,尤其如此。

Hadoop和R是自然的匹配,就大数据的可视化和分析而言是相当互补的。

Hadoop和R一起工作的5种方法

使用Hadoop和R在一起有五种不同的方法:

  1. hadoop流:这是一个实用程序,可让用户运行并开发映射降低程序,但Java除了Java外的语言这个Apache Hadoop培训课程向你展示。
  2. hadoop流:由David Rosenberg开发的Hadoop Streaming是RETITION,作为R脚本可用,使R用户易于使用。
  3. 乐团:可以在非Oracle Hadoop簇或Oracle大数据设备上使用。实际上,Orch是Hadoop Oracle R连接器。
  4. Rhipe:设计用于分析大量数据的技术,RHIPE代表R和Hadoop集成的编程环境。
  5. Rhadoop:由Revolution Analytics提供,Rhadoop是开源Hadoop的绝佳解决方案,R。Rhadoop是捆绑包,其中有4个主要的R包装,用于分析和管理Hadoop框架数据。

对于想要使用R的Hadoop Newbies,这是一个R Hadoop系统以单节点模式建立在Mac OS X上。

Hadoop安装

Rhadoop是3个包装收集:RMR,RHBASE和RHDFS。称为RMR的软件包提供了降低R中Hadoop的功能这个hadoop课程。RHBASE提供了称为HBASE的R数据库管理,RHDFS提供了称为HDFS的R文件管理。

第一步是安装Hadoop,并执行此操作,您需要下载Hadoop-1.2.tar.gz,然后开始解开包装。接下来,您需要设置java-home,在conf / hadoop _ env.sh中,键入此行:

Rhadoop

在此步骤之后,您将需要在设置远程桌面后启用自我命名。转到系统首选项,然后在网络和Internet下,单击共享。在服务列表下,请检查“远程登录”。您还可以在选择Hadoop之前单击“仅这些用户”按钮以获得额外的安全性。

您还可以通过在conf/hadoop_env.sh中添加此行来设置自log-in和远程桌面:

RH2

奔跑

检查启动UTL VUB后是否运行Hadoop。启动 - 全。SH JPS。跑步后,您可以立即执行此操作。要首先运行Hadoop,您需要转到Hadoop目录并开始Hadoop。类型:ch hadoop - 1. 1. 2 bin/ hadoop。然后,您可以使用一些示例进行测试,例如单词计数或进行PI计算。

示例1:单词计数

此代码应返回单词列表及其频率。It begins by copying directories ‘conf’ to ‘input’ and then looks for a pattern ‘ d f s [ a – z ] + ’ by running the distributed ‘grep.’ This matches strings that begin with ‘d f s.’ To get more results change this to ‘ d f [ a – z ] + ’ or ‘ d [ a – z ] + ’

这是代码:

RH3

示例2:进行计算以获取PI

在此代码中,第一个参数(10)是地图的数量,下一个数字是每个地图的样本数。可以通过将较大的值设置为2来获取更准确的PI值ND参数将需要更多时间运行:

RH4

停止Hadoop

现在您已经设置了Hadoop系统,现在可以通过键入:bin/ stop-all.sh停止它。接下来,安装R Hadoop软件包,以便在Hadoop系统上可以使用R运行作业。

安装r

使用以下方法,您可以在Mac上安装多个R版本。特别是如果您的R版本更新,并且您计划使用V 2进行尝试。2。2.在Hadoop上,您可以成功运行V1。15. 1和RV1。15. 2使用以下过程。

假设在Mac上,您当前有RV3。0. 0.在应用中,首先将R_64BitApp重命名为R3。0. 0_64bit应用程序,并将R应用程序重命名为R3。0. 0.接下来,安装R V 2。15。2在重命名r_64bit.App和您刚安装的R.App之前。

R Hadoop安装

为了避免从源安装R的R包时“找不到:制作命令”,请下载GCC并开始安装。接下来,开始自制安装。请记住,需要使用“ SU”来安装自制者的管理员特权。在Macintosh O S X终端下,运行以下命令:

开始安装R软件包:

安装。软件包(C(“ RJAVA”,“ BITOPS”,“ DIGEST”,“ RCPP”,“ RJSONIO”,“ RESHAPE2”,“ PLYR”,“ stringr”,“ functional”))

需要设置环境变量。对于Hadoop,您可以使用“导出”命令以下方或终端中的r函数设置环境变量。

无需节俭即可安装软件包RHBASE:

酿造安装git
酿造安装pkg - config
酿造安装节俭

安装Rhadoop的包装:

下载RMR2,RHBASE和RHDFS,并运行R:

RH6

要使这些R软件包加载,请确保成功安装B running Library()

运行Rhadoop作业

在Hadoop上,您现在可以运行R工作。这是运行R地图的一个示例,以减少Word Count的代码:

RH7

RH8

运行上述代码后,您应该看到WordCounts的列表。好的,现在您已经在单节点模式下设置了自己的R Hadoop系统。您现在可以与R一起享受缩小地图。

使用Rhadoop进行数据分析

为了分析数据,您可以使用Rhadoop。例如,您想确定有多少国家的GDP大于Apple Inc的2012年收入156,508美元。需要调整数据以适合MapReduce的算法。这是用于分析数据的最终格式:

RH9

这就是GDP.R脚本的样子:

RH10

然后,使用算法映射降低,R将r启动到数据过程:

RH11

然后,您获得的数据告诉您,有多少人的国内生产总值(GDP)少于苹果公司的收入。GDP比Apple:

RH12

如您所见,当某人需要强大的可视化功能和数据分析以及Hadoop支持的大量数据功能的结合时,最好仔细研究Rhadoop的功能。有集成HBASE,HDFS,MAP REDATE的软件包,这是R的关键Hadoop生态系统组件,您可以在其中了解更多信息该分析课程

Hadoop的顶级课程

Cloudera Hadoop政府
Sijeesh Kunnotharamal
4.6 (424)
通过示例学习:HBase- Hadoop数据库
loone玉米
4.3 (497)
畅销书
最终的动手实践:驯服您的大数据!
弗兰克·凯恩(Frank Kane),弗兰克·凯恩(Frank Kane)
4.6 (24,086)
畅销书
用MapReduce和Hadoop驯服大数据 - 动手!
弗兰克·凯恩(Frank Kane),弗兰克·凯恩(Frank Kane)
4.5 (2,606)
畅销书
大数据hadoop和Scala火花
Harish Masand
4.4 (520)
CCA 175- Spark和Hadoop开发人员认证-Scala
Durga Viswanatha Raju Gadiraju,Itversity支持,印度教Varma Datla,Teja Rayala
4.2 (2,215)
现实世界中的Hadoop开发人员
在现实世界中的hadoop
4.5 (1,583)
收视率最高
学习大数据:Hadoop生态系统大师班
爱德华·维纳(Edward Viaene)
4.3 (3,633)
畅销书

更多的Hadoop课程

Hadoop学生也学习

赋予您的团队能力。领导行业。

通过Udemy为您的组织订阅在线课程和数字学习工具库。

请求演示