hadoop的面试问题

业界有很多关于Hadoop和大数据的议论。Hadoop是一种软件解决方案,在处理大型数据集时用于分布式计算。如果我们分析大型数据(可能是复杂结构化数据的混合),那么Hadoop可以用于有针对性的分析。Hadoop架构的最佳优势在于,它可以轻松地在没有普通硬盘或存储的多台机器上运行。

大数据和Hadoop新手?在Udemy.com上学习基础教程。

Hadoop提供支持两个文件系统:Hadoop分布式文件系统(HDFS)和API支持运行MapReduce作业。HDFS类似于UNIX分布式系统,但数据存储在HDF中的多个机器上。HDFS还具有可以处理机器中断的内置技术,并优化以支持吞吐量而不是延迟。MapReduce作业通常将输入拆分为单个单元,并由映射并行处理。在此之后,框架对地图输出进行排序,然后将其传递给缩小任务。该任务再次将此输入减少到其他更小的单元中。

安装的类型和先决条件

Hadoop通常可以安装为以下组件工作:

以下是安装先决条件:

  1. 支持平台:GNU / Linux是一个支持的开发和生产平台。betwayapp下载安装您还可以使用Win32作为开发平台,但对于生产,您将不得betwayapp下载安装不使用Cygwin。
  2. 软件要求:由于Hadoop以Java编写,因此必须安装Sun JDK V1.6或更多电流版本。您还需要与SSHD运行一起安装SSH。
  3. Cygwin:如果您使用Win32作为开发平台,这是一个强制性的要求。betwayapp下载安装

安装Hadoop

在我们可以继续配置Core,HDFS或MapReduce组件的配置之前,我们需要安装Hadoop以获取独立模式,伪分布模式或完全分布式模式(群集模式)。在本文中,我们将在独立和伪分布模式下介绍这三个组件的安装。

下载Hadoop的稳定版本,并使用以下命令将其解压缩它。

% tar xzf hadoop-a.b.c.tar.gz

要让Hadoop工作,它需要知道Java主目录在哪里。需要使用以下命令设置JAVA_HOME环境变量。

出口JAVA_HOME = / usr / lib / jvm / java-6-sun

还需要使用以下命令设置Hadoop安装目录路径。

%Export Hadoop_install = / home / user / hadoop-a.b.c%导出路径= $ path:$ hadoop_install / bin

现在,通过输入来检查Hadoop是否安装正确%Hadoop版本在命令行。应该显示Hadoop欢迎文本。

让我们看看Hadoop可以运行的三种不同模式。

了解更多关于MapReduce组件的信息,并在Udemy.com上学习在线课程。

独立模式

这种模式也称为本地模式。这意味着所有东西都在一个JVM上运行,没有守护进程也运行。在UNIX中,守护进程是始终对服务请求可用的进程。由于易于调试,这主要用于执行MapReduce任务。

伪分布模式

此模式复制群集环境,守护进程运行,在本地计算机上运行。

完全分布式模式

这是一种集群开发模式,守护进程在一个机器betwayapp下载安装集群上运行。

对于您的组件运行在任何这些模式中,您需要设置相应的属性文件并启动守护程序。虽然有多个文件,但分别为Core,HDFS和MapReduce组件分别受到多个文件的关键文件。

让我们了解在每个模式中开始使用组件需要做哪些具体的更改。

独立模式

由于独立模式与默认选项有用,因此我们无需提供其他配置。此外,Hadoop守护进程未在此模式下启动。

伪分布模式

要开始在这种模式下工作,您需要对配置文件进行一些更改,并将其放在config目录中。这个目录将在使用- - config选项启动守护进程时被访问。

核心组件配置文件 - 此组件的配置文件名为Core-site.xml,可以在配置目录中找到。

< ?xml version = " 1.0 " ?hdfs://localhost/   . properties >  . properties >  . properties >  . properties >  . properties >  . properties >  . properties >  . properties > 

HDFS组件配置文件—该组件的配置文件名为HDFS -site.xml,可以在config目录下找到。

< ?xml version = " 1.0 " ?>   dfs。复制 1  

MapReduce Component Config文件 - 此组件的配置文件名为HDFS-site.xml,可以在配置目录中找到。

<?XML版本=“1.0”?>    mapred.job.tracker   localhost:8021   

Hadoop守护进程的配置

编辑或创建配置文件后,需要启动Hadoop守护进程。为了启动守护进程,您需要使用SSH。Hadoop不区分伪模式和完全分布式模式。两者之间的唯一区别是,伪模式使用localhost,而完全分布式模式使用多个服务器。因此,在启动守护进程时,必须确保在使用伪模式时SSH到本地主机。

在命令行执行以下步骤配置SSH:

< !- -检查是否安装了SSH - -!>

%sudo apt-get安装ssh

<! - - 这使得密码减少到localhost - - !>

%ssh-keygen -t rsa -p''-f〜/ .ssh / id_rsa%cat〜/ .ssh / id_rsa.pub >>〜/ .ssh / authorized_keys

现在,尝试下面的命令来检查您是否可以不需要任何密码就登录到本地主机。

%ssh localhost

如果您计划使用HDFS组件,则需要开始格式化HDFS安装。在命令行输入以下命令:

%hadoop namenode格式

开始和停止守护进程

对于HDFS和MapReduce模式,需要使用以下命令来启动守护进程。

%start-dfs.sh%start-mapred.sh

要检查守护程序是否已成功启动,请从日志目录中打开logfiles。您还可以使用Java JPS命令查看守护程序是否已启动。

如果要停止守护进程,使用以下命令:

%stop-dfs.sh%stop-mapred.sh

完全分布式模式需要多种配置不能在单个文章中介绍。Hadoop和大数据广泛用于各种部门的数据分析,并通过这些分析帮助提供了更好的客户服务。

乘坐Udemy.com课程成为Hadoop的专家。

Hadoop的顶级课程

终极实用Hadoop:驯服你的大数据!
《圣狗教育》作者弗兰克·凯恩,弗兰克·凯恩
4.6 (23,494)
畅销书
CCA 175 - Spark和Hadoop开发人员 - Python(Pyspark)
Durga Viswanatha Raju Gadiraju,itversity支持,印度varma datla,Teja Rayala
4.2 (1408)
畅销书
用Mapreduce和Hadoop - 手驯服大数据!
《圣狗教育》作者弗兰克·凯恩,弗兰克·凯恩
4.6 (2561)
畅销书
学习大数据:Hadoop生态系统大师班
爱德华venene.
4.4 (3489)
畅销书
Hive (Real time usage):Hadoop查询工具
j arg.
4.4 (2,730)
畅销书
Scala大数据Hadoop和Spark
哈瑞Masand
4.4 (491)
Cloudera Hadoop助手
Sijeesh Kunnotharamal
4.6 (398)
Hadoop开发商在现实世界中
现实世界中的Hadoop
4.5 (1534)
收视率最高

更Hadoop的课程

Hadoop的学生也在学习

赋予你的团队。引领行业。

通过Udemy for Business为您的组织订阅在线课程图书馆和数字学习工具。

请求演示