2015年1月2日 星期五

Intellij hadoop hdfs Environment Settings


一、開發Hadoop程式時可能都需要一些相關的套件引入,而若過程中少引入一些相依性的套件如logging等將造成Debug的困難,在這裡以Intellij的IDE為例,設計了HDFSOpreation的類,目的於操作Cluster中的HDFS,但是執行時卻發現如下的錯誤:

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory
at org.apache.hadoop.conf.Configuration.<clinit>(Configuration.java:173)
at HDFSOperation.<init>(HDFSOperation.java:18)
at HDFSOperation.main(HDFSOperation.java:34)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)
at java.lang.reflect.Method.invoke(Unknown Source)
at com.intellij.rt.execution.application.AppMain.main(AppMain.java:134)
Caused by: java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory
at java.net.URLClassLoader$1.run(Unknown Source)
at java.net.URLClassLoader$1.run(Unknown Source)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(Unknown Source)
at java.lang.ClassLoader.loadClass(Unknown Source)
at sun.misc.Launcher$AppClassLoader.loadClass(Unknown Source)
at java.lang.ClassLoader.loadClass(Unknown Source)
... 8 more

二、但我們已經從Hadoop下載的資料夾中確實引入了相關的library,但還是缺少了commons-logging-x.x.x.jar等額外套件。

三、如果這時候能夠有一套工具來管理java的library的話那勢必會減少許多開發的時間,能滿足此需求的剛好有一套工具Maven,使用這套工具我們可以用xml來配置我們想要哪些jar的library,而工具會根據我們的設定來抓那些除了library之外所有相依的套件一併抓取,減少缺少引用的錯誤,而大部分IDE也支持Maven的Plugin,像是Eclipse、Netbeans等,但Intellij這套IDE已經把Maven包在其中,我們不需要額外去安裝及設定,只需要在該IDE中配置即可。


四、新建一個Maven專案:File->New Project

五、Next,填入GroupId、ArtifactId

六、Next,填入專案名稱與專案位置。

七、完成後檔案結構如下,而我們主要撰寫pom.xml來告訴Maven我們要那些套件:

八、打開pom.xml編輯。
我們可以先看到原始的樣板。

接著我們修改為以下的代碼,url為Maven的官網,再來是<dependencies></dependencies>內加入我們要的library而在這邊我們只需要hadoop-common、hadoop-hdfs來操作HDFS,但除了這兩個library可能會有許多依賴,而Maven將自動幫我們抓取這些依賴。

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.apache.hadoop</groupId>
    <artifactId>hadoop</artifactId>
    <version>1.0-SNAPSHOT</version>
    <packaging>jar</packaging>
    <url>http://maven.apache.org</url>
    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.6.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.6.0</version>
        </dependency>
    </dependencies>
</project>

九、撰寫pom.xml完後就可以import myHadoop這個包含Maven的專案,同時也開始下載套件,File->ImportProject...
而我們可以打開套件管理的介面來查看,也可手動去除認為不需要的套件,File->Project Structure


十、接著就可以run HDFSOperation這個類裡面的createDir方法來對HDFS創建一個資料夾。
執行結果就為:

log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
創建資料夾成功
Process finished with exit code 0

十一、就不會有一開始出現的 java.lang.NoClassDefFoundError錯誤。

沒有留言:

張貼留言