跳到主要內容

Hadoop 查詢切割檔案儲存位置


一、假設有三台機器,vi /etc/hosts分別為

172.17.0.2 namenode
172.17.0.3 secondarynamenode
172.17.0.4 slave1

二、假設有一檔案186MB上傳到HDFS中的/tmp資料夾。
三、用bin/hadoop fs -ls /tmp查詢

root@namenode:/usr/local/hadoop/tmp/hdfs/namenode/current# hadoop fs -ls /tmp
Found 1 items
-rw-r--r--   2 root supergroup  195257604 2014-12-25 01:31 /tmp/hadoop-2.6.0.tar.gz

四、使用fsck指令,主要用於檢查整個文件系統的健康狀況,可查出該檔案被分成幾個區塊,分別在幾台datanode

root@namenode:/usr/local/hadoop/tmp/hdfs/namenode/current# hadoop fsck /tmp/hadoop-2.6.0.tar.gz -files -blocks -locations
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.
Connecting to namenode via http://namenode:50070
FSCK started by root (auth:SIMPLE) from /172.17.0.2 for path /tmp/hadoop-2.6.0.tar.gz at Thu Dec 25 02:50:41 UTC 2014
/tmp/hadoop-2.6.0.tar.gz 195257604 bytes, 2 block(s):  OK
0. BP-1142070096-172.17.0.2-1419470024422:blk_1073741825_1001 len=134217728 repl=2 [172.17.0.4:50010, 172.17.0.3:50010]
1. BP-1142070096-172.17.0.2-1419470024422:blk_1073741826_1002 len=61039876 repl=2 [172.17.0.3:50010, 172.17.0.4:50010]

     Status: HEALTHY
     Total size:    195257604 B
     Total dirs:    0
     Total files:   1
     Total symlinks:                0
     Total blocks (validated):      2 (avg. block size 97628802 B)
     Minimally replicated blocks:   2 (100.0 %)
     Over-replicated blocks:        0 (0.0 %)
     Under-replicated blocks:       0 (0.0 %)
     Mis-replicated blocks:         0 (0.0 %)
     Default replication factor:    2
     Average block replication:     2.0
     Corrupt blocks:                0
     Missing replicas:              0 (0.0 %)
     Number of data-nodes:          2
     Number of racks:               1
     FSCK ended at Thu Dec 25 02:50:41 UTC 2014 in 2 milliseconds
     The filesystem under path '/tmp/hadoop-2.6.0.tar.gz' is HEALTHY

可以得知這個檔案被分成兩個block分別是
blk_1073741825_1001大小為134217728 Byte(128MB),位於172.17.0.4跟172.17.0.3
blk_1073741825_1002大小為61039876 Byte(58MB),位於172.17.0.4跟172.17.0.4
五、我們想從slave1(172.17.0.4)裡面查看該檔案位置,所以先以ssh登入slave1

root@namenode:/usr/local/hadoop/tmp/hdfs/namenode/current# ssh root@slave1
Welcome to Ubuntu 14.04.1 LTS (GNU/Linux 3.13.0-32-generic x86_64)
* Documentation:  https://help.ubuntu.com/
Last login: Thu Dec 25 02:45:28 2014 from namenode
root@slave1:~#

六、由於我們在設定Datanode時將檔案路徑設為:file:/usr/local/hadoop/tmp/hdfs/datanode,所以先進到此目錄

root@slave1:~# cd /usr/local/hadoop/tmp/hdfs/datanode/
root@slave1:/usr/local/hadoop/tmp/hdfs/datanode#

七、接著我們找出「blk_1073741825」這個檔案

root@slave1:/usr/local/hadoop/tmp/hdfs/datanode# find . -name "blk_1073741825*"
./current/BP-1142070096-172.17.0.2-1419470024422/current/finalized/subdir0/subdir0/blk_1073741825
./current/BP-1142070096-172.17.0.2-1419470024422/current/finalized/subdir0/subdir0/blk_1073741825_1001.meta

上述結果得知有一檔為meta另一檔案就會是我們所切割的檔案。
八、因此我們可以查看該檔案大小來加以驗證,使用du指令
     ※du 這個指令其實會直接到檔案系統內去搜尋所有的檔案資料。
          -s:列出總量,而不列出各別目錄占用容量
          -h:顯示出較易讀的容量格式(MB/GM...)


root@slave1:/usr/local/hadoop/tmp/hdfs/datanode# du -sh ./current/BP-1142070096-172.17.0.2-1419470024422/current/finalized/subdir0/subdir0/blk_1073741825
128M    ./current/BP-1142070096-172.17.0.2-1419470024422/current/finalized/subdir0/subdir0/blk_1073741825

留言

這個網誌中的熱門文章

java西元民國轉換_各種不同格式

C#資料庫操作(新增、修改、刪除、查詢)

【Excel好好玩】 自己的資產自己管!善用Google Sheet來幫我們評估貸款

這次介紹的主題是關於Excel的貸款還款計畫試算,我們人生中總會遇到需要大筆金額的花費,但當資金不夠時就得進行貸款,而貸款之前如果我們能夠審慎評估,並分析自己的還款能力之後在進行凍作,相信風險會小很多,因此就自己動動手來使用Google Sheet進行試算吧! 基本資料 ● 貸款總額: 1000000 ● 貸款期數: 84月 ● 年利率: 2.11% ● 月利率: 0.18% P.S 月利率 = 年利率 / 12 重要函式 PMT : 這是Google Sheet內建的重要年金計算公式,我們可以善用這個公式來計算固定利率及期數的固定攤還本息。因為PMT函式計算出的結果為負數,所以前面加上-號轉成正數。 動手做 首先我們在Excel表上列出我們的基本資料 圖片來源 其中月利率的部分就使用公式「=B4/12」 接著我們填上第一列的期數跟餘額 圖片來源 =B2 =B3 使用關鍵PMT函數來計算本息的部分 因為PMT函式計算出的結果為負數,所以前面加上-號轉成正數。 -PMT(貸款利率(月利率), 貸款期數, 貸款總額) =-PMT($B$5,$B$3,$B$2) 圖片來源 計算利息 利息 = 貸款餘額 x 月利率 =B8*$B$5 圖片來源 計算本金 本金 = 本息 - 利息 =C8-D8 圖片來源 製作第二列餘額的部分 餘額的部分 = 上一期的餘額 - 上一期的本金 圖片來源 接著拖曳該兩列往下拉,即可查看每一期的利息與本金 圖片來源 結語 雖然市面上已經有很多貸款銀行都提供了試算功能,但如果我們想要進一步管理自己的資產時,就需要將每一期的金額給計算出來,因此才會將公式運用在Excel表,讓我們的資產管理表能夠結合負債,進一步評估我們理財行動的下一步,希望這樣的經驗可以幫助到正在理財道路上打拼的夥伴,讓我們透過有效的管理,幫助荷包長大吧! 喜歡撰寫文章的你,不妨來了解一下: Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 — 為什麼要加入? 歡迎加入一起練習寫作,賺取知識,累積財富!