Hadoop - getting start－[todo Austin] 奧斯丁。土豆

因為計中和IR lab好像都要用到hadoop這個東西
加上最近yahoo在我生活中整個很有名
所以想說來研究一下hadoop
筆記!Hadoop 簡單的說就是建立一個cluster平台
利用MapReduce的概念將一個工作分到很多個cluster去平行運算
Map就是將一個工作分到多個運算節點(Node)
Reduce就是將各個節點的結果再重新結合成最後的結果
而Hadoop就是提供這樣的環境的平台

Hadoop需要的Java 1.5的環境
以及ssh和sshd的服務
另外再加上rsync的服務

ssh是hadoop用來跟各個節點溝通時的介面
而rsync是溝通時的演算法
rsync其實是一種快速的檔案傳輸方法
用來將local端和remote端的檔案做同步
而同步的方法則是只傳輸檔案之間有差異的部份而已
所以很快速

總之在安裝hadoop時
要記得安裝ssh和rsync兩個套件
在ubuntu上只需要輸入


sudo apt-get install ssh rsync

安裝後就可以下載hadoop了
到 http://hadoop.apache.org/core/releases.html 下載hadoop
下載後解壓縮
修改conf/hadoop-env.sh檔裡的$JAVA_HOME變數
指到你的j2sdk1.5-sun
(預設似乎是 /usr/lin/j2sdk1.5-sun )

接著在hadoop資料夾下就可以開始測試執行hadoop了
只要輸入


bin/hadoop

接著會看到很多hadoop的相關指令
接下來就可以開始玩Hadoop囉!!

austintodo

[todo Austin] 奧斯丁。土豆

austintodo 發表在痞客邦留言(0) 人氣()

E-mail轉寄

[todo Austin] 奧斯丁。土豆

Hadoop - getting start

歷史上的今天

留言列表

文章搜尋

文章分類

參觀人氣

熱門文章

最新留言

新聞交換(RSS)

QR Code

POWERED BY