因為計中和IR lab好像都要用到hadoop這個東西
加上最近yahoo在我生活中整個很有名
所以想說來研究一下hadoop
筆記!Hadoop 簡單的說就是建立一個cluster平台
利用MapReduce的概念將一個工作分到很多個cluster去平行運算
Map就是將一個工作分到多個運算節點(Node)
Reduce就是將各個節點的結果再重新結合成最後的結果
而Hadoop就是提供這樣的環境的平台

Hadoop需要的Java 1.5的環境
以及ssh和sshd的服務
另外再加上rsync的服務

ssh是hadoop用來跟各個節點溝通時的介面
而rsync是溝通時的演算法
rsync其實是一種快速的檔案傳輸方法
用來將local端和remote端的檔案做同步
而同步的方法則是只傳輸檔案之間有差異的部份而已
所以很快速

總之在安裝hadoop時
要記得安裝ssh和rsync兩個套件
在ubuntu上 只需要輸入

sudo apt-get install ssh rsync


安裝後就可以下載hadoop了
到 http://hadoop.apache.org/core/releases.html 下載hadoop
下載後解壓縮
修改conf/hadoop-env.sh檔裡的$JAVA_HOME變數
指到你的j2sdk1.5-sun
(預設似乎是 /usr/lin/j2sdk1.5-sun )

接著在hadoop資料夾下就可以開始測試執行hadoop了
只要輸入

bin/hadoop

接著會看到很多hadoop的相關指令
接下來就可以開始玩Hadoop囉!!
創作者介紹

[todo Austin] 奧斯丁。土豆

austintodo 發表在 痞客邦 PIXNET 留言(0) 人氣()