close
因為計中和IR lab好像都要用到hadoop這個東西
加上最近yahoo在我生活中整個很有名
所以想說來研究一下hadoop
筆記!Hadoop 簡單的說就是建立一個cluster平台
利用MapReduce的概念將一個工作分到很多個cluster去平行運算
Map就是將一個工作分到多個運算節點(Node)
Reduce就是將各個節點的結果再重新結合成最後的結果
而Hadoop就是提供這樣的環境的平台
Hadoop需要的Java 1.5的環境
以及ssh和sshd的服務
另外再加上rsync的服務
ssh是hadoop用來跟各個節點溝通時的介面
而rsync是溝通時的演算法
rsync其實是一種快速的檔案傳輸方法
用來將local端和remote端的檔案做同步
而同步的方法則是只傳輸檔案之間有差異的部份而已
所以很快速
總之在安裝hadoop時
要記得安裝ssh和rsync兩個套件
在ubuntu上 只需要輸入
安裝後就可以下載hadoop了
到 http://hadoop.apache.org/core/releases.html 下載hadoop
下載後解壓縮
修改conf/hadoop-env.sh檔裡的$JAVA_HOME變數
指到你的j2sdk1.5-sun
(預設似乎是 /usr/lin/j2sdk1.5-sun )
接著在hadoop資料夾下就可以開始測試執行hadoop了
只要輸入
接著會看到很多hadoop的相關指令
接下來就可以開始玩Hadoop囉!!
加上最近yahoo在我生活中整個很有名
所以想說來研究一下hadoop
筆記!Hadoop 簡單的說就是建立一個cluster平台
利用MapReduce的概念將一個工作分到很多個cluster去平行運算
Map就是將一個工作分到多個運算節點(Node)
Reduce就是將各個節點的結果再重新結合成最後的結果
而Hadoop就是提供這樣的環境的平台
Hadoop需要的Java 1.5的環境
以及ssh和sshd的服務
另外再加上rsync的服務
ssh是hadoop用來跟各個節點溝通時的介面
而rsync是溝通時的演算法
rsync其實是一種快速的檔案傳輸方法
用來將local端和remote端的檔案做同步
而同步的方法則是只傳輸檔案之間有差異的部份而已
所以很快速
總之在安裝hadoop時
要記得安裝ssh和rsync兩個套件
在ubuntu上 只需要輸入
sudo apt-get install ssh rsync
安裝後就可以下載hadoop了
到 http://hadoop.apache.org/core/releases.html 下載hadoop
下載後解壓縮
修改conf/hadoop-env.sh檔裡的$JAVA_HOME變數
指到你的j2sdk1.5-sun
(預設似乎是 /usr/lin/j2sdk1.5-sun )
接著在hadoop資料夾下就可以開始測試執行hadoop了
只要輸入
bin/hadoop
接著會看到很多hadoop的相關指令
接下來就可以開始玩Hadoop囉!!
全站熱搜
留言列表