國際投入巨量資料分析應用,多以運用開源軟體,緣此衍生許多新創公司提供巨量資料分析開源軟體加值、維護與顧問服務;目前市場上提供開源的 Big data platform 眾多,有包含:Hortonworks、Cloudera、MapR 等三大廠商,而每間廠商的特色各有不同;但其主要目的都是為了簡化多運算叢集管理,組合多種類、多功能的巨量資料分析開源軟體、簡化資源管控及部署的困難性。
本篇主要和大家分享如何透過簡單幾個步驟可快速將 Hortonworks 版本的 Sandbox 安裝起來。
Hortonworks Sandbox 介紹
Hortonworks 是 2011年6月創建的獨立公司,由雅虎出資2300萬美金,開源軟體項目 為 Apache Hadoop 貢獻代碼,其提供的 Big data platform 是將目前兩大開源整合 Apache Hadoop 與 BDAS 兩大巨量資料生態元件做整合。
Sandbox 是每間廠商常會用來提供給使用者試用或是簡化啟用步驟的安裝包,將 OS 及上層服務打包後,產生的安裝版本,可以提供使用者透過 VMplayer 或是 Virtualbox 快速將打包好的環境直接啟動。
首先下列這張圖是 Hortonworks 提供 HDP 2.4 版本 Sandbox 裡面有的開源軟體元件。
Sandbox 安裝步驟
Step 1. Sandbox 下載
首先到 Hortonworks 官網下載最新版本的 Sandbox http://hortonworks.com/downloads/
可以依照自己喜好下載 Virtualbox 或是 VMware 版本
Step 2. 使用虛擬機軟體打開 Sandbox (ova or vdk)
我這裡是使用 Virtualbox 虛擬機軟體來打開 Sandbox,因此我會先到 https://www.virtualbox.org/wiki/Downloads
下載軟體
接著利用虛擬機軟體匯入 Sandbox 檔案,並啟動(建議配置給 VM 的記憶體大小盡量大於 8G)
Step 3. 進到 sandbox 畫面
啟動 VM 後,即可進入 Sandbox 畫面,首先第一次進入先輸入登入帳密,帳號:root
、密碼:hadoop
接下來透過 ifconfig
指令查詢目前 IP 位置
Step 4. 開啟 Ambari 管控元件畫面
最後一步驟開啟瀏覽器輸入剛剛查詢的 IP 位置加上 8080 port,http://your_IP:8080
即可進入用於管控整個平台元件部署及監控的 Ambari 服務頁面