為帶動與鼓勵各界對 Hadoop 系統與應用的學習風氣,進而讓社會與商業 觀可以善用 Big Data 來創造價值,Etu 特舉辦台灣首次 Hadoop 部署大賽,號 召各界擁有 Hadoop 經驗的高手組隊挑戰,進入決賽的優秀團隊(社會組/學生組) 將有機會贏得超過 30 萬元的總獎項,還有與台灣 Hadoop 先鋒面對面交流的機會。現在開始報名,報名截止日 4.25。

EHC.etusolution.com

 
馬上報名

 

 

 

這是一場有別於駭客松的 BIG Competition!
初賽:5/3 (六) ,線上 24 小時沸騰的叢集部署大賽。評選出至多 10 隊晉級決賽。評分標準除了完整性、正確性、效能外,整體的 Hadoop 叢集部署表現是獲得高分的關鍵。
決賽:5/31 (六),現場 10 小時內,於 4 個 VM 內部署 Hadoop 2.0 以上版本,不限 Distribution,但必須是免費版,部署為 Fully Distributed 模式,含 2 台 Name Node 與 2 台 Data Node。最快完整部署完成的隊伍可抱走 15 萬元 的現金,現場將評選出社會組及學生組各一組優勝隊伍。
Hadoop DevOps 或 System Administrator 高手,現在立即組隊報名。
馬上報名

 

 

 

 

 

 

2011年 取得 Cloudera Certified Developer for Apache Hadoop (CCDH) 資格

>10 年以上網路資安產品研發經驗
>專長EMail與 Web Security
>5 年以上分散式系統與 Hadoop 相關技術實務經驗
>負責 Etu Appliance 及 Etu Recommender 產品與技術研發
>參與兩岸多項 Hadoop 解決方案架構設計與研發,包含電信及電信加值相關產業,電子商務,線上媒體等
>長期關注 Hadoop Ecosystem 技術發展趨勢
2008 年 投入雲端運算相關研究
2009 年 建構全台首座多人 Hadoop 實驗叢集
2010 年至 2013 年 投入翻譯繁體中文版 Hadoop 技術手冊與管理手冊

>經營 Hadoop.TW 社群長達五年以上
>長期擔任中華電信、資策會關於雲端與巨量資料的固定講師
>擅長叢集系統管理
>目前負責 Etu Software Appliance 產品設計與研發
>在 Etu Training 教授 Hive 系列課程。
逢甲大學
地理資訊系統研究中心研發部
專案經理/逢甲大學講師

>「Hadoop 技術手冊」 第二版/第三版譯者
>「HBase 技術手冊」譯者
>專長領域包括地理資訊、系統分析、雲端運算
趨勢科技
核心技術部門/研發協理

>網站信譽評等(Web Reputation) 資料庫及後端服務研發建置
>雲端防護架構(Smart Protection Network) 後端Hadoop平台及服務研發建置 騰雲計算 事業開發協理
>Cloud OS / IaaS 平台研發與事業開發
>Big Data Platform 研發與顧問服務
雅虎奇摩
科技研發工程部 / 資深經理
> 2007 年 Hadoop/Mapreduce 應用程式開發, 建置 Hadoop cluster
> 2008年 成立 Hadoop Taiwan User group, 擔任 Hadoop/Cloud computing Evangelist 推廣相關技術

 

 

 

EHC 活動網頁 ehc Facebook

 

 

 

馬上報名
 

報名資格

一人不可同時報名兩隊 (含) 以上。比賽期間,不得替換隊員。
學生組限 2 或 3 人一隊,所有隊員限高中以上、在校全職學生組隊參賽。
         可跨校、跨系、跨級組隊。
社會組限 2 或 3 人一隊,不限行業,僅要求所有隊員不得含具學生身份,在職專班不在此限。

 
 

 

初賽

5/3(六) 9:00am–5/4 (日) 9:00am 線上 24 小時部署

 

流程

  1. 初賽將使用 AWS EC2 instance (m3.large - Singapore) 做為競賽環境,預先安裝 CentOS 6.4 (64-bit, Minimal),參賽者不得更換成其他 Linux Distribution (Ex. Ubuntu),亦不得在 EC2 instance 中再以其他虛擬化技術(如 VirtualBox, LXC 等)或採用其他第三方服務(Ex. NFS, iSCSI)預先安裝 Hadoop。各參賽隊伍可以依相同環境事先練習、熟悉。
  2. 主辦單位會在開賽前 30 分鐘開始發送以下 AWS EC2 連線資訊給各隊 (E-Mail 到各隊第一個報名參賽者的信箱)
    • IP 
    • Key (.pem 檔案)
    • User (Login 使用)
    • 隊號 (應與被分配到的 EC2 hostname 相同)
    • FQDN
  3. 各隊登入被分配到的 AWS EC2 instance 後,請依「評分方式」的身份限制,新增 "非 root" 使用者 (Ex. hdfs, yarn 等) 來進行  Hadoop 部署。請務必詳閱下方「評分方式」之說明,如有疑問,請於 5/3 前向主辦單位提出。
  4. 部署完成,必須執行 send_my_score 指令 (實體路徑為 /usr/local/bin/send_my_score) 來送出計分。若競賽時間結束,尚未執行計分程式,或是已啟動執行但因故未能成功送出計分者,視同棄賽。
  5. 賽程開始前,會公布一網站連結,公開即時揭示各隊的成績與所用時間。

 

規則

提供每隊一個 VM 做為初賽環境 (CentOS with 4GB+) 須在 24 小時內,於 VM 內部署 Hadoop 2.0 以上版本,不限任何 Distribution,但必須是免費版,且至少須包含以下服務
HDFS | MapReduce | ZooKeeper | HBase | Pig | Hive 調整作業系統與 Hadoop 參數,
使所有服務都能正常啟動。


初賽評選方式

總分達 70 分(含)以上,依照各隊最高分數,最短佈署時間排序,評選社會組、學生組各前五名可進入決賽。

評選範例

隊名提交分數提交時間排名
team17010:25:58
team29011:32:23
team310011:32:131
team210011:35:232
team19011:25:583

team1 雖然較早達到 70 分,最後的最高得分為 90 分,依規則以 90 分的時間戳記為排序標準。同一組之最佳總分將以 MAX(提交分數) 的 MIN(提交時間) 為基準。

 

提交計分

!! 重要 !!
當您覺得已經完成佈署,想確認能取得多少分數時,請 以 root 身份 執行 send_my_score 指令 (/usr/local/bin/send_my_score) 來提交您目前的得分。
您若多提交多次分數,將以最高分的時間戳記( time stamp) 作為同分時之排名依據。
若您完全沒有提交計分,無論是否於時間內完成佈署,均以零分計算。

 

評分方式

 

0. 請確認 root 可以執行 jps 指令,因為 send_my_score 將依據 jps 的結果進行目前有哪些 java process 之依據。
請不要以 alias 方式設定 jps, 應該將 jps 放在 /usr/bin/jps 或將 jps 路徑加入全域 PATH 變數。

 

1. 請將以下 Hadoop Daemon 設定並執行於指定的網路連線埠 ( 15% )

參數限制:
(1) NameNode 請務必設定於 hdfs://localhost:8020
(2) 因應單機實作,請將副本個數設為 1

身份限制:
(1) 請以 hdfs 身份執行 NameNode 與 DataNode,
     若以 root 執行者,因有嚴重資安問題,本項分數歸零。

驗證方式:
(1) jps 可以正常看到 NameNode 與 DataNode 的 Java Process 
(2) 網頁管理介面可以正常連線 http://0.0.0.0:50070,Live Node 為 1
(3) 可以正常上傳 100MB 的檔案至 HDFS

dd if=/dev/zero of=100mb.img bs=1M count=100 
hadoop fs -put 100mb.img test.img            

得分條件:
  • jps 結果有 NameNode (2%)
  • 正確將 HDFS 設定於 hdfs://127.0.0.1:8020 (2%)
  • jps 結果有 DataNode (2%)
  • 在 HDFS 上可以看到 test.img 的檔案 (7%)

 

2. 請將 Hadoop 2.0 版本的 YARN 架構設定於指定的網路連線埠 ( 20% )

身份限制:
(1) 請以 yarn 身份執行 ResourceManager 與 NodeManager,
      若以 root 執行者,因有嚴重資安問題,本項分數歸零。

驗證方式:
(1) jps 可以正常看到 ResourceManager 與 NodeManager 的 Java Process 
(2) 網頁管理介面可以正常連線 http://0.0.0.0:8088,Live Node 為 1
(3) 可以正常提交 hadoop example 運算 pi

hadoop jar hadoop-example.jar pi 2 2 

得分條件:
  • jps 結果有 ResourceManager (5%)
  • ResourceManager 正常開在 http://IP:8088 (5%)
  • jps 結果有 NodeManager (10%)

 

3. 請將 ZooKeeper 如以下規則正常啟動 (15%)

參數限制:
(1) 請將 ZooKeeper 的 clientPort 設為 2181

驗證方式:
(1) jps 可以正常看到 QuorumPeerMain 的 Java Process 

得分條件:
  • jps 結果有 QuorumPeerMain (5%)
  • ZooKeeper 正常開在 2181 連線埠 (10%)

 

4. 請將 HBase 依以下規則正常啟動 (20%)

參數限制:
(1) 請將 HBase 的 rootdir 設為 hdfs://localhost:8020/hbase

身份限制:
(1) 請以 hbase 身份執行 HMaster 與 HRegionServer
      若以 root 執行者,因有嚴重資安問題,本項分數歸零。

驗證方式:
(1) jps 可以正常看到 HMaster 與 HRegionServer 的 Java Process 
(2) 可以正常透過 hbase shell 執行以下指令

create 't1','f1'
put 't1','r1','f1','v1'    
put 't1','r1','f1','v2'    
put 't1','r1','f1:c1','v2' 
put 't1','r1','f1:c2','v3' 
scan 't1'                  

得分條件:
  • jps 結果有 HMaster (5%)
  • jps 結果有 HRegionServer (5%)
  • 可以用 hbase shell 正常 scan 't1' table 得到至少 1 筆的紀錄 (10%)

 

5. 請安裝 Pig 並執行以下範例 (15%)

驗證方式:
(1) 資料集 http://www.hadoop.tw/excite-small.log
(2) 請在 Hadoop MapReduce (YARN) 上執行以下 pig 腳本,
 我們將以 HDFS 上的 pig_output 目錄作為驗證是否正確的依據。

 log = LOAD 'excite-small.log' AS (user, timestamp, query); 
 grpd = GROUP log BY user;                                  
 cntd = FOREACH grpd GENERATE group, COUNT(log) AS cnt;     
 fltrd = FILTER cntd BY cnt > 50;                           
 srtd = ORDER fltrd BY cnt;                                 
 STORE srtd INTO '/tmp/pig_output';                              

得分條件:
  • 可以在 HDFS 找到 /tmp/pig_output 結果目錄 (7%)
  • /tmp/pig_output 內含正確的結果 (8%)

 

6. 請安裝 Hive 並執行以下範例 (15%)

驗證方式:
(1) 資料集 http://seanlahman.com/files/database/lahman2012-csv.zip
(2) 可以正常透過 Hive 建立資料庫 baseball,並匯入 CSV 檔到 master 資料表
(3) 步驟參考:http://hive.3du.me/Lab-009.html
(4) 我們將判斷 hive 中是否有 baseball 資料庫,內含 master 資料表為計分依據

~$ wget http://seanlahman.com/files/database/lahman2012-csv.zip
~$ unzip lahman2012-csv.zip
~$ hive
hive> create database baseball;                                                
hive> create table baseball.master
( lahmanID INT, playerID STRING, managerID INT, hofID STRING, 
  birthYear INT, birthMonth INT, birthDay INT, birthCountry STRING, 
  birthState STRING, birthCity STRING, deathYear INT, deathMonth INT,
  deathDay INT, deathCountry STRING, deathState STRING, deathCity STRING,
  nameFirst STRING, nameLast STRING, nameNote STRING, nameGiven STRING,
  nameNick STRING, weight INT, height INT, bats STRING, throws STRING,
  debut STRING, finalGame STRING, college STRING, lahman40ID STRING,
  lahman45ID STRING, retroID STRING, holtzID STRING, bbrefID STRING )
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;
hive> LOAD DATA LOCAL INPATH "Master.csv" OVERWRITE INTO TABLE baseball.master;
hive> select * from baseball.master;

hive> quit;   
  

得分條件:
  • 可以在 HDFS 找到 baseball.db 資料庫目錄 (7%)
  • 可以用 hive 取出三筆限定條件的紀錄,且內含正確的結果 (8%)

 
 

 

決賽

5/31 (六) 9:00am–9:00 pm 現場 10 小時部署 | 台北

 

規則
參賽隊伍使用大會提供硬體伺服器 (每隊一台,配備規格均相同,預裝
 CentOS & Hypervisor with VM X 4, RAM 32GB+)。參賽隊伍須在 10 小時內,於 4  VM 內部署 Hadoop 2.0 以 上版本,不限 Distribution,但必須是免費版,部署為 Fully Distributed 模式,含 2 台 Name Node  2  Data Node 至少必須包含以下服務

HDFS | Map/Reduce | ZooKeeper | HBase | Pig | Hive | Name Node 必須為 HA 模式
HDFS Kerberos Security 必須啟動調整作業系統與 Hadoop 參數,使所有服務都能正常啟動
,並達到最好的效能。

 
馬上報名

 

 

© 2014-2016 Etu Corporation