Untitled Document






為帶動與鼓勵各界對 Hadoop 系統與應用的學習風氣,進而讓社會與商業可以善用 Hadoop 來創造價值,2015 Etu Hadoop 競賽正式號召各界擁有 Hadoop 經驗的高手組隊挑戰。若你已經具備 Hadoop 應用軟體開發的技能,趕快組隊來報名今年的 Etu Hadoop Competition,EHC 2015。進入決賽的優秀團隊(社會組/學生組)將有機會贏得超過 40 萬元的總獎項,還有與台灣各界 Hadoop Developers 交手的機會。



競賽主題

巨量資料
分析預測

競賽說明會

4/18
大船艦館 The Flagship
台北市松山區八德路
四段 123 號 3 樓

初賽

04/16–30

決賽

05/8–6/12

決賽簡報

6/27
台北 W 飯店
台北市信義區忠孝東路五段 10 號






這是一場面對真實世界的應用程式考驗! 03/28(六)起,歡迎各界 Hadoop 應用軟體開發好手邀請你的高手朋友,3 人組隊,一同來挑戰這場每年一度的 Hadoop 盛會。


報名截止日:04/15(三)


04/16(四)起,準備和其他高手一較高下了嗎?今年的 EHC,將考驗選手們是否具有踏入真實世界的能力,想進入決賽的隊伍,你需要籌組一個具有資料處理與分析能力的團隊,不止於統計,還須預測最終的結果。


競賽說明:


初賽:根據提供的線上商品瀏覽與銷售資料集,於 Hadoop Ecosystem 環境中,在最短的時間內,正確完成銷售排行。比賽的重點是在有限的系統資源下,如何有效率地 End-to-End 完成一個相對不小的資料集前置處理與結構化的程式設計,並正確地完成統計工作。


決賽:根據更大量的線上商品瀏覽與銷售資料集,於 Hadoop Ecosystem 環境中,建構商品銷售預測模型。比賽的重點是在有限的系統資源下,在最短的時間內,完成模型運算,並精準地預測商品銷售。







真是高手獎
社會組

現金 200,000 元
每人獎盃一只


真是高手獎
學生組

現金 200,000 元
每人獎盃一只

* 進入決賽的團隊,優勝隊伍可獨得獎金 20 萬元




2011年:取得 Cloudera Certified Developer for Apache Hadoop(CCDH)資格

>10 年以上網路資安產品研發經驗
>專長 Email 與 Web Security
>5 年以上分散式系統與 Hadoop 相關技術實務經驗
>負責 Etu Manager 及 Etu Recommender 產品與技術研發
>參與兩岸多項 Hadoop 解決方案架構設計與 研發,包含電信及電信加值相關產業,電子商務,線上媒體等
>長期關注 Hadoop Ecosystem 技術發展趨勢


2010 年至 2013 年:投入翻譯繁體中文版 Hadoop 技術手冊與管理手冊
2009 年:建構全台首座多人 Hadoop 實驗叢集
2008 年:投入雲端運算相關研究

>經營 Hadoop.TW 社群長達七年以上 >長期擔任中華電信、資策會關於雲端與巨量資料的固定講師
>擅長叢集系統管理
>目前負責 Etu Manager 產品設計與研發
>在 Etu Training 教授 Hive 系列課程。


Vpon 行動廣告科技的數據科學家,中山大學資管系、資管所畢業,並於 2006 年取得臺大商研所博士學位。曾創立台灣第一個中文 BBS 系統、發展全球第一套中文套裝搜索引擎,以及創立龍捲風科技。在加入 Vpon 之前,在國立高雄應用科技大學擔任專任助理教授,熱愛軟體開發與物聯網創新,並獲得 20 項以上的發明專利,喜歡新創事業商務模式發展、整合性資料分析與探索性研究。


2007 年
>Hadoop/Mapreduce 應用程式開發
>建置 Hadoop cluster

2008 年
>成立 Hadoop Taiwan User group
>擔任 Hadoop/Cloud computing Evangelist 推廣相關技術


大數軟體(LargitData)創辦人,TW.R Officer,曾經在趨勢科技擔任工程師。
David 是一位致力於提供 Data-as-a-Service 的創業者與資料科學家,熟悉使用 Hadoop 進行巨量資料處理,暨長時間專注使用各式 Data Mining 技術從事資料分析。喜愛於各社群與會議分享資料處理相關的技術講題,並曾擔任聚碩、工研院、資策會、精誠、智庫驅動。








競賽說明會

04/18

初賽

04/16-30

決賽名單出爐

05/08

決賽

05/09-06/12

決賽簡報
頒獎典禮

06/27
08:30-12:00

競賽說明會 地點

大船艦館 The Flagship
台北市松山區八德路四段 123 號 3 樓

決賽簡報/頒獎 地點

台北 W 飯店
台北市信義區忠孝東路五段10號






此次競賽以應用分析為主,資訊技能為輔。主要考驗參賽者如何善用 Hadoop 生態系不同的軟體,將純文字原始資料經過運算,得出電子商務網站的商品 銷售排行。並設計數值模型,預測未來的商品銷售排行榜。輔以運算效能為次要評分標準,先求正確產生商業價值,再求執行效率,降低營運成本。以下分別就競賽資料集、初賽執行方式、決賽執行方式與競賽環境,逐一說明。


競賽資料集

1. 主辦單位將基於兩個月的模擬網站日誌,作為此次競賽的資料集
2. 初賽提供第一個月的資料集,決賽另外提供第二個月的資料集供預測用


初賽


1. 必須能運行於 Etu Manager 的 AMI 環境中
2. 必須將 Web Log 存放到 HDFS
3. 拿網站日誌計算當月份熱門商品排行榜 ( Ranking )
4. 僅限使用以下一種(或以上)工具進行統計分析:MapReduce , HBase, Pig, Hive, Impala, R


提交結果


參賽隊伍必須提交程式碼壓縮檔乙份,內含:
1. 以 Team_ID 為目錄名稱
2. 統計商品銷售排行榜之程式碼(必須可正確於 Etu Manager AMI 中運行)
3. 撰寫乙隻 Script,命名為 run_me,用來執行整個流程,必須能將熱門商品排行榜以下方式顯示:
   01, pid
   02, pid
   03, pid
   04, pid
   05, pid
   06, pid
   07, pid
   08, pid
   09, pid
   10, pid
   11, pid
   12, pid
   13, pid
   14, pid
   15, pid
   16, pid
   17, pid
   18, pid
   19, pid
   20, pid


初賽評分標準


參賽隊伍必須提交程式碼壓縮檔乙份,內含:
1. 商品排行榜正確率 (%) 必須是 100% 正確
2. 以整體運算時間決定入圍位序(運算時間愈短愈高分),社會組與學生組各取前 5 組

time ./run_me
real 0m0.001s
user 0m0.000s
sys 0m0.004s


決賽


1. 初賽合計錄取 12 隊 — 社會組 7 隊 (增額錄取 2 隊) / 學生組 5 隊
2. 決賽資料集:參賽者須使用第一個月的資料,設計預測第二個月商品銷售金額排行榜的數值模型


提交結果


參賽隊伍必須提交:1. 程式碼壓縮檔乙份 (同初賽格式);2. 簡報電子檔乙份 (ppt/pptx、sdd、或 pdf)。

> 程式碼壓縮檔應內含:
1. 以 Team_ID 為目錄名稱。
2. 預測商品銷售金額排行榜之程式碼 (必須可正確於 Etu Manager AMI 中運行)。
3. 撰寫乙隻 Script ,命名為 run_me,用來執行整個流程,必須能將商品銷售金額排行榜以下方式顯示:

01, pid
02, pid
03, pid
04, pid
05, pid
06, pid
07, pid
08, pid
09, pid
10, pid
11, pid
12, pid
13, pid
14, pid
15, pid
16, pid
17, pid
18, pid
19, pid
20, pid

主辦單位後續會提供一支「預測進榜商品涵蓋正確率比對程式」,以利參賽隊伍進行模型調整。

> 簡報電子檔應內含以下 3+1 項:
1. 系統架構設計 (須考慮如何善用 Hadoop Ecosystem 的 Scalability 特性)。
2. 效能最佳化說明:包括能增加執行效能所應做的作業系統參數、平台參數、MapReduce Job 參數、Schema 設計、Partition 設計、Query 參數等。
3. 預測方法論:所設計之數值模型說明。
+1 簡報加分項目:可以提出認為值得被評審考量的各種創意或加分項目說明。


決賽評分標準


> 預測正確率佔 50%
1. 預測進榜商品涵蓋正確率:佔 20%。
2. 預測進榜商品名次正確率:佔 30%。

> 程式效能佔 20%

> 簡報內容佔 30%
1. 3+1 項:佔 20%。
2. 簡報技巧:佔 10%。


競賽環境


此次競賽將採用 AWS EC2 (Etu Manager AMI) 作為競賽環境,以下是初賽與決賽的虛擬機器規格與執行的方式。原則上初賽採一隊一台的方式進行,決賽則由主辦單位提供 10 個節點的叢集作為最後驗證效能用的環境。

>初賽 - m3.xlarge - 4 cores / 15 GB RAM
   一隊一台 AMI(開放 2 天,4/29~4/30)
>決賽 - m3.xlarge - 4 cores / 15 GB RAM
   一隊一台 AMI(開放 3 天,6/10~6/12)
   10 Nodes Cluster(評審使用;12 隊共享)






Q1. 是否一定要有 3 人才能參加?

A1. 需要 3 人組隊才能報名。6/27 的決賽簡報,各隊需至少兩人出席。


Q2. 初賽說明會時間及地點?

A2. 4/18,下午 1:30 - 4:00 於大船艦館 (台北市松山區八德路四段 123 號 3 樓 ) 舉行


Q3. 初賽 4/16 – 30,是全部隊伍都在比賽地點內 15 天都不離開嗎?過程是否有外部網路可連出?使用自備的機器或是你們提供的機器平台?是否能先告知你們提供的平台訊息?例:如單台 cpu 幾核心速度/記憶體大小/硬碟大小與種類或是 IO 速度?共有幾台組成一個叢集?

A3. 初賽與決賽採用 Amazon EC2 進行競賽,僅需遠端連線即可。每隊一台虛擬機器,規格為 m3.xlarge,運作期間為初賽 4/29 - 4/30,及決賽 6/10 - 6/12,由主辦單位提供,作為驗證程式效能用。


Q4. 預計原始數據來源 TXT 多少 TB?GB?MB?或是存在既有的資料庫內?比賽資料來源是除了用戶行為紀錄以外是否有商品本身的描述一類的訊息檔案 TXT?

A4. 資料集特徵將統一於 4/18 競賽說明會說明。


Q5. 有關初賽規則第四點意思是指,從 MapReduce, HBase, Pig, Hive, Impala, R 當中,選一個來使用? 還是指可以從 MapReduce,HBase,Pig,Hive,Impala,R 當中,挑兩個以上的工具來用呢?

A5. 僅限使用以下標準環境內建的工具進行統計分析:MapReduce、HBase、Pig、Hive、Impala、R(此 6 種工具可任意組合使用)


Q6. 請問 Etu Manager 的 AMI 要自己建置還是主辦單位會提供?另外所需分析的資料是否亦由主辦單位提供下載?

A6. 資料集將以 E-mail 方式提供參賽隊伍自行下載。在 4/29 - 4/30 與 6/10 - 6/12 將由主辦單位提供 AWS EC2 的 Etu Manager 環境,內含資料集位於 /data/EHC_1st.tar.gz。


Q7. 若 4/18 說明會不克前往,在會後是否有任何管道可以瞭解說明會內容?

A7. 可發信至 ehc@etusolution.com 索取 Google Hangouts 連結,說明會結束後,會以信件方式寄送給各隊。


Q8. 請問 Etu Manager Sandbox 的啟動帳號密碼?

A8. 如欲確認 EMS 帳號密碼是否可以啟動正常使用,請依如下步驟檢查:
(1)連線 http://192.168.60.250:7180,確認連線。
(2)連線 http://192.168.60.250/ganglia 確認是否有結果。
(3)嘗試用帳號 admin / 密碼 admin 登入。


Q9. 初賽如何進行?

A9. 初賽的時間由 4/16 - 4/30 止,可以分作兩階段來看:
1. 4/16 - 4/28 期間,參賽者可自行建立測試環境,並在該測試環境內將構想轉換成運算程式碼,以符合競賽規則。
2. 4/29 - 4/30 期間,主辦單位會準備好正式環境 (包含資料集) 給參賽者,屆時參賽者們可將 4/16 - 4/28 期間建立的方法透過遠端連線的方式於正式環境內進行驗證,得出最佳的結果並提交給主辦單位。


Q10. 關於初賽 4/16 - 4/28 期間,測試環境的建立方式為何?

A10. 參賽者們可自由在 Etu 官網 www.etusolution.com 下載 Etu Manager Sandbox 作為測試環境,主辦單位將於 4/16 開賽時透過電子郵件發佈競賽資料集的鏈結以及 EC2 AMI 的 ID:
* 競賽資料集:供參賽者開發運算邏輯用
* EC2 AMI 的 ID:供參賽者在已擁有 Amazon Web Service 帳號時,直接在 AWS 的環境中進行測試以減少環境的變數。
註:AWS 於 4/16 - 4/28 期間的 EC2 使用須由參賽者自行負擔相關費用。


Q11. 請問這次競賽指定的 Etu Manager 能安裝在哪些 Linux 發行版上?安裝方法是如何?

A11. Etu Manager 目前只能安裝於 CentOS 與 RHEL 上。目前僅提供 Sandbox 試用,可於 Etu 官網下載 VirtualBox 映像檔,或者自行透過 AWS EC2 AMI 範本開啟虛擬機器。正式版則是以 ISO 光碟方式自動安裝。



李瑞純 Steffi Lee
O:+886 2 7720 1888 Ext. 8501
M:+886 952 065 450
競賽相關諮詢:EHC@etusolution.com
EHC Facebook 粉絲團:www.facebook.com/EHC.TW



主辦單位

Featured 贊助

Titan 贊助

台灣析數資訊股份有限公司(AsiaAnalytics Taiwan Ltd.)成立於 2010 年 11 月,屬於外商 Openbase 集團下之商業智慧顧問公司團隊。AsiaAnalytics 集團目前為 IBM 在亞太地區 Business Analytics 領域的最大 Business Partner。
AsiaAnalytics Taiwan 目前是以數據分析服務導向之顧問公司,在顧問分析的過程中,可靈活地採用及整合各類軟體,具有自行開發必要的分析模組的專業技術。



SAP 藉由其世界領先的企業應用軟體和服務,為台灣高科技業、電信業、醫療保健、零售業、公家機構以及金融服務業等,提供企業所需的獨特解決方案,以及支援國際型組織的企業級套裝解決方案,讓人員和企業不但能更有效率地彼此合作,更能靈活運用商務洞察力保持企業競爭力。SAP 的主要願景,就是協助所有公司精益求精、突飛猛進,成就非凡的企業。

Geek 贊助

通過一個建築在 Apache Hadoop* 上的企業資料樞紐這樣業界第一個的大資料統一平臺,Cloudear 正在變革整個企業資料管理。Cloudera 向企業提供一個統一的地方來存儲,處理和分析所有的企業資料,助力企業擴展其現有的投資的價值,同時又提出完全創新的方法來從企業資料中提煉價值。創立與 2008 年,Cloudera 是業界第一家,同時現在仍然是向企業提供 Hadoop 的領先的供應商和技術支持商。Cloudera 提供旨在應對業務關鍵資料挑戰的軟體。這些挑戰包括資料的存儲,訪問,管理,分析,安全和檢索。 Cloudera 正在和超過 1000 家的硬體,軟體,服務商合作夥伴一起來滿足大資料客戶的目標。

聯繫我們 (TW) 0800-200-018 © 2014-2016 Etu Corporation

Untitled Document






為帶動與鼓勵各界對 Hadoop 系統與應用的學習風氣,進而讓社會與商業可以善用 Hadoop 來創造價值,2015 Etu Hadoop 競賽正式號召各界擁有 Hadoop 經驗的高手組隊挑戰。若你已經具備 Hadoop 應用軟體開發的技能,趕快組隊來報名今年的 Etu Hadoop Competition,EHC 2015。進入決賽的優秀團隊(社會組/學生組)將有機會贏得超過 40 萬元的總獎項,還有與台灣各界 Hadoop Developers 交手的機會。



競賽主題

巨量資料
分析預測

競賽說明會

4/18
大船艦館 The Flagship
台北市松山區八德路
四段 123 號 3 樓

初賽

04/16–30

決賽

05/8–6/12

決賽簡報

6/27
台北 W 飯店
台北市信義區忠孝東路五段 10 號






這是一場面對真實世界的應用程式考驗! 03/28(六)起,歡迎各界 Hadoop 應用軟體開發好手邀請你的高手朋友,3 人組隊,一同來挑戰這場每年一度的 Hadoop 盛會。


報名截止日:04/15(三)


04/16(四)起,準備和其他高手一較高下了嗎?今年的 EHC,將考驗選手們是否具有踏入真實世界的能力,想進入決賽的隊伍,你需要籌組一個具有資料處理與分析能力的團隊,不止於統計,還須預測最終的結果。


競賽說明:


初賽:根據提供的線上商品瀏覽與銷售資料集,於 Hadoop Ecosystem 環境中,在最短的時間內,正確完成銷售排行。比賽的重點是在有限的系統資源下,如何有效率地 End-to-End 完成一個相對不小的資料集前置處理與結構化的程式設計,並正確地完成統計工作。


決賽:根據更大量的線上商品瀏覽與銷售資料集,於 Hadoop Ecosystem 環境中,建構商品銷售預測模型。比賽的重點是在有限的系統資源下,在最短的時間內,完成模型運算,並精準地預測商品銷售。







真是高手獎
社會組

現金 200,000 元
每人獎盃一只


真是高手獎
學生組

現金 200,000 元
每人獎盃一只

* 進入決賽的團隊,優勝隊伍可獨得獎金 20 萬元




2011年:取得 Cloudera Certified Developer for Apache Hadoop(CCDH)資格

>10 年以上網路資安產品研發經驗
>專長 Email 與 Web Security
>5 年以上分散式系統與 Hadoop 相關技術實務經驗
>負責 Etu Manager 及 Etu Recommender 產品與技術研發
>參與兩岸多項 Hadoop 解決方案架構設計與 研發,包含電信及電信加值相關產業,電子商務,線上媒體等
>長期關注 Hadoop Ecosystem 技術發展趨勢


2010 年至 2013 年:投入翻譯繁體中文版 Hadoop 技術手冊與管理手冊
2009 年:建構全台首座多人 Hadoop 實驗叢集
2008 年:投入雲端運算相關研究

>經營 Hadoop.TW 社群長達七年以上 >長期擔任中華電信、資策會關於雲端與巨量資料的固定講師
>擅長叢集系統管理
>目前負責 Etu Manager 產品設計與研發
>在 Etu Training 教授 Hive 系列課程。


Vpon 行動廣告科技的數據科學家,中山大學資管系、資管所畢業,並於 2006 年取得臺大商研所博士學位。曾創立台灣第一個中文 BBS 系統、發展全球第一套中文套裝搜索引擎,以及創立龍捲風科技。在加入 Vpon 之前,在國立高雄應用科技大學擔任專任助理教授,熱愛軟體開發與物聯網創新,並獲得 20 項以上的發明專利,喜歡新創事業商務模式發展、整合性資料分析與探索性研究。


2007 年
>Hadoop/Mapreduce 應用程式開發
>建置 Hadoop cluster

2008 年
>成立 Hadoop Taiwan User group
>擔任 Hadoop/Cloud computing Evangelist 推廣相關技術


大數軟體(LargitData)創辦人,TW.R Officer,曾經在趨勢科技擔任工程師。
David 是一位致力於提供 Data-as-a-Service 的創業者與資料科學家,熟悉使用 Hadoop 進行巨量資料處理,暨長時間專注使用各式 Data Mining 技術從事資料分析。喜愛於各社群與會議分享資料處理相關的技術講題,並曾擔任聚碩、工研院、資策會、精誠、智庫驅動。








競賽說明會

04/18

初賽

04/16-30

決賽名單出爐

05/08

決賽

05/09-06/12

決賽簡報
頒獎典禮

06/27
08:30-12:00

競賽說明會 地點

大船艦館 The Flagship
台北市松山區八德路四段 123 號 3 樓

決賽簡報/頒獎 地點

台北 W 飯店
台北市信義區忠孝東路五段10號






此次競賽以應用分析為主,資訊技能為輔。主要考驗參賽者如何善用 Hadoop 生態系不同的軟體,將純文字原始資料經過運算,得出電子商務網站的商品 銷售排行。並設計數值模型,預測未來的商品銷售排行榜。輔以運算效能為次要評分標準,先求正確產生商業價值,再求執行效率,降低營運成本。以下分別就競賽資料集、初賽執行方式、決賽執行方式與競賽環境,逐一說明。


競賽資料集

1. 主辦單位將基於兩個月的模擬網站日誌,作為此次競賽的資料集
2. 初賽提供第一個月的資料集,決賽另外提供第二個月的資料集供預測用


初賽


1. 必須能運行於 Etu Manager 的 AMI 環境中
2. 必須將 Web Log 存放到 HDFS
3. 拿網站日誌計算當月份熱門商品排行榜 ( Ranking )
4. 僅限使用以下一種(或以上)工具進行統計分析:MapReduce , HBase, Pig, Hive, Impala, R


提交結果


參賽隊伍必須提交程式碼壓縮檔乙份,內含:
1. 以 Team_ID 為目錄名稱
2. 統計商品銷售排行榜之程式碼(必須可正確於 Etu Manager AMI 中運行)
3. 撰寫乙隻 Script,命名為 run_me,用來執行整個流程,必須能將熱門商品排行榜以下方式顯示:
   01, pid
   02, pid
   03, pid
   04, pid
   05, pid
   06, pid
   07, pid
   08, pid
   09, pid
   10, pid
   11, pid
   12, pid
   13, pid
   14, pid
   15, pid
   16, pid
   17, pid
   18, pid
   19, pid
   20, pid


初賽評分標準


參賽隊伍必須提交程式碼壓縮檔乙份,內含:
1. 商品排行榜正確率 (%) 必須是 100% 正確
2. 以整體運算時間決定入圍位序(運算時間愈短愈高分),社會組與學生組各取前 5 組

time ./run_me
real 0m0.001s
user 0m0.000s
sys 0m0.004s


決賽


1. 初賽合計錄取 12 隊 — 社會組 7 隊 (增額錄取 2 隊) / 學生組 5 隊
2. 決賽資料集:參賽者須使用第一個月的資料,設計預測第二個月商品銷售金額排行榜的數值模型


提交結果


參賽隊伍必須提交:1. 程式碼壓縮檔乙份 (同初賽格式);2. 簡報電子檔乙份 (ppt/pptx、sdd、或 pdf)。

> 程式碼壓縮檔應內含:
1. 以 Team_ID 為目錄名稱。
2. 預測商品銷售金額排行榜之程式碼 (必須可正確於 Etu Manager AMI 中運行)。
3. 撰寫乙隻 Script ,命名為 run_me,用來執行整個流程,必須能將商品銷售金額排行榜以下方式顯示:

01, pid
02, pid
03, pid
04, pid
05, pid
06, pid
07, pid
08, pid
09, pid
10, pid
11, pid
12, pid
13, pid
14, pid
15, pid
16, pid
17, pid
18, pid
19, pid
20, pid

主辦單位後續會提供一支「預測進榜商品涵蓋正確率比對程式」,以利參賽隊伍進行模型調整。

> 簡報電子檔應內含以下 3+1 項:
1. 系統架構設計 (須考慮如何善用 Hadoop Ecosystem 的 Scalability 特性)。
2. 效能最佳化說明:包括能增加執行效能所應做的作業系統參數、平台參數、MapReduce Job 參數、Schema 設計、Partition 設計、Query 參數等。
3. 預測方法論:所設計之數值模型說明。
+1 簡報加分項目:可以提出認為值得被評審考量的各種創意或加分項目說明。


決賽評分標準


> 預測正確率佔 50%
1. 預測進榜商品涵蓋正確率:佔 20%。
2. 預測進榜商品名次正確率:佔 30%。

> 程式效能佔 20%

> 簡報內容佔 30%
1. 3+1 項:佔 20%。
2. 簡報技巧:佔 10%。


競賽環境


此次競賽將採用 AWS EC2 (Etu Manager AMI) 作為競賽環境,以下是初賽與決賽的虛擬機器規格與執行的方式。原則上初賽採一隊一台的方式進行,決賽則由主辦單位提供 10 個節點的叢集作為最後驗證效能用的環境。

>初賽 - m3.xlarge - 4 cores / 15 GB RAM
   一隊一台 AMI(開放 2 天,4/29~4/30)
>決賽 - m3.xlarge - 4 cores / 15 GB RAM
   一隊一台 AMI(開放 3 天,6/10~6/12)
   10 Nodes Cluster(評審使用;12 隊共享)






Q1. 是否一定要有 3 人才能參加?

A1. 需要 3 人組隊才能報名。6/27 的決賽簡報,各隊需至少兩人出席。


Q2. 初賽說明會時間及地點?

A2. 4/18,下午 1:30 - 4:00 於大船艦館 (台北市松山區八德路四段 123 號 3 樓 ) 舉行


Q3. 初賽 4/16 – 30,是全部隊伍都在比賽地點內 15 天都不離開嗎?過程是否有外部網路可連出?使用自備的機器或是你們提供的機器平台?是否能先告知你們提供的平台訊息?例:如單台 cpu 幾核心速度/記憶體大小/硬碟大小與種類或是 IO 速度?共有幾台組成一個叢集?

A3. 初賽與決賽採用 Amazon EC2 進行競賽,僅需遠端連線即可。每隊一台虛擬機器,規格為 m3.xlarge,運作期間為初賽 4/29 - 4/30,及決賽 6/10 - 6/12,由主辦單位提供,作為驗證程式效能用。


Q4. 預計原始數據來源 TXT 多少 TB?GB?MB?或是存在既有的資料庫內?比賽資料來源是除了用戶行為紀錄以外是否有商品本身的描述一類的訊息檔案 TXT?

A4. 資料集特徵將統一於 4/18 競賽說明會說明。


Q5. 有關初賽規則第四點意思是指,從 MapReduce, HBase, Pig, Hive, Impala, R 當中,選一個來使用? 還是指可以從 MapReduce,HBase,Pig,Hive,Impala,R 當中,挑兩個以上的工具來用呢?

A5. 僅限使用以下標準環境內建的工具進行統計分析:MapReduce、HBase、Pig、Hive、Impala、R(此 6 種工具可任意組合使用)


Q6. 請問 Etu Manager 的 AMI 要自己建置還是主辦單位會提供?另外所需分析的資料是否亦由主辦單位提供下載?

A6. 資料集將以 E-mail 方式提供參賽隊伍自行下載。在 4/29 - 4/30 與 6/10 - 6/12 將由主辦單位提供 AWS EC2 的 Etu Manager 環境,內含資料集位於 /data/EHC_1st.tar.gz。


Q7. 若 4/18 說明會不克前往,在會後是否有任何管道可以瞭解說明會內容?

A7. 可發信至 Email住址會使用灌水程式保護機制。你需要啟動Javascript才能觀看它 索取 Google Hangouts 連結,說明會結束後,會以信件方式寄送給各隊。


Q8. 請問 Etu Manager Sandbox 的啟動帳號密碼?

A8. 如欲確認 EMS 帳號密碼是否可以啟動正常使用,請依如下步驟檢查:
(1)連線 http://192.168.60.250:7180,確認連線。
(2)連線 http://192.168.60.250/ganglia 確認是否有結果。
(3)嘗試用帳號 admin / 密碼 admin 登入。


Q9. 初賽如何進行?

A9. 初賽的時間由 4/16 - 4/30 止,可以分作兩階段來看:
1. 4/16 - 4/28 期間,參賽者可自行建立測試環境,並在該測試環境內將構想轉換成運算程式碼,以符合競賽規則。
2. 4/29 - 4/30 期間,主辦單位會準備好正式環境 (包含資料集) 給參賽者,屆時參賽者們可將 4/16 - 4/28 期間建立的方法透過遠端連線的方式於正式環境內進行驗證,得出最佳的結果並提交給主辦單位。


Q10. 關於初賽 4/16 - 4/28 期間,測試環境的建立方式為何?

A10. 參賽者們可自由在 Etu 官網 www.etusolution.com 下載 Etu Manager Sandbox 作為測試環境,主辦單位將於 4/16 開賽時透過電子郵件發佈競賽資料集的鏈結以及 EC2 AMI 的 ID:
* 競賽資料集:供參賽者開發運算邏輯用
* EC2 AMI 的 ID:供參賽者在已擁有 Amazon Web Service 帳號時,直接在 AWS 的環境中進行測試以減少環境的變數。
註:AWS 於 4/16 - 4/28 期間的 EC2 使用須由參賽者自行負擔相關費用。


Q11. 請問這次競賽指定的 Etu Manager 能安裝在哪些 Linux 發行版上?安裝方法是如何?

A11. Etu Manager 目前只能安裝於 CentOS 與 RHEL 上。目前僅提供 Sandbox 試用,可於 Etu 官網下載 VirtualBox 映像檔,或者自行透過 AWS EC2 AMI 範本開啟虛擬機器。正式版則是以 ISO 光碟方式自動安裝。



李瑞純 Steffi Lee
O:+886 2 7720 1888 Ext. 8501
M:+886 952 065 450
競賽相關諮詢:Email住址會使用灌水程式保護機制。你需要啟動Javascript才能觀看它
EHC Facebook 粉絲團:www.facebook.com/EHC.TW



主辦單位

Featured 贊助

Titan 贊助

台灣析數資訊股份有限公司(AsiaAnalytics Taiwan Ltd.)成立於 2010 年 11 月,屬於外商 Openbase 集團下之商業智慧顧問公司團隊。AsiaAnalytics 集團目前為 IBM 在亞太地區 Business Analytics 領域的最大 Business Partner。
AsiaAnalytics Taiwan 目前是以數據分析服務導向之顧問公司,在顧問分析的過程中,可靈活地採用及整合各類軟體,具有自行開發必要的分析模組的專業技術。



SAP 藉由其世界領先的企業應用軟體和服務,為台灣高科技業、電信業、醫療保健、零售業、公家機構以及金融服務業等,提供企業所需的獨特解決方案,以及支援國際型組織的企業級套裝解決方案,讓人員和企業不但能更有效率地彼此合作,更能靈活運用商務洞察力保持企業競爭力。SAP 的主要願景,就是協助所有公司精益求精、突飛猛進,成就非凡的企業。

Geek 贊助

通過一個建築在 Apache Hadoop* 上的企業資料樞紐這樣業界第一個的大資料統一平臺,Cloudear 正在變革整個企業資料管理。Cloudera 向企業提供一個統一的地方來存儲,處理和分析所有的企業資料,助力企業擴展其現有的投資的價值,同時又提出完全創新的方法來從企業資料中提煉價值。創立與 2008 年,Cloudera 是業界第一家,同時現在仍然是向企業提供 Hadoop 的領先的供應商和技術支持商。Cloudera 提供旨在應對業務關鍵資料挑戰的軟體。這些挑戰包括資料的存儲,訪問,管理,分析,安全和檢索。 Cloudera 正在和超過 1000 家的硬體,軟體,服務商合作夥伴一起來滿足大資料客戶的目標。

 

 

© 2014-2016 Etu Corporation