About

   關於競賽

Big Data 改變了我們的世界,提供更多的可能去思考更具創新的商業模式,而 Hadoop Ecosystem 則是探索 Big Data 價值最有力的工具平台。為帶動與鼓勵各界對 Hadoop 系統與應用的學習風氣,進而讓社會與商業可以善用 Hadoop 來創造價值, Etu Hadoop 競賽號召各界擁有 Big Data 分析及處理相關經驗的資料愛好者組隊挑戰。

 

Etu & udn Hadoop Competition 2016 現在開放報名,歡迎各界高手組隊參加,進入決賽的優秀團隊 (社會組/學生組),將有機會贏得超過 30 萬的總獎項,還有與台灣 Hadoop 先鋒、Big Data 應用標竿企業、與資料科學高手互動交流的機會。

 

競賽主題:電子商務巨量資料分析

3.28-5.6

報名

5.14

競賽說明會 精誠大樓(台北市瑞光路 318 號 地圖點我

5.21-6.4

初賽

6.18

入圍決賽名單公佈

6.19-7.6

決賽

7.30 上午

決賽簡報與頒獎

7.30 下午

人才交流會 (活動內容與報名

地 址 /台北文創大樓 6F (A 廳 & F 廳) - 台北市信義區菸廠路 88 號 6 樓

 

 

 

 

 Conetent

   競賽內容

EHC 為貼近商業世界實際運作的模式,2016 擴大與 udn 合作,由 udn 提供去識別化後的真實線上資料,並鼓勵參賽隊伍結合第三方資料 (如 Open Data),增添資料分析的豐富度,考驗參賽者對資料的分析與價值創造力,以解決商業世界的真實問題。3.28(一) 起,歡迎各界 Hadoop 分析應用開發好手們,一同組隊來報名挑戰這場 Hadoop Ecosystem 競賽。

 

主辦單位提供標準的 Hadoop Ecosystem 平台競賽環境,包含以下分析工具:

  • Hive/Impala

  • Spark SQL/MLlib

  • R Server

  • Python

  • MapReduce/Pig/HBase

 

競賽說明:

 

初賽:

依據線上 Clickstream Log ,透過 Hadoop Ecosystem 平台提供的工具,建立資料模型,預測每位使用者會購買的商品館別。

 

決賽:

除了提供更大量的 Clickstream Log,參賽隊伍可以選用可合法使用、可開放分享的第三方資料(如 Open Data),透過 Hadoop Ecosystem 平台提供的工具,建立最佳的資料模型,預測每位使用者會購買的商品細分類 (館別 > 大分類 > 細分類) 。在這個階段,除了確保模型精準外,運算效能與提交時間將會被列入評分,期待參賽隊伍盡情發揮創意,找出資料世界中有趣的關聯性。

 

 

 

 Prize

   競賽獎項

社會組:

冠軍:獎金新台幣 10 萬元整 + 冠軍獎盃一座 + 獎狀每人一只

亞軍:獎金新台幣 3 萬元整 + 獎狀每人一只

季軍:獎金新台幣 2 萬元整 + 獎狀每人一只

 

學生組:

冠軍:獎金新台幣 10 萬元整 + 冠軍獎盃一座 + 獎狀每人一只

亞軍:獎金新台幣 3 萬元整 + 獎狀每人一只

季軍:獎金新台幣 2 萬元整 + 獎狀每人一只

 

 

 

 

 

 

 Judges

   評審

陳昭宇|Etu CTO

陳昭宇|Etu CTO


> 2011 年:Cloudera Certified Developer for Apache Hadoop(CCDH)資格

> 10 年以上網路資安產品研發經驗

> 5 年以上分散式系統與 Hadoop 相關技術實務經驗

> 帶領 Etu 產品與技術研發團隊

> 參與兩岸眾多 Hadoop 解決方案架構設計與研發,包含電信、電子商務、數位媒體、製造、金融、資訊安全等行業

> 長期關注 Hadoop Ecosystem 技術發展趨勢

 

陳昇瑋博士

陳昇瑋博士|台灣資料科學協會理事長


陳昇瑋博士現為台灣資料科學協會理事長、中央研究院資訊科學研究所研究員暨資料洞察實驗室主持人,研究領域為使用者滿意度、多媒體及社群系統及計算社會學等,在使用者∕社群意見及感受的淬取及量化方面持續有代表性的研究創見。

 

陳博士堅信資料及資料分析的價值,長期推廣資料科學及其在各領域的應用,發起台灣資料科學協會及台灣資料科學愛好者年會,期能將對於資料科學的熱情傳達給大眾,一起來探索資料科學的潛力,並將資料科學引入每個人的專業領域之中。他期待讓資料分析在台灣不再是口號,而是大家真實拿來解決問題及創造價值的工具。

 

欲瞭解陳博士的研究及心得分享,請至他的個人網頁一探究竟。

 

劉嘉凱|智庫驅動股份有限公司 執行長

劉嘉凱|智庫驅動股份有限公司 執行長


目前擔任「智庫驅動股份有限公司」執行長,為企業提供資料分析顧問服務。曾經在台灣從事網路科技事業,並在美國從事產業分析與商業顧問諮詢工作多年,不定時會將個人想法發表於《城市格局》部落格。最近關注的議題包括開放資料與社會創新。

 

陳景祥(Steve Chen)|淡江大學統計學系副教授

陳景祥(Steve Chen)|淡江大學統計學系副教授


2001

中華民國軟體自由協會 第一屆理監事 監事

2002~迄今

淡江大學統計系 NetStat 線上統計計算網站 作者

2005

第 38 屆國際技能競賽(芬蘭、赫爾辛基)「資訊與網路技術組」國際裁判

2007

第 39 屆國際技能競賽(日本、靜岡)「資訊與網路技術組」選手指導老師

2010

「R 軟體:應用統計方法」作者(ISBN: 978-957-483-626-0)

2010~迄今

錦華資訊科技公司 R 軟體與統計顧問

2013~迄今

R-Web 雲端資料分析系統 共同作者

2015~迄今

典通資訊有限公司 顧問

侯惠月|聯合報系 顧客關係管理部 總監

侯惠月|聯合報系 顧客關係管理部 總監


2014~迄今

聯合報系 顧客關係管理部 總監

2012~2014

永慶房產集團 顧客策略暨關係管理部 總監

商業智慧中心 總監

2002~2012

東森得易購 經管室 總監

營運分析處 經理

 

 

 

 Schedule

   競賽時程



 

人才交流會/台北文創大樓 6F (A 廳 & F 廳) - 台北市信義區菸廠路 88 號 6 樓

競賽說明會/台北市瑞光路 318 號 SYSTEX 精誠資訊大樓

 

 

 

 

 

 FAQ

   問與答

Q1. 如果隊伍中包含學生與非學生,那可以報名社會組嗎?

A1. 可以的。

 

Q2. 請問要報名費嗎?

A2. 是的,每組報名費為1000元。

 

Q3. 所提到的 Etu Manager AMI 是什麼?

A3. Etu Manager AMI是為了讓Etu Manager (Etu 的Hadoop平台產品) 能夠方便運行為 Amazon EC2 上,特別製作的 AMI (Amazon Machine Instance),只要用此 AMI 啟動的 EC2 虛擬機器,即已預先安裝好 EHC 比賽所需的完整軟體環境。
請參考:關於 Etu Manager 說明
請參考:關於 AMI 的細節

 

Q4. 5/14 競賽說明會需要全員到期嗎?

A4. 不需要,每隊有一人代表即可。

 

Q5. Clickstream Log 的資料是否有範例參考?

A5. 為求競賽公平起見,主辦單位不提供任何範例參考。

 

Q6. Clickstream Log 的資料可否參考 UDN 的Shopping Log?

A6. 為求競賽公平起見,主辦單位無法透露比賽資料集的特性給參賽者。

 

Q7.建立資料模型,以此模型的定義為何?

A7. 資料模型是指能夠依據題目,將依據競賽資料集預測出最後結果的演算法。

 

Q8. clickstream log,是由 Etu 提供嗎?

A8. 報名成功後,競賽開始會由 Etu 提供 clickstream log。

 

Q9. 請問非中華民國國籍的學生,也能報名參加競賽嗎?

A9. 本活動僅限台澎金馬地區具中華民國國民身分者報名參加。

 

Q10. 初賽時是否可以自己使用額外資料?

A10. 不可以,只能使用主辦單位提供的資料。

 

Q11. 如預測結果是某 userid 會購買某館別 2 次以上或者是都沒購買,上傳格式為?

A11. 只需預測有無購買某館別即可,格式如 slide 範例,如無購買不需上傳。

 

Q12. 主辦單會會提供資料分析的範例語法嗎?

A12. 不會,參賽者需自行發揮。

 

Q13. AWS EC2 環境參賽者有足夠權限調整環境參數?

A13. 參賽者為一般使用者而非管理者,不具備調整系統環境參數的權限。

 

Q14. AWS EC2 環境有網路可直接安裝會使用到的套件嗎 (python, R)?

A14. 有的,參賽者可自行安裝套件。

 

Q15. 如果使用 scala 語言,script 可否事先 compile 好?

A15. 可以。

 

Q16. 初賽中程式計算時間有列入評比嗎?

A16. 沒有,初賽只有比較 F-measure 值。

 

 

 

 

 

 Rules

   競賽規則

今年擴大 udn 合作,使用由主辦單位提供的去識別化真實線上資料與來自第三方的外部資料 (如 Open Data)。參賽者必須利用主辦單位所提供的 Hadoop 平台工具,建立資料模型,精準預測每位使用者的購買意圖。比賽的過程不但考驗參賽者對於資料的敏感度、分析技巧,能否活用平台中的工具,在叢集環境中撰寫出執行效能最佳的程式,也是我們評分的依據。

 

初賽競賽規則及評分標準:

  • 資料集:初賽提供第一~四個月的資料集(瀏覽行為與購買資料),透過 Hadoop Ecosystem 環境中提供的環境,建立最準確的預測模型,精準預測下一個月每位使用者會購買的商品分館
  • 分析工具限定:Etu Manager (CDH 5.4 - Hadoop Ecosystem)/ RStudio/ Jupyter
  • 初賽評分標準:以各組比賽截止前最後上傳的程式,與最後的執行結果為準,準確率(F-measure)最高的前五名得入圍決賽;預測準確率(F-measure 取小數點四位越高者勝出)
  • 每日上傳次數以兩次為限
  • 同分則取程式整體運算時間較低者(主辦單位會以 1+2 節點的 Hadoop 叢集驗證程式效能)

 

決賽競賽規則及評分標準:

  • 資料集:決賽除了再提供第五個月的線上瀏覽行為與購買資料外,並加入去識別化後的消費者屬性資料,參賽者可以整合一或多種第三方資料集進行預測,透過競賽 Hadoop 平台提供的工具,建立最佳的資料模型,預測每位使用者會購買的商品細分類(分館別 > 大分類 > 細分類)。在這個階段,除了確保模型精準外,運算效能將會被列入評分。
  • 分析工具限定:Etu Manager (CDH 5.4 – Hadoop Ecosystem)/ RStudio/ Jupyter
  • 決賽評分標準:
    • 準確率 50%:F-measure 值越高者勝出,計算邏輯同初賽
    • 程式效能 15%:時間越低者勝出。取運算時間最短與最長組別為上下界 (時間最短者得 15 分,最長者得 5 分),其餘組別按上下界時間區間比例落於 5 ~ 15 分
    • 平行運算 15%:檢驗參賽者整體程式架構中是否有運用到競賽平台所提供的平行運算元件。有運用之組別得 15 分,無運用之組別得 0 分
    • 簡報內容:評審會於決賽簡報當天考量下列項目評分
      • 分析作法 10%
      • 創新作法 10%
    • 各組簡報時間為 15 分鐘,Q & A 時間為 5 分鐘

 

有關第三方資料集選用說明 (5/7 更新)

  • 主辦單位鼓勵決賽參賽者,可以使用來自第三方的資料集 (如 Open Data),以提升預測結果準確率。參賽者可發揮創意,多方嘗試結合更多資料集,並於簡報中提出說明。

  • 若參賽者覺得對提昇預測精準度沒有幫助,也可以選擇不用

  • 參賽者必須對選用的第三方資料集可合法使用可開放分享負責:

    1. 參賽者必須於 6/30 前,將決賽有使用到,來自第三方或自行產製、加工的資料集清單,以下列格式 E-Mail 給主辦單位 (mailto:ehc@etusolution.com subject:第三方資料集清單),並可在 7/5 前持續提供更新:
      - 資料集提供機關名稱 (若是自行產製、加工者,請填”自己”)
      - 資料集名稱 (若是自行產製、加工者,請自取名稱)
      - 資料集下載連結 (若是自行產製、加工者,請自己利用如 Google Drive、Dropbox 等網路儲存服務提供資料集下載)
      舉例:

      資料集提供機關名稱

      資料集名稱

      資料集下載連結

      衛生福利部

      醫院基本資料

      http://data.gov.tw/node/9309

    2. 主辦單位應於決賽全程結束前,對決賽隊伍所提交的第三方資料集清單應當善盡保密義務,以維持賽事公平。
    3. 主辦單位會在決賽全程結束後,將所有決賽隊伍所提交的第三方資料集清單公布,以昭公信。
    4. 主辦單位不對第三方資料集的可合法使用與可開放分享負責,請參賽者自行斟酌。建議參賽者參考 Open Definition 條文來考量可合法使用與可開放分享的權利。
    5. 主辦單位若發現競賽所使用的第三方資料集與提供的資料集清單不符,有權取消得獎資格。
  •  

 

 

 

Contact

聯絡資訊:

Steffi Lee

M: +886 952 065 450

競賽相關諮詢:EHC@etusolution.com

EHC Facebook 粉絲團:www.facebook.com/EHC.TW

 


共  同

主  辦:

Featured

贊  助:

Phenom

贊  助:

Titan

贊  助:

Geek

贊  助:

活  動

贊  助:

 

 

© 2014-2016 Etu Corporation