收穫滿滿的Hadoop Taiwan 2013

此次參加2013 Hadoop Taiwan Conference，收穫很多。(以下是手動隨便寫寫，請勿拘泥writing format)

業界方面的進展比學界又更加跨出一大步，也代表著我們之後如果要發表雲端相關運算的論文或是發展技術，

要特別小心注意這類工具。

由於Big Data時代的來臨，現在的雲端運算處理偏重於「即時」運算，而非「批次」運算。

我們目前所學的hadoop map/reduce只能算是非常基本而已。

對於即時運算的需求恐怕還不太夠(Hive/Pig 也不例外)。

Google先看到這個嚴重情形，繼2009年以來，陸續發表Google Caffeine (for indexing),

可繪製大量網路資訊彼此對應關係的圖表資料庫「Pregel」，

2010年7月發表Google Dremel (for real-time analysis)，號稱可完全打敗Hadoop在即時運算處理上的不足。

Google在報告中明確指出，「過去MapReduce需要分多次查詢的資料，Dremel可同時處理，並大幅縮短運算時間」，

因此是為了real-time query而設計的。

此次參加Hadoop Taiwan，聽人家介紹才知道原來有這個強力的project可用。因此，Apache也仿照這個概念，

為了real-time處理夠快，也會導入Message Queue System，例如：

Apache Kafaka: The message queue system for increasing the I/O performance but not provide transmission assurance.

Storm: The real-time message queuing system; but it consume too much more CPU time. (From the HBase initiator said…)

而Samza則是結合了Hadoop, Kafaka等技術整合而成的distributed stream processing framework (Hbase起草作者推薦的)。

Data Indexing: NGData project use much more hbase indexing to handle Big data problem.

Log collection for data auditing: Splunk is the recommended free project by Trend Micro.

In memory computing techniques: 柏克萊大學開發Spark/Shark Open Source Project來進行Machine Learning工作，由於所有計算工作都在Memory，號稱比Hadoop快20倍。

Impala：由Cloudra公司發表的Open source軟體，也是用Apache hadoop解即時處理的問題。

Graph Mining Tool : Pegasus

這套是因為資策會資安組跟卡內基美濃大學合作，CMU後來開發這個解決他們在graph-mining問題，

因為他們主要處理節點攻擊與病毒擴散模擬運算。他們資安組真的很強，mining工具用得很熟，

而不是只有寫寫數學式子發論文而已，是真的有拿這些Mining工具去做分群、分類、社群網路分析等。

此外，資安組也提到由於攻擊手法可能會長達每月或是每年才發動一次，

所以Rule based (主要偵測以分或者小時為單位的發動模式)可能無法運作。

註：

1. Google研究團隊及其合作學校(卡內基美濃大學、MIT等每年都到處發表論文，他們發表的論文都公告在 http://research.google.com/index.html

2. 這次來做presentation的廠商:Etu (精誠集團子公司)，有真正專門處理Big Data問題的工程師到場，他們上述工具都非常嫻熟，

也提到每一版impala的技術細節，非常厲害。也有發表推薦系統產品，我有詢問他們一些推薦系統實做細節，
不過他們因商業機密，不告訴我就是了…。他們也有現場徵才，不過限制是擁有Hadoop/Linux等相關程式開發經驗2年以上。

彙整