Category: Big Data
-
收穫滿滿的Hadoop Taiwan 2013
此次參加2013 Hadoop Taiwan Conference,收穫很多。(以下是手動隨便寫寫,請勿拘泥writing format) 業界方面的進展比學界又更加跨出一大步,也代表著我們之後如果要發表雲端相關運算的論文或是發展技術, 要特別小心注意這類工具。 由於Big Data時代的來臨,現在的雲端運算處理偏重於「即時」運算,而非「批次」運算。 我們目前所學的hadoop map/reduce只能算是非常基本而已。 對於即時運算的需求恐怕還不太夠(Hive/Pig 也不例外)。 Google先看到這個嚴重情形,繼2009年以來,陸續發表Google Caffeine (for indexing), 可繪製大量網路資訊彼此對應關係的圖表資料庫「Pregel」, 2010年7月發表Google Dremel (for real-time analysis),號稱可完全打敗Hadoop在即時運算處理上的不足。 Google在報告中明確指出,「過去MapReduce需要分多次查詢的資料,Dremel可同時處理,並大幅縮短運算時間」, 因此是為了real-time query而設計的。 此次參加Hadoop Taiwan,聽人家介紹才知道原來有這個強力的project可用。因此,Apache也仿照這個概念, 提出Drill platform. 為了real-time處理夠快,也會導入Message Queue System,例如: Apache Kafaka: The message queue system for increasing the I/O performance but not provide transmission assurance. Storm: The real-time message queuing system;…