簡介
MapReduce支援Log processing。但不幸的是,由於Hadoop是一個叢集式系統,
跨多台機器的大量Log processing讓原本Hadoop的效率變慢,而且HDFS也不能支援
一致性儲存這些Log,只能在各自的子系統中自行維護Log。
Chukwa專案發起的主要目標是對於分散式資料蒐集以及快速的資料處理問題,能夠
提供一個彈性且強力的平台
Chukwa主要分為四個組件:
- Agents:在各自機器上作資料的發送。
- Collectors :從agent上接收資料並存入儲存體如HDFS、HBase等。
- MapReduce jobs :利用MapReduce傳遞並將資料作歸檔 (archive) 。
- HICC:Hadoop Infrastructure Care Center,利用web介面展示資料。
更多請參考Chukwa官方網站