Category: 雲端運算

  • I-List: Create Your Own Lists of Links

    I-List is a very helpful links share platform to share your collected links. It provides an user friendly interface to you for sharing some kind of links. I’ve found that there are two collections which is very helpful for some people whose subjects are for studying and implementation in statistics, accounting and computer science. 1.…

  • XPATH, MapReduce and SAX

    SAX Create XPath XPath4Sax SPEX: XPath Evaluation against XML Streams Apache MRQL: MRQL is a query processing and optimization system for large-scale, distributed data analysis, built on top of Apache Hadoop, Hama, and Spark.

  • Differences in each hadoop version

    Hadoop 2.x is developed from hadoop-1.x, with the significant features over hadoop-1.x: HDFS HA for NameNode (manual failover) NextGen MapReduce (YARN) HDFS Federation Performance Wire-compatibility for both HDFS and YARN/MapReduce (using protobufs) Hadoop 0.23.x is a trunk which contains: HDFS Federation NextGen MapReduce (YARN) Hadoop 1.x is developed from hadoop 0.20-security code support for: security…

  • [Google Extension] Yahoo字典查詢器

    為了學英文,有點不爽Google開發的Google Dictionary。花了一些時間,自己研究怎麼寫一個簡易的查字典工具。最後終於完成啦! 下載網址:請按我。

  • 【Chrome】Chrome Extension與App開發

    In short, Chrome extension(or app.) application is composed of different html, javascript, and css files. It is very simple to develop. Basically, you can consider it as a normal client-server implementation.To record some materials that I can develop my Chrome extension/app in the future, I note those as the following.English materials: Building a simple Google…

  • [雲端運算] Google Cloud Storage 來囉!

    Google Cloud Storage 開始試營運囉。什麼是Google Cloud Storage?Google Cloud Storage提供雲端儲存服務,具備RESTful (REpresentational State Transfer) 功能,根據”REST and RESTfull web service“這篇文章的說明,對RESTful做了以下闡釋: REST 把軟體視為 “資源”(Resource),以 URL (Uniform Resource Locator) 定位資源所在處。資源的使用者則藉由 HTTP 協定中所定義的”方法”(method)操作資源。REST 所稱的軟體,其實是資料與資料處理方法的包裝,也就是 OOP 中的 “個體”、”物件”。同時在 HTTP 中,也定義了四種基本方法,即 GET, POST, PUT, DELETE。以上四種基本方法大致上對應了四種資料處理動作,即 Create, Read, Update, Delete (CRUD)  有興趣的讀者,可以自行看看原文解釋。 Google Cloud Storage 服務提供了以下幾種特性: 快速、高延展性與高可靠度的物件儲存服務 所有資料皆複製好幾份到Google雲端資料中心 讀寫同步 物件大小可達TB等級,支援可恢復性的上傳、下載以及Range-GET。 Domain-scoped bucket命名空間 簡單、彈性 、具驗證以及共享能力 支援  OAuth 2.0…

  • [程式設計] 影像搜尋與處理相關API

    1. TinEye API TinEye 以圖找圖API簡介 TinEye API官網 說明:TinEye 的API目前看起來並沒有支援手機上使用版本。僅支援Python, Perl, Ruby, javascript, .NET等程式語言。 若要用他的手機版,得去使用他開發的PixID。(目前此版本還沒看到相關API) 2. Google Image API Google Image API說明:目前看起來只有提供輸入文字以搜尋相關圖片的API。 而Google Image Search 則提供了與TinEye一樣的圖片搜尋服務。不過相關API則是還沒支援,僅支援瀏覽器外掛版本。 Google 也提供了一些Java專用的圖形處理API: Image Java API ,專門替1MB以下圖片進行翻轉、刷淡、擷取縮圖等處理。 3. Google Picasa Web Uploader API 4. Imgur的Image Uploading API

  • 使用SVN 與 Google Docs 之備份機制優劣

    筆者以前寫在Google文件內的文章,貼出來給大家奇文共賞。:) 使用SVN 與 Google Docs 之備份機制優劣  SVN(Subversion Control System) Google Docs 優點 可以自己架設,自由度高。 每一次的修改都可以做記錄。 必須額外裝軟體。 空間可以自己擴充。 免費且不用額外裝設軟體,只需要Browser即可。 操作簡單。 缺點 需知道SVN操作觀念。 萬一SVN Server掛點,後果自行負責。 欠缺完整的備份策略。 空間太小(1GB),若需擴充,則需額外購買。

  • Multi-Thread Job in Hadoop 實驗

    問題定義 假設今有2 Jobs, 皆讀取相同格式之資料,但是每個Job 處理的方式與輸出資料皆不相同。 Job 1: Source Data A→ Map → Reduce → Output B Job 2: Source Data A→ Map → Reduce → Output C 若今天以Job1 → Job 2的順序,分別需要 20 seconds, 30 seconds。則總時間需要 50 seconds。是否能夠平行處理的技巧,達到Performance的提升? 目標與方法 利用Multithreads 讓Job1與Job2 同時進行。期望透過平行處理的方式,讓工作能夠在30~50秒內做完,提升處理速度。 實驗設計與數據呈現 硬體環境: 伺服器2台:cloud1, cloud2。 伺服器硬體配置: CPU: 雙路AMD 雙核心 記憶體:8GB 硬碟:1TB 7200 rpm. 軟體與資料環境: Hadoop…

  • [Java][雲端運算] 透過Hadoop Map/Reduce,將資料送到MySQL

    哈哈!終於搞定了!卡了那麼久,竟然有一行根本不該加進去的。話不多說,先說明接下來的Code該做什麼?首先,我修改了Hadoop WordCount範例,主要是把HDFS中的input/input.txt,透過WordCount Map/Reduce後的資料,餵進MySQL資料庫。依照以下步驟:1. 建立資料庫: DROP TABLE IF EXISTS `WordCount`.`Counting`;CREATE TABLE  `WordCount`.`Counting` (`name` char(48) default NULL,`count` int(11) default NULL) ENGINE=InnoDB DEFAULT CHARSET=latin1; 2. 將以下程式碼存成DBWordCount.java import java.io.IOException;import java.util.*;import org.apache.hadoop.fs.Path;import org.apache.hadoop.conf.*;import org.apache.hadoop.io.*;import org.apache.hadoop.io.Writable;import org.apache.hadoop.mapred.*;import org.apache.hadoop.util.*;import java.io.DataInput;import java.io.DataOutput;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import org.apache.hadoop.mapred.lib.db.DBWritable;import org.apache.hadoop.mapred.lib.IdentityReducer;import org.apache.hadoop.mapred.lib.db.DBConfiguration;import org.apache.hadoop.mapred.lib.db.DBOutputFormat;import org.apache.hadoop.mapred.lib.db.DBInputFormat;/*MySQL DB Schema:DROP TABLE IF EXISTS `WordCount`.`Counting`;CREATE TABLE `WordCount`.`Counting` (`name` char(48) default NULL,`count` int(11)…