如果要使用Lucene的斷詞程式,最好看一下
1. Lucene介紹投影片 (推薦)
2. Lucene簡介 (推薦)
4. Lucene 3.0的中文分詞系統 (推薦)
5. Lucene 最新版4.6.1 內建的Smart中文斷詞 (推薦)
6. IKAnalyzer for Lucene 4.x版本
目前的Lucene斷詞系統都以支援簡體中文為先,如果要用繁體的話,就是用繁體轉簡體的API來製作。
懶得研究這麼多的話,可以直接使用Solr (基於Lucene實現的一個production)
1. Apache Solr 介紹(有寫說怎麼設定使用Solr斷詞,但還是以簡體字為主)