如果要使用Lucene的斷詞程式,最好看一下

1. Lucene介紹投影片 (推薦)

2. Lucene簡介 (推薦)

3. 當前幾個主要的Lucene中文分詞器的比較

4.  Lucene 3.0的中文分詞系統 (推薦)

5. Lucene 最新版4.6.1 內建的Smart中文斷詞 (推薦)

6. IKAnalyzer for Lucene 4.x版本

目前的Lucene斷詞系統都以支援簡體中文為先,如果要用繁體的話,就是用繁體轉簡體的API來製作。

JCC: A Java Chinese Covertor

懶得研究這麼多的話,可以直接使用Solr (基於Lucene實現的一個production)

1. Apache Solr 介紹(有寫說怎麼設定使用Solr斷詞,但還是以簡體字為主)


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *