Chikuwa は形態素解析型全文検索エンジンです。
現時点ではまた開発試作段階であり、正式リリースはされていません。
現在、以下のような仕様を想定し、設計・開発を進めています。
Chikuwaシステムの特徴
- 形態素解析型全文検索エンジン
- UTF-8対応
- ライセンス形態はApache2ライセンスとLGPLのデュアルライセンス
- インデックス生成アプリケーション mkchikuwa 及び、全文検索アプリケーション chikuwa 及び、組み込み用モジュールとして、libchikuwa、各種スクリプト言語(PHP, ASP.NET, JSP)によるWebフロントエンドを提供する。
- 分かち書きエンジンに「Mecab」を採用
- C言語による実装を行い、Windows, MacOS, Linuxを問わず利用できる機能を提供する。また、高速処理を実現する。
- 正規表現ライブラリに「鬼車」を搭載し、インデキシングにおいての日本語処理の機能を充実させる
- インデキシングのアプリケーションはCUIの他、wxWidgetsを用いたマルチプラットフォームアプリケーションとする
- Namazuインデックスとの完全互換を実現
- Apache Tika を組み入れることにより、PDF, Word, Excel ファイル中のテキスト検索も可能とする。
- 国際化対応による多言語サポート
- Webフロントエンド(フレームワーク)提供 (PHP, ASP.NET, JSP,Ruby)
Chikuwa 青空文庫検索
Chikuwa を用いて青空文庫テキストデータからキーワード検索を行うサンプルシステムです。
[ >>ページへ移動 ]