カテゴリー別アーカイブ: データマイニング

Chikuwa 青空文庫検索

全文検索エンジン Chikuwa を用いた簡単なサンプルシステムを構築しました。

青空文庫収蔵 9795作品中に収められたテキストデータ 271MB から瞬時にキーワード検索を行うというものです。

https://toshiya.org/aozora/chikuwa/

Chikuwa 青空文庫検索 for mobile の操作画面は以下の通りです。

1.トップ画面で青空文庫収蔵の作品中に含まれると想定されるキーワードを入力して、「送信」ボタンを押下します。
10155796_270319369811469_1749260070_n

2.検索キーワードを含む作品のリストが表示されます。(100件以上のヒットがあった場合はヒットスコア上位100件まで表示されます。)
10013721_270319403144799_1254874241_n

3.結果リストのアイテムを押下すると、実際の作品の文章が表示されます。(但し、キーワードをハイライトする機能は未実装です。)
1743658_270319439811462_1120735509_n

4.結果リスト、本文ページ左上の「Back」ボタンを押下すると直前のページに戻ります。

Share Button

Apache Tika について

http://tika.apache.org/

これは「コンテンツ解析アプリケーション」とのことで、ファイルを入力することにより、そのファイルのMIMEタイプを調べたり、PDFやWordなどのファイルからテキストデータを抜き出すことが出来るというものです。

これ、Namazu の頃は、MIMEの判別は Perl の File::Magic が担当していて、PDFからの テキストの抜き出しは xpdf の pdftotext が行っていたりしました。

随分と世の中には便利なものが出てきたものだと思います。

そんなわけで、現時点での最新版 tika-app-1.4.jar をダウンロードして色々と遊んでみました。

http://tika.apache.org/1.4/gettingstarted.html のページによると、

$ java -jar tika-app-1.4.jar –text hogehoge.pdf

を実行することで、hogehoge.pdf 内のテキストデータを抜き出すことが出来ました。

PDFなので、行とか列なんかに多少の狂いが発生することがあるけれども、 まぁ、使えると思います。

$ java -jar tika-app-1.4.jar –gui &

と、することで Java GUI アプリケーションとして動かすことも可能。 ユーザーインターフェースはイマイチだけど、必要最低限のことは出来る感じです。

ApacheTika

いろいろ使えそうだからもうちょっといじってみようと思います。

Share Button

WinTika 1.4 alpha リリース

昨日、Apache Tika というソフトについて書きましたが、これは 代表的な機能としては、PDF, Word, PPT などの形式のファイルからテキストを抜き出せるというもの。ちなみに MP3 なんかの音楽ファイルのメタ情報(曲名、アーティスト名)なんかも取れるので、意外と色んな使い道があるかも知れません。

ただ、「Javaアプリケーション」ということで 使いづらい問題もあり、これをちょっと Windows 向けに 単純なラッパーアプリを作ってみました。

もし、このアプリを見て頂ける余裕のある方は 以下の URL から 最新版のZIP をダウンロードして展開した後、WinTika.exe を実行して アプリの威力を試してみてコメント頂けると嬉しい限りです。

https://toshiya.org/soft/WinTika/

【使い方】
・exe を実行すると、シンプルなGUIが開きます。

・メニューバーの 「File」メニューから 「Open File」を選択して、PDF や Word その他のファイルを指定、あるいは対象のファイルをメイン画面にドラッグアンドドロップして下さい。ファイルから抜き出したテキストが GUIのテキストボックスに表示されます。

・メニューバーの 「File」メニューから 「Open URL」を選択して、適当な Web URL を指定すると、Webページ上のテキストもぶっこ抜いてくれます。 ニュースサイトのデータの抜き出しなんかに有効かもしれません。

以上、大雑把過ぎる説明ですが、何かコメントやアドバイスなどありましたら是非ともご連絡下さい。

どうか宜しくお願い致します m(_ _)m

Share Button