これは「コンテンツ解析アプリケーション」とのことで、ファイルを入力することにより、そのファイルのMIMEタイプを調べたり、PDFやWordなどのファイルからテキストデータを抜き出すことが出来るというものです。
これ、Namazu の頃は、MIMEの判別は Perl の File::Magic が担当していて、PDFからの テキストの抜き出しは xpdf の pdftotext が行っていたりしました。
随分と世の中には便利なものが出てきたものだと思います。
そんなわけで、現時点での最新版 tika-app-1.4.jar をダウンロードして色々と遊んでみました。
http://tika.apache.org/1.4/gettingstarted.html のページによると、
$ java -jar tika-app-1.4.jar –text hogehoge.pdf
を実行することで、hogehoge.pdf 内のテキストデータを抜き出すことが出来ました。
PDFなので、行とか列なんかに多少の狂いが発生することがあるけれども、 まぁ、使えると思います。
$ java -jar tika-app-1.4.jar –gui &
と、することで Java GUI アプリケーションとして動かすことも可能。 ユーザーインターフェースはイマイチだけど、必要最低限のことは出来る感じです。
いろいろ使えそうだからもうちょっといじってみようと思います。