昨日、Apache Tika というソフトについて書きましたが、これは 代表的な機能としては、PDF, Word, PPT などの形式のファイルからテキストを抜き出せるというもの。ちなみに MP3 なんかの音楽ファイルのメタ情報(曲名、アーティスト名)なんかも取れるので、意外と色んな使い道があるかも知れません。
ただ、「Javaアプリケーション」ということで 使いづらい問題もあり、これをちょっと Windows 向けに 単純なラッパーアプリを作ってみました。
もし、このアプリを見て頂ける余裕のある方は 以下の URL から 最新版のZIP をダウンロードして展開した後、WinTika.exe を実行して アプリの威力を試してみてコメント頂けると嬉しい限りです。
https://toshiya.org/soft/WinTika/
【使い方】
・exe を実行すると、シンプルなGUIが開きます。
・メニューバーの 「File」メニューから 「Open File」を選択して、PDF や Word その他のファイルを指定、あるいは対象のファイルをメイン画面にドラッグアンドドロップして下さい。ファイルから抜き出したテキストが GUIのテキストボックスに表示されます。
・メニューバーの 「File」メニューから 「Open URL」を選択して、適当な Web URL を指定すると、Webページ上のテキストもぶっこ抜いてくれます。 ニュースサイトのデータの抜き出しなんかに有効かもしれません。
以上、大雑把過ぎる説明ですが、何かコメントやアドバイスなどありましたら是非ともご連絡下さい。
どうか宜しくお願い致します m(_ _)m