Q&A
|
■ 日本語形態素解析エンジン『 Tofu 』
|
Q.
|
Tofu は何に使用すればよいのかよく分かりません。使用例を教えてください。
|
A.
|
要するにアイデアしだいです。例えば、調査関係の会社が行っているようなテキストマイニングを行うための情報収集が可能になります。
調査したいWEBページのHTMLテキストからタグ等を全て消して文章にし、Tofu の API を用いて名詞のみにすると、WEBページ中の単語を得られます。その単語を数えることで、そのページの特徴や傾向を得られます。このようなことを、多くのホームページに対して行って情報を収集し、分析するのです。特徴の判定にはベイズ推定やTF/IDFなどを使用することが多いのではないでしょうか。
ちなみに、文章のテキストを得るための部品として、apache POI や OfficeのApplicationオブジェクトを使用すれば、ExcelやWord等の中の文章を抜き出すことができます。そのほか、PDF等もテキスト化するライブラリがいくつかありますので、調べてトライしてみてはいかがでしょう。
|
|
Q.
|
普通、形態素解析エンジンには辞書の学習ツール等が付いているはずですが、
Tofu フリー版 には添付されていません。どうやって追加の単語を登録するのでしょうか。
|
A.
|
Tofu フリー版には単語の追加・削除を行うツールを添付していません。単語辞書及び連接コストテーブルは、随時アップロードしますのでそれを使用してください。
|
|
Q.
|
解析結果の中に「未知語」がいくつかあり、そのせいか結果が正しくなっていません。どうすれば正しくなるのでしょうか。
|
A.
|
「未知語」は、単語辞書に登録されていない単語を意味します。形態素解析は、確率を元に品詞を判定するため、未知語があるとその確率が崩れます。正しい解析結果を得るには、単語辞書に未知語を登録してやればよいのですが、フリー版にはそのツールを添付していません。もし、未知語をお知らせいただければ登録したものを公開いたします。
|