サポート・お問い合わせ
 
公開しているソフトウェアに関してのご意見やご希望、お問い合わせは、次のメールアドレスまでお願いいたします。

   fujimoto@discoveryfuji.com

Q&A
■ 日本語形態素解析エンジン『 Tofu 』

Q.

Tofu は何に使用すればよいのかよく分かりません。使用例を教えてください。

A.

要するにアイデアしだいです。例えば、調査関係の会社が行っているようなテキストマイニングを行うための情報収集が可能になります。
調査したいWEBページのHTMLテキストからタグ等を全て消して文章にし、Tofu の API を用いて名詞のみにすると、WEBページ中の単語を得られます。その単語を数えることで、そのページの特徴や傾向を得られます。このようなことを、多くのホームページに対して行って情報を収集し、分析するのです。特徴の判定にはベイズ推定やTF/IDFなどを使用することが多いのではないでしょうか。
ちなみに、文章のテキストを得るための部品として、apache POI や OfficeのApplicationオブジェクトを使用すれば、ExcelやWord等の中の文章を抜き出すことができます。そのほか、PDF等もテキスト化するライブラリがいくつかありますので、調べてトライしてみてはいかがでしょう。




Q.

普通、形態素解析エンジンには辞書の学習ツール等が付いているはずですが、 Tofu フリー版 には添付されていません。どうやって追加の単語を登録するのでしょうか。

A.

Tofu フリー版には単語の追加・削除を行うツールを添付していません。単語辞書及び連接コストテーブルは、随時アップロードしますのでそれを使用してください。



Q.

解析結果の中に「未知語」がいくつかあり、そのせいか結果が正しくなっていません。どうすれば正しくなるのでしょうか。

A.

「未知語」は、単語辞書に登録されていない単語を意味します。形態素解析は、確率を元に品詞を判定するため、未知語があるとその確率が崩れます。正しい解析結果を得るには、単語辞書に未知語を登録してやればよいのですが、フリー版にはそのツールを添付していません。もし、未知語をお知らせいただければ登録したものを公開いたします。


■ ソース行カウンタ『 SLCounter 』

Q.

VBやPHP、HTML等にも対応する予定がありますか?

A.

要望があれば対応します。



Q.

集計結果をExcelファイルにも出力できるようにしないのですか?

A.

Excelファイルを生成することは可能です。要望があれば対応します。ただし、Excelがインストールされている必要があります。



Q.

.NET Frameworkの入手の仕方は?

A.

検索エンジンを用いて「マイクロソフト」「.NET Framework3.5」のキーワードを入力して検索してください。表示される検索結果の中の「ダウンロードの詳細 : .NET Framework 3.5」をクリックすればダウンロードできるページが表示されます。
あるいは以下のURLをブラウザのアドレスバーに入力すれば表示できます。


 http://www.microsoft.com/downloads/details.aspx?familyid=333325FD-AE52-4E35-B531-508D977D32A6&displaylang=ja


なお、.NET Framework3.5 はインストールに時間がかかりますので、他のソフトに影響がなければ.NET Framework2.0 をインストールしてもかまいません。



Q.

ソースを公開する予定はありますか?

A.

要望があれば公開してもかまいません。ただし、SLCounterは、.NETの範囲内の機能しか使っていませんので、目新しい部分は無いと思います。



All rights reserved, Copyright © 2010 Discovery Inc.