[Scim-imengine-dev 876] [OT] mecab-users で cannadic 改変について話をうかがったので転載

Back to archive index

UTUMI Hirosi utuhi****@yahoo*****
2006年 1月 14日 (土) 12:49:42 JST


// To: scim-****@lists*****

内海です。

mecab-users で cannadic改変について話をうかがったので転載します。
http://lists.sourceforge.jp/mailman/listinfo/mecab-users

UTUMI wrote:
http://lists.sourceforge.jp/mailman/archives/mecab-users/2006-January/000016.html
-------------------
http://mecab.sourceforge.jp/#download
> Canna dic
> * Canna 辞書: 公開予定
これはどういったものになるのでしょうか。
cannadic は頻度指定の甘さが気になるので、
(辞書についての考えは scim-imemgine-dev に書きました。
http://lists.sourceforge.jp/mailman/archives/scim-imengine-dev/2006-January/000864.html )
頻度を補正するようなものであれば
Anthy の精度向上にも役立つのではないかと期待しています。

なお、大泉さんというかたが 公式版の cannadic に見出しと表記を
大幅に追加した "cannadic改" を公開しておられるので、
http://homepage2.nifty.com/jjade/alt-cannadic/
こちらの辞書をベースにされるのも良いかと思います。

大泉さんの "cannadic改" は品詞ごとに頻度を画一化しているので
同音異義語などの変換には弱いのですが、
非常に良く整理されていて新語も大量に追加されているので、
これに適切な頻度が付加されれば Anthy に最適な辞書になるのではないかと
思っています。
-------------------


Kudo-san wrote:
http://lists.sourceforge.jp/mailman/archives/mecab-users/2006-January/000023.html
-------------------
鍵はコスト値の推定にあります。おもに

1. 内省に基づき人手でチューンする
2. 大量のテキストのみから推定する
3. 正しく解析されたタグ付きデータを人手で作成し、そこから推定する

という3つの方法があります。

3番目の方法が一番精度がよく、内省に依存しないためコンシステントな
コスト推定が行えます。ipadic, jumandic の作成は 3 番目の方法でやっています。

ただ、問題は cannna は 3番目に必要なタグ付きデータがないことです。

そこで、2番目の大量のテキストのみからコスト推定する方法をとりあえず
使ってみます。具体的には隠れマルコフモデル(HMM)を使います。
大量のテキストはたとえば wikipedia 等が利用できるでしょう。

ただ、過去の経験からだと、HMM はそんなに優れた方法ではないので、
少量のタグつきデータを作るかもしれません。タグ付きデータ作成とは、
Cannna の辞書体系で正しく形態素解析されたデータ (MeCab の理想的な出力)
の作成です。CRF という方法を使うとわりと少量のデータで十分な精度が
得られると思います。(たぶん数百文程度)

> なお、大泉さんというかたが 公式版の cannadic に見出しと表記を
> 大幅に追加した "cannadic改" を公開しておられるので、
> http://homepage2.nifty.com/jjade/alt-cannadic/
> こちらの辞書をベースにされるのも良いかと思います。
>
> 大泉さんの "cannadic改" は品詞ごとに頻度を画一化しているので
> 同音異義語などの変換には弱いのですが、
> 非常に良く整理されていて新語も大量に追加されているので、
> これに適切な頻度が付加されれば Anthy に最適な辞書になるのではないかと
> 思っています。

ありがとうございます。確かに高品質の辞書を使ったほうがいいですね。
-------------------


UTUMI wrote:
http://lists.sourceforge.jp/mailman/archives/mecab-users/2006-January/000024.html
-------------------
わくわくします。新しい cannadic をとても楽しみにしています。:-)
公開なさる際はぜひ Anthy-dev にもご連絡ください。
http://lists.sourceforge.jp/mailman/listinfo/anthy-dev

> 確かに高品質の辞書を使ったほうがいいですね。

Cannadic改 は大泉さんが一年以上かけて見出しと表記の追加を行い、
スクリプトによる整理をなさったものなので、
報われるときがくることを願っていました。
-------------------


--------------------------------------
Yahoo! Mail - supported by 10million people
http://pr.mail.yahoo.co.jp/mail_pr/



Scim-imengine-dev メーリングリストの案内
Back to archive index