Yusuke TABATA
yusuk****@w5*****
2007年 2月 5日 (月) 01:22:45 JST
田畑です。 変換精度に影響するバグがあったので、修正してanthy-8604としてリリースしました。 http://osdn.dl.sourceforge.jp/anthy/23842/anthy-8604.tar.gz (例文は420文、1516文節) 多分、今までリリースしたanthyの中でも最高の性能になっていると思います。 これで、去年のGoogle Summer of Codeで学生さんに開発してもらった2件のうち1件の 成果の取り込みが完了したと思ってます。(Wikipediaのデータを使ってないとか、 アルゴリズム上のアレンジが入ってるとか作ってもらったものとは違う形になってます) anthy-8300まで使っていたHMMやanthy-8523まで使ってたMEMMのような確率的言語モデルの 場合、文節のパターンが例文の中に出てくる確率を計算して、もっとも出現する確率の 高いものを選択します。それに対し、今使用しているのは識別モデルというもので、 あるパターンに対しそれが正しい変換であった確率を計算し、最も高いものを選択します。 感覚的に説明すると、文中に「いんたーねっと」という文字列があった場合、 それはほぼ100%一つの文節になるのに対し、「を」という文字列があった場合、 それが単独の文節になる確率はほぼ0%というような推定をするといった感じです。 例文(コーパス)の中には |ただしい|へんかん|けっか| |正しい|変換|結果| という形式で期待する変換結果が書かれています。パラメータ計算の時は この文を変換してみて結果が一致すれば素性の組み合わせに対応する 分母と分子に加算し、合わなければ分母だけに足すという処理をします。 #アルゴリズムの発想はsumibiの影響を受けてる気がします -- -- CHAOS AND CHANCE! Yusuke TABATA