[Anthy-dev 3579] Anthyのコーパス収集のお願い

Back to archive index

AWASHIRO Ikuya ikuya****@fruit*****
2007年 9月 24日 (月) 23:36:35 JST


どもども。いくやです。

Anthyの変換効率を向上させるため、コーパスを広く募集したいと思います。

コーパスとは
例文のことです。難しいことは聞かないでください(ぉ

どうやるの?
環境変数"ANTHY_HISTORY_FILE"を指定して、ログを収集してください。
それを(中身を確認した上で)私まで送ってください
対応しているAnthyのバージョンは8711以降です。

具体的には
ログイン時に読み込まれる設定ファイルに以下の記述をしてください
(これはあくまで例なので、このとおりでうまく行かない場合もあります)
export ANTHY_HISTORY_FILE=~/.anthy-corpus.txt
これだと、ホームディレクトリの.anthy-corpus.txtというファイルに書き込
まれます。
ちなみにこんな感じになります。
anthy-9100b - |しゅうせいした|つもりの| |修正した|つもりの|
anthy-9100b - |りりーすしました| |リリースしました|
anthy-9100b - |ごしてき|ありがとう|ございました| |ご指摘|ありがとう|ございました|
anthy-9100b - |さきの|めーるの|とおり| |先の|メールの|とおり|

ログイン時に読み込まれるファイルって?
.bashrcとか、GNOME(GDM)の場合は.gnomercとか、KDE(KDM)の場合は.profile
とかです
(ディストリビューションによって違うかもしれませんが、DebianとUbuntuで
はこれでいけるはずです)

ちなみに現在は5000くらいで、一応目標は10倍の50000です。
ここまで集まれば、例えば誰かがAnthyの開発を引き継ぐときに、アルゴリズム
をどういうふうに修正すればいいかとかわかるでしょうし、新しい変換エンジン
を開発する場合でも、どのようなポリシーにすればいいのかの重要な参考になる
と思っています。
ついでに、50000という数字には根拠がありません。50000で十分なのかはよくわ
かりませんが、5000では少ないかな、という気がしているのです。

ではでは、よろしくお願いします。
-- 
AWASHIRO Ikuya
ikuya****@fruit***** / ikuya****@oooug*****
GPG fingerprint:
1A19 AD66 C53F 2250 3537 1A9D 3A53 2C1D 20AB CC8A
http://blog.goo.ne.jp/ikunya/




Anthy-dev メーリングリストの案内
Back to archive index