UTUMI Hirosi
utuhi****@yahoo*****
2009年 2月 8日 (日) 23:08:56 JST
内海です。 --- Hideyuki SHIRAI <shira****@meado*****> wrote: > > -あき #KJ*13 明 #KJ*7 穐 #KJ*5 #KJ*5 龝 > ~~ > いわゆる一つの「全角スペース」(U+3000)なので、一連の話の「ゴミ」 > とは関係ないですね。 --- Jun Oizumi <vagus****@gmail*****> wrote: > この全角空白は以前登録依頼を頂いたもので、意図的なものです。 あ、「空き」ですね。 まったく気づきませんでした。 // ついでに複合語の文字数をチェックするツールを作りました。 $ ruby anthy-check-compound.rb g_fname.t を実行すると g_fname.t.compoundが作られるので、 diffを取ると怪しい単語が分かります。 (UTF8の辞書でしか判別できません) anthy-utf8-fix-space.rb からは全角スペースのチェックを外しました。 ツールを作ってみて、 "#_4天草_3四郎_4時貞" のように3分割されているものがあることや、 "#_a小中学生_2向け" のように16進数で書かれていることを知りました。 -------------------------------------- Yahoo! JAPAN - Internet safety for children and parents. http://pr.mail.yahoo.co.jp/security/ -------------- next part -------------- テキスト形式以外の添付ファイルを保管しました... ファイル名: anthy-fix-dictionaries-utf8.tar.gz 型: application/gzip サイズ: 1111 バイト 説明: 433960082-anthy-fix-dictionaries-utf8.tar.gz Télécharger