JTalk が漢字「全」を「チョン」と読み上げる
「全」が1文字でどうテキスト解析されるか確認したら、やはり固有名詞として解析されていました。
mecab:0.993 nvdajp-jtalk-dic (utf-8) 20121203-061354 Mecab_print size: 1 0 全,名詞,固有名詞,人名,姓,*,*,全,チョン,チョン,1/2,C3 input: 全 expected: ゼン result: チョン
本件は、固有名詞としての表記を辞書から削除することで対処済みです。
具体的な処理は miscdep で JTalk 辞書を前処理するメソッド convert_jdic_file です。
非常にアドホックな実装なので、リファクタリングしたいと思っています。
熟語で「全体」「全員」という使い方をするのではなく、単体で「全」という字が書いてあった場合に JTalk・mei などでは『チョン』と読み上げます。
この『チョン』という読み方は、日本語の読み方ではないようです。 思い当たるところ、大韓民国では『全』の漢字を“チョン”といったように読みます。(韓国語の規則で、前後の文字の兼ね合いで読み方がやや変化することもあります。)
例えば、大韓民国の政治家・軍人さんに、全斗煥 という人がいますが、この方の名前は“チョン・ドゥファン”と読みますし、大韓民国には全羅道という地名があって“チョルラド”と読みますが、これは読みが変化しているだけで、この地名をハングル文字で書き表した場合に最初の文字が「チョン」という読みを表すハングルになります。
日本語の JTalk辞書に「全」の読みが『チョン』となるよう登録されているか、他の国の言語の読み上げ辞書を参照しているかしていることが可能性として考えられます。 ということであれば『チョン』という読み方自体は間違いではないのでしょうが、これは日本語ではありませんので NVDA 日本語版では日本語として読み上げるのが望ましいかと思います。
因みに『全』という漢字は“常用漢字”であり、小学校3年生で学習します。 漢字辞典によると、この漢字の読みは「ゼン」「まったく」「すべて」です。(送りがな含む。) 部首は、入部。 画数は、6画。 この漢字は JISコードが 4134 で Shift-JISコードになると 9153 です。 さらに UTF-8コードでは E585A8 になるそうです。
この現象は他の方からのご指摘を受けて、OS:Windows7 32bit版、NVDAのバージョン:2012.3jp-beta4 の環境で、同様の現象を確認しました。 MS-IMEのバージョンは分かりません。