文字説明データの再構成
実装に不備があったので下記のコミットで修正しました。
lp:nvdajp 4405
ソースからビルドした場合に限られますが、source/locale/ja/characters.dic を
# 425行 を 3092 [ウォ] オワリノ オ
のように書き換えると「を」のスペル読みを「オ」ではなく「ウォ」と読むようになります。
ただ JTalk の制約で「ウォ」がきれいに発音できませんが。。
ロケール(言語設定)が英語のときにエラーになる問題を修正しました。
lp:nvdajp 4407
ワ行のを(おわりのを)をスペル読みで「うお」と発音するように変更しました。
lp:nvdajp 4408
なお、次の段階として、以下のような仕様変更を検討しています。
以下のコミットについて説明します。
lp:nvdajp 4409
以下のように仕様変更しました。これで開発環境がなくても文字説明データを編集できると思います。
一部の記号の「半角」「全角」の通知など、属性に関する情報のカスタマイズは今後の課題です。
ユーザー設定フォルダの characterDescriptions-ja.dic の「詳細読み」は日本語版で独自に導入した仕様ですが、characters-ja.dic に統一したいと考えています。現在は互換性のために両方サポートしています。
カスタマイズの元になるファイル characters-ja.dic (現在の characters.dic のファイル名だけ変更したもの)をしばらく下記に置きます。
以下のコミットについて説明します。
lp:nvdajp 4417
lp:nvdajp 4418
文字説明の重複チェックツールは実装を見直して高速化したいと思います。
miscdep 111 を push しました。アーカイブを下記に置きます。
https://dl.dropbox.com/u/62564469/nvdajp-miscdep-111.7z
characters.dic の単漢字を Mecab 辞書に登録するようになりました。 JTalk のいわゆる「なめらか読み」でも Unicode 文字を読み上げます。
また Unicode 点字パターンを「1の点」「1、2の点」のように読むようになりました。
これらの処理で不具合が起きないように mecab.py も更新しています。
lp:~nvdajp/nvdajp/jp2012.3 rev 5606
あくまでも辞書整備の準備段階で、characters.dic そのものの整備が今後の課題です。
関連チケット #25509
下記に関する作業が終了しました。
#25509 Unicode文字の読み上げ(東洋医学系の難読漢字など)
今後の課題をまとめておきます。
2012.3 日本語版の準備が整ったと判断して、このチケットはクローズします。
下記のコミットについて説明します。
lp:nvdajp 4403
いままで nvdajp_dic に直接書かれていた「文字のスペル読み」(詳細読みではない読み)の辞書を、外部ファイルに移動しました。
これは source/locale/ja/characters.dic という新しいファイルです。
locale ディレクトリに置かれていますが、日本語独自のファイルです。
内容は既存の characterDescriptions.dic の情報を含んでいますが、いまのところ詳細読みの情報は「参考のために」併記されています。
以下のフォーマット(タブ文字区切り)になっています。
ただし先頭がシャープ # で始まる行は無視されます。また先頭が \# の行は半角シャープの文字に関する情報です。
現在のところ、単なる移動で、詳細読み辞書とは統合されていません。
日本語以外のロケールで動作させることも必要なので、ひきつづき方針を検討します。