2016.2jp に向けた日本語点訳の改善
下記のコミットで「トーキョート チヨダク ナガタチョー」のような住所表記の規則を実装しました。
release-2013.1 71640c2
下記のコミットで「綾部市保健福祉センター(アヤベシ ホケン フクシ センター)」など地域の接尾語のあとの分かち書きを修正しました。
release-2013.1jp 7fabe11
固有名詞の点訳分かち書きだけの話ではありませんが、nvdajp-team 2932 で下記のご提案がありました。
これについて、以下のことの因果関係をもう少し詳しく考察、説明する必要があるので、時間をください。
本件について9月18日のコメントのフォローが遅れてすみません。
引き続き、下記のご意見をいただいています。
点訳エンジンの 2013.1jp に向けた改良は、辞書作りの前にテストケースづくりが重要であるという立場で行いました。
「点訳エンジンのテストケースを作る」 #23483
http://sourceforge.jp/ticket/browse.php?group_id=4221&tid=28483
辞書整備の共同作業は成果をまとめることが簡単ではありませんが、テストケースの整備は共同作業が可能ではないかと考えています。
nvdajp-team 3913 より:
チケット #29508 で実装したユーザー辞書機能では「大」の付く単語全部を一つ一つ登録していくことになります。
現在「大きい」「大まか」はどこで長音化の例外処理をしているかというと、システム辞書をビルドする前処理 miscdep/include/jtalk/make_jdic.py でこの2単語だけを特別扱いしています。
例えばルール処理で以下のような実装をすれば、このケースについてはカバーできそうな気がします。
ところで、この件は「点訳のてびき 第3版」18ページには「漢字で書かれた固有名詞は「基本的な仮名遣い」に準じて書く」としか説明されていないので、テストケースを整備できていません。他の文献をあたってみます。
以前整備していただいた「点字表記辞典-あ行-「お」.xlsx」 の下記をカバーする方向で検討します。
{ 'text': '大慌て', 'input': 'オオアワテ'}, { 'text': '大いなる', 'input': 'オオイナル'}, { 'text': '大男', 'input': 'オオオトコ'}, { 'text': '大川', 'input': 'オオカワ'}, { 'text': '大君', 'input': 'オオキミ'}, { 'text': '大阪', 'input': 'オオサカ'}, { 'text': '大旦那', 'input': 'オオダンナ'}, { 'text': '大づかみ', 'input': 'オオヅカミ'}, { 'text': '大人数', 'input': 'オオニンズー'}, { 'text': '大田', 'input': 'オオタ'},
NVDA 日本語テスト版 jpbeta140226 https://dl.dropboxusercontent.com/u/62564469/nvda_jpbeta140226.exe
本家 2014.1rc2 相当の修正がマージされています。
本家 t3800 (VoicePopper のクラッシュ対策)はマージしていません。
余談ですが、日本語拡張部分のビルドには VC 2013 を使っています。
> cat miscDepsjp\jptools\setup-vc2013.cmd call "C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\bin\vcvars32.bat"
ひきつづき Windows XP での十分な動作検証が必要と思います。
miscdep にルールでカバーできる処理を追加。
[master e5d420e] updated braille test cases and rules 2 files changed, 87 insertions(+), 2 deletions(-)
追加したテストケース。コメントアウトした項目は未対応。
{ 'note': '複合語(接頭語・接尾語・造語要素)【備考1】接頭語・接尾語・造語要素であっても、意味の理解を助ける場合には、発音上の切れ目を考慮して区切って書いてよい。' }, { 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', 'text': '各党', 'input': 'カク トー' }, { 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', 'text': '各方面', 'input': 'カク ホーメン' }, { 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', 'text': '貴商店', 'input': 'キ ショーテン' }, { 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', 'text': '旧陸軍', 'input': 'キュー リクグン' }, { 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', 'text': '故池上先生', 'input': 'コ イケガミ センセイ' }, { 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', 'text': '前校長', 'input': 'ゼン コーチョー' }, { 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', 'text': '全5巻', 'input': 'ゼン 5カン' }, { 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', 'text': '超現実的', 'input': 'チョー ゲンジツテキ' }, { 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', 'text': '当施設', 'input': 'トー シセツ' }, { 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', 'text': '反社会的', 'input': 'ハン シャカイテキ' }, #{ # 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', # 'text': '富栄養化', # 'input': 'フ エイヨーカ' # 'comment': 'not トミ エイヨーカ', # }, { 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', 'text': '非人道的', 'input': 'ヒ ジンドーテキ' }, { 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', 'text': '満3年', 'input': 'マン 3ネン' }, #{ # 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', # 'text': '丸1日', # 'input': 'マル 1ニチ' # 'comment': '「マルツイタチ」にしないために辞書登録が必要', # }, #{ # 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', # 'text': '元副総理', # 'input': 'モト フクソーリ' # 'comment': 'not モト フク ソーリ', # }, { 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', 'text': '新時刻表', 'input': 'シン ジコクヒョー' }, { 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', 'text': 'ご挨拶かたがた', 'input': 'ゴアイサツ カタガタ' }, #{ # 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', # 'text': '1回こっきり', # 'input': '1カイ コッキリ' # 'comment': '「こっきり」が解析失敗', # },
人名の後ろの「さん」のマスアケ規則を整備しました。
+ { 'text':'久代さん', 'input':'ヒサヨ サン'}, + { 'text':'新家さん', 'input':'シンケ サン'},
人名の前後に全角スペースがあると地名になってしまい、読みが変わるケースが見つかっています。
これは mecab のパラメーター学習のさじ加減と思われるので、現状では気になるケースだけ(競合する地名をエントリーから抜くなど)個別対応しています。
nvdajpmiscdep: [master 64c1f3f] work regarding ti31543 7 files changed, 35 insertions(+), 9 deletions(-)
2013年4月ごろに検討したテストケース:
1日 ツイタチ 2日 フツカ 3日 ミッカ 4日 ヨッカ 5日 イツカ 6日 ムイカ 7日 ナノカ 8日 ヨーカ 9日 ココノカ 10日 トーカ 11日 11ニチ 12日 12ニチ 13日 13ニチ 14日 14カ 15日 15ニチ 16日 16ニチ 17日 17ニチ 18日 18ニチ 19日 19ニチ 20日 ハツカ 21日 21ニチ 22日 22ニチ 23日 23ニチ 24日 24カ 25日 25ニチ 26日 26ニチ 27日 27ニチ 28日 28ニチ 29日 29ニチ 30日 30ニチ 31日 31ニチ
このチケットで過去に指摘した問題:
# 'comment': '点訳のてびき第3版 第3章 その2 2 備考1', # 'text': '丸1日', # 'input': 'マル 1ニチ' # 'comment': '「マルツイタチ」にしないために辞書登録が必要',
2014年12月に新たに出た議論:
2、3日 現状 音声「に てん みっか」 点字「(数符)2(数符)みっか」 希望する表示 音声「にさんにち」 点字「(数符)2(数符)3ニチ」
本チケットの作業内容の説明のためのコメントです。
例えば 2014-02-26 10:43 のコメントに関する作業は以下のコミット:
https://bitbucket.org/nvdajp/nvdajpmiscdep/commits/e4263acc8632a4b13150e12c3324a68283ee198d
このうち jptools/harness.py の変更は以下:
{ 'text': '鬘合わせ', 'input': 'カツラ アワセ'}, { 'text': '暗順応', 'input': 'アンジュンノー'}, + + { 'text': '大慌て', 'input': 'オオアワテ'}, + { 'text': '大いなる', 'input': 'オオイナル'}, + { 'text': '大男', 'input': 'オオオトコ'}, + { 'text': '大川', 'input': 'オオカワ'}, + { 'text': '大君', 'input': 'オオキミ'}, + { 'text': '大阪', 'input': 'オオサカ'}, + { 'text': '大旦那', 'input': 'オオダンナ'}, + { 'text': '大づかみ', 'input': 'オオヅカミ'}, + { 'text': '大人数', 'input': 'オオニンズー'}, + { 'text': '大田', 'input': 'オオタ'}, + { 'text':'↓最新号はこちらからお楽しみください↓', 'input':'↓サイシンゴーワ コチラカラ オタノシミクダサイ↓'}, { 'text':'http://www.mag2.com/o/tabi/2013/1121.html', 'input':'⠠⠦http://www.mag2.com/o/tabi/2013/1121.html⠠⠴'}, { 'text':'このメルマガはHTML形式です。HTMLメール表示をオフにしている', 'input':'コノ メルマガワ HTML ケイシキデス。HTML メール ヒョージヲ オフニシテ イル'},
この作業の元になっているのは Dropbox nvdajpTeam / braille / 点字表記辞典-あ行-「お」.xlsx 「点字の正誤」と「読みの正誤」が両方とも間違っているものを優先しています。
まず harness.py に追加をして、テストを実行して、エラーの数が 0 にならないことをまず確認する。
それからエラーが 0 になるように辞書やルールを修正します。 harness 以外の修正作業は、あまり他の人にお任せできる状況になっていないので、 説明は省略しますが、
チケット #29508 日本語テキスト解析の辞書登録機能
https://sourceforge.jp/ticket/browse.php?tid=29508&group_id=4221
と同じ方法で解決できる場合もあります。
どうしても修正できない場合はテストをコメントアウト(将来の課題として保留)する場合もあります。
次のテスト版で点字表記辞典 あ行「い」関連の改善をいくつか反映させる予定です。
https://github.com/nvdajp/nvdajpmiscdep/issues/23
リリースノートの都合上このチケットは 2016.2jp における改善点に限定したいと思います。
もうすこし作業を進めることにしたのでタイトルを変更:
https://github.com/nvdajp/nvdajpmiscdep/issues/23
点字表記辞典 あ行「い」「う」「え」「お」関連
2013.1jp の点訳エンジンで、点訳のてびき第3版「固有名詞」の規則は最低限の実装しかできていません。
現状では、テキスト解析の結果で人名(姓、名)と判断された形態素については規則を適用しています。
以下の方針で検討します。