Ticket #39727

実行結果の文字化けについて

Date d'ouverture: 2019-11-06 08:53 Dernière mise à jour: 2019-11-13 08:43

Rapporteur:
Propriétaire:
État:
Ouvert [Owner assigned]
Composant:
(Aucun)
Jalon:
(Aucun)
Priorité:
5 - moyen
Sévérité:
5 - moyen
Résolution:
Aucun
Fichier:
Aucun

Détails

素晴らしいソフトウェアをご提供頂きましてありがとうございます。

現在、Nhocr を利用させて頂いておりますが、 多くの画像データに対してはそれっぽい結果が出てくるのですが まれに、日本語の文字が全く出てこずに 記号のみが出力結果として出てくる事があります。

部分的に記号が出てくるのは仕方がないと思っておりますが 数百文字ある日本語の文書をスキャンした結果なので どこか使用方法がまずかったのかなと思っております。

全体的に日本語として全く認識されない場合に 何か対処方法などの様なものはございますでしょうか?

お手数をおかけして恐縮ですが ご回答頂けましたら幸いです。

よろしくお願い申し上げます。

Ticket History (3/3 Histories)

2019-11-06 08:53 Updated by: satstnka
  • New Ticket "実行結果の文字化けについて" created
2019-11-06 10:36 Updated by: hgot
Commentaire

入力画像を見てみないと原因が判りませんが、罫線やルビなどの装飾、周囲にノイズとなる枠などが含まれていないでしょうか。NHocr単体ではシンプルな文字行しか扱えません。他のツールで二値化した画像でうまく動くなら、二値化処理に失敗するような背景ノイズがあるかもしれません。

2019-11-13 08:43 Updated by: None
Commentaire

hgot への返信

入力画像を見てみないと原因が判りませんが、罫線やルビなどの装飾、周囲にノイズとなる枠などが含まれていないでしょうか。NHocr単体ではシンプルな文字行しか扱えません。他のツールで二値化した画像でうまく動くなら、二値化処理に失敗するような背景ノイズがあるかもしれません。

ご回答ありがとうございます。 実行前に mogrify -despeckle などでノイズ除去をあらかじめ行なう様にすると 状況が改善しました。

Attachment File List

No attachments

Modifier

You are not logged in. I you are not logged in, your comment will be treated as an anonymous post. » Connexion