OCR後のテキスト校正


conphic_logo_03
東京都立川市のシステム開発会社 株式会社コンフィック


株式会社コンフィックのブログにアクセスいただき、誠にありがとうございます。

株式会社コンフィックでは、データ作成・データベース構築の作業を行っております。

紙媒体をスキャンして、OCRにかけて電子データを作成した場合、そのOCRの読み取りミスをどれだけ効率的に修正(校正)するかが、大量紙媒体からのデータ化時のポイントになります。
OCRの認識辞書をカスタマイズし、その書籍固有のフォントなどを登録し、OCRの認識率を高めるとともに、認識時の文字種の設定を細かく設定することによって正確なデータを作成することへつながります。
特にOCRが苦手な
「へ(ひらがな)」と「ヘ(カタカナ)」
「二(漢数字)」と「ニ(カタカナ)」
「一(漢数字)」と「-(記号)」
などは注意が必要です。
文字種をうまくチェックする必要があります。

さらにテキスト化後に、テキスト内容をチェックする校正支援ツールにかけて、全体をチェックすることも必要です。

株式会社コンフィックでは、大量文書の紙媒体からの電子化経験があります。
コストを抑えてデータ化するノウハウを有しておりますので、大量の電子化、データベース化をご検討されている方は、お気軽に株式会社コンフィックまでご相談ください。

【関連記事】株式会社コンフィックの「校正」をテーマにしたブログ一覧


システム開発・運用に関してのご相談、ご用命は、多くの開発経験がある株式会社コンフィックへ
e-portfolioeポートフォリオ)、クラウドクラスe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。


株式会社コンフィック 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。