OCRと文字コードチェック


システム開発、XML処理のエキスパート集団 株式会社コンフィック


株式会社コンフィックのブログにアクセスいただき、誠にありがとうございます。

株式会社コンフィックでは、各種データ作成・データベース構築の作業を行っております。

紙媒体からデータ化する際には、誤認識された文字を正しい文字に修正する作業の精度を高めることがとても重要です。
OCRでよく誤認識する文字
「日」と「目」
「一」と「-」
「二」と「ニ」
などは、文字種を明示して確認する必要があります。

また、同じように見えて異なる文字種(文字コード)という文字も多く存在します。
ハイフンなどは、多くの種類があるため、データ作成時の仕様としてどのハイフンを用いるか決めておく必要があります。

新元号令和の「令」についても文字コードが2つ存在します。
日本語環境で入力した際には「U+4EE4」の文字コードが一般的ですが、「U+F9A8」もあるので、OCR時には注意が必要です。

株式会社コンフィックでは、データ仕様・データ設計からデータ化・データベース化、システム開発といった一連のサービスを行っております。
データ化やデータベース構築をご検討されている方は、お気軽に株式会社コンフィックまでご相談ください。

【関連記事】株式会社コンフィックの「文字コード」をテーマにしたブログ一覧


システム開発・運用に関してのご相談、ご用命は、多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ)、クラウドクラス、サイトワンド、e-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。


株式会社コンフィック 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。