OCR後の校正 – コンフィックブログ

東京都立川市のシステム開発会社　株式会社コンフィック

株式会社コンフィックのブログにアクセスいただき、誠にありがとうございます。

株式会社コンフィックでは、各種データ作成・データベース構築を行っております。

紙媒体からの電子データ化（テキストデータ化）の作業時には、紙媒体をスキャンして画像化し、その画像をOCRソフトウェアにてテキスト化することが多いと思います。
そのようなOCRでテキスト化したデータは、OCRの誤認識により、その後の校正作業が大変なケースもあると思います。
数字の「一」と長音記号「―」や、ひらがなの「へ」とカタカナの「ヘ」、「ぴ」と「び」などよく誤認識されている場合があります。
このようなテキストは、人の目で校正してもなかなか見落としがちですが、ツールによりチェックをすると容易に発見できます。

作成したテキストを日本語形態素解析すると、その文字種の違いが明確になったり、誤用であることが明確になったりします。
さらに校正支援ツールにより、チェックをすることで、誤認識を発見することができます。

株式会社コンフィックでは、大量データのOCRやデータベース化の作業経験があり、紙媒体からの電子化の際には、その用途に応じたデータ設計のご提案をいたします。
データ作成、データベース構築でお困りのことがございましたら、お気軽に株式会社コンフィックまでご相談ください。

【関連記事】株式会社コンフィックの「OCR」をテーマにしたブログ一覧

システム開発・運用に関してのご相談、ご用命は、多くの開発経験がある株式会社コンフィックへ
e-portfolio（eポートフォリオ）、クラウドクラス、e-Legislation、システム開発、データ変換サービス　等
お気軽にご連絡ください。

株式会社コンフィック　代表取締役　齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。

月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30