コーパス – コンフィックブログ

東京都立川市のシステム開発会社　株式会社コンフィック

株式会社コンフィックのブログにアクセスいただき、
誠にありがとうございます。

株式会社コンフィックでは、大量データの構築や変換処理を行っております。
国立国語研究所のコーパス開発センターでは、様々なコーパス（自然言語の文章を構造化し大規模に集積したもの）が公開されています。
現代語では、日本語の「書き言葉均衡コーパス」「話し言葉コーパス」「超大規模コーパス」等が公開されています。
また、全文検索システムも公開されています。この全文検索システム「ひまわり」の国会会議録パッケージでは、国会会議録検索システムのデータが格納されていますが、株式会社コンフィックでは、この国会会議録の電子データ化に参画した経験があり、作業当時、OCRからテキスト処理を120万ページ以上行いました。
当時のデータが多くの方にコーパスとして活用されていることを嬉しく思います。
この国立国語研究所のWebサイトには日本語研究の多くの成果が好評されておりますので、ご興味のある方はご参照いただければと思います。

【関連記事】株式会社コンフィックの「日本語」をテーマにしたブログ一覧

システム開発・運用に関してのご相談、ご用命は、
多くの開発経験がある株式会社コンフィックへ
e-portfolio（eポートフォリオ）、クラウドクラス、e-Legislation、システム開発、データ変換サービス　等
お気軽にご連絡ください。

株式会社コンフィック　代表取締役　齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。

月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30