ブラウザだけで完結する日本語OCR＋透視変換（台形補正）を作ってみた

2026年3月5日 23:58

はじめにこれまで日本語 OCR について、サーバーサイドで動かす yomitoku を使った Flask + TypeScript 構成や、ブラウザ上で動く Tesseract.js でカスタムモデルをトレーニングする方法を記事にしてきました。今回はブラウザ完結の日本語 OCR をさらに一歩進めて、斜めから撮影した文書画像を4点指定で台形補正してから OCR にかける仕組みを Pure TypeScript で実装しました。本アプリケーションは国立国会図書館が公開している NDLOCR の軽量版をベースにしており、レイアウト認識（DEIMv2）と文字列認識（PARSeq）の ...