【MarkItDown】Office/PDFをMarkdown化してRAG前処理に使う
2026年4月1日 21:25
はじめに
この記事は、Microsoftの MarkItDown を使ってOffice/PDFファイルをMarkdownに変換する手順をまとめたものです。
RAGやLLM向けの前処理では、PDFやWordのまま保持するより、見出しや表をある程度保ったテキストにしておくと扱いやすくなります。今回は uv を使って最小構成で導入し、複数ファイルをまとめて .md に変換するところまで確認しました。
検証には各機関が公開しているファイルをお借りしています。
なお、先に結論を書くと、MarkItDownはRAGや検索の補助には有効ですが、元ファイルの完全な代替にはなりません。md を作れたか...