ノーマルビュー

Received — 2026年3月19日 Zennのトレンド

43サイトの専用パーサーを実装して分かった、日本のWebサイトの「闇」と「光」

著者: ビット
2026年3月17日 16:55
はじめに Web Reader APIという、URLを投げるとAI要約付きのMarkdownを返すAPIを開発しています。 https://rapidapi.com/bitsap/api/webreader-ai Readability(Firefoxのリーダーモードに使われている汎用抽出エンジン)だけでは日本のサイトに対応しきれず、43サイトの専用パーサーを実装することになりました。 この記事では、各サイトのHTML構造と格闘する中で遭遇した技術的なハマりどころ、設計判断、そして「なぜ汎用パーサーでは日本のサイトがうまく抽出できないのか」を赤裸々に書きます。 なぜ汎用パーサーで...

💾

❌