ワシントン大学、ボストン大学等の共同プロジェクト“GovScape”、ウェブアーカイブ内のPDFを対象とした検索システムを提供開始
2025年11月19日、米・ワシントン大学、ボストン大学等の共同プロジェクト“GovScape”が、ウェブアーカイブ内のPDFを対象とした検索システムの提供開始を発表しました。
現時点の検索対象は、米大統領任期終了時の政府のウェブサイト(.gov、.milなど)を収集したウェブアーカイブ“End of Term Web Archive”の2020年収集データに含まれるPDFファイル約1千万件(約7千万ページ)です。
GovScapeの検索システムは、次の3種類の検索方式をサポートしています。
・キーワード検索:従来型の検索方式
・セマンティック検索:ベクトルインデックスを用いた最近傍探索
・ビジュアル検索:「(墨塗などの)編集済文書」「円グラフ」「航空写真」などのクエリによる検索
開発の背景として、ウェブアーカイブは、収集に関しては成功しているが、収集データへのアクセスと発見可能性に大きな課題が残っているとしています。