国立国会図書館(NDL)、国立情報学研究所(NII)における大規模言語モデル構築を目的とした、官庁出版物の全文テキストデータ提供について合意
2025年10月1日、国立国会図書館(NDL)は、官庁出版物のデジタル化画像から光学文字認識(OCR)技術により作成した約30万点分の全文テキストデータの提供について、9月5日に国立情報学研究所(NII)と合意したことを発表しました。
今回の合意に基づき提供した官庁出版物の全文テキストデータ(主に1995年までに刊行された図書のほか、雑誌、官報を含め、合計約30万点分)は、NIIにおける大規模言語モデル(LLM)の構築を目的とした、LLMの学習用データとして利用される予定です。
なお、本件はNDLとNIIの間で締結した「国立国会図書館及び学術情報センターの相互協力に関する協定」に基づく協力の一つです。
国立情報学研究所における大規模言語モデル構築への協力について(NDL, 2025/10/1)
https://www.ndl.go.jp/jp/news/fy2025/251001_01.html