本文へ移動

政府等が保有するデータのAI学習データへの変換に係る調査研究を実施しました

デジタル社会の実現に向けた重点計画(令和6年6月21日閣議決定)に基づき、我が国における大規模言語モデル(LLM)の開発力強化に向けたデータの整備・拡充に取り組んでいます。

令和6年度(2024年度)よりデジタル庁では、内閣府総合科学技術・イノベーション会議(CSTI)のイニシアティブのもと、研究開発成果の社会実装を推進するプログラムである「研究開発とSociety5.0との橋渡しプログラム(BRIDGE)(内閣府) 」に基づき、政府等保有データを日本における生成AIの活用・発展に資する形で提供していくために、どのようなデータを、どのような形式で公開するべきか、また、業務でデータを取り扱う関係者が何を意識すべきかを、近年の技術動向も踏まえた上で示すことを目的とし、AI学習データのニーズ調査を実施しています。

大規模言語モデル(LLM)の性能には、AI学習に利用されるデータの量と質が影響すると考えられています。中央省庁、地方公共団体、その他関係機関等(以下「政府等」という。)が保有・公表している法令、ガイドライン等の逐条解説(コンメンタール)に係る資料、統計データ、その他の周知情報といったデータ(以下「政府等保有データ」という。)の多くは、その正確性や権利、匿名加工処理等が実施されており、AI学習用データとして有用であると期待できます。

一方で、政府等保有データは、そのデータ形式がPDF形式であるなど、直ちにAI学習に用いることが難しい場合も多く、また、データのアクセス権限などによりその活用が難しいものも存在します。

以上を踏まえ、本事業では直ちにAI学習に用いることのできないデータ(PDF形式、画像等)を、AI学習に容易な様式に変換するために必要とされる最新の技術・ニーズの動向調査、データの収集、試行的なデータの変換・提供を行いました。また、変換したデータを実際にAIに学習させることで、これによる効果の検証を行いました。

調査の内容

過去には、単に大量の日本語テキストを公開し、AI学習に利用されることが、大規模言語モデル(LLM)の性能向上に対する中心的な対応策とされていましたが、現時点の生成AI技術の発展動向を踏まえ、「日本固有の背景や情報に答えられるデータ」を継続的に公開することの重要性が確認されました。これを踏まえ、効率的かつ持続的にデータ公開を進めるため、「領域」と「種別」の2軸に基づく優先付けを行いました。以下本調査研究で行った内容です。

データの優先付け

  • 「領域」軸
    1. 類似領域の公開データが不足している
    2. 当該データがAI能力の向上に資する
  • 「種別」軸
    1. 評価用
    2. In-Context学習用
    3. パラメトリックな学習用

優先付けの結果、AIに対する能力評価が適切に行えなければ、学習の効果を客観的に判断できないという理由から、「評価用データ」が最も重要であると整理しました。

高優先度データセットの作成と評価・検証

データの優先付けに基づき、以下の4種類の高優先度データセットを作成し、それぞれに対して評価・検証を行いました。

  1. 法令と凡例を紐づけた情報に基づく多肢選択問題データセットを用意し、「生成AIに十分な情報を与えた場合に法解釈ができるか」を評価しました。
  2. 生成AIの作文能力を実際の弁護士の作文業務の評価基準で機械的に評価できるかを検証するためのデータセットを用意し、「実務的作文能力および評価基準の妥当性」を検証しました。
  3. 複数の図表を含むスライドの解釈力を評価するデータセットを用意し、「複数の図表から一つの主張を導く能力」を評価しました。
  4. 官報などの日本語固有の印刷レイアウトを認識できるかを評価するためのデータセットを用意し、「縦書き・横書き混在や数式を含む印刷形式の処理能力」を評価しました。

優先度の高いデータを持続的に公開していくプロセスの策定

本調査研究では優先度の高いデータを持続的に公開していくプロセスを策定しました。

調査の結果

本調査研究では優先度の高いデータを持続的に公開していくプロセスを策定し、以下の重要性が明らかになりました。

  • データを活用するユーザーニーズの正確な把握
  • データセット作成意図の明示
  • データ公開後の周知活動

また、データ公開事業の担当者には、領域固有の知識やAI学習での使われ方に関する知見が求められることも分かりました。本調査研究の全体像や詳細については報告書に記載しています。

報告書

今後の展望

本調査研究の成果を踏まえ、政府等保有データを日本における生成AIの活用・発展に資する形で提供していくために、どのようなデータを、どのような形式で公開するべきか、また、業務でデータを取り扱う関係者が何を意識すべきかを、生成AI時代にふさわしい形で再定義し、実践してまいります。

シェアする: