生成AIにおける報道コンテンツの保護に関する声明
2025年6月4日
一般社団法人日本新聞協会
日本新聞協会はこれまで、生成AIサービスが報道コンテンツを学習・利用する場合、著作権者の許諾を得るよう求めてきた。コンテンツ保護に関するルールが不十分な状況が続く中で、「robots.txt」などの技術的措置の設定は、権利者が報道コンテンツの無断学習や無断利用を拒否する意思を容易かつ明確に示すことができる上、学習・利用する側も大きな負担なく対応できるという意味で、極めて有効性の高い手段といえる。そうである以上、生成AIの開発やサービス提供、データ収集を行う事業者は権利者の意思表示を尊重するのは当然であり、報道コンテンツを学習・利用するのであれば権利者の許諾を得るのが筋であろう。同時に、政府や国会は、コンテンツの適正な保護に向けた制度整備を急いでもらいたい。
<AI事業者はrobots.txtを順守すべき>
当協会会員社の主要なニュースサイトは「robots.txt」を設定してコンテンツを保護する意思を示しており、新聞・通信社が記事を提供している国内の主要なポータルサイトの多くも同様の設定をしている。AI学習における著作物利用について規定する著作権法30条の4には、権利者が拒否すれば利用を認めない「オプトアウト」の規定はなく、技術的措置に関する明示的な定めもない。しかし、文化庁が2024年3月に示した「AIと著作権に関する考え方について」は、インターネット上のウェブサイト内のデータを含み、情報解析に活用できる形で整理したデータベースの著作物が販売またはその予定が推認される場合において、AI学習に利用するため技術的な措置を回避してコンテンツを収集する行為は、著作権法30条の4ただし書き「著作権者の利益を不当に害する」場合に該当するものとして、著作権侵害になる可能性があると整理した。
最近では、検索拡張生成(RAG)という技術を用い、ウェブ上の検索に連動させてAIが回答を生成するサービスが急速に広がっている。文化庁の「考え方」はこうしたサービスで生成された回答が、著作権法47条の5で定めた軽微利用を超えて元の著作物を利用している場合には著作権者の許諾が必要だと整理した。同条第1項に関する施行規則は「robots.txt」などで元の著作物の収集を禁じている場合は軽微利用の規定が適用されないと定めており、技術的措置を回避してこうしたサービスを展開する場合、著作権侵害に当たる可能性が高い。
一部には「robots.txt」を無視してデータを収集する事業者が出てきており、新聞協会の会員社でも「robots.txt」を設定しているにもかかわらず、記事が参照先として表示されるケースが確認されている。これは看過できない事態であり、権利者が「robots.txt」を設定しコンテンツを保護する意思を示している場合、AI事業者は学習と利用いずれにおいても順守すべきである。
<robots.txtの実効性確保を>
技術的措置の設定に必要な情報が開示されていないため、AIによる報道コンテンツの利用や学習を防げないという課題もある。
「robots.txt」の設定にはコンテンツを収集するクローラーの名前(ユーザーエージェント情報)が必要だが、開示しないで勝手にデータを収集している事業者が少なくない。クローラーの名前を開示しない事業者によるデータ収集行為を放置すれば、文化庁が前述の「考え方」で示したようなコンテンツを保護する方法の実効性は担保されず、権利者として対策を取ることが困難になってしまう。著作権法47条の5は施行規則で「robots.txt」等によるオプトアウトを認めており、RAGによる報道コンテンツの無許諾利用の歯止めとなり得るが、ユーザーエージェント非開示の場合は同様の問題が生じる。AI事業者が直接コンテンツを収集するのではなく、ユーザーエージェントを公表しない別の事業者が収集したデータを購入しているとの指摘もある。
「robots.txt」の設定に不可欠となるユーザーエージェントの公表をAI事業者だけでなく、データ収集事業者全般を対象に義務付けるとともに、権利者側が公表情報を容易に把握できるような制度を早急に設けるべきである。
また、生成AI向けのクローラーと、検索サービス向けのクローラーが分けられておらず、報道コンテンツの権利者が適切に意思表示できない問題も生じている。報道コンテンツへの「道案内」のために検索サービス向けのクローラーは許容する一方、生成AI向けのクローラーは拒否したい場合、対応が困難となっている。報道コンテンツが十分に保護されるよう、生成AI向けのクローラーに限ってブロックできる技術的方式の確立など、権利者の意思を適切に表示できるプロトコルの標準化も欠かせない。
<報道コンテンツの保護に向けた総合的な対応を求める>
政府は、AI新法に関する指針でデータセットの透明性を確保するための情報提供について検討していく方針を示している。総務省と経済産業省による事業者向けガイドラインでは、AI事業者に対する重要な事項として、学習データの適切な収集を挙げている。文化庁の「考え方」によって、著作権とAIに関する考え方の整理も一定程度進んでいるものの、これらによっても報道コンテンツの保護は極めて心もとないと言わざるを得ない。
生成AIに関する技術は日々進歩し、多くのユーザーが生成された回答で満足し、参照元のウェブサイトを訪れない「ゼロクリックサーチ」の問題は深刻化している。大量の記事を収集・分析して回答する「ディープリサーチ」機能や、記事の寄せ集めをそのままウェブサイトとして公開できるサービスなど、報道機関のコンテンツにフリーライドする新たなサービスや機能が日常的に展開されている。
このままでは、コンテンツ再生産のサイクルが損なわれ、報道機関は取材体制の縮小を進めざるを得なくなる可能性がある。生成AIが報道機関に代わり取材・報道を担うことは決してない。ニュース発信の重要な担い手である報道機関の機能が低下すれば、国民の「知る権利」を阻害しかねない。民主主義の在り方などにも関わる極めて重要な問題であり、著作権法や競争法といった従来の枠組みにとどまらない総合的な対応も求められる。
以 上