ホームForesight JournalコラムAI開発に立ちはだかる「著作権」「プライバシー」の壁

AI開発に立ちはだかる「著作権」「プライバシー」の壁

今年前半に主要メディアを席巻した、ChatGPTに代表される生成AIですが、最近ではその騒ぎもだいぶ沈静化してきたようです。ただ、これはAIへの関心が薄れたということではなく、世間に広く浸透したということでしょう。一般向けのメディアでも、「ChatGPTに聞いてみたら?」などという話が普通に伝えられるようになりました。当初の「人間を置き換えるのでは」的な恐怖も薄れ、「思ったよりたいしたこと無い」「使いようによっては便利」といった、冷静な評価に落ち着きつつあるようです。

もっともIT業界では、海外を中心として依然として人材や資金の流入が活発で、ChatGPTが切り開いた可能性を将来のビジネスに繋げようと、多くのスタートアップが生まれています。表面的には落ち着いたように見えても、その裏では「第2幕」への準備が着々と進んでいるのです。

しかし、ここへ来てAIの進化をスローダウンさせかねない、大きな問題が表面化してきました。それは、AIの研究やトレーニングに必要不可欠な「学習データ」の著作権/プライバシーを巡る問題です。この問題は、以前から一部では懸念されていましたが、生成AIが急速に進化したことで、データ提供側が危機感を持ったということでしょう。欧州では学習データに個人情報が含まれる可能性があるとして一部で利用が禁止されたり、最近では米ニューヨークタイムズがAI学習への記事の無断使用を禁止するなど、データ提供サイドからの具体的な行動が起きてきています。

著作権やプライバシーを守ることはもちろん重要ですが、それが行き過ぎるとAI研究が停滞してしまうのではないかという懸念があるため、ベンダーや各国政府は対応に乗り出しています。その一方で、日本はAI研究に対して比較的寛容な法体系になっていると言われており、それがAI研究の推進や海外ベンダーの呼び込みにおいてプラスに働いています。今後それがどのように変わっていくのかということを含め、注目しておくべき問題でしょう。

生成AIが自然な文章を生み出す仕組み

言語系の生成AIの基本的な仕組みは、ネット上の膨大なテキストデータを使い、言葉と言葉の間の関連性をあらかじめ学習しておき、そのルールに従って「自然な」回答を作り出す、というものです。

たとえば、日本で「『我輩は』の後に続く言葉は何でしょうか?」と聞けば、多くの人は「猫」と答えるでしょう。これは、日本であれば皆が学校でこの小説について学んでいるため、いわば「世間の常識」になっているからです。生成AIのトレーニングとは、AIに「世間の常識」を持たせるためのプロセスと言っても良いかも知れません。言語系の生成AIでは、トレーニングのためにネット上のテキストデータを使います。ネットから収集した膨大なテキストデータを繰り返し学習することで、「我輩は」の後に来るのはほとんどの場合「猫」だな、という「常識」を得るのです。これを繰り返すことで、ネット上の「豊富な知識」を背景にした「自然な」回答を生み出すことができます。

画像系の生成AIでも基本は同じで、ネット上の様々な画像・映像を使ってそれらに共通する特徴を学習させます。生成AI側からしてみればやっていること(演算)は同じで、実際に多くの生成AIはテキストも画像も取り扱える「マルチモーダル」になっています。どちらも入ってくるデータを適切に分割してそれらに共通する特徴を抽出して活用するだけなのですが、その結果が人間にとっては意味のあるものになっている(言い換えれば、そういった「人間にとって意味のある」結果を出すモデルが良いAIモデルとされて実用に供される)わけです。

ところで、「我輩は..」の質問を海外で聞いた場合には、まったく異なる回答になるでしょう。学習データには地域差があるということでもあります。また、ネットの情報が不正確な場合や意見が分かれている場合にはAIが間違ったことを答えたり、回答に迷うことになります。これらはAIが何故間違うかという問題の本質ですが、本記事の趣旨からは外れますので、別コラムをご確認下さい。

生成AIのトレーニングデータを巡る著作権/プライバシー問題

そこで問題になるのが、トレーニング用データの著作権/プライバシーです。ネット上のすべてのデータには著作権があり、それをそのまま(あるいは加工して)使う場合には出典を記載するなど適切な表示を行わなければなりません。また、特に欧州では、ネット上の個人データの取扱いには厳しく臨んでいます。

しかし言語系の生成AIにおいては、上述の通りデータは「言葉と言葉の関連を学ぶために」使われるのであり、データの内容がそのまま使われるわけではありません。そもそも、トレーニングの間に文章は単語や助詞に分解されてその関連性が数値化されるだけであり、生成AIが生み出す回答のどの部分に元のデータが使われているかなどは誰にもわからないのです。これは画像系も同様です。

ただし、場合によっては学習されたデータそのもの(もしくはその一部)がそのまま生成されたテキストに含まれることもあり得ます。その際、著作権やプライバシーはどうなるのかについての統一した見解が必要とされているのです。それに、学習のための元データは誰か(人間)が生み出したものであることは明らかです。それを使って何かサービスを生み出したり、利益を上げたりするのであれば、元データの提供者に何らかの還元がなければならないのでは無いか、という議論が起きるのは当然とも言えるでしょう。冒頭にご紹介したニューヨークタイムズの動きは、コンテンツ生成側が具体的な動きに出たものとして注目されます。

当局が規制の検討に着手

これらの問題は以前から指摘されていたことではありますが、ChatGPTが注目されたことから議論が活発化しており、5月に行われたG7広島サミットでも「広島AIプロセス」の中で議論されました。もっとも、著作権に関する考え方は国によってバラつきがあるため、2023年中に基本的な方向性を出す、といった合意がなされた段階で、今後のプロセスには時間がかかる恐れがあります。

もしも、この議論が長引いたり、規制を強化しすぎると、生成AIの開発に支障が生じたり、その進化を阻害する可能性があります。そのため、AIベンダー側からも一定の自主規制案が提案されるなど、積極的にこの問題に取り組み、一定の合意の元でAI研究を進めたいという姿勢も見られます。

学習へのデータの利用を認めている日本

その中で、日本の立ち位置は他国と違う若干特殊なものになっています。現在の日本の著作権法は、AI学習へのデータの活用を認めているのです。著作権法は2018年に改正されましたが、このときに明示的にAIによる学習へのデータ利用が認められています。これは世界的に見ても珍しいと言われていますが、AI研究を促進するためであるとか、日本人は元々ロボットやAIに親近感を持っているためなど、さまざまな理由が取り沙汰されています。

ひょっとすると、これは日本にとって大きなチャンスかも知れません。今後、海外との整合性をとりながら規制は厳しくなっていくことが予想されますが、それまでの間、日本は世界の最先端を走れる可能性があります。これが日本でのAIの普及に繋がれば、これまで遅れていた日本のDXを推進する起爆剤になることも期待できるのではないでしょうか。

<関連コラム>
生成AI最前線 日常からビジネスの場までAIが拓く未来とは
凄まじいスピードで進化する「ChatGPT」の現在地と未来
AIが変える検索体験
画像や文章、音楽を生成するジェネレーティブAIが社会に大きな変革をもたらす
「AIが人間の仕事を奪う」は本当?AIがもたらすビジネスの変革

こちらのコラムに関するお問い合わせをご希望の方は、以下のフォームにご入力ください






    プライバシーポリシーに同意の上、送信ください。
    reCAPTCHAで保護されています。プライバシー利用規約

    インターネットからのお問い合わせ
    総合窓口へのお問い合わせ