画像や文章、音楽を生成するジェネレーティブAIが社会に大きな変革をもたらす

ホーム M's Journal コラム画像や文章、音楽を生成するジェネレーティブAIが社会に大きな変革をもたらす

画像や文章、音楽を生成するジェネレーティブAIが社会に大きな変革をもたらす

コラム

#AI #ChatGPT #Midjourney

- 2023.2.14

2022年、あるAIが大きな話題を集めました。2022年7月に公開された「Midjourney」というAIです。内容は希望する画像のキーワード（プロンプト）を入力すると、数十秒後に4枚のイラストが生成されるというもの。

このAIはキーワード検索し、合致する画像を生成しているのではありません。AIが既存の画像を学習し、新たな画像を生成しているのです。プロンプトを入れるだけで絵心のない人でも、自分だけの絵が作成できる手軽さとそのクオリティの高さに、多くの人が利用しました。

データから学習し、まったく新しいアウトプットを生み出すこのようなAI技術は「ジェネレーティブAI」と呼ばれています。今回はクリエイティブ領域を中心に大きな変革をもたらすジェネレーティブAIの可能性と課題について紹介します。

アート界すら揺るがす画像生成AIの驚くべき性能

2022年8月、「Midjourney」に続いて「Stable Diffusion」というAIがリリースされました。こちらも、プロンプトを入力して画像を生成するジェネレーティブAIですが、なんとオープンソースとして公開されたのです。つまり自分のPCでジェネレーティブAIを利用でき、自由に画像を生成できるようになりました。

Stable Diffusionに、「古ぼけた金属製の竜のレリーフ（Old metal dragon relief）」というプロンプトを入力してみたところ、数十秒でどこかの建造物の写真かと思うような驚くべきクオリティの画像が生成されました。

Stable Diffusion 2.0のデモサイトで生成された画像

現在、ジェネレーティブAIによる画像が多数公開されていますが、とうとう衝撃的な出来事が起こりました。アメリカで開催されたファインアートコンテストでは、なんと「Midjourney」で生成した画像が優勝してしまったのです。AIの手による作品であることを明記した上での受賞ではありますが「アートとはなにか」「芸術家とはなにか」という議論にまで発展し大きな物議を醸しました。

人間のようにチャットで会話できるテキスト生成AI「ChatGPT」

ジェネレーティブAIが活用される分野は画像生成に留まりません。2022年11月30日に公開された「ChatGPT」は文章生成AIです。あのイーロン・マスクらが設立したOpenAIという企業が開発しました。「ChatGPT」は「GPT-3.5」と呼ばれる大規模言語モデル(LLM＝Large-scale Language Model)をベースにしており、人間相手のように話しかけると、それらしい回答をしてくれるというものです。

例えば、「ジェネレーティブAIがニュースの原稿を書いていることについてどう思う？」と「ChatGPT」に入力したところ、以下のような文章が返ってきました。

「ジェネレーティブAIがニュースの原稿を書くことは、効率的な情報収集・整理の一助となる可能性があります。しかし、ジェネレーティブAIが生成する内容は人間のジャーナリストによって確認・検証・修正される必要があります。ジャーナリストが持つ判断力や創造性は、ジェネレーティブAIが代替することはできません。従って、ジェネレーティブAIがニュースの原稿を書くことは、ジャーナリストの仕事を補完することができるが、代替することはできないと考えられます」

「日本語を英語に翻訳」→「生成した文章を英語から日本語に翻訳」というプロセスを経ているにも関わらずこのクオリティです。内容、日本語の言い回し共に、ほとんど人間と区別がつきません。

「ChatGPT」は公開からわずか5日間で100万ユーザーを突破するほど注目を集めています。会話だけでなく、レポート作成、プログラミング、小説すら書くことも可能です。

スタンフォード大学で調査したところ、すでに約17％が課題や試験に「ChatGPT」を使っているとの調査結果が出ました。さらに「ChatGPT」にアメリカの名門大学院レベルの試験を複数受けさせたところ合格したというのですから、ジェネレーティブAIを利用するのも頷けます。

ビッグテックもジェネレーティブAIに注目

ジェネレーティブAIはビジネスシーンでも熱い視線を集めています。「Stable Diffusion」の開発元である「Stability AI」は2022年10月に1億100万ドルを調達し、評価額は10億ドル規模になりました。「ChatGPT」の開発元であるOpenAIには、マイクロソフトが今後数年で100億ドルの投資をする予定です。

グーグルは「ChatGPT」の登場を深刻な脅威と受け止めたようで、社内に対して事業への深刻な影響への警戒を示す「コード・レッド」を宣言したと報じられています。「Gmail」の開発を主導したPaul Buchheit氏は「グーグルは完全な崩壊まであと1、2年かもしれない。AIは、彼らが最も稼いでいる場所である検索エンジンの結果ページをなくすでしょう」とツイートしています。

中国の検索エンジンサービスである「Baidu」も「ChatGPT」のような自動応答アプリを投入するという報道も出ています。将来の検索は、質問を入れてウェブサイトを探し回るのではなく、ダイレクトに回答してくれるようになるのかもしれません。

ジェネレーティブAIが引き起こしている課題、議論

新しい技術が登場すると賛否両論出るのが常ですが、ジェネレーティブAIは注目度と影響力が大きい分、議論がヒートアップしています。

著作権の所在が曖昧に

例えば、画像生成AIでは著作権に関して意見が分かれています。

画像生成AIは大量の写真や画像を学習していますが、元になった画像についての著作権をどう考えるか、という点です。AIの開発者たちはこれらの画像を使って学習することはアメリカの著作権法における「フェアユース」や日本の著作権法における「情報解析」にあたると考えています。

アーティスト側としては、無断、無償で作品を利用されているということに反発する意見もあります。アメリカでは3人のアーティストが「Midjourney」や「Stable Diffusion」の開発元に対して訴訟を起こしています。

他にも、画像生成AIで生成された画像に著作権が発生するか、生成された画像が既存の著作物に似ていた場合、権利の侵害となるのか、などの議論もあります。

正確性の担保や製作者の判別が困難

テキスト生成AIでは、まず回答が真実とは限らない、という課題があります。

質問によっては間違っていたり、でたらめの内容なのですが、文章構成が本物っぽく見えるのです。回答の中で、引用したという論文が存在しない、といったこともあります。

また、真逆の問題として、あまりにも簡単に質問に対する回答が得られるので、「ChatGPT」で学校の宿題を済ませてしまうケースが増えているのです。大学でも論文を「ChatGPT」で作成する人がおり、しかも学生本人が作成したものより質が高いこともあるそうです。

ノースウェスタン大学はシカゴ大学の研究チームと協力して、テストを行いました。「ChatGPT」で生成した論文と人の手による論文をわからないように読んでもらったのです。その結果、ジェネレーティブAIが生成した論文のうち68％を見破りました。つまり、32％を見逃したのです。ちなみに、本物の論文の14％をAI作だと誤判定しています。人間を超えるもしくは同等とまではいきませんが、近いレベルに到達していることがわかります。

ディープフェイクやサイバー犯罪など悪用の懸念

音声生成AIを開発するElevenLabsというスタートアップが、2023年1月、音声データを学習させることで、その人の声で文章を読ませることができるツールを公開しました。

当然予測されることですが、有名人の声で様々な差別用語を読ませた音声がSNSや掲示板に投稿されたのです。中には、イギリスの女優であるエマ・ワトソンにヒトラーの著作「わが闘争」を読み上げさせる人まで出てきました。

もちろん、個人の声を学習させてディープフェイク音声を作ることも可能です。本人の映像にジェネレーティブAIで生成された音声を乗せれば、説得力のあるフェイクニュースを作るのも簡単です。日本であれば、オレオレ詐欺に家族の声を使われた場合、信じやすくなるため被害が拡大する懸念があります。

手軽に実用レベルのデータを生成できるジェネレーティブAIですが、当然サイバー犯罪者も利用することができます。すでに「ChatGPT」を使い、説得力の高いフィッシングメールの文面を作ったり、マルウェアのプログラムを作成しているケースが報告されています。

ジェネレーティブAIが当たり前の時代に

ジェネレーティブAIについての研究は何年も前から様々な企業が行っていますが、一般ユーザーが自由に使えるソリューションが公開され、多くの人がその利便性に気が付きました。ここからは激動の時代に突入することになります。

AIによる生成物について色々な課題や議論はありますが、もう前の時代に戻ることはできません。色々と法整備も進んでいくとは思いますが、完全に規制することはできないでしょう。

しかし、これまでも新たな技術が登場し、問題視され、その後社会に適応してきました。

2000年初頭、音楽の違法ダウンロードが問題視されていましたが、今ではわざわざそんなことをせずとも、「Spotify」や「Apple Music」で何千万曲もの音楽を楽しめます。DVDをレンタルしてきて違法コピーすることも流行りましたが、今では「Amazon Prime Video」や「Netflix」でコンテンツを視聴できます。

テキスト生成AIにより、それらしいテキストが自動生成されて悪用されるという懸念に対しては、2023年1月31日、「ChatGPT」を開発しているOpenAI自身が判別ツール「AI Text Classifier」をリリースしました。試しに、「ChatGPT」で生成した文章を読み込ませたところ、AIで生成されたものと判定しました。

生成物が完璧でない、という課題も解決していくでしょう。そもそも、完璧である必要などあるのか、という意見もあります。

ご存じの通り人間でさえ必ずしも正解を出せるとも限りません。大体合っているのなら、それで充分という用途も多いはずです。もちろん、ユーザーには生成された成果物の真偽を見抜くリテラシーがある程度求められることになるでしょう。

ジェネレーティブAIに関しては、入力するプロンプトを工夫する必要があります。すでに、画像生成AIで使った呪文を販売している人もいます。将来、狙ったデータを生成するプロンプトを作るというスキルが重要視される時が来るかもしれません。

ジェネレーティブAIが社会に浸透し大きな変革の起爆剤となる

2025年には、ジェネレーティブAIは平均的な人と同レベルの文章やデザインを生成でき、文章でプログラミングできるようになると予測されています。動画や3Dデータの生成もある程度できるようになるでしょう。2030年、たった7年後とは言え、予測は困難ですが、現在とは比べ物にならないくらいのクオリティで様々なデータが生成できるようになっていることは確実です。

ジェネレーティブAIで生成されるデータはこれから爆発的に増え、社会を大きく変えていくことになります。ジェネレーティブAIのすごさは触ってみないとわかりません。

まずは、画像生成AIやテキスト生成AIを使ってみることをお勧めします。衝撃を受けること請け合いです。

著者：ITライター柳谷智宣