生成AI最前線 日常からビジネスの場までAIが拓く未来とは
生成AIの存在感が日増しに増大しています。2022年11月にOpenAIがリリースした「ChatGPT」は、わずか2か月間でユーザー数が1億人を突破しました。現在はスマートフォン向けの「ChatGPT」アプリもリリースされ、ユーザー数をさらに増やしています。
「ChatGPT」のブレイクを目の当たりにしたGoogleは社内に「コードレッド」を発令し、追いかけるようにテキスト生成AI「Bard」をリリースしました。マイクロソフトはOpenAIに巨額の出資を行い、その代わりにChatGPTと同じ大規模言語モデルGPT-4をベースにした「BingAIチャット」をリリースしています。
現在、テキスト生成AIのベースになっているのがディープラーニングにより構築された大規模言語モデル(Large Language Models=LLM)です。
「ChatGPT」は「GPT-3.5」や「GPT-4」、Googleの「Bard」は「PaLM 2」といったLLMをベースにしています。AIスタートアップのAnthropicは「Claude 2」というAIモデルをリリースし、最新のGPT-4と比べて3倍ものテキスト量を扱えるようになっています。
オープンソースのLLMも相次いで開発されています。Meta(元Facebook)は「LLaMA」というLLMをオープンソースで提供しています。この技術を使い様々な大学が研究を重ね、AIモデルを公開しています。
最近は日本でも日本語に特化した和製LLMがリリースされています。サイバーエージェントやrinna、LINEなどがオープンソースで公開するほか、NECや富士通、ソフトバンクもLLMの開発を進めているのです。
まさに、生成AIの群雄割拠時代が始まったと言ってよいでしょう。
シンプルなプロンプトからハイクオリティな画像を生成する技術も進化しています。
さらにAIによる便利機能もどんどん開発されています。
例えば、以前の画像生成AIは手の描写が苦手でした。指が曲がっていたり、6本あったりするのです。他の部分が綺麗に描かれていても、NG部分があれば以前は生成し直すしかありませんでした。しかし今はNG部分を塗りつぶし、その部分のみを再生成できるのです。もちろん周囲と違和感のないように書き直してくれるのです。
「Midjourney」にシンプルなプロンプトを入れるだけでこのようなリアルな写真が一瞬で生成されます。
他にもズームアウトという機能では、被写体から離れたような処理が行えます。もちろん上下左右に新しく追加される部分は生成AIが描き足します。低解像度の画像を高解像度にアップスケーリングするツールは昔からありますが、単にピクセル数を増やすだけでなく、AIを使うことで画質をアップできるツールも登場しました。
先日は東急グループが出した電車のドアに貼られている広告も話題になりました。
使用している画像は「Midjourney」で出力したもの。キャッチコピーには「街をハックする仕事」を掲げ、やりがいある仕事にあふれる職場URBANHACKSで、楽しく働く2人のエンジニア」という、画像生成時のプロンプトが使用されました。
画像だけではなく動画生成AIも話題になっています。
「Runway」というサービスでは、テキストや画像を入力することで数秒間の動画を生成できます。現時点ではクオリティも低く長時間の生成は無理ですが、画像生成AI同様あっという間にブレイクスルーしていくことでしょう。
アップロードした人物画像に入力したテキストを喋らせるAIもあります。静止している画像をアップロードしたのに、表情や頭をテキストに合わせて動かしながら、合成音声を再生できるのです。
技術はどんどん多方面に広まっています。例えば、イギリスではビデオ会議をしているときに、聞こえてきた相手のタイピング音から、どのキーを押しているのかを推測するAIも研究されています。
自分の声を入力することで音声をクローンするAIも出てきました。これらのAIサービスを組み合わせると、色々なことができそうです。もちろん良いことばかりではありません。
ある日、女性の元に電話がかかってきました。出てみると、娘が「悪い人たちに捕まったの、助けて!」と叫んでいます。犯人の男は身代金100万ドルを要求してきました。
結局、娘とは数分後に連絡が取れ、偽装誘拐詐欺だったことがわかりました。しかし、母親は明らかに叫び声は娘の声だったと言っていたそうです。
クローン音声の再現度はとても高く、焦っているシチュエーションでは信じてしまうことでしょう。今後は日本のオレオレ詐欺も、ターゲットの子供や孫の声を使うようになるのかもしれません。
とは言え一度世に出た技術が引っ込むことはありません。デメリットがあったとしても、それを上回るメリットがあれば社会に広まっていきます。車が普及して運動不足になっても、ワープロが普及して漢字が書けなくなっても、それをなくそうとは思わないのと同じことです。
ホワイトワーカーの多くの仕事はAIに代替されていくでしょう。従来は、AIに仕事が奪われると言っても失笑されていましたが、第4次AIブームでは確実にAIの存在感が増していきます。
将来は仮説や新たなアプローチを自動で生成し、検証まで自動でやってくれるようになるかもしれません。
同様にプログラマーも大きな転換期を迎えます。プログラムを生成できるAIも登場しているのです。ChatGPTでもβ機能として提供されている「コードインタプリタ」を利用すると、pythonというプログラミング言語でコードを生成できるようになっています。
とは言えまだAIは万能ではなく、社会に大きなインパクトを出すのはもう少し先のことになります。
それでも今すぐに生成AIを使う必要があります。
必ずしも「ChatGPT」でなくてもいいのですが、生成AIとは何か、どう使えば業務に活きるのか、という勘所を押さえておかなければならないのです。
AIは将来ではなく進行形で社会に広がり始めています。
Windows 11ではエッジブラウザにAIチャットシステムを組み込んだ「BingAI」が搭載されただけでなく、年内にはWindowsそのものにも「Window Copilot」が搭載されます。自然言語でチャットするようにWindows 11を操作できるのです。
メールにもチャットにもSNSにもAIが搭載されます。オールインワン・ワークスペース「Noiton」やオンライン・ワークスペース「Miro」といったサービスも生成AIを搭載しました。
今後生成AIを誰もが使う世界になった時に、そこからAIスキルを学ぼうとするのでは遅すぎます。今からビジネスで生成AIを使うことで、自然とAIスキルを身に付けておくことをお勧めします。現時点で確実に業務効率を改善できるので、コストパフォーマンス・タイムパフォーマンスは高いこと請け合いです。
凄まじいスピードで進化する「ChatGPT」の現在地と未来
AIが変える検索体験
画像や文章、音楽を生成するジェネレーティブAIが社会に大きな変革をもたらす
「AIが人間の仕事を奪う」は本当?AIがもたらすビジネスの変革
「ChatGPT」のブレイクを目の当たりにしたGoogleは社内に「コードレッド」を発令し、追いかけるようにテキスト生成AI「Bard」をリリースしました。マイクロソフトはOpenAIに巨額の出資を行い、その代わりにChatGPTと同じ大規模言語モデルGPT-4をベースにした「BingAIチャット」をリリースしています。
AIブームに伴い盛り上がるLLM開発
様々な生成AIが雨後のタケノコのように登場しており、現在はまさにAIのカンブリア爆発状態と言っていいでしょう。AIのブームはこれまでに何度も起きており、2000年ごろからのマシンラーニングによるAIの発展は第3次AIブームと呼ばれています。爆発的にAIが進化し始めた2022年は、第4次AIブームの始まりとなります。現在、テキスト生成AIのベースになっているのがディープラーニングにより構築された大規模言語モデル(Large Language Models=LLM)です。
「ChatGPT」は「GPT-3.5」や「GPT-4」、Googleの「Bard」は「PaLM 2」といったLLMをベースにしています。AIスタートアップのAnthropicは「Claude 2」というAIモデルをリリースし、最新のGPT-4と比べて3倍ものテキスト量を扱えるようになっています。
オープンソースのLLMも相次いで開発されています。Meta(元Facebook)は「LLaMA」というLLMをオープンソースで提供しています。この技術を使い様々な大学が研究を重ね、AIモデルを公開しています。
最近は日本でも日本語に特化した和製LLMがリリースされています。サイバーエージェントやrinna、LINEなどがオープンソースで公開するほか、NECや富士通、ソフトバンクもLLMの開発を進めているのです。
まさに、生成AIの群雄割拠時代が始まったと言ってよいでしょう。
画像生成AIも乱立、動画の生成もできるように
2022年に登場した「Midjourney」や「Stable Diffusion」といった画像生成AIにもライバルが続々と参入してきています。今やプロンプト次第で写真のような画像を手軽に生成できます。「不気味の谷」などはとっくに超えており、AIによるものと言われても見分けがつかないこともあります。シンプルなプロンプトからハイクオリティな画像を生成する技術も進化しています。
さらにAIによる便利機能もどんどん開発されています。
例えば、以前の画像生成AIは手の描写が苦手でした。指が曲がっていたり、6本あったりするのです。他の部分が綺麗に描かれていても、NG部分があれば以前は生成し直すしかありませんでした。しかし今はNG部分を塗りつぶし、その部分のみを再生成できるのです。もちろん周囲と違和感のないように書き直してくれるのです。
「Midjourney」にシンプルなプロンプトを入れるだけでこのようなリアルな写真が一瞬で生成されます。
他にもズームアウトという機能では、被写体から離れたような処理が行えます。もちろん上下左右に新しく追加される部分は生成AIが描き足します。低解像度の画像を高解像度にアップスケーリングするツールは昔からありますが、単にピクセル数を増やすだけでなく、AIを使うことで画質をアップできるツールも登場しました。
身近にAIを取り入れた例も
画像生成AIのサービスによっては生成物の商用利用が可能で、すでにビジネス利用も進んでいます。例えば、Amazonで「AIグラビア」と検索すると4000件以上の写真集がヒットします。先日は東急グループが出した電車のドアに貼られている広告も話題になりました。
使用している画像は「Midjourney」で出力したもの。キャッチコピーには「街をハックする仕事」を掲げ、やりがいある仕事にあふれる職場URBANHACKSで、楽しく働く2人のエンジニア」という、画像生成時のプロンプトが使用されました。
画像だけではなく動画生成AIも話題になっています。
「Runway」というサービスでは、テキストや画像を入力することで数秒間の動画を生成できます。現時点ではクオリティも低く長時間の生成は無理ですが、画像生成AI同様あっという間にブレイクスルーしていくことでしょう。
画像から音声、文章まで。AIの進化による多彩なツールの登場
テキスト生成AIを利用し、記事を書いたり、キャッチコピーを考えたり、文章を要約してくれるAIサービスが次々とリリースされています。プレゼンのスライドを作ったり、企業ロゴをデザインするAI、録音した音声から文字起こしをするAIや楽曲を生成するAIまであります。アップロードした人物画像に入力したテキストを喋らせるAIもあります。静止している画像をアップロードしたのに、表情や頭をテキストに合わせて動かしながら、合成音声を再生できるのです。
技術はどんどん多方面に広まっています。例えば、イギリスではビデオ会議をしているときに、聞こえてきた相手のタイピング音から、どのキーを押しているのかを推測するAIも研究されています。
自分の声を入力することで音声をクローンするAIも出てきました。これらのAIサービスを組み合わせると、色々なことができそうです。もちろん良いことばかりではありません。
AIを利用した犯罪も
今年春、アメリカでクローン音声を利用した事件が起きました。ある日、女性の元に電話がかかってきました。出てみると、娘が「悪い人たちに捕まったの、助けて!」と叫んでいます。犯人の男は身代金100万ドルを要求してきました。
結局、娘とは数分後に連絡が取れ、偽装誘拐詐欺だったことがわかりました。しかし、母親は明らかに叫び声は娘の声だったと言っていたそうです。
クローン音声の再現度はとても高く、焦っているシチュエーションでは信じてしまうことでしょう。今後は日本のオレオレ詐欺も、ターゲットの子供や孫の声を使うようになるのかもしれません。
とは言え一度世に出た技術が引っ込むことはありません。デメリットがあったとしても、それを上回るメリットがあれば社会に広まっていきます。車が普及して運動不足になっても、ワープロが普及して漢字が書けなくなっても、それをなくそうとは思わないのと同じことです。
生成AIがビジネスに与えるインパクトは計り知れない
大手コンサルティング会社マッキンゼー・アンド・カンパニーのレポートによると、生成AIは今後年間2兆6000億~4兆4000億ドル相当の経済価値を生み出すというのです。日本のGDPに匹敵するインパクトが突然発生するのですから社会への影響も甚大です。ホワイトワーカーの多くの仕事はAIに代替されていくでしょう。従来は、AIに仕事が奪われると言っても失笑されていましたが、第4次AIブームでは確実にAIの存在感が増していきます。
サービス業への影響
導入効果が大きい領域の一つがサポートセンターです。コストセンターと見られることも多い事業ですが、顧客満足度を左右する部門でもあります。AIならば顧客と自然な会話をしつつ、膨大な情報を瞬時に処理し、最適な対応が可能です。24時間稼働できますし、モンスタークレーマーの相手をしても傷つくことがありません。オペレーターの学習コストを含む人件費も削減できます。クラウドベースにすればサポートセンターのオフィスさえ削減できます。マーケティングへの影響
マーケティングに生成AIを活用するのも効果的です。高品質なコンテンツを外注することなく迅速に生成できます。SNSやオウンドメディア、プロモーションなど複数の媒体でも工数を抑えて情報を発信できます。消費者のデータを分析し、より求められているコンテンツを提案し、顧客満足度やリピート率を向上できます。多言語対応も簡単で、グローバルにアピールすることも可能です。研究開発分野への影響
研究開発なら大量のデータをAIで解析することで、有用なインサイトを引き出すことができます。AIを活用すれば論文の調査やデータ入力、基礎解析などが効率的に行えますし、異なる専門領域のデータを統合分析することで、多角的な研究が手軽に行えるようになります。将来は仮説や新たなアプローチを自動で生成し、検証まで自動でやってくれるようになるかもしれません。
クリエイターへの影響
テキスト生成AIの登場により、筆者のようなライターも大きな影響を受けるでしょう。すでにAIで作成した記事がメディアに掲載されるようになっています。英語圏では、記事によっては人間と見分けがつかないレベルになっています。同様にプログラマーも大きな転換期を迎えます。プログラムを生成できるAIも登場しているのです。ChatGPTでもβ機能として提供されている「コードインタプリタ」を利用すると、pythonというプログラミング言語でコードを生成できるようになっています。
士業・事務作業への影響
膨大な資料を扱う士業も生成AIにより大きな業務効率化が実現するでしょう。人件費の高い弁護士が契約書をレビューする時間を短縮できれば、それだけでコストメリットが出ます。複雑な書式や手続きも、一度AIに学習させれば自動化できます。そもそも役所側が生成AIを活用するようになれば、いわゆる「お役所仕事」をなくすことができます。急激に進化し続ける生成AIを今の段階から触っておく必要がある
生成AIシーンはかつてないほどのスピードで進化しています。毎月毎月新型iPhoneがリリースされたり、毎年Windowsのバージョンが上がっていくようなレベルです。しかも次々と新規プレイヤーが参入し選択肢は増える一方です。とは言えまだAIは万能ではなく、社会に大きなインパクトを出すのはもう少し先のことになります。
それでも今すぐに生成AIを使う必要があります。
必ずしも「ChatGPT」でなくてもいいのですが、生成AIとは何か、どう使えば業務に活きるのか、という勘所を押さえておかなければならないのです。
AIは将来ではなく進行形で社会に広がり始めています。
Windows 11ではエッジブラウザにAIチャットシステムを組み込んだ「BingAI」が搭載されただけでなく、年内にはWindowsそのものにも「Window Copilot」が搭載されます。自然言語でチャットするようにWindows 11を操作できるのです。
メールにもチャットにもSNSにもAIが搭載されます。オールインワン・ワークスペース「Noiton」やオンライン・ワークスペース「Miro」といったサービスも生成AIを搭載しました。
今後生成AIを誰もが使う世界になった時に、そこからAIスキルを学ぼうとするのでは遅すぎます。今からビジネスで生成AIを使うことで、自然とAIスキルを身に付けておくことをお勧めします。現時点で確実に業務効率を改善できるので、コストパフォーマンス・タイムパフォーマンスは高いこと請け合いです。
著者:ITライター柳谷智宣
<関連コラム>凄まじいスピードで進化する「ChatGPT」の現在地と未来
AIが変える検索体験
画像や文章、音楽を生成するジェネレーティブAIが社会に大きな変革をもたらす
「AIが人間の仕事を奪う」は本当?AIがもたらすビジネスの変革