2024年3月6日
マルチモーダルAIがもたらす人の常識を越えた発想と、新たな価値の創造

マルチモーダルAIがもたらす人の常識を越えた発想と、新たな価値の創造

執筆者 山本 直人

EYストラテジー・アンド・コンサルティング株式会社 テクノロジーコンサルティング AI&データ パートナー

クライアントやビジネス関係者の方々を新しい価値や発見で驚かせ続けたい。座右の銘は「1日1Wow」。

2024年3月6日

関連資料を表示

  • インフラ事業運営の「再公営化」は進んでいるのか?~フランス水道事業の事例から~(PDF)

生成系AIで切り拓く新たな価値創出~本質を知り、激変の時代に向き合う~(2023年12月7日開催)

今やメディアで目にしない日はないほど「生成系AI」「ChatGPT」といったキーワードが注目を集めています。一方、興味はあるけれど果たして何ができるのか、自社でどのように活用すべきかで悩んでいる企業も多いのではないでしょうか。EYが開催したセミナー「生成系AIで切り拓く新たな価値創出~本質を知り、激変の時代に向き合う~」では、生成系AIの本質をひも解き、価値の創出に向けてどう向き合うべきかのヒントが示されました。

要点
  • 生成系AIをまだ使ったことのない企業と、使い倒そうとする企業の差が広がり始めている。
  • マルチモーダルAIは人の常識を越えた多角的な観点を持ち、それをいかに刈り取るかが問われる。
  • 生成系AIは「人」の思考を把握し、さまざまなトピックとの新結合させることで新しい価値を創出する可能性を秘めている。


早くも差が開きつつある生成系AIの活用レベル

流行語大賞でも入賞するほど大きな注目を集める生成系AI。ビジネスパーソンの84.4%が「必要性を感じない」「用途を思いつかない」といった理由から「実際に使ったことはない」とする調査結果がある一方で、いかに使い倒し、競争力につなげていくかを検討する企業もあり、差は広がる一方です。1

EYストラテジー・アンド・コンサルティングのテクノロジーコンサルティング パートナー、山本直人は「新価値創出のメンタリティ 生成系AIの本質を知り、妄想を現地現物に」と題したセッションの冒頭、「現在の世の中の変化の中心に、間違いなく生成系AIがあります」と述べました。

では、肝心の企業の活用度合いはどうでしょうか。「石橋をたたいて渡ろう」と様子見のところがある一方で、個人レベルで活用したり、さらには企業全体の効率化やイノベーションの創出や競争力強化を見据えて使い倒そうとするところまで、活用レベルはまちまちです。

EYストラテジー・アンド・コンサルティング株式会社 テクノロジーコンサルティング AI&Data パートナー 山本 直人

山本はこうした状況を説明した上で、「イノベーティブなテクノロジーを活用し、企業の競争力に仕立て上げていこう、使い倒そうとする企業もたくさんあります。生成系AIの活用をめぐって差は大きく広がっている一方であり、1つのリスクと捉えることもできます」と指摘しました。

今、マルチモーダルAIに着目すべき理由とは

生成系AIはさらに進化を遂げており、中でも山本が注目しているのが「マルチモーダルAI」です。生成系AIの世界は日進月歩です。特に、丸暗記モデルではなく、人間と同じようにテキストと画像をペアで学習し(時には音声、五感をフル活用したインプットによる学習)、物事についての概念を形作ることのできるマルチモーダルAIの登場は、人間の常識を超えた多角的な視点で物事を捉える大きな力になるでしょう。

マルチモーダルAIは、2023年11月にOpenAIが開催した開発者向けカンファレンスでも脚光を浴びました。「この大きなパラダイムの変化を対岸の火事としてとらえるのか、はたまたビジネスにおけるチャンスとしてとらえるのかによって、価値創出のあり方が大きく変わってくるのではないでしょうか」(山本)

では、このマルチモーダルAIとは何でしょうか。

モーダルとは、端的に言えば「人間の感覚器官」のようにとらえることができます。これまでの生成系AIの多くは、言語や画像といった1つの切り口、つまり「シングルモーダル」の形で学習を行い、生成したモデルに基づいて処理をしてきました。

しかし人間はそうではありません。目や耳など五感からインプットし、蓄積された知識に基づいて1つの脳で統合的に判断し、物事を認知していきます。こうした人間に模した処理形態を持つのがマルチモーダルAIで、汎用的な人工知能を目指す上で注目されています。

例えばバナナの画像を認識させようとした時、シングルモーダルAIでは、学習されたデータセットに近い写真やイラストの場合は高い精度で認識できますが、漫画のように目や口をつけたイラストやモノクロの線画になると途端に精度が落ちてしまいます。これに対しマルチモーダルでは、学習データセットから遠い画像についても比較的正確に判断できます。

「シングルモーダルAIの学習方法は、乱暴な言い方をすると丸暗記モデルです。丸暗記したものは応用がなかなか利きません。一方マルチモーダルは、バナナならばバナナというものに対する概念を形成でき、学習データセットから離れた情報も識別できます」(山本)

人間が学習する時、文字だけでなく挿絵や図を組み合わせると一層理解が深まるのと同じように、テキストと画像をペアで学習し、統合的に収縮する形で学ばせることで、モーダルを跨いで正確な判断ができるようになるのです。

ただ、マルチモーダルAIがもたらす価値の本質は、識別精度とは異なる、AIならではのとらえ方にあると山本は言います。例えば「家系ラーメン」という言葉を聞いて人間が思い浮かべるイメージと、画像生成AIが生成する「麺で建てられた家」の画像はまるで異なり、「そう来たか」と驚かされる発想が少なくありません。

「マルチモーダルAIのとらえ方は非常に多角的で、時には人間の常識からは少し距離感のあるものを出してきます。しかし距離感があるからAIの精度が悪いと切り捨てるのではなく、こうした多角的な考え方、観点をいかに刈り取り、人間の常識にフィードバックできるかが、価値を生み出す上でのポイントです」(山本)。こうした活用を通じて、人の知識を増幅させていく「Intelligence Amplification」が実現できるのではないかと考えました。

こうした発想から、EYでは今「マルチモーダルAI」を活用したコンサルティングサービスの構築を進めています。

マルチモーダルAIは、映像や音声などさまざまな角度でインプットを受け、読み取り、解釈を出力するように作られています。EYによる実験にて、「ある倉庫で急ぎ足に荷物を運んでいる男性が、足を滑らせて派手に転んでしまった」という動画をインプットしました。

まずAIに「動画の中の男性の動きに着目をして、状況を説明しなさい」と指示すると、「青い服を着た作業員が、倉庫で物を運んでいる最中に派手に転んでしまい、非常に痛そうにしている」と、人間の脳裏に浮かび上がる印象と非常に近い回答が返ってきます。

次に「動画の中の男性の危険を察知し、危険があれば未然に警告しなさい」というプロンプトを与えます。すると今度は、足元にある水たまりを指摘し、人が歩いてくる前に拭いておくべきだ、といったアドバイスを出力できます。現場での安全なオペレーションにつなげることも可能となります。

人間が動画を見ると、つい主だった人の動きに着目してしまいます。これに対し特製AIは指示に応じて背景も細かく読み取ることができ、「積み荷が崩れそうな状態になっている」「コンテナがマーカーをはみ出して置かれている」といった、見逃してしまいそうな事柄も検知してくれます。

「普通の人間には、さまざまに展開されている情報を短時間で、事細かに全てを認識することは困難です。しかしこういったAIを活用すれば、多角的な視点を持って物事を判断することができます」(山本)。安全管理はもちろん、視覚障害者の支援、あるいは電子顕微鏡画像と組み合わせて素材開発における応用法や事業戦略の検討に活用するなど、さまざまな可能性が考えられると述べました。

人の思考を把握することで広がる新たな価値(UXをシミュレータブルにする取り組み)

生成AIの活用領域は止まるところを知りません。行動をログ化し、そのログを反映したペルソナを読み込ませて人のデジタルツインを作成する実験を通じて、人の思考をより深く理解し、新たな結合を見いだすことで、今までにない価値を生み出せる可能性が見えてきました。

さらに発展的なケースも考えられます。「今紹介したプロトタイプでは、周りに展開されている情景を把握することに取り組みました。その情景の中には人も入っています。その『人』の思考を把握できないか、人のデジタルツインを作れないかという実験です」(山本)

これは、いわゆるマズローの五段階要求で最上位にある「自己実現」に貢献し、ひいてはEYが掲げる「Building a better working world」というパーパスを実現するため、人の思考を読み解き、それに沿って個別最適を図っていく狙いによるものです。

山本は家族の了解を得た上で、自身で撮影した娘の動画を独自に開発したマルチモーダルAIに分析させ「娘ログ」を生成。それをさらにAIにインプットしてペルソナをロードさせ、仮のデジタルツイン(娘モデル)を作成しました。その娘モデルにいろいろ質問してみると、どのようなことに関心を持ち、どんな感情を持っているかなど、実際の娘のペルソナに照らしても違和感のない答えが得られているそうです。

山本はこうした取り組みを踏まえ、「人を理解しないことにはビジネスは成り立ちません。人を知るにはいろいろな切り口がありますが、こうしたやり方で人のペルソナを理解できれば、人の考えのより深い部分にリーチできるのではないでしょうか」と述べました。

ただ、ペルソナを理解し、その言うことを聞くだけでは、ただの御用聞きに終わってしまいます。人の思考を知った上で、さらにさまざまなデータを通して「世の中の流れ」「企業の取り組み」といった事柄も学習させ、結びつけていくことにより、今までになかった「気づき」「Wow」が得られるはずです。ただしプライバシーの問題等、技術面以外にも慎重に検討するべき課題は多々あるところですので、EYとしてもしっかりと検討した上で取り組んでいくべきと考えております。

「人の部分を企業に置き換えれば、新事業の創出という文脈で考えることもできます。こういった価値ある新結合を見いだすところから、まさに新しい価値が生まれてくるのではないでしょうか」と山本は述べました。

EYストラテジー・アンド・コンサルティング株式会社 テクノロジーコンサルティング AI&Data パートナー 山本 直人

残念ながら生身の人間には認識能力に限界があります。一方AIは、人間の把握できる範囲外も含めた総当たりでのアプローチが可能です。「AIが見いだす、人の常識から外れた一手をいかに刈り取れるかが、新しいルール、新しいイノベーション、新しい社会を作り上げる上で、必要な観点になってきます」(山本)

そして最後に、将棋の棋士がAI対局を繰り返し、これまでの定石になかった一手を自分の手に組み入れることで過去に例のない強さを身につけたのと同じように、生成系AI、マルチモーダルAIと向き合い、新たな価値を創出するためにどう前向きに使うかを検討すべき時に来ているとしました。

脚注

1.ジェイ・キャスト「生成AI『使ったことない』84.4%の調査結果 『ChatGPT』仕事で継続利用どころか…(2023年10月18日)」  j-cast.com/2023/10/18471141.html?p=all(2023年10月アクセス)

マルチモーダルAIを活用した新価値創出支援サービス

企業向けに研究・開発をしたマルチモーダルAIと経営コンサルティングの知見を活用することで、企業活動における新たな価値創出するコンサルティングサービスを提供します。

フルバージョンのダウンロードはこちら。

資料をダウンロードする

メールで受け取る

メールマガジンで最新情報をご覧ください。

登録する

関連サービス

テクノロジーコンサルティング

テクノロジーコンサルティングは、IT戦略策定から導入支援に至るまでの包括的なサービスで、テクノロジーとデータを活用した競争力強化を支援します。

AI

人工知能(Artificial Intelligence、以下「AI」)の応用は「より良い」プロセス、「より速い」プロセスにとどまるものではありません。経営やビジネスの成長のための新たな手法を触発するものでもあります。

サマリー

生成系AIは日々進化しています。中でも、複数の種類のデータを処理できるマルチモーダルAIは非常にイノベーティブなテクノロジーです。このマルチモーダルAIが生み出す、人間の常識とはかけ離れたところもある多角的な観点をいかに刈り取るかが問われていくことになります。生成系AIはまた、人のデジタルツインを生成して人の思考をより深く理解し、新しい価値を創出していく上でも役に立つと見込まれます。

EY.ai ― 統合型プラットフォーム(人工知能サービス)

EY.aiは、人間の能力とAIを統合したプラットフォームです。EYは、企業が信頼できる責任ある方法でAIを導入し、自社の変革を促進するための支援を目指しています。
 

 EY.ai 

 

この記事について

執筆者 山本 直人

EYストラテジー・アンド・コンサルティング株式会社 テクノロジーコンサルティング AI&データ パートナー

クライアントやビジネス関係者の方々を新しい価値や発見で驚かせ続けたい。座右の銘は「1日1Wow」。

  • Facebook
  • LinkedIn
  • X (formerly Twitter)