山本はこうした状況を説明した上で、「イノベーティブなテクノロジーを活用し、企業の競争力に仕立て上げていこう、使い倒そうとする企業もたくさんあります。生成系AIの活用をめぐって差は大きく広がっている一方であり、1つのリスクと捉えることもできます」と指摘しました。
今、マルチモーダルAIに着目すべき理由とは
生成系AIはさらに進化を遂げており、中でも山本が注目しているのが「マルチモーダルAI」です。生成系AIの世界は日進月歩です。特に、丸暗記モデルではなく、人間と同じようにテキストと画像をペアで学習し(時には音声、五感をフル活用したインプットによる学習)、物事についての概念を形作ることのできるマルチモーダルAIの登場は、人間の常識を超えた多角的な視点で物事を捉える大きな力になるでしょう。
マルチモーダルAIは、2023年11月にOpenAIが開催した開発者向けカンファレンスでも脚光を浴びました。「この大きなパラダイムの変化を対岸の火事としてとらえるのか、はたまたビジネスにおけるチャンスとしてとらえるのかによって、価値創出のあり方が大きく変わってくるのではないでしょうか」(山本)
では、このマルチモーダルAIとは何でしょうか。
モーダルとは、端的に言えば「人間の感覚器官」のようにとらえることができます。これまでの生成系AIの多くは、言語や画像といった1つの切り口、つまり「シングルモーダル」の形で学習を行い、生成したモデルに基づいて処理をしてきました。
しかし人間はそうではありません。目や耳など五感からインプットし、蓄積された知識に基づいて1つの脳で統合的に判断し、物事を認知していきます。こうした人間に模した処理形態を持つのがマルチモーダルAIで、汎用的な人工知能を目指す上で注目されています。
例えばバナナの画像を認識させようとした時、シングルモーダルAIでは、学習されたデータセットに近い写真やイラストの場合は高い精度で認識できますが、漫画のように目や口をつけたイラストやモノクロの線画になると途端に精度が落ちてしまいます。これに対しマルチモーダルでは、学習データセットから遠い画像についても比較的正確に判断できます。
「シングルモーダルAIの学習方法は、乱暴な言い方をすると丸暗記モデルです。丸暗記したものは応用がなかなか利きません。一方マルチモーダルは、バナナならばバナナというものに対する概念を形成でき、学習データセットから離れた情報も識別できます」(山本)
人間が学習する時、文字だけでなく挿絵や図を組み合わせると一層理解が深まるのと同じように、テキストと画像をペアで学習し、統合的に収縮する形で学ばせることで、モーダルを跨いで正確な判断ができるようになるのです。
ただ、マルチモーダルAIがもたらす価値の本質は、識別精度とは異なる、AIならではのとらえ方にあると山本は言います。例えば「家系ラーメン」という言葉を聞いて人間が思い浮かべるイメージと、画像生成AIが生成する「麺で建てられた家」の画像はまるで異なり、「そう来たか」と驚かされる発想が少なくありません。
「マルチモーダルAIのとらえ方は非常に多角的で、時には人間の常識からは少し距離感のあるものを出してきます。しかし距離感があるからAIの精度が悪いと切り捨てるのではなく、こうした多角的な考え方、観点をいかに刈り取り、人間の常識にフィードバックできるかが、価値を生み出す上でのポイントです」(山本)。こうした活用を通じて、人の知識を増幅させていく「Intelligence Amplification」が実現できるのではないかと考えました。
こうした発想から、EYでは今「マルチモーダルAI」を活用したコンサルティングサービスの構築を進めています。
マルチモーダルAIは、映像や音声などさまざまな角度でインプットを受け、読み取り、解釈を出力するように作られています。EYによる実験にて、「ある倉庫で急ぎ足に荷物を運んでいる男性が、足を滑らせて派手に転んでしまった」という動画をインプットしました。
まずAIに「動画の中の男性の動きに着目をして、状況を説明しなさい」と指示すると、「青い服を着た作業員が、倉庫で物を運んでいる最中に派手に転んでしまい、非常に痛そうにしている」と、人間の脳裏に浮かび上がる印象と非常に近い回答が返ってきます。
次に「動画の中の男性の危険を察知し、危険があれば未然に警告しなさい」というプロンプトを与えます。すると今度は、足元にある水たまりを指摘し、人が歩いてくる前に拭いておくべきだ、といったアドバイスを出力できます。現場での安全なオペレーションにつなげることも可能となります。
人間が動画を見ると、つい主だった人の動きに着目してしまいます。これに対し特製AIは指示に応じて背景も細かく読み取ることができ、「積み荷が崩れそうな状態になっている」「コンテナがマーカーをはみ出して置かれている」といった、見逃してしまいそうな事柄も検知してくれます。
「普通の人間には、さまざまに展開されている情報を短時間で、事細かに全てを認識することは困難です。しかしこういったAIを活用すれば、多角的な視点を持って物事を判断することができます」(山本)。安全管理はもちろん、視覚障害者の支援、あるいは電子顕微鏡画像と組み合わせて素材開発における応用法や事業戦略の検討に活用するなど、さまざまな可能性が考えられると述べました。