デジタル国家ウクライナ デジタル国家ウクライナ

生成AI「図表画像解析」の衝撃

~ここまできた!図表や画像の内容を解析するAIの視力~

柏村 祐

目次

1.注目される生成AI

ChatGPTをはじめとする生成AIが注目されている。

生成AIの機能は、膨大なデータを解析し学習することで、人間が使う自然言語を理解し、適切な返答を生成する自然言語処理や、質問や要求に応じて、学習データから適切な情報を引き出し、ユーザーに提供する情報検索などの数多くの機能が存在する(図表1)。

図表1
図表1

筆者は、生成AIの具体的な活用方法としてメール作成、文章作成、プレゼンテーション資料作成をケーススタディとするレポートを発信してきた(注1、注2、注3)。これらは、文字情報をインプット情報として入力することにより、アウトプット情報としてメール、文章、プレゼンテーション資料を生成するものである。一方で、急速に進化する生成AIにおいては、図表や画像をインプット情報として、その内容を解析する能力を獲得し始めている。

本稿では、生成AIの図表や画像に対する認識能力について概観しつつ、その可能性ついて言及する。

2.図表や画像を解析する生成AI

生成AIは、図表や画像の内容を理解し、それらに関する問いへの適切な回答を提供することができる。さらに、生成AIは図表や画像を解析するプロセスにアドバイスを加える機能をもつ。以下では、図表の内容を認識して回答を求める問題、画像に描写される状況を解析し推論する問題の2つの事例を用いて、生成AIの能力を確認していく。

まず、図表の内容を理解して回答を導き出す問題について確認する。図表2は、1997年のフィンランド、ジョージア、西アジアにおける1人当たりの1日平均肉消費量を示すグラフである。1日平均肉消費量については、フィンランドが175.09g、ジョージアが79.84g、西アジアが69.62gであることが記載されている。生成AIに対して、「ジョージアと西アジアの1日平均肉消費量の合計値を教えてください。回答を出す前に、手順を説明してください」という質問を提示した。すると、生成AIは、ジョージアと西アジアの1日平均肉消費量の合計を求めるためのステップとして「ステップ1: グラフから、ジョージアの1日当たりの平均肉消費量は、1人当たり79.84gであることがわかります。ステップ2:このグラフから、西アジアの1日あたりの平均肉消費量は、1人あたり69.62gであることがわかります。ステップ3:ステップ1と2の値を足す。79.84g(ジョージア)+69.62g(西アジア)=149.46g、つまり、ジョージアと西アジアの1日平均肉消費量の合計は、1人1日149.46gということになります」と回答を生成した。

図表2
図表2

つぎに、生成AIが画像に描写される状況を解析し推論する問題について確認してみよう。生成AIに対して、移動するタクシーの後ろでアイロンがけをする男性が映り込んだ画像(図表3)を提示し、「この画像のどこが異常ですか?」と質問した。すると生成AIは、「この画像で珍しいのは、男性が移動するタクシーの屋根に取り付けられたアイロン台で衣服にアイロンをかけていることです」という回答を生成した。

図表3
図表3

3.図表や画像を解析する生成AIの可能性

以上のように、生成AIは、文章生成だけでなく、図表や画像の解析や、それに関する質問への回答も生成することができる。このように、図表や画像を生成AIに読み込ませることで、瞬時に適切な回答が得られる世界が近づいており、まるでAIが視覚能力を持ち始めたかのようだ。

現在、生成AIの機能は、文字入力をインプット情報として、メール作成、文章作成、プレゼンテーション資料の作成などに注目が集まっている。生成AIはまだ黎明期であり、その能力開発は始まったばかりだが、図表や画像の解析、質問への回答能力をすでに備えている。

パソコンやスマホで気軽に図表や画像を読み込ませることで、瞬時に適切な回答が得られる近未来では、個人の行動にどのような変化がもたらされるのだろうか。ここでは、図表や画像を生成AIに読み込ませることで、瞬時に適切な回答が得られる身近な利用シーンを考えてみよう。たとえば、図表や画像を解析する生成AIは、教育における学習プロセスに革新をもたらす可能性がある。現状、数学や物理に関する図表の内容を読み解く必要がある問題では、提示された図表の内容を一つずつ解釈・分析し、質問に解答することが求められている。不明な点がある場合、先生に質問したり、解説文を確認しながら学力を磨くのが一般的だろう。しかし、図表を解析できる生成AIを活用すれば、図表を生成AIに読み込ませて質問するだけで、回答結果を生成してくれると同時に、なぜそのような回答が導き出されたかのプロセスも解説してくれる。つまり、図表や画像でわからない問題があっても、AIに質問・相談することで、解答を得ることができる。

また、図表や画像を解析する生成AIを活用すれば、購買体験の向上が期待できる。たとえば、スーパーで陳列されている野菜を購入する場合、その野菜を写真に撮り、生成AIに読み込ませた上で「一番新鮮な野菜を教えて」と質問すれば、生成AIは画像内容を解析し、最も新鮮な食材を選択してくれるだろう。あるいは、陳列されている魚を購入する場合、その魚の写真を撮影し、生成AIに読み込ませた上で「一番新鮮な魚を教えて」と質問すれば、生成AIは画像内容を解析し、最も新鮮な魚を教えてくれるだろう。このように、図表や画像を解析する生成AIを利用することで、野菜や魚の目利きでなくても、新鮮な食材をAIと相談しながら購入することができる。

すでに、ChatGPTをはじめとする生成AIは、文字をインプット情報として、メール作成、文章作成、プレゼンテーション資料の作成などを実現しており、その進化は日進月歩である。近い将来、本稿で紹介したような図表や画像をインプット情報とし、瞬時に適切な回答を提示する生成AIを、日常的に使うパソコンやスマホで利用できる環境が整うことが予想される。

図表や画像を解析する生成AIを日常生活で活用することは、従来の学習プロセスの変化や購買体験の向上を促す可能性がある。生成AIが図表や画像を解析する能力は、学習や購買の良き相談相手となる仕組みといえるだろう。今後、さらなる発展と実社会への普及が期待されるところである。

【注釈】

  1. メール生成AIの衝撃~生産性向上につながるメール生成AIの可能性~
    https://www.dlri.co.jp/report/ld/230740.html
  2. 会話型検索エンジンの衝撃~生産性向上につながる検索エンジンの可能性~
    https://www.dlri.co.jp/report/ld/232635.html
  3. プレゼン資料AIの衝撃~標題、見出し項目、概要を自動生成してくれる現代の魔法~
    https://www.dlri.co.jp/report/ld/233240.html

柏村 祐


本資料は情報提供を目的として作成されたものであり、投資勧誘を目的としたものではありません。作成時点で、第一生命経済研究所が信ずるに足ると判断した情報に基づき作成していますが、その正確性、完全性に対する責任は負いません。見通しは予告なく変更されることがあります。また、記載された内容は、第一生命保険ないしはその関連会社の投資方針と常に整合的であるとは限りません。

柏村 祐

かしわむら たすく

ライフデザイン研究部 主席研究員 テクノロジーリサーチャー
専⾨分野: AI、テクノロジー、DX、イノベーション

執筆者の最新レポート

関連レポート

関連テーマ