デジタル国家ウクライナ デジタル国家ウクライナ

ウェブスクレイピングAIの衝撃

~ここまで来た!ウェブ情報取得の世界~

柏村 祐

目次

1.ウェブスクレイピングとは

ビジネスにおいては、さまざまな局面で業界の最新動向などの情報をウェブで調査する機会がある。それらの情報を自社の資料に活用するには、ウェブページから1つ1つ情報を転記・加工する作業が必要となるが、その作業を担うソフトウェア技術にウェブスクレイピングがある。

英語のscraping(削ること、こすること)に由来するウェブスクレイピングは、商品価格の比較、口コミの分析、株価の監視などさまざまな用途に活用されている。ウェブスクレイピングは、民間企業のみならず行政も活用している。例えば、総務省統計局では、CPI(消費者物価指数)の基準改定にあたり、ウェブ上に公開されているネット価格の収集拡大に向け、データ検証を重ねてきた。その結果を踏まえ、2020年の基準改定においては、ネット購入割合が高い旅行サービスについて、ウェブスクレイピングを活用してネット価格を網羅的に収集している(注1)。

現在、ウェブスクレイピングを行うには、専門的なプログラムを作成し、ウェブページの情報を取得する必要がある。だが、プログラミング人材が乏しい組織においては、ウェブ上の情報を1つ1つ手作業で転記したり、コピー&ペーストする生産性の低い手法が用いられている。このような手作業による作業時間の短縮や転記ミスの防止につながる仕組みとしてウェブスクレイピングAIが登場している。

本稿では、そのウェブスクレイピングAIについて概観し、その可能性について解説する。

2.ウェブスクレイピングAIとは

ウェブスクレイピングは、ウェブサイトから特定のデータを抽出する仕組みで、製品価格調査、ECサイトからの商品・価格情報の抽出、自社のビジネス情報の収集など多様な分野で活用されている。ウェブスクレイピングを行うには、スクレイピング作業に必要なプログラミング言語でプログラムを作成する必要があるが、ウェブスクレイピングAIを用いれば、ワードやエクセルのようなソフトウェアを操作する感覚で、ウェブ上に掲載されている情報を編集可能なデータとして出力できる。

そこで、具体的なケースとして当社のホームページに公開されている「レポートランキング情報」と「新着レポート情報」を題材とし、実際にウェブスクレイピングAIを動作させ、ウェブサイトから特定のデータの抽出を試みた。

まず、当社ホームページの「レポートランキング情報」を題材として、ウェブスクレイピングAIの性能を検証してみた。ウェブスクレイピングAIを使えば、プログラミングのコードは必要がなく、マウス操作とテキスト入力作業だけでスクレイピングを実行できる。ウェブスクレイピングAIを起動させ、スクレイピングの対象となる当社のホームページのURLを指定する。その後、今回スクレイプングしたいウェブ上の場所となる週間ランキンングの欄を範囲選択する。そして、週間レポートランキングに表示されているタイトル、カテゴリ、発信者にそれぞれカーソルをフォーカスさせると、ウェブスクレイピングAIは、それぞれの対象を自動認識してくれる(図表1)。

図表1
図表1

それぞれ対象として認識された情報には、テキストを入力できるポップアップが表示されるため(図表1のVisible Textの部分)、付与したいタグ名を記入すればよい。今回は、ウェブスクレイピングAIが認識した情報に対するタグ名として、title(タイトル)、category(カテゴリ)、writer(発信者)を入力している。その後、ウェブスクレイピングAIの機能である完了ボタンを押せば、AIは瞬時にワードやエクセルのようなソフトウェア上で並べ替えたり、加工できる編集可能データを生成してくれる(図表2)。

図表2
図表2

次に、日々発信される「新着レポート情報」についてもウェブスクレイピングAIを動作させ、その性能を検証してみた。当社ホームページに掲載される新着レポートのウェブページ上でウェブスクレイピングAIを起動させる。その後、今回スクレイピングしたいウェブ上の新着レポート欄に表示されている日付、カテゴリ、筆者、タイトルにそれぞれカーソルをフォーカスさせると、ウェブスクレイピングAIは、それぞれの対象を自動認識してくれる(図表3)。

図表3
図表3

データ生成の対象として認識された情報には、テキストを入力できるポップアップが表示されるため(図表3のVisible Text)、付与したいタグ名を記入すればよい。今回の新着レポートに関してウェブスクレイピングAIが認識した情報に対して、date(日付)、category(カテゴリ)、writer(発信者)、title(タイトル)を入力している。その後、ウェブスクレイピングAIの生成機能を発動させれば、AIは瞬時にワードやエクセルのようなソフトウェア上で並べ替えたり、加工できる編集可能データを生成してくれる(図表4)。

図表4
図表4

3.ウェブスクレイピングAIの可能性

以上のように、ウェブスクレイピングAIは、誰もが行える簡単な作業を加えることで、ウェブ上から抽出した情報を編集可能なデータとして生成してくれる。このAIは、プログラミングスキルをもつ一部の人にしかできないと思われているウェブ情報のデータ化について、特段そのスキルがない人でも容易に行える世界を実現している。

現在、ウェブスクレイピングが必要な場合は、社外の専門家に対価を払ってデータ生成を発注したり、プログラミングスキルをもつ社内の人材に依頼する必要がある。今後、ウェブから情報を取得する必要が生じた際に、このウェブスクレイピングAIを活用すれば、個人や組織の生産性を飛躍的に向上させるだろう。ただ活用の際には、情報取得元であるウェブサイトの利用規約、著作権や個人情報保護などの法的な問題に十分配慮する必要がある。

なお、現時点ではエッジやクロームといった検索エンジンにウェブスクレイピングAIの機能は搭載されていない。そのため、その機能を活用するにはプラグインをインストールする必要があるが、今後検索エンジンの基本機能として搭載されることも考えられる。

ビジネスで必須ともいえるウェブからの情報収集作業において、ウェブスクレイピングAIは、生産性を向上させるAIの1つとして今後さらに進化していくであろう。

【注釈】

  1. 総務省統計局 HPより
    https://www.stat.go.jp/info/today/148.html

柏村 祐


本資料は情報提供を目的として作成されたものであり、投資勧誘を目的としたものではありません。作成時点で、第一生命経済研究所が信ずるに足ると判断した情報に基づき作成していますが、その正確性、完全性に対する責任は負いません。見通しは予告なく変更されることがあります。また、記載された内容は、第一生命保険ないしはその関連会社の投資方針と常に整合的であるとは限りません。

柏村 祐

かしわむら たすく

ライフデザイン研究部 主席研究員 テクノロジーリサーチャー
専⾨分野: AI、テクノロジー、DX、イノベーション

執筆者の最新レポート

関連レポート

関連テーマ