#032 - フツメンMBAナゥそして伝説へ?!

ワトソンと従来コンピュータの決定的な違いとは

IBM | NewsPicks Brand Design
2015/9/15
最近、人工知能が大きな注目を集め、「第3次人工知能ブーム」が到来したともいわれている。その象徴的存在がディープラーニング技術やIBMが開発した質問応答システム「IBM Watson（ワトソン）」である。2006年から始まったワトソンの開発に翌年から参加してきた日本IBM東京基礎研究所の武田浩一氏に、人工知能とワトソンとの違い、開発の経緯などについて聞いた。
ビッグデータを背景に特定のタスクを実行することで大きな進化
──コンピュータはこの数十年大きく発展してきましたが、人間の知能とは大きな差があります。そこには、どんな問題があるのでしょうか。

武田：知的なコンピュータを実現するという意味での「人工知能（AI）」は、過去50年以上にわたって研究されています。研究テーマとしては非常に古いのですが、うまくいっているとは言えません。

それには明確な理由があって、人間の汎用的な知的能力の仕組みが解明できておらず、カギとなるソフトウェア動作的な実装方法がわからないからです。

1980年代には推論に注目して、第5世代コンピュータ・プロジェクトでは、思考や意思決定などの推論能力をエキスパートシステムで実現しようとしましたが、うまくいきませんでした。コンピュータの計算方式と人間の知的演算にはそれほどの差があり、本質的な問題は今も解決されていません。

武田浩一（たけだ・こういち）
日本IBM東京基礎研究所ナレッジ・インフラストラクチャ担当技術理事博士（情報学）
──最近の研究はどのような方向に向かっているのでしょうか。

近年は考え方を変えて、タスク思考の知的処理が大きな流れになっています。たとえば、画像に車やテーブルが写っているとして、その主題は何かというラベル付けをやるのです。

コンピュータは人間以上にスケーラビリティがありますから、このようなタスクに制限して人間と同程度のラベル付け精度が出ることで、大きな処理能力が達成できるようになっています。

それが可能になったのはビッグデータで、ラベル付けられた膨大な画像データを正解データとして、何百万枚の画像の蓄積から、主題の特徴とひも付けができるようになったからです。

このようにして、汎用の知的能力を追求するという黎明（れいめい）期の考え方から、ビッグデータを背景に特定のタスクを極めて高精度かつ高速に実行するやり方に転換することで、成功するようになったのです。

その成功例が、脳神経系をまねた工学モデルであるニューラルネットワークを深く階層化したディープラーニング（深層学習）や私たちが開発した「IBM Watson（ワトソン）」です。ワトソンはウィキペディアを中心に膨大なデジタル情報を利用して人名や地名などを問う質問に答えるタスクを実行します。

しかし、ワトソンもディープラーニングも人間の汎用的な言語理解といった課題の解決には、特に成功しているわけではありません。

──なるほど。

もう一つ大事なことは、実用的な問題の解決には、真か偽かといった推論だけではなく、ある解答がどのくらいの頻度（確度）で起こり得るかを考慮する必要があります。論理的な推論だけでは、100回に1回起こるものと99回起こるものとを区別することができませんでした。

たとえば、「bank」という単語には、銀行、土手という二つの意味があります。一般的には銀行という意味で使われることが圧倒的に多いが、「川のそばのbank」となった場合には土手の可能性も高まります。従来の研究ではこういった文脈・統計的な計算が十分にできなかったのです。

最近になって、画像ラベリングや音声認識は一番ありそうな解を返せるようになっています。大量のデータとその出現頻度に基づいて、統計的なモデル化を行うためです。

ある画像について、さまざまな可能性がある中で、統計的なモデルからその主題は自動車ではないかといった正解を高い頻度で返すことができるのです。これによって、実用的な問題（タスク）を相当高いレベルで解決できるようになったのです。

米人気クイズ番組「ジョパディ！」でチャンピオンに
──ワトソンの研究開発の経緯を教えてください。

2005年ごろに、IBMが2011年に創立100周年を迎えるにあたって、研究部門では1997年にチェス世界王者に勝利した「ディープブルー」に匹敵するような、革新的な計算科学を推進するプロジェクトをやりたいと考えました。そこで、米国の人気クイズ番組「ジョパディ！」への挑戦を思いついたのです。

クイズですから、質問に答える技術が中心になることはわかりましたが、当時それが可能だとは誰も思いませんでした。みんなちゅうちょして、実際に研究に着手したのは2006年に入ってからでした。

当時、情報検索技術が急速に進歩していましたが、検索だけでは3割も解けないだろうと推定しました。そこで、以前から取り組んでいた質問応答技術と情報抽出・情報検索技術などさまざまな要素を組み合わせ、今までとはまったく違うやり方で開発しようと決めたのです。

2007年には総力戦でワトソンを開発しようと全世界のIBMの研究者の参加を募り、日本のチームもイスラエルや中国の仲間についで、2007年12月から開発に加わりました。そして、2011年2月の「ジョパディ！」対戦で、ワトソンはついに人のチャンピオンを破ったのです。

2011年2月、米国の人気クイズ番組「ジョパディ！」に挑戦し、2ゲームを通じて、ワトソンが最高金額を獲得し、人間に勝利した
──ワトソンは今までのコンピュータシステムとどう違うのですか。

たとえば、警察から事件の犯人を捜すシステムをつくってほしいという依頼を受けても、数値計算のように明確な動作で自動的に犯人を特定するシステムとしてはつくりようがありません。

犯人がある時間にいた場所とかクレジットカード番号が似ているとか、状況に応じて細かな証拠を積み重ねて、割り出していくことならできます。クイズもそれと同じで、さまざまな手がかりから、それが最も可能性が高いと指し示す解答候補の断片的な情報（根拠）を集めることで、正解に対する確信度が上がっていきます。それを実装したのがワトソンです。

今までのコンピュータはデータベースで属性が完全に合致したものを正答として返す、といった確定的な動作を中心に構築されてきました。しかし、質問に答えたり、犯人を捜したりするのはそれで対応できるほど単純ではありません。

そのため、ワトソンは断片的にしか存在せず、根拠も断片的な情報を特定の候補に絞り込んでいきます。こういった情報の分析は、今までは人にしかできなかった、さまざまな知的タスクに応用できるものです。

ワトソンの最大の課題の一つは自然言語の言い回しの多様性です。言語特有の表現の不完全さや曖昧さがあるので、部分的な解釈の誤りや情報の欠如に耐えられるように、得られた解答候補とその根拠に基づいて多数の観点から確信度を計算する手法を質問応答の枠組みの中に組み込んだのです。

ですから、今までのコンピュータとは得意とする計算の種類が大きく違うのです。

人間と共生することでよい答えを見つけ出すシステム
──確かに、今までのコンピュータは条件をそろえなければ、対応できませんでした。

データベースやプログラミング言語で培ってきたのは動作条件をきちんと指定して、毎回同じ答えが返ってくるシステムで、企業の基幹系はその集大成ともいえるものです。

しかし、最近では、人間が断片的な情報や経験や勘で判断していることがビッグデータ分析で一部置き換えられるようになり、ビッグデータの裏付けで、判断をサポートしようというかたちに変わってきています。

ですから、ワトソンのような新しいコンピュータの世界は、属人的でIT化できなかった領域をビッグデータの力を借りたり、IoTなど人間の手に余るほどのデータを使ったりしながら、高度に支援していくアプリケーションを開拓していくというイメージです。

──どんなことができるのかわかったような気もしますが、まだ全体像は見えてきません。ワトソンの全体像を教えてください。

質問に答える技術を根本において、大量のデータから学習して経験を積み重ねることで、人間にとって重要な答えに到達できるように、特定の場面で有益な判断材料を提供できるコンピュータシステムです。

今までは情報量が少なかったので、たとえば顧客の分析では「20代男性、未婚の人」などと粗く層別化、代表させるかたちで処理していました。しかし、ビッグデータとワトソンを使うことで、世田谷区に住んで、通勤時間は30分で、年収がこれくらいの20代男性といった細かな解析度で、レコメンデーションが出せます。

あるいは、辛い料理、あっさりした料理が欲しいときに、今までのレシピ・データベースではなかなかそういった表現ができませんでしたが、食材や味わいに関する多様なテキスト情報を含めることで、それに合致したレシピを推薦することができます。

生のデータやIoT（Internet of Things）のセンサー情報、人間の行動パターンのように直接説明できないビッグデータに、ユーザーのフィードバックや正解をもらったり、学習を重ねたりすることで、そこに特定のパターンや目的を対応づけることができ、人間が行うような高度な知的判断・行動に近づけることができます。

これをIBMはコグニティブ・コンピューティングと呼んでいますが、それを質問応答で実行したのがワトソンです。

──場合によっては、人間がわからないことも判断できるかもしれないということですか。

できることは、大量のデータから学習することで、人間に近づけるように、複雑な状況判断や知的な判断を再現していくということです。一方で、人間は大量のデータを見ることは能力的にできませんので、それはコンピュータに任せます。

そして、候補がいくつか出たときに、人間が一緒になって、これが良さそうだと判断する、「人間と共生するシステム」です。コンピュータだけでも足りませんし、人間だけでも足りません。両方が協調することで、より確実によい答えを見つけ出せる可能性が高まっていきます。