Voice User Interface の歴史と未来 – 人類は VUI にたどり着き、どこへ向かうのか #cmdevio2017
Developers.IO 2017 で Voice User Interface の話をしました
クラスメソッドが運営するIT系技術ブログDevelopers.IOのカンファレンスイベントDevelopers.IO 2017にて、セッション「Voice User Interface の歴史と未来」を発表させていただきました。本記事では、セッションの内容についてお話ししたいと思います。
Developers.IO 2017 では技術寄りのセッションがほとんどですが、本セッションはデザインの話に近い、ユーザーインターフェースのこれまでの歴史・これからの未来について話させていただきました。
発表スライド
本セッションの主な内容
最近話題の「Voice User Interface」をテーマとしつつ User Interface のこれまでとこれから について語りました。
- 人類がVoice User Interfaceに たどり着くまでの 道のり の探索
- Voice User Interfaceが 目指している未来 の理解
はじめに - Voice User Interface とは何か
いきなり歴史に入る前に、近ごろの大きなトレンドとなっている「Voice User Interface」とは何かをお話しします。
Voice User Interface とは
Voice User Interface (以降、VUI) は、その名の通り 声によるインターフェース のことを指します。使い手の声で入力し、使い手に声で出力することで、コンピュータやサービスと情報のやり取りを行います。
「声によるやり取り」とは、「会話」とも言えます。生活の中で行なっているごく自然な行為で、コンピュータやサービスを操作することができます。
近ごろの Voice User Interface
近ごろの Voice User Interface は、まさに 大パーソナルアシスタント時代 と言えるでしょう。Apple, Google, Amazon, Microsoft, LINE などと言った有名どころの企業が、パーソナルアシスタント (個人をアシスタントする役割を持ったシステム) に力を入れてきています。
Apple - Siri
iPhone に搭載されたことが話題となりましたが、現在では AppleWatch, Mac などでも使えます。また最近では据え置き型デバイスである HomePod が発表されました。こちらは2017年12月以降、オーストラリア / 英国 / 米国で販売が開始される予定です。
Google - Google Assistant
「音声による検索」から始まった Google の音声サービスも、一日の情報を伝えることをコンセプトにした Google Now を経て Google Assistant まで進化しました。Google Assistant はメッセージアプリ Google Allo と据え置きデバイス Google Home に搭載されています。Google Allo ではチャットボットのようにテキストベースのやり取りも行えます。
Amazon - Amazon Alexa
AWS で成熟したクラウド技術を用いて提供される音声サービスです。Developers.IO では発表されてから今まで何度も取り上げてきました。専用の物理デバイスの種類が最も多いパーソナルアシスタントと言えるでしょう。最近では、カメラに映し出された情報を認識し、アドバイスをしてくれる Amazon Echo Look やモニター付きの Amazon Echo Show などが発売されました。
Microsoft - Cortana
Windows 10 (Pro EducationとEnterprise LTSBは除く) から標準搭載されている、Microsoft 製のパーソナルアシスタントです。モバイルへの対応については Windows 10 Mobile, iOS, Android に対応しています。またゲーム機 (Xbox One) に対応しているところがユニークです。
LINE - Clova
2017年3月に発表された、LINE のクラウドAIプラットフォームです。次のインターフェースのパラダイムは「五感を通じた AI」とし、その先駆けとして音声サービスおよびスマートスピーカー「WAVE(ウェーブ)」が登場します。LINE や NAVER といった国内利用者が非常に多いプラットフォームで蓄積された技術・データが用いられることから、日本ではかなり有用なプラットフォームになることが予想されます。また、ソニーやタカラトミーなどの企業とパートナーシップを結んでおり、様々な分野・様々なシーンでの活用が期待できます。
人類が VUI にたどり着くまで
次に、人類が VUI にたどり着くまでの歴史を探索してみましょう。
ユーザーインターフェースの歴史
"Voice" に限らず、ユーザーインターフェースがどのように進化してきたか という歴史も欠かせません。これまで、次のような種類のユーザーインターフェースが生まれてきました。
- CUI (Character User Interface)
- GUI (Graphical User Interface)
- NUI (Natural User Interface)
- OUI (Organic User Interface)
CUI (Character User Interface)
いわゆる「黒い画面」です。コマンドを実行するとコマンドに対応した処理が行われます。
- 文字列によるやり取りを行うインターフェース
- キーボードなどから文字列を入力し、 ウインドウに文字列を出力する
- CLI (Command Line Interface) とも言う
- 基本的に開発者が使うものであり、一般ユーザ向けではない
- コマンドを覚える必要があり、使いこなす上でのハードルが高い
GUI (Graphical User Interface)
GUI は現在、最もポピュラーなユーザーインターフェースです。デバイスの画面上にビジュアライズに表現されることは、使い手に分かりやすさだけでなく楽しさも同時に提供します。
- コンピュータ・グラフィックスを用いてやり取りを行うインターフェース
- 情報をグラフィカルに表現できる
- より直感的な表現に
NUI (Natural User Interface)
NUI は、人間が生活の中で自然に行なっている動作と同じようにインタラクションできるユーザーインターフェースのことを指します。VUI は NUI を実現する方法の一種 と言えるでしょう。
- より自然体な入出力を行うインターフェース
- 画面に直接触れたり、身体を動かすことでやり取りを行う
- 自然な動作でコンピュータを操作できる
- 五感に働きかけるフィードバック
「自然な動作」について、具体的にはジェスチャーや音声による入力が実現されてきました。
ジェスチャーはやってみると非常に面白いのですが、次のような課題があります。
- 手が疲れる
- 場所を取る
- 時間がかかる
- 誤操作しやすい
- ゲームは楽しいが、日常のタスクをこなすのは困難
一方、VUI は 会話 というごく自然な行為でコンピュータとインタラクションできます。ジェスチャーよりも自然なユーザーインターフェースと言えるでしょう。
NUI がもたらすもの
CUI から GUI、そして NUI へと、色々なアプローチが取られてきました。その経緯を見てみると、コンピュータを使っているという感覚が薄れてきている ことが分かります。例えば Google Home は花瓶のような見た目で家具と同化し、CarPlay は自動車に埋め込まれ、Apple Watch は人間の身体の一部となっています。
UI の進化の先には 生活の中にコンピュータやサービスが完全に溶け込み、人間は意識せずにそれを活用し、生活を豊かにしている という未来が想像できます。
VUI を取り巻く技術の歴史
次に、VUI を実現する上で欠かせない技術の歴史を探索してみましょう。
VUI を実現するためには音声認識、音声合成、人工知能など色々な技術が絡みます。まずはそれぞれの技術の関係性を紐解くため、VUI を成り立たせるシステムの一般的なアーキテクチャを見てみましょう。
参考 : Talking to machines more naturally than ever before—voice interface for Lekta NLP – LEKTA BLOG
端的に説明すると、次のような流れでインタラクションが行われます。
- ユーザーが喋った言葉を 音声認識 (Speech Recognition) で文字データに変換
- 人工知能 (AI) を含むロジック により、入力文字データに合わせた処理を実行する
- 処理結果の文字データを 音声合成 (Text to Speech) で音声データに変換
このうち、今回は音声認識 (Speech Recognition) と人工知能 (AI) を含むロジックの歴史を探索しました。
音声認識 (Speech Recognition) の歴史
音声認識技術についての重要な出来事をまとめました。
年代 | 出来事 | 技術の進歩 |
---|---|---|
1952 | Bell Labs が Audery を開発 | 数字 (0 - 9) の音声認識 |
1962 | IBM 社 が Shoebox を開発 | 16の英単語の音声認識 |
1970 | 隠れマルコフモデル (Hidden Markov Model) の登場 | 確率理論の導入による音声認識率の劇的な向上 |
1971 | US Department of Defense (DARPA) が Speech Understanding Research (SUR) プログラムを発表 | 1024単語以上の音声認識 |
1984 | Speechworks 社 が IVR (Interactive Voice Response) を開発 | IVR の誕生 |
1997 | Nuance Communications 社 が Dragon Dictate を開発 | 連続した音声認識 |
2007 | Siri 社が Siri を開発 | 自然なインタラクションの実現 |
2008 | Google 社が音声検索サービスを開発 | 音声による検索機能 |
2011 | iPhone 4S に Siri が搭載 | パーソナルアシスタントの一般化 |
2014 | Amazon 社が Amazon Echo (および Amazon Alexa) を開発 | クラウドプラットフォーム化 |
音声認識技術の始まりは、今より65年前に遡ります。電話サービスを提供する Bell System 社の研究部門である Bell Labs の研究成果として生み出された「Audery」が起源になります。認識率は驚異の 97-99% だったそうです。
その次に生まれた「Shoebox」は IBM 社が開発しました。「プラス」や「マイナス」「トータル」といったようなコマンドワードを数字と組み合わせて発声することで、単純な算術計算結果を出力できるといったものです。なお、IBM Archives に当時の写真が掲載されています。
参考 : IBM Archives: IBM Shoebox
ちなみに Siri は Speech Interpretation and Recognition Interface (音声解釈と音声認識のインターフェース) の略。ご存知でしたか?
Chat Bot の歴史
人工知能 (AI) の歴史となると実に幅広くなってしまうので Chat Bot についての重要な出来事をまとめました。
年代 | 出来事 | 技術の進歩 |
---|---|---|
1966 | 計算機科学者の Joseph Weizenbaum 氏が ELIZA を開発 | 世界初の自動応答システム |
1972 | 精神科医の Kenneth Colby 氏が PARRY を開発 | 意見を持つ ELIZA の誕生 |
1988 | クリエイターの Rollo Carpenter 氏が JABBERWACKY を開発 | 言語と文脈から応答を作成 |
1995 | 化学者の Richard Wallace 氏が A.L.I.C.E. を開発 | オープンソース化 |
2011 | iPhone 4S に Siri が搭載 | パーソナルアシスタントの一般化 |
2012 | Google 社が Google Now を開発 | 1日の情報を集約 |
2014 | Amazon 社が Amazon Echo (および Amazon Alexa) を開発 | クラウドプラットフォーム化 |
2016 | Amazon Web Services 社が Amazon Lex を開発 | モバイルアプリへの導入 |
人類が人工知能、つまり AI (Artificial Intelligence) を着想する発端は諸説ありますが、いずれにせよその歴史は非常に長いです。例えば17世紀頃の哲学者・数学者である ルネ・デカルト は 動物の身体がただの複雑な機械である と提唱しました(機械論)。あらゆる理性的思考は代数学や幾何学のように体系化できるという考えのもと、どのように機械的に人間の思考を再現できるか をテーマに今日まで様々な研究が行われました。
現代の Chat Bot の祖先は Joseph Weizenbaum 氏が1966年に開発した「ELIZA」とされています。ELIZA は来談者中心療法を実施するために作られました。患者の気分を対話形式で聞き出し、簡単なパターンマッチングによって助言をするといったシステムとなっています。
ELIZA は現在も Emacs に含まれており、簡単に実行することができます。ご興味のある方はぜひ対話してみてください。
ちなみに、ELIZA は Siri も自分の祖先であることを認識しており、特定の質問をすると ELIZA との関係を少し教えてくれます。こちらもぜひ試してみてください。
いつの時代も、人に寄り添うように進化してきた
ELIZA から始まり、現在まで引き継がれていることは 人に寄り添うこと です。現在では「パーソナルアシスタント」という名の通り、個人をアシストする存在として進化を続けています。そして音声認識や音声合成などといった技術の進歩は、コンピュータが人間の側にいることをより感じさせることに繋がっていくでしょう。人間が音声によるインタラクションを生活の中で使うことを受け入れられるかどうかは、これからの周辺技術の進歩にかかっています。
VUI の未来
これまで、VUI を取り巻く歴史について探索してきました。最後に、これから先の未来を想像してみることとします。
生活の中でより自然に使えるように
VUI を含めた NUI が目指しているのは 生活の中でより自然に使えるようにする ことです。それには、次に示す点が重要と考えられます。
より自然体な会話
現在の VUI は、人間同士の会話と同レベルの会話をするのはまだまだ難しいです。具体的には次のような達成すべき課題があります。
- 会話のコンテキストを理解する
- 話の流れを理解する
- 対話相手(ユーザー)のことを理解する
- 状況を理解する
よりスマートな支援
会話だけではなく、画面やハードウェアなどを組み合わせながらコンピュータならではの支援することも必要です。
- 予測変換
- CUI や GUI との組み合わせ
- ハードウェアも含めた総合的な体験
より多くの分野での活用
近年のポピュラーなパーソナルアシスタントのプラットフォームはほとんど、サードパーティ製の拡張機能 (Skill などと言う) を提供しています。
- SiriKit - Apple Developer
- Google Assistant SDK | Google Assistant SDK | Google Developers
- Getting Started with the Alexa Skills Kit - Amazon Apps & Games Developer Portal
- Microsoft Cortana デベロッパー センター
これらを使って、事業者や個人が様々な分野に適用していく必要があります。その結果として、より生活の中に溶け込んでいくんじゃないかと予想しています。
さらなる UI の未来 - OUI (Organic User Interface)
NUI を超えた先には OUI (Organic User Interface) と言う考え方もあります。
- 物理的に形状が変化するインターフェース
- 機能と形態が一体化する
- コンピュータがより生活に溶け込んでいく
具体的には AR (拡張現実) や MR (複合現実) によるインターフェースの現実世界への具現化、または VR (バーチャルリアリティ) によるインターフェースの仮想環境への投影などが挙げられます。ここに VUI が絡んでくる可能性は大いにありそうですね。
さいごに
まだまだ語りきれていませんが、UI および VUI の歴史と未来についてご紹介しました。現在は、これまで発展してきた VUI を事業者がさらに発展させる段階に来ていると言えます。技術についてもデザインについても発展途上ですが、弊社クラスメソッドももちろん邁進していきます!
これまでの VUI の歴史についての理解や、これからの UI の未来について考えるきっかけになれば幸いです。
参考文献
本セッションおよび本記事の作成にあたって、下記の情報を参考にさせていただきました。有益な情報を公開いただき、深く感謝いたします。
- View from the Labs: Voice User Interfaces – A Short History and a Bright Future | Blog | Infostretch
- AIの春 ―― UI史的観点から見たコンピューティング・パラダイムの転換 | KDDI総合研究所
- Audrey: The First Speech Recognition System | Asta Speaks
- 隠れマルコフ モデル (HMM) - MATLAB & Simulink - MathWorks 日本
- From AUDREY to Siri. Is speech recognition a solved problem? (PDF)
- 世界で開発が加速化するチャットボットの進化の軌跡 〜元祖ELIZAの誕生から、オープンソースのA.L.I.C.Eまで〜 - モビLOG(モビログ)|チャットボットの最新トレンド・開発の最前線|コール/コンタクトセンター・顧客サポート向け人工知能(AI)・自動応答対応チャットツール開発のモビルス株式会社