AIと音声アシスタントとは、質問やお願いをすると、その音声を認識して対応してくれるAI技術のことです。
音声の解析、音素の抽出、単語の組み合わせなどのプロセスを経て、テキストデータに変換して出力します。
仕組みと種類
- 仕組みは、大きく「DNN-HMM型」と「End-to-End型」の2種類に分類されます。
DNN-HMM型は、音響モデルにAIを導入し、音声認識の精度を高めたものです。
End-to-End型は、音響モデルから言語モデルまでを一気に学習するものです。 - 種類は、主に「スマートスピーカー」「車載アシスタント」「アプリケーション」「ロボット」などがあります。
スマートスピーカーは、音声で音楽再生や天気予報などを行えるものです。
車載アシスタントは、自動車にAIを搭載し、安全運転や快適なドライブを支援するものです。
アプリケーションは、携帯電話やパソコンにインストールされたサービスで、SiriやGoogle アシスタントなどが有名です。
ロボットは、音声認識機能が搭載された機械で、ZUKKUやロボホンなどがあります。
Siri
- iPhoneやiPadなどのApple製品に搭載されている音声アシスタント機能です。
ユーザーの声に応答して、検索や操作などを行ってくれます。 - 音声認識、自然言語理解、命令の実行、返答の4つのプロセスから構成されており、それぞれに機械学習というAIの技術が使われています。
機械学習とは、AIプログラム自身が学習する仕組みで、使うほどにデータが蓄積され、学習していき賢くなります。 - AIアシスタントと呼ばれる分類に属します。
AIアシスタントとは、音声を認識してさまざまな質問やお願いに応えてくれるAI技術のことを指しています。
Google アシスタント
- Android スマートフォンや Google Home などに搭載されている音声アシスタント機能です。
Google 検索と連動して、様々な質問に答えたり、操作したりできます。 - AI(人工知能)の技術を利用しています。
特に、「BERT」と呼ばれる機械学習の手法がGoogle アシスタントの自然言語理解(NLU)に使われており、文脈の識別能力を大幅に向上させています。
Amazon Alexa
- 音声認識、自然言語理解、命令の実行、返答などのプロセスを経て、人間と会話できるようになります。
- Amazonが開発・提供するスマートスピーカー(AIスピーカー)「Amazon Echo(エコー)シリーズ」に搭載されているAIアシスタントです。
音声で話しかけるだけで、さまざまな情報を得たり、操作したりできます。 - AI(人工知能)の技術を利用しています。
特に、「Amazon Lex」というサービスがAlexaの音声認識や自然言語理解に使われており、音声をテキストに変換したり、ユーザーの意図を判断したりします。