AIはレストランやヘアアポイントメントを予約できますが、完全な会話を期待しないでください

AIはレストランやヘアアポイントメントを予約できますが、完全な会話を期待しないでください 確かにあなたのAIアシスタントがあなたのために約束を予約することができますが、意味のある会話はどうですか? Shutterstock / Bas Nastassia

最近Google 発表 Duplexと呼ばれる最新のAIです。 デュプレックスは、本当の人間のように聞こえ、一時停止、「うーん」、「ああ」を伴います。

ハイテク大手は電話で人と話をして、予約を取り、営業時間を確認できると語った。

ヘアサロンの予約を予定しているデュプレックス。 Google445 KB (ダウンロード)

グーグルの発表で行われた録音された会話では、受信側の人間とシームレスに会話しました。彼らは、他の人と話していないことにまったく気づいていなかったようです。

レストランを呼び出すデュプレックス。 Google399 KB (ダウンロード)

これらの呼び出しは Googleショーの技術志向の観客が喘ぎ、応援。 XNUMXつの例では、AIは話している相手が混乱したときにさえ理解し、会話を続け、予約をする必要がないと言われたときに適切に応答することができました。

AIアシスタントの台頭

次のような現在利用可能な音声アシスタントのいずれかを使用した場合 Google Home、AppleのSiri、Amazon Echo、この柔軟性はあなたを驚かせるかもしれません。 これらのアシスタントは 悪名高い 連絡先への電話、曲の再生、簡単なWeb検索、リマインダーの設定など、標準的なリクエスト以外の用途に使用します。

これらの現世代のアシスタントと話すときは、常にAIと話していることを認識しており、AIが機能する可能性を最大化できるように、それに応じて発言の内容を調整することがよくあります。

しかし、デュプレックスと話している人々は何も知りませんでした。 彼らはためらい、後戻りし、言葉を飛ばし、そして文章の途中で事実を変えさえした。 デュプレックスはビートを見逃しませんでした。 何が起こっているのか本当に理解できたようです。


続きを読む: スマートスピーカーはホームオートメーションの転換点になる可能性があります


では、誰よりも早く未来が到来したのでしょうか。 世界中がオンライン(および電話)のAIアシスタントでいっぱいになり、楽しくチャットし、私たちのために何でもしますか? またはさらに悪いことに、私たち人間を含むかもしれないし含まないかもしれない彼ら自身の考えやアイデアを持つインテリジェントAIに突然囲まれるでしょうか?

答えは明確な「いいえ」です。 理由を理解するには、このようなAIを駆動するものを内部ですばやく確認することが役立ちます。

デュプレックス:仕組み

これは、 二重AIシステム 見える。

技術 着信音はASRシステムで処理されます。 これにより、コンテキストデータやその他の入力で分析されるテキストが生成され、音声合成(TTS)システムを通じて読み上げられる応答テキストが生成されます。 Google

システムは、電話で話している人の声である「入力」(左側に表示)を受け取ります。 音声は自動音声認識(ASR)を通過し、テキスト(書き言葉)に変換されます。 ASRはそれ自体が高度なAIシステムですが、既存の音声アシスタントですでに一般的に使用されているタイプです。

次に、テキストをスキャンして、文章のタイプ(挨拶、ステートメント、質問、指示など)を判別し、重要な情報を抽出します。 次に、重要な情報がコンテキストの一部になります。これは、会話でこれまでに述べられたことをシステムに最新の状態に保つ追加の入力です。

ASRおよびコンテキストからのテキストは、人工ニューラルネットワーク(ANN)と呼ばれるデュプレックスの中心部に送信されます。

上の図では、ANNは円とそれらを結ぶ線で示されています。 ANNは大まかにモデル化されています、何十億ものニューロンが巨大なネットワークに接続されています。

まだ頭がよくない

ANNは私たちの頭脳よりもはるかに単純です。 これが試みる唯一のことは、入力された単語を適切な応答と照合することです。 ANNは、レストランの予約をしている人々の何千もの会話の筆記録を見せられることで学びます。

十分な例を使用して、話している人にどのような入力文を期待するか、それぞれにどのような応答を与えるかを学習します。

ANNが生成するテキスト応答は、音声合成(TTS)シンセサイザに送信されます。TTSシンセサイザは、それを音声に変換してから、電話の相手に再生します。

繰り返しますが、このTTSシンセサイザーは高度なAIです。この場合、通常の音声とほとんど区別がつかないように聞こえるため、携帯電話よりも高度です。

これですべてです。 最新のシステムであるにもかかわらず、システムの中心は実際には単なるテキストマッチングプロセスです。 しかし、あなたは尋ねるかもしれません-それがとても簡単であるなら、なぜ私たちは以前にそれをすることができなかったのですか?

学んだ応答

実際のところ、人間の言語、および現実世界の他のほとんどのものは、通常のコンピューターでは適切に処理するには変動が多すぎて無秩序ですが、この種の問題はAIに最適です。

AIによって生成される出力は、学習中に表示された会話に完全に依存することに注意してください。

つまり、さまざまなタイプの予約を行うには、さまざまなAIをトレーニングする必要があります。たとえば、あるAIがレストランを予約し、別のAIがヘアアポイントメントを予約することができます。

質問と回答のタイプは、予約のタイプによって大きく異なるため、これは必要です。 これは、Duplexが多くのタイプのリクエストを処理する必要がある一般的な音声アシスタントよりもはるかに優れている点でもあります。

これで、AIアシスタントとのカジュアルな会話がすぐになくなることは明らかです。 実際、現在のすべてのAIは、実際にはパターンマッチャー(この場合は、テキストのパターンのマッチング)にすぎません。 彼らは何を聞いているのか、何を見ているのか、何を言っているのか理解していません。

パターンマッチングは、私たちの頭脳が行うことのXNUMXつですが、それだけではありません。 より強力なAIを作成するための鍵は、脳のより多くの秘密を解明することかもしれません。 したいですか? まあ、それは 別問題.会話

著者について

Peter Postton、ポスドク研究員、 クイーンズランド大学

この記事はから再公開されます 会話 クリエイティブコモンズライセンスの下で 読む 原著.

enafarZH-CNzh-TWnltlfifrdehiiditjakomsnofaptruessvtrvi

InnerSelfをフォロー

Facebookのアイコンさえずり、アイコンrss-icon

電子メールで最新情報を取得する

{emailcloak =オフ}

MOST READ

編集者から

ドナルドトランプが史上最大の敗者になる理由
by ロバートジェニングス、InnerSelf.com
2年20020月2日更新-このコロナウイルスのパンデミック全体が運命をたどっています。 そうそう、数十万、おそらく百万人の人々が死ぬだろう…
青い目対茶色の目:人種差別はどのように教えられるか
by Marie T. Russell、InnerSelf
この1992年のオプラショーエピソードでは、受賞歴のある反人種差別活動家で教育者のジェーンエリオットが、偏見を学ぶのがいかに簡単であるかを示すことで、人種差別についての難しい教訓を聴衆に教えました。
変化が訪れる...
by Marie T. Russell、InnerSelf
(30年2020月XNUMX日)フィラデフィアや国内の他の都市での出来事に関するニュースを見ると、何が起こっているのかと心が痛む。 これは大きな変化の一部であることを知っています…
歌は心と魂を盛り上げることができます
by Marie T. Russell、InnerSelf
私はそれが入り込んだのを見つけたときに私の心から闇を取り除くために使用するいくつかの方法があります。XNUMXつはガーデニング、または自然の中で時間を過ごすことです。 もうXNUMXつは沈黙です。 別の方法は読書です。 それから…
社会的分散と孤立のパンデミックとテーマソングのマスコット
by Marie T. Russell、InnerSelf
最近、ある曲に出会い、歌詞を聴いていたので、このような社会的孤立の時代の「主題歌」としてはうってつけだと思いました。 (ビデオの下の歌詞。)