チューリングテストとAI 10 17

Pexels/Google ディープマインド, のCC BY-SA

1950 年、英国のコンピューター科学者アラン チューリングは、「機械は考えることができるのか?」という質問に答えるための実験的方法を提案しました。 同氏は、人間がXNUMX分間の質問の後、自分が人工知能(AI)マシンと話しているのか、それとも別の人間と話しているのかを見分けることができなければ、AIが人間と同様の知能を持っていることを証明できるだろうと示唆した。

AI システムは彼の生涯においてチューリングのテストに合格するには程遠い状況でしたが、彼は次のように推測しました。

「[…]約70年後には、コンピュータをプログラムして、模倣ゲームを上手にプレイさせることが可能になり、平均的な尋問者がXNUMX分間の尋問後に正しい身元を特定できる確率はXNUMX%を超えることになるだろう」質問すること。

チューリングの提案から 70 年以上が経過した現在、チューリングが概説した特定の条件を満たしてテストに合格した AI は存在しません。 それにもかかわらず、 いくつかの見出し 反映する、いくつかのシステムはかなり近づいています。

最近の実験の一つ GPT-4 (ChatGPT の背後にある AI テクノロジ) を含む XNUMX つの大規模な言語モデルをテストしました。 参加者は別の人または AI システムと XNUMX 分間チャットしました。 AI は小さなスペルミスをするよう促され、テスターがあまりにも攻撃的になると終了します。


インナーセルフ購読グラフィック


このプロンプトにより、AI はテスターをうまく騙しました。 AI ボットと組み合わせた場合、テスターは AI システムと会話しているかどうかを 60% の確率でしか正確に推測できませんでした。

自然言語処理システムの設計が急速に進歩したことを考えると、今後数年以内に AI がチューリングの最初のテストに合格することになるかもしれません。

しかし、人間の真似をすることは本当に知性を測る効果的なテストなのでしょうか? そうでない場合、AI の能力を測定するために使用できる代替ベンチマークは何でしょうか?

チューリング テストの限界

システムがチューリングテストに合格すると、 一部 知能がある証拠ではありますが、このテストは知能を決定的にテストするものではありません。 問題の XNUMX つは、「偽陰性」が発生する可能性があることです。

今日の大規模な言語モデルは、多くの場合、人間ではないことを即座に宣言するように設計されています。 たとえば、ChatGPT に質問すると、多くの場合、ChatGPT はその回答の前に「AI 言語モデルとして」というフレーズを付けます。 たとえ AI システムがチューリング テストに合格する基礎的な能力を持っていたとしても、この種のプログラミングはその能力を無効にしてしまいます。

このテストには、ある種の「偽陽性」のリスクもあります。 哲学者ネッド・ブロックとして と指摘し 1981 年の記事では、システムは、考えられるあらゆる入力に対して人間のような応答をハードコーディングするだけで、チューリング テストに合格できる可能性があると述べています。

さらに、チューリング テストは特に人間の認知に焦点を当てています。 AI の認知が人間の認知と異なる場合、熟練した尋問者は、AI と人間のパフォーマンスが異なるタスクを見つけることができるでしょう。

この問題に関して、チューリングは次のように書いています。

この反対意見は非常に強いものですが、少なくとも、それでもなお、イミテーション ゲームを満足にプレイできるマシンを構築できるのであれば、この反対意見に悩まされる必要はないと言えるでしょう。

言い換えれば、チューリングテストに合格することはシステムがインテリジェントであるという良い証拠ですが、不合格になるとシステムがインテリジェントであるという良い証拠にはなりません。 インテリジェント。

さらに、このテストは、AI に意識があるかどうか、痛みや喜びを感じることができるかどうか、道徳的な意味があるかどうかを判断するのに適した尺度ではありません。 多くの認知科学者によると、意識には、作業記憶、高次の思考、環境を認識しその周りで自分の身体がどのように動くかをモデル化する能力など、特定の精神的能力の集合体が含まれています。

チューリングテストはAIシステムかどうかという質問には答えていない これらの能力を持っています.

成長する AI の能力

チューリング テストは特定のロジックに基づいています。 つまり、人間は知的であるため、人間を効果的に模倣できるものはすべて知的である可能性が高くなります。

しかし、この考えは知性の性質については何も教えてくれません。 AI の知能を測定する別の方法には、知能とは何かについてより批判的に考えることが含まれます。

現在、人工知能または人間の知能を信頼して測定できる単一のテストはありません。

最も広いレベルでは、知能とは次のように考えることができます。 能力 さまざまな環境でさまざまな目標を達成します。 よりインテリジェントなシステムとは、より広範囲の環境でより広範囲の目標を達成できるシステムです。

したがって、汎用 AI システムの設計の進歩を追跡する最良の方法は、さまざまなタスクにわたってそのパフォーマンスを評価することです。 機械学習の研究者は、これを実現するさまざまなベンチマークを開発しました。

たとえば、GPT-4 は 正しく答えることができる 質問の 86% は、大規模なマルチタスクの言語理解に関するもので、大学レベルのさまざまな学問分野にわたる多肢選択式テストのパフォーマンスを測定するベンチマークです。

においても好成績を収めた エージェントベンチ、たとえば、Web の閲覧、オンラインでの製品の購入、ゲームでの競争などによって、大規模な言語モデルがエージェントとして動作する能力を測定できるツールです。

チューリングテストは今でも意味があるのでしょうか?

チューリング テストは、人間の行動をシミュレートする AI の能力を模倣する尺度です。 大規模な言語モデルは熟練した模倣者であり、現在、それがチューリング テストに合格する可能性に反映されています。 しかし、知性は模倣と同じではありません。

達成すべき目標の数と同じくらい多くの種類のインテリジェンスが存在します。 AI の知能を理解する最良の方法は、AI のさまざまな重要な機能の開発の進捗状況を監視することです。

同時に、AI がインテリジェントであるかどうかという問題に関しては、「ゴールポストを変更」し続けないことが重要です。 AI の能力が急速に向上しているため、AI インテリジェンスの考え方を批判する人たちは、AI システムが完了するのに苦労する可能性のある新しいタスクを常に見つけていますが、そのタスクが飛び越えていることに気づくだけです。 さらに別のハードル.

この状況では、関連する問題は AI システムがインテリジェントであるかどうかではなく、より正確には、どのようなインテリジェントであるかということです。 種類 彼らが持っている可能性のある知性。会話

サイモン・ゴールドスタイン、オーストラリア・カトリック大学、ディアノイア哲学研究所准教授、 オーストラリアカトリック大学 & キャメロン・ドメニコ・カーク・ジャンニーニ哲学助教授、 ラトガース大学

この記事はから再公開されます 会話 クリエイティブコモンズライセンスの下で 読む 原著.