そしてとにかく彼らはそれをリリースした。
ニュースフラッシュ、相棒
Apple の AI への最近の取り組みである Apple Intelligence は、ほとんど期待外れだった。特に、同社のニュース要約は見出しの失敗や虚偽の情報の報道で広範な批判にさらされ、今週アップルは修正されるまでプログラム全体を一時停止した。
これらはどれも驚くべきことではありません。このような AI の「幻覚」は、すべての大規模な言語モデルに固有の問題であり、まだ誰も解決していません。 それが少しでも解決可能であれば。しかし、独自の AI モデルをリリースすることは特別に聞こえます Appleのエンジニアがこの技術の大きな欠陥について警告していたことを考えると、それは無謀だ。
その警告はすぐに来た 昨年10月に発表された研究。この研究はまだ査読されておらず、業界トップの LLM の数学的「推論」をテストしたもので、AI モデルは実際には推論しないというコンセンサスをさらに深めました。
「その代わりに」と研究者らは結論づけた。彼らはトレーニング データで観察された推論ステップを再現しようとします。」
数学は難しい
AI モデルをテストするために、研究者たちはそれらを用意しました。 広く使用されているベンチマークから何千もの数学の問題を試す GSM8K データセット。典型的な質問は次のとおりです。「ジェームズは、それぞれ 4 ポンドの牛肉を 5 パック購入します。牛肉の価格は 1 ポンドあたり 5.50 ドルです。彼はいくら支払いましたか?」一部の質問は少し複雑ですが、十分な教育を受けた中学生であれば解けないものではありません。
研究者らが AI モデルのこうしたギャップを明らかにした方法は驚くほど簡単でした。質問内の数値を変更するだけでした。これにより、データの汚染が防止されます。つまり、実際に問題をさらに難しくすることなく、AI がトレーニング データでこれらの正確な問題をこれまでに経験していないことが保証されます。
これだけでも、テストした 20 個の LLM のすべてで、わずかではあるものの顕著な精度の低下が発生しました。しかし、研究者らがさらに一歩進んで、名前も変更し、果物の数え方に関する質問で、いくつかの果物が「通常より小さい」と発言するなど、無関係な詳細を追加すると、パフォーマンスが低下したという。自分自身の言葉遣い、」壊滅的な」: 最高 65%。
これらはさまざまです しかし、その中で最も賢い OpenAI の o1-preview でさえ 17.5% 急落しました。 (前世代の GPT-4o は 32% 下落しました。)
コピーキャット
したがって、持ち帰りは厳しいです。
「これは、問題解決に関連する情報を識別するモデルの能力に重大な欠陥があることを明らかにしています。おそらく、モデルの推論は常識用語で形式的ではなく、主にパターンマッチングに基づいているためです」と研究者らは書いている。
言い換えれば、AI は賢く見えるのが非常に得意で、多くの場合正しい答えを返してくれます。しかし、誰かの宿題を一字一句コピーできなくなると、大変なことになります。
これを聞くと、AI モデルを信頼して見出しを繰り返すこと、つまりそれが全体の意味をどのように変えるかを実際に理解せずに単語を入れ替えることについて、深刻な疑問が生じるのではないかと思われるかもしれませんが、どうやらそうではないようです。 Apple は、これまでのすべての LLM に重大な欠陥があることを知っていて、とにかく独自のモデルをリリースしました。公平を期すために言うと、これが AI 業界全体のやり方です。
AI についてさらに詳しく: 恐ろしい新興企業が AI エージェントを利用して顧客の製品に 1 シリングの投稿を Reddit に殺到