ChatGPTやClaudeのようなチャットボットが最近バカになっているという話をよく聞く。コードを作成するように求めても”ここにコードが入ります”みたいに省略したり、同じ数学の問題でも正解率が以前より悪くなったことが測定されている。

この原因にはいくつか仮説があり、一つはコスト削減として出力を少なくするようにプロンプトを変えたり、量子化によって計算量を削減することによって精度が下がっているというものだ。AI企業は公式には否定していて、Claudeに至ってはシステムプロンプトの変更履歴を公開1している。性能とコストが低い別モデルがあるのに、わざわざ最新モデルの性能を落とすことは不自然でもある。

他にも仮説はいくつかあり、トレーニングデータが劣化してる説、夏休み2や冬休み3などの休暇をLLMが真似て怠けている説、人間が出力に慣れて同じ出力なのに満足しなくなった説、基本モデルとプロンプトは変えていないが微調整は頻繁に行われている説などがある。

人間の心理的なものなのか、LLMの”気分”によるものなのか、モデルの微調整の結果によるものなのか答えはわからないが、いずれにせよ、LLMを真剣に使うならば自分で評価することは欠かせないだろう。


Sources

Footnotes

  1. System Prompts - Anthropic

  2. claude is european and wants the month off

  3. gpt-4-turbo when it “thinks” its December vs. when it thinks its May