LLMがバカになっているのはなぜか

ChatGPTやClaudeのようなチャットボットが最近バカになっているという話をよく聞く。コードを作成するように求めても”ここにコードが入ります”みたいに省略したり、同じ数学の問題でも正解率が以前より悪くなったことが測定されている。

この原因にはいくつか仮説があり、一つはコスト削減として出力を少なくするようにプロンプトを変えたり、量子化によって計算量を削減することによって精度が下がっているというものだ。AI企業は公式には否定していて、Claudeに至ってはシステムプロンプトの変更履歴を公開¹している。性能とコストが低い別モデルがあるのに、わざわざ最新モデルの性能を落とすことは不自然でもある。

他にも仮説はいくつかあり、トレーニングデータが劣化してる説、夏休み²や冬休み³などの休暇をLLMが真似て怠けている説、人間が出力に慣れて同じ出力なのに満足しなくなった説、基本モデルとプロンプトは変えていないが微調整は頻繁に行われている説などがある。

人間の心理的なものなのか、LLMの”気分”によるものなのか、モデルの微調整の結果によるものなのか答えはわからないが、いずれにせよ、LLMを真剣に使うならば自分で評価することは欠かせないだろう。

Masa Cento

LLMがバカになっているのはなぜか

Sources

Graph View

Masa Cento

LLMがバカになっているのはなぜか

Sources

Footnotes

Graph View