
【令和最新版】生成AIは間違い探しをどれだけ解けるのか?GPT5.4 VS Gemini3.1 pro VS Opus4.6|朝日新聞社 メディア研究開発センター
メディア研究開発センターの山本です。2025年2月に「生成AIは間違い探しを解けるのか?」という観点で、ChatGPT o1とGemini 2.0 Flashに間違い探しを解かせる実験を行いました。
そのときの結論は「まだ人間を超えたと...

nguyen-oiGPT5.4とか名前がもう未来。サイゼリヤの難問に勝てるなら本物だな
2026/03/18 18:10

otihateten3510朝日新聞がおもしろいことしてるのが一番おもしろい
2026/03/18 18:44★★★★★★

karatteこの並びでOpus最下位なのか。まあ得手不得手は確かにあるわなー5.4はアスペだしGeminiはコーディングポンコツだし。
2026/03/18 18:56

abstruct3431「最後まで差がついたのはタスク⑤だけ」メディアのくせにおかしな日本語使っちゃって恥ずかしくないの?
2026/03/18 19:14

spark64サイゼリヤも瞬殺してきた、ワイ得意の立体視がギュられるのも時間の問題だ
2026/03/18 19:20

natto21文章問題でやってほしい。次の5つの中から村上春樹の著作でない作品は? とか。
2026/03/18 19:25

misshiki朝日新聞社が間違い探しでGPT5.4、Gemini3.1 Pro、Claude Opus 4.6を比較。簡単な4タスクは全モデル100%正答、実践問題ではGPT5.4が平均96%で首位。2025年比で視覚比較は大幅改善。
2026/03/18 21:06★

tsukarukatamade結果がバラけるのをもっときちんと探そう
2026/03/18 21:19

hamigaki_nowサイゼで試して全然ダメだったころから1年経ってないな。今度行ったらまた試そう。/写真で撮った奴だと認識しづらいって言われたわそういえば。そこは引き続きダメなんかな。
2026/03/18 21:26

agnusdei28この間サイゼでやったら、AIがすべて解いたわけではないけど、見るべきポイントはわかっておかげでぜんぶ解けた。うれしかった。
2026/03/18 21:29

Giuseppe_il_Servo新たなAIベンチマーク爆誕 > “もはや生成AIがサイゼリヤの間違い探しを完全攻略する日も、そう遠い未来ではなさそうです。”
2026/03/19 00:03

UCs個人的にはありがたい一方で、仮にもメディアが他社のプラットフォームに乗っかって恥ずかしくないのかな
2026/03/19 00:23