【令和最新版】生成AIは間違い探しをどれだけ解けるのか?GPT5.4 VS Gemini3.1 pro VS Opus4.6|朝日新聞社 メディア研究開発センター

メディア研究開発センターの山本です。2025年2月に「生成AIは間違い探しを解けるのか?」という観点で、ChatGPT o1とGemini 2.0 Flashに間違い探しを解かせる実験を行いました。 そのときの結論は「まだ人間を超えたと...
🔒 23
💬 12
nguyen-oiGPT5.4とか名前がもう未来。サイゼリヤの難問に勝てるなら本物だな
2026/03/18 18:10
otihateten3510朝日新聞がおもしろいことしてるのが一番おもしろい
2026/03/18 18:44★★★★★★
karatteこの並びでOpus最下位なのか。まあ得手不得手は確かにあるわなー5.4はアスペだしGeminiはコーディングポンコツだし。
2026/03/18 18:56
abstruct3431「最後まで差がついたのはタスク⑤だけ」メディアのくせにおかしな日本語使っちゃって恥ずかしくないの?
2026/03/18 19:14
spark64サイゼリヤも瞬殺してきた、ワイ得意の立体視がギュられるのも時間の問題だ
2026/03/18 19:20
natto21文章問題でやってほしい。次の5つの中から村上春樹の著作でない作品は? とか。
2026/03/18 19:25
misshiki朝日新聞社が間違い探しでGPT5.4、Gemini3.1 Pro、Claude Opus 4.6を比較。簡単な4タスクは全モデル100%正答、実践問題ではGPT5.4が平均96%で首位。2025年比で視覚比較は大幅改善。
2026/03/18 21:06
tsukarukatamade結果がバラけるのをもっときちんと探そう
2026/03/18 21:19
hamigaki_nowサイゼで試して全然ダメだったころから1年経ってないな。今度行ったらまた試そう。/写真で撮った奴だと認識しづらいって言われたわそういえば。そこは引き続きダメなんかな。
2026/03/18 21:26
agnusdei28この間サイゼでやったら、AIがすべて解いたわけではないけど、見るべきポイントはわかっておかげでぜんぶ解けた。うれしかった。
2026/03/18 21:29
Giuseppe_il_Servo新たなAIベンチマーク爆誕 > “もはや生成AIがサイゼリヤの間違い探しを完全攻略する日も、そう遠い未来ではなさそうです。”
2026/03/19 00:03
UCs個人的にはありがたい一方で、仮にもメディアが他社のプラットフォームに乗っかって恥ずかしくないのかな
2026/03/19 00:23