【令和最新版】生成AIは間違い探しをどれだけ解けるのか？GPT5.4 VS Gemini3.1 pro VS Opus4.6｜朝日新聞社メディア研究開発センター

note（ノート）

メディア研究開発センターの山本です。2025年2月に「生成AIは間違い探しを解けるのか？」という観点で、ChatGPT o1とGemini 2.0 Flashに間違い探しを解かせる実験を行いました。そのときの結論は「まだ人間を超えたと...

🔒 23

💬 12

無言を隠す

nguyen-oiGPT5.4とか名前がもう未来。サイゼリヤの難問に勝てるなら本物だな

2026/03/18 18:10

otihateten3510朝日新聞がおもしろいことしてるのが一番おもしろい

2026/03/18 18:44★★★★★★

karatteこの並びでOpus最下位なのか。まあ得手不得手は確かにあるわなー5.4はアスペだしGeminiはコーディングポンコツだし。

2026/03/18 18:56

abstruct3431「最後まで差がついたのはタスク⑤だけ」メディアのくせにおかしな日本語使っちゃって恥ずかしくないの？

2026/03/18 19:14

spark64サイゼリヤも瞬殺してきた、ワイ得意の立体視がギュられるのも時間の問題だ

2026/03/18 19:20

natto21文章問題でやってほしい。次の５つの中から村上春樹の著作でない作品は？　とか。

2026/03/18 19:25

misshiki朝日新聞社が間違い探しでGPT5.4、Gemini3.1 Pro、Claude Opus 4.6を比較。簡単な4タスクは全モデル100%正答、実践問題ではGPT5.4が平均96%で首位。2025年比で視覚比較は大幅改善。

2026/03/18 21:06★

tsukarukatamade結果がバラけるのをもっときちんと探そう

2026/03/18 21:19

hamigaki_nowサイゼで試して全然ダメだったころから1年経ってないな。今度行ったらまた試そう。/写真で撮った奴だと認識しづらいって言われたわそういえば。そこは引き続きダメなんかな。

2026/03/18 21:26

agnusdei28この間サイゼでやったら、AIがすべて解いたわけではないけど、見るべきポイントはわかっておかげでぜんぶ解けた。うれしかった。

2026/03/18 21:29

Giuseppe_il_Servo新たなAIベンチマーク爆誕 > “もはや生成AIがサイゼリヤの間違い探しを完全攻略する日も、そう遠い未来ではなさそうです。”

2026/03/19 00:03

UCs個人的にはありがたい一方で、仮にもメディアが他社のプラットフォームに乗っかって恥ずかしくないのかな

2026/03/19 00:23

【令和最新版】生成AIは間違い探しをどれだけ解けるのか？GPT5.4 VS Gemini3.1 pro VS Opus4.6｜朝日新聞社 メディア研究開発センター