「Claude Codeに全部やらせる時代が来た」のか検証してみた

Zenn

https://zenn.dev/okazu_dm/articles/83957f1623ec4d

🔒 120

💬 24

無言を隠す

先着人気新着 ➡️

igrep"典型的な脆弱性ルールに当てはまらず、観点としてあらかじめ与えられていないパターンは見落とす"

2026/05/07 17:38★★

uhavetwocows単なる「使ってみた」系記事ですが、LLMの現状のポテンシャルのスナップショットとして。

2026/05/07 23:04★★★★

nguyen-oi検出率100%は流石に盛りすぎだったか。LLMに丸投げできる日はまだ遠そうだな

2026/05/08 07:02

lets_skepticいい検証だ。今後、このベンチマークに過剰適応する可能性はあると思いつつ。

2026/05/08 07:51★

hirosheどちらかというと人間の指示の曖昧さ、与える情報の不十分さが明らかになってる気がする

2026/05/08 07:53★★★★★★★★★★

solidstatesocietyClaudeはバカ喰い

2026/05/08 08:27

shoh8いま時点（2026/04）のやってみた

2026/05/08 09:13

shinobue679fbea集え！Clineに全部賭けた人たち！

2026/05/08 09:18

yoiIT少なくとも人間に丸投げするよりも精度は高いのだから、使わない選択肢はない。

2026/05/08 09:33

hry64ありがたい検証

2026/05/08 10:34★

k3akinori何に使うにせよ、自分で試しにやってみてその癖やどこまで信用できるかを把握するのが最適解よね。

2026/05/08 10:38

peppers_white人間が文を書かないといけないのって結局人間のケアレスミスには対処できないのよね、LLMはプロンプトはエンジンとして使ってツール・GUIによる自動化・工程の視覚化する方向がなかなか進化しないなあって思う

2026/05/08 11:40

rgfx"OWASP Juice Shop(ビジネスロジック、ステガノグラフィ、暗号解析、Race Condition のようにLLMラッパーでは原理的に取りにくい物を含む) で再現した範囲では脆弱性クラス単位で 60〜70%、チャレンジ単位では 11% 程度に留まり"

2026/05/08 12:10

TakayukiN627Juice Shop は教育目的で約 100 のチャレンジが OWASP Top 10 全般にわたって意図的に仕込まれており、ビジネスロジック、ステガノグラフィ、暗号解析、Race Condition のように「LLMラッパーでは原理的に取りにくい」ものも含まれて

2026/05/08 12:15

takataka2026実際にクロードコードは作業革命

2026/05/08 12:33★

richmikan記事の結論：到底「全部やらせる時代が来た」とは言えない状況

2026/05/08 12:45★★★★

kurage_lizardClaude Codeは何でも知ってるパソコンの先生的に使っても良い。文字化けしちゃったー！とかこのファイル開かないー！とかしょーもないトラブルでもやれやれと言いながら優しく対応してくれるので

2026/05/08 12:53★★

moronbee"まとめ: 実用的ではあるが、限定的な利用を推奨"

2026/05/08 13:29★

cubed-l既存の検査ツールベンダーがAIを上手く組込んで性能を格段に上げてくれることを期待してるんだがなかなかそうならんなぁ

2026/05/08 15:12★

fashiOWASP Top 10に掲載されていない脆弱性を含ませたアプリに対して「OWASP Top 10 ベースの診断が全自動で回るスキル」を検証した結果なのでスコアが低くなるのは当然

2026/05/08 16:09