OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚 – GIGAZINE 未分類 X Facebook はてブ LINE Pinterest コピー 2026.04.30 SWE- bench Verifiedは最先端モデルの評価と…このサイトの記事を見る