Is it agentic enough? Benchmarking open models on your own tooling 未分類 X Facebook はてブ LINE Pinterest コピー 2026.06.18 新ベンチマークはライブラリ操作中のエージェント挙動を測定する…このサイトの記事を見る