Real-time LLM Inference on Standard GPUs (3,000 tokens/s per request) 未分類 X Facebook はてブ LINE Pinterest コピー 2026.05.29 標準GPUでのリアルタイム推論を公開。8×AMD MI300…このサイトの記事を見る