Real-time LLM Inference on Standard GPUs (3,000 tokens/s per request)

未分類

2026.05.29

標準GPUでのリアルタイム推論を公開。8×AMD MI300…

このサイトの記事を見る

タイトルとURLをコピーしました