Retour au feed
Reddit r/LocalLLaMA·

*Lower* generation speed with H100 and H200 than with RTX 5090?

Signal
35
Hype
15
En 3 lignesUtilisateur rapporte une génération plus lente sur H100 (42 tok/sec) qu'sur RTX 5090 (57 tok/sec) avec llama.cpp et un modèle 31B Q6. H100 offre plus de contexte (128k vs 26k) et plus de bande passante, mais génère plus lentement.
Lire la source
Ton avis ?
InfrastructureBenchmarks

Résumé généré par Claude — vérifié par l'humain