Optimum-NVIDIA Unlocking blazingly fast LLM inference in just 1 line of code
Hugging Face et NVIDIA lancent Optimum-NVIDIA, une bibliothèque qui accélère l'inférence LLM via une seule ligne de code. Intégration native des optimisations NVIDIA (TensorRT-LLM, cuDNN) pour réduire latence et augmenter throughput sans modification du code utilisateur.