Acelere facilmente os seus LLMs em até 3x⚡️ enquanto preserva mais de 99,5% de precisão do modelo 🎯
Com a Quantização Pós-Treinamento do Otimizador de Modelo TensorRT, você pode quantizar modelos de última geração para NVFP4—reduzindo significativamente a sobrecarga de memória e computação durante a inferência, enquanto
Ver original