Retour au feed
arXiv cs.AI·

TRINE: A Token-Aware, Runtime-Adaptive FPGA Inference Engine for Multimodal AI

Signal
78
Hype
15
En 3 lignesTRINE est un accélérateur FPGA et compilateur pour l'inférence multimodale (ViT, CNN, GNN, transformers) sans reconfiguration. Il unifie les couches en opérations matricielles, bascule entre architectures systoliques et SIMD, et applique l'élagage de tokens en flux. Sur Alveo U50 et ZCU104, il réduit la latence de 22,57x vs RTX 4090 et consomme 20-21 W.
Lire la source
Ton avis ?
VisionGénération de codeInfrastructureBenchmarks

Résumé généré par Claude — vérifié par l'humain