TRINE: A Token-Aware, Runtime-Adaptive FPGA Inference Engine for Multimodal AI
Signal
78
Hype
15
En 3 lignesTRINE est un accélérateur FPGA et compilateur pour l'inférence multimodale (ViT, CNN, GNN, transformers) sans reconfiguration. Il unifie les couches en opérations matricielles, bascule entre architectures systoliques et SIMD, et applique l'élagage de tokens en flux. Sur Alveo U50 et ZCU104, il réduit la latence de 22,57x vs RTX 4090 et consomme 20-21 W.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain