arXiv cs.AI·1 juin 2026

TRINE: A Token-Aware, Runtime-Adaptive FPGA Inference Engine for Multimodal AI

Signal

Hype

En 3 lignesTRINE est un accélérateur FPGA et compilateur pour l'inférence multimodale (ViT, CNN, GNN, transformers) sans reconfiguration. Il unifie les couches en opérations matricielles, bascule entre architectures systoliques et SIMD, et applique l'élagage de tokens en flux. Sur Alveo U50 et ZCU104, il réduit la latence de 22,57x vs RTX 4090 et consomme 20-21 W.

Lire la source

Ton avis ?

Vision Génération de code Infrastructure Benchmarks

Résumé généré par Claude — vérifié par l'humain

TRINE: A Token-Aware, Runtime-Adaptive FPGA Inference Engine for Multimodal AI

Autres angles sur ce sujet