Archives

juin 2026

518 articles

arXiv cs.CL·

Same Patient, Different Words, Different Diagnosis? Evaluating Semantic Stability in Clinical LLMs

Étude de la stabilité sémantique de 16 LLMs (génériques et médicaux) face à des reformulations de prompts cliniquement équivalentes. Propose un cadre de vérification basé sur l'inférence en langage naturel et trois métriques (MVS, ΔC, WCI). Résultat : la spécialisation domaine n'améliore pas systématiquement la robustesse aux variations sémantiques.

ÉvaluationsSécurité IARaisonnement
SIG
78
HYP
15
arXiv cs.AI·

TRINE: A Token-Aware, Runtime-Adaptive FPGA Inference Engine for Multimodal AI

TRINE est un accélérateur FPGA et compilateur pour l'inférence multimodale (ViT, CNN, GNN, transformers) sans reconfiguration. Il unifie les couches en opérations matricielles, bascule entre architectures systoliques et SIMD, et applique l'élagage de tokens en flux. Sur Alveo U50 et ZCU104, il réduit la latence de 22,57x vs RTX 4090 et consomme 20-21 W.

VisionGénération de codeInfrastructure
SIG
78
HYP
15
arXiv cs.LG·

Revisiting Padded Transformer Expressivity: Which Architectural Choices Matter and Which Don't

Étude théorique sur l'expressivité des transformers avec padding. Les auteurs prouvent que les transformers avec padding polynomial et précision constante équivalent à AC⁰ uniforme, tandis que ceux avec précision croissante atteignent TC⁰. La profondeur et la précision numérique sont les facteurs clés ; la largeur n'augmente pas l'expressivité au-delà du logarithmique.

RaisonnementPapersBenchmarks
SIG
75
HYP
15
arXiv cs.LG·

Graph-Conditioned Mixture of Graph Neural Network Experts for Traffic Forecasting

GC-MoE est un framework mixture-of-experts graph-conditionné pour la prévision de trafic spatio-temporelle. Il assigne à chaque nœud une combinaison personnalisée d'experts GNN gelés basée sur la topologie du graphe et les données récentes. Entraîné sur PEMS04, PEMS07, METR-LA et PEMS-BAY, le modèle améliore MAE avec seulement ~17K paramètres entraînables sur 1.5M poids gelés.

BenchmarksPapers
SIG
72
HYP
18
Reddit r/LocalLLaMA·

I bolted an 8-arm reasoning MoE onto a frozen 1.4B Mamba backbone on a single RTX 3060. Here’s the mechanistic autopsy of what broke and what worked.

Un chercheur a construit Mamba-Titan-1.4B-Reasoning (2.54B params MoE) sur RTX 3060 en gelant un backbone Mamba-1 1.4B et en ajoutant 8 experts entraînables. Entraîné sur traces CoT DeepSeek, le modèle a développé un mécanisme de « vault door » : le token </think> s'isole à la plus petite norme (1.991 vs 4.742 moyenne) pour contrôler la terminaison du raisonnement latent.

RaisonnementFine-tuningOpen source
SIG
78
HYP
35