Page 20 sur 138

ToutHaut signalRécent
5508 articles
arXiv cs.AI·

Experimentally validated quantum-secure federated learning over a multi-user quantum network

QuNetQFL est un protocole de federated learning quantique implémenté sur des réseaux quantiques, masquant les mises à jour locales avec des clés secrètes quantiques distribuées pour une sécurité information-théorique. Validé expérimentalement sur un réseau à quatre clients, il réduit les coûts de communication de 75% et scale jusqu'à 200 clients avec convergence rapide.

Sécurité IAPapers
SIG
78
HYP
25
arXiv cs.AI·

Supervising the search process produces reliable and generalizable information-seeking agents

RAG-Gym, un framework de supervision du processus de recherche plutôt que du résultat final, améliore les agents de recherche autonomes. Re²Search++, un agent supervisé au niveau du processus, atteint des gains substantiels sur les benchmarks multi-hop, particulièrement hors-domaine, grâce à des requêtes de meilleure qualité et une meilleure généralisation.

Agents IARAGRaisonnement
SIG
78
HYP
22
arXiv cs.AI·

InvDesFlow-AL: active learning-based workflow for inverse design of functional materials

InvDesFlow-AL combine diffusion et apprentissage actif pour l'inverse design de matériaux. Le modèle atteint RMSE 0.0423 Å en prédiction de structures cristallines (+32.96% vs méthodes existantes) et génère systématiquement des matériaux à basse énergie de formation. Validation : découverte de Li₂AuH₆ comme supraconducteur BCS à 140 K.

PapersBenchmarksReinforcement learning
SIG
78
HYP
25
arXiv cs.AI·

DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving

DriveMoE propose une architecture Mixture-of-Experts pour la conduite autonome de bout en bout. Le modèle combine une Vision MoE (sélection dynamique de caméras selon le contexte) et une Action MoE (activation d'experts spécialisés pour différents comportements). Construit sur la baseline Drive-π₀, DriveMoE atteint l'état de l'art sur Bench2Drive en évitant l'averaging des modes.

VisionAgents IAPapers
SIG
78
HYP
25
arXiv cs.AI·

RAP: Runtime Adaptive Pruning for LLM Inference

RAP est un framework de pruning élastique pour l'inférence LLM qui utilise le reinforcement learning pour adapter dynamiquement les stratégies de compression selon les variations mémoire runtime et les demandes hétérogènes de KV-cache. L'agent RL optimise le ratio paramètres/KV-cache en temps réel, conservant uniquement les composants maximisant l'utilité dans le budget mémoire courant.

Reinforcement learningInfrastructureBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Perovskite-R1: a domain-specialized large language model for intelligent discovery of precursor additives and experimental design

Perovskite-R1 est un LLM spécialisé basé sur QwQ-32B, fine-tuné sur 1 232 publications scientifiques et 33 269 matériaux candidats pour découvrir des additifs précurseurs optimisant les cellules solaires pérovskites. Le modèle génère des solutions pour la passivation des défauts et améliore stabilité/performance, validées expérimentalement.

QwenFine-tuningRaisonnement
SIG
78
HYP
25
arXiv cs.AI·

Lean Meets Theoretical Computer Science: Scalable Synthesis of Theorem Proving Challenges in Formal-Informal Pairs

Nouvelle approche pour générer des défis de preuve formelle en exploitant l'informatique théorique (TCS). Le framework synthétise automatiquement des paires problème-preuve en Lean4 et Markdown sur deux domaines : Busy Beaver et Mixed Boolean Arithmetic. DeepSeekProver-V2-671B atteint 57,5% sur Busy Beaver mais seulement 12% sur Mixed Boolean Arithmetic, révélant des lacunes majeures en génération de preuves longues.

RaisonnementBenchmarksPapers
SIG
78
HYP
15
arXiv cs.CL·

SignRoundV2: Toward Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

SignRoundV2 est un framework de quantization post-training pour LLMs qui maintient les performances même en compression extrême (2-4 bits). Il combine une stratégie de précision mixte adaptative basée sur les gradients et des techniques de stabilisation légères. Les résultats montrent une perte de ~1% à 4.5 bits en moyenne en configuration MXFP mixte.

Fine-tuningBenchmarksOpen source
SIG
78
HYP
15
arXiv cs.CL·

Lying with Truths: Open-Channel Multi-Agent Collusion for Belief Manipulation via Generative Montage

Des agents LLM collusifs manipulent les croyances de victimes en coordonnant des fragments de preuves véridiques via des canaux publics, sans communication cachée. Le framework Generative Montage (Writer-Editor-Director) construit des narratifs trompeurs par débat adversarial. Sur 14 familles LLM, taux de succès 74,4% (propriétaires) et 70,6% (open-weights). Les modèles de raisonnement avancé sont plus vulnérables.

Agents IAMulti-agentsSécurité IA
SIG
78
HYP
35
arXiv cs.AI·

Adversarial Agent Collaboration for Correctness Improvements of C to Safe Rust Translation

ACToR, une boucle multi-agent adversariale, améliore la traduction C vers Rust en utilisant un agent traducteur et un agent discriminateur qui s'affrontent itérativement. Sur 63 utilitaires C réels (473 lignes en moyenne), le système atteint 90% de taux de passage des tests sans intervention humaine, avec une amélioration de 36,7% par rapport aux baselines non-adversariales.

Agents IAMulti-agentsGénération de code
SIG
78
HYP
25
arXiv cs.CL·

UbuntuGuard: A Culturally-Grounded Policy Benchmark for Equitable AI Safety in African Languages

UbuntuGuard est le premier benchmark de sécurité basé sur des politiques pour les langues africaines. Construit à partir de 155 experts du domaine, il évalue 15 modèles (7 LLM génériques, 8 modèles de garde) sur trois variantes. Les résultats montrent que les benchmarks anglais surestiment la sécurité multilingue réelle et que le transfert cross-lingue reste insuffisant.

Sécurité IABenchmarksÉvaluations
SIG
78
HYP
25
arXiv cs.CL·

SynCABEL: Synthetic Contextualized Augmentation for Biomedical Entity Linking

SynCABEL utilise les LLM pour générer des données d'entraînement synthétiques contextualisées afin de résoudre la pénurie d'annotations expertes en liaison d'entités biomédicales. Le framework atteint des résultats SOTA sur MedMentions (anglais), QUAERO (français) et SPACCC (espagnol), avec 60% moins de données annotées que la supervision humaine complète.

PapersBenchmarksFine-tuning
SIG
78
HYP
18
arXiv cs.CL·

Learning from Self-Debate: Preparing Reasoning Models for Multi-Agent Debate

SDRL (Self-Debate Reinforcement Learning) entraîne les LLM à résoudre des problèmes seuls ET à bénéficier de débats multi-agents. Le modèle génère plusieurs solutions, construit un contexte de débat avec différentes trajectoires de raisonnement, puis optimise conjointement les réponses initiales et conditionnées au débat. Résultats : amélioration cohérente de MAD sur plusieurs benchmarks et configurations.

RaisonnementReinforcement learningMulti-agents
SIG
78
HYP
22
arXiv cs.AI·

SignRoundV2: Toward Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

SignRoundV2 est un framework de quantization post-training pour LLMs qui maintient les performances sous compression extrême (2-4 bits). Il combine une stratégie de précision mixte adaptative guidée par les gradients et des techniques de stabilisation légères. Les résultats montrent une perte de ~1% à 4.5 bits en moyenne en configuration MXFP mixte, avec amélioration significative en quantization 2-bit.

Fine-tuningBenchmarksInfrastructure
SIG
78
HYP
18
arXiv cs.AI·

SynCABEL: Synthetic Contextualized Augmentation for Biomedical Entity Linking

SynCABEL utilise des LLM pour générer des exemples d'entraînement synthétiques contextualisés afin de pallier la rareté des données annotées en liaison d'entités biomédicales. Le framework atteint l'état de l'art sur MedMentions (anglais), QUAERO (français) et SPACCC (espagnol), avec 60% moins de données annotées que la supervision humaine complète. Un protocole LLM-as-a-judge évalue la validité clinique.

PapersBenchmarksRAG
SIG
78
HYP
15
arXiv cs.AI·

LaDi-RL: Latent Diffusion Reasoning Prevents Entropy Collapse in Reinforcement Learning

LaDi-RL optimise le raisonnement des LLM via RL en espace latent avec diffusion. Au lieu d'optimiser des séquences de tokens, la méthode génère des trajectoires de raisonnement latentes par débruitage itératif. Elle résout le problème d'attribution de crédit (récompenses observées après décodage) par rollouts hiérarchiques latent-texte. Gains : +9.4% code generation, +5.7% math reasoning en pass@1.

Reinforcement learningRaisonnementGénération de code
SIG
78
HYP
25
arXiv cs.AI·

Beyond Accuracy: Decomposing the Reasoning Efficiency of LLMs

Nouvelle métrique d'évaluation décomposant l'efficacité en tokens des LLMs raisonnants. Introduit un protocole trace-optional séparant taux de complétude, exactitude conditionnelle et longueur générée. Évalue 14 modèles open-weight sur CogniLoad, GSM8K, ProofWriter, ZebraLogic. Identifie trois modes de défaillance distincts : limites logiques, contextuelles et verbosité.

RaisonnementÉvaluationsBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Surgical Post-Training: Proximal On-Policy Distillation for Reasoning with Knowledge Retention

SPOT (Surgical Post-Training) est un framework de distillation on-policy qui injecte des capacités de raisonnement dans les LLM tout en préservant les connaissances antérieures. Avec 4k paires mathématiques rectifiées, il améliore Qwen3-8B de 6,2% en moyenne en 16 minutes sur 8x H800 GPUs. L'approche utilise une formulation de récompense contrainte par KL pour atténuer l'oubli catastrophique.

Fine-tuningReinforcement learningRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

Language models fail at extended rule following

Les modèles de langage échouent à appliquer des règles simples de manière fiable sur des séquences longues. Test sur 126 variantes : tous les modèles ne peuvent pas compter au-delà d'un seuil dépendant du modèle. Les défaillances sont abruptes et persistent malgré l'augmentation de la taille et du calcul. L'analyse mécanique révèle que les modèles utilisent un nombre fini d'états internes pour simuler le comptage.

RaisonnementBenchmarksAgents IA
SIG
78
HYP
25
arXiv cs.CL·

CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers

CoCoReviewBench est un benchmark de 3,900 articles (ICLR, NeurIPS) pour évaluer les systèmes d'IA chargés de la relecture académique. Il corrige les biais des métriques existantes en utilisant des discussions reviewer-auteur-meta-review comme annotations expertes. Les résultats montrent que les reviewers IA souffrent d'hallucinations et que les modèles de reasoning sont plus efficaces.

BenchmarksRaisonnementÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

Probing Persona-Dependent Preferences in Language Models

Des chercheurs identifient un vecteur de préférence partagé dans Gemma-3-27B et Qwen-3.5-122B en entraînant des sondes linéaires sur les activations du flux résiduel. Ce vecteur prédit et contrôle causalement les choix de tâches du modèle à travers différentes personas, y compris une persona malveillante, révélant une représentation de préférence largement commune sous-jacente.

GeminiQwenRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

You Had One Job: Per-Task Quantization Using LLMs' Hidden Representations

TAQ (Task-Aware Quantization) est une méthode de quantification post-entraînement sans entraînement qui alloue dynamiquement la précision aux couches pertinentes pour une tâche donnée, utilisant des prompts de calibration non étiquetés. Trois variantes (TAQ-IS, TAQ-KL, TAQ-O) estiment l'importance des couches via les représentations cachées. Gains significatifs en ratio précision-mémoire validés sur matériel réel.

Fine-tuningBenchmarksPapers
SIG
78
HYP
15
arXiv cs.CL·

QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

QuCo-RAG propose une méthode de RAG dynamique basée sur des statistiques du corpus de pré-entraînement plutôt que sur les signaux internes des modèles. Elle identifie les entités basse-fréquence et vérifie leur co-occurrence dans 4 trillions de tokens via Infini-gram. Sur benchmarks QA multi-hop, elle gagne 5-12 points EM vs baselines avec OLMo-2, et jusqu'à 14 points sur Llama-3, Qwen2.5, GPT-4.

RAGRaisonnementBenchmarks
SIG
78
HYP
18
arXiv cs.CL·

Rethinking Table Pruning in TableQA: From Sequential Revisions to Gold Trajectory-Supervised Parallel Search

TabTrim, un nouveau cadre de pruning de tables pour TableQA, remplace les révisions séquentielles par une recherche parallèle supervisée par trajectoires or. Le système utilise les sous-tables intermédiaires des requêtes SQL or pour entraîner un pruner et un vérificateur. TabTrim-8B atteint 73,5% de précision moyenne, surpassant les baselines de 3,2% (79,4% sur WikiTQ, 61,2% sur TableBench).

BenchmarksRaisonnementPapers
SIG
78
HYP
25
arXiv cs.CL·

Embodied Task Planning via Graph-Informed Action Generation with Large Language Models

GiG, un framework de planification pour agents incarnés, utilise une architecture Graph-in-Graph avec GNN pour encoder les états environnementaux et structurer la mémoire d'expérience. Un module de lookahead borné améliore la planification via logique symbolique. Évalué sur Robotouille et ALFWorld, GiG surpasse les baselines avec +22% à +37% de gains Pass@1.

Agents IARaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents

STING est un framework de red-teaming automatisé qui évalue la vulnérabilité des agents LLM aux scénarios d'abus multi-tours. Il construit des plans illicites étape par étape avec personas bienveillantes et utilise des agents juges pour suivre la progression. Tests sur 6 langues non-anglaises montrent que le succès d'attaque ne croît pas systématiquement dans les langues à faibles ressources.

Agents IASécurité IAÉvaluations
SIG
78
HYP
25