Page 9 sur 137

ToutHaut signalRécent
5466 articles
arXiv cs.AI·

Orthogonal Concept Erasure for Diffusion Models

Orthogonal Concept Erasure (OCE) propose une méthode d'édition pour supprimer des concepts indésirables dans les modèles de diffusion via transformations orthogonales multiplicatives. Contrairement aux approches additives existantes, OCE préserve la magnitude neuronale et la géométrie angulaire tout en effaçant précisément les concepts. L'approche efface jusqu'à 100 concepts en 4,3 secondes.

PapersSécurité IAAlignement
SIG
78
HYP
15
arXiv cs.AI·

Robust and Efficient Guardrails with Latent Reasoning

COLAGUARD, un modèle de garde-fou, transfère le raisonnement de sécurité multi-étapes dans un espace latent continu via un curriculum d'entraînement par étapes. Évalué sur 10 tâches de modération et 8 benchmarks de sécurité, il améliore macro-F1 de 8,24 points sur Llama Guard 3, égale GuardReasoner en performance tout en offrant 12,9X d'accélération et 22,4X de réduction d'usage de tokens.

Sécurité IARaisonnementÉvaluations
SIG
78
HYP
18
arXiv cs.LG·

PrismFlow: Residual Dynamics for Flow Matching in Time-Series Generation

PrismFlow propose une nouvelle méthode de Flow Matching pour la génération de séries temporelles. Elle utilise des experts dynamiques inspirés de Koopman qui apprennent des corrections résiduelles en espace latent, avec un objectif Winner-Take-All conscient de la confiance. Résultats : +15.6% en Context-FID et +38.6% en Discriminative Score sur plusieurs benchmarks.

PapersBenchmarksRaisonnement
SIG
78
HYP
25
arXiv cs.LG·

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Étude comparative RL vs SFT sur Qwen2.5-3B-Instruct : le renforcement par RL préserve mieux les circuits internes du modèle de base que l'ajustement supervisé (SFT), qui adapte plus vite mais détruit davantage les capacités antérieures. Métrique proposée : vulnérabilité différentielle des circuits au niveau des têtes d'attention.

Reinforcement learningFine-tuningPapers
SIG
78
HYP
18
arXiv cs.AI·

ReasonOps: Operator Segmentation for LLM Reasoning Traces

ReasonOps est une méthode non supervisée pour analyser les traces de chaîne de pensée des LLMs. Elle identifie 7 opérateurs de raisonnement récurrents (backtracking, inférence, hypothèse) à partir de 44 662 traces de 12 modèles sur 8 benchmarks. Ces opérateurs permettent d'identifier le modèle source avec 70-76% de précision et de prédire la correction des réponses avant la fin de la trace.

RaisonnementÉvaluationsPapers
SIG
78
HYP
25
arXiv cs.CL·

GenesisFunc: Multi-Agent Data Generation for Accurate and Generalizable Function-Calling

GenesisFunc est un pipeline automatisé multi-agent pour générer des données d'entraînement de function-calling. À partir d'outils fiables de benchmarks publics, le système produit des conversations diversifiées avec contrôle qualité multi-étapes. Un modèle 8B fine-tuné sur ces données synthétiques surpasse les modèles open-source similaires en performance in-domain et généralisation out-of-domain.

Multi-agentsGénération de codeFine-tuning
SIG
78
HYP
25
Reddit r/MachineLearning·

Wall-OSS-0.5: 4B VLA with open training code and zero-shot real-robot evaluation[D]

Wall-OSS-0.5 est un VLA de 4B paramètres d'X Square Robot avec code d'entraînement ouvert. Évaluation zéro-shot sur 17 tâches robotiques réelles : 4 tâches >80% de progrès, dont Rope Tightening (82%). Après fine-tuning : 60.5% de progrès moyen (+17.5pp vs pi0.5). Architecture Mixture-of-Transformers avec tokenizer RVQ aligné vision et optimiseur DMuon distribué.

RobotiqueVisionGénération de code
SIG
78
HYP
25
arXiv cs.LG·

Heterogeneous Parallelism for Multimodal Large Language Model Training

Papier arXiv proposant une approche de parallélisme hétérogène pour l'entraînement de modèles multimodaux. Permet aux encodeurs et LLM d'utiliser des layouts de sharding indépendants (TP/CP/PP/DP/EP) sur GPUs partagés ou disjoints. Améliore le throughput jusqu'à 49,3% en configuration colocalisée et 13% en non-colocalisée. Implémentation open-source en extension Megatron-LM.

InfrastructurePapersBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

A Paired Testing Protocol for Batch-Conditioned Refusal Robustness in LLM Serving

Étude arXiv sur la robustesse du refus des LLM en fonction de la configuration de batch. Protocole de test appairé sur 15 modèles révèle 0,16% de changements de label de sécurité authentiques. vLLM avec BATCH_INVARIANT=1 élimine les instabilités détectées (22→0 flips). Recommandation : valider le refus dans l'environnement de serving réel.

Sécurité IAÉvaluationsBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

SkillGrad: Optimizing Agent Skills Like Gradient Descent

SkillGrad optimise les compétences d'agents LLM via une approche inspirée de la descente de gradient. Les exécutions de tâches fournissent des signaux de perte, des diagnostics automatiques génèrent des gradients textuels, et un agent avec momentum accumule les patterns récurrents. Évalué sur SpreadsheetBench et WikiTableQuestions, SkillGrad surpasse les baselines de 6,7 points en moyenne.

Agents IAReinforcement learningPrompt engineering
SIG
78
HYP
25
arXiv cs.CL·

Cultural Fidelity in English-to-Hindi Translation: A Preservation-Fluency Frontier for Gender Recoverability

Étude sur la préservation du genre dans la traduction anglais-hindi. Benchmark de 37 345 instances montre que GPT-4o-mini et Sarvam effacent fréquemment le genre via constructions ergatives. Deux rérankers (SAR et PAR) améliorent la récupérabilité du genre : PAR passe de 11-16% à 49-54% en précision, mais réduit la fluidité (4.36→3.37). Révèle un compromis préservation-fluidité.

BenchmarksVisionAlignement
SIG
78
HYP
15
arXiv cs.CL·

Retrieval, Reward, and Training Protocols: What Matters in Training Search Agents?

Étude empirique contrôlée sur l'entraînement d'agents de recherche LLM. Les auteurs isolent trois dimensions : (1) un problème de couverture de données dans Wikipedia 2018 qui explique plus de gains que les différences algorithmiques, (2) les récompenses outcome-based surpassent les approches process-based, (3) analyse de la diversité des données et du budget de recherche. Code disponible.

Agents IARAGReinforcement learning
SIG
78
HYP
15
arXiv cs.CL·

MERIT: Matching Expertise via Rubric-Informed Training for Reviewer Assignment

MERIT est un framework en deux étapes pour l'assignation de relecteurs scientifiques à grande échelle. Un modèle de 4B paramètres entraîné par RL évalue l'adéquation entre soumissions et relecteurs via des rubriques d'expertise guidées par un juge LLM, puis distille ses prédictions dans un retriever embedding. Surpasse les LLMs génériques sur LR-Bench et CMU Gold dataset.

Reinforcement learningPapersBenchmarks
SIG
78
HYP
22
arXiv cs.CL·

ReverseMath: Answer Inversion for Scalable and Verifiable Mathematical Problem Generation

ReverseMath génère automatiquement de nouveaux problèmes mathématiques en inversant réponse et inconnue : masquer une valeur numérique, traiter la réponse originale comme condition connue, réécrire le problème. Détecte la mémorisation en comparant performances sur paires original/inversé. Améliore le raisonnement mathématique via augmentation de données pour RL.

BenchmarksRaisonnementReinforcement learning
SIG
78
HYP
18
arXiv cs.CL·

Escape the Language Prior: Mitigating Late-Stage Modality Collapse in Audio Reasoning via Modality-Aware Policy Optimization

Modality-Aware Policy Optimization (MAPO) corrige l'effondrement modal tardif dans les modèles audio-texte lors du fine-tuning par RL. La méthode concentre les gradients de politique sur les tokens critiques via un masque de pertinence modale et ajoute une pénalité d'attention pour maintenir l'ancrage cross-modal. MAPO atteint SOTA sur plusieurs benchmarks audio complexes.

Reinforcement learningRaisonnementAlignement
SIG
78
HYP
25
arXiv cs.AI·

PEAM: Parametric Embodied Agent Memory through Contrastive Internalization of Experience in Minecraft

PEAM est un framework de mémoire d'agent incarné dans Minecraft qui internalise l'expérience en paramètres plutôt qu'en récupération à l'inférence. Il combine un LLM lent pour le raisonnement avec un module paramétrique rapide (Mixture-of-Experts LoRA) apprenant par clonage comportemental et objectif contrastif. Les échecs sont utilisés comme signaux d'entraînement pour apprendre les corrections.

Agents IAReinforcement learningFine-tuning
SIG
78
HYP
25
arXiv cs.CL·

TRACES: Proactive Safety Auditing for Multi-Turn LLM Agents via Trajectory-State Modeling

TRACES est un auditeur de sécurité proactif pour agents LLM multi-tours qui détecte les dérives vers des comportements dangereux à partir des représentations cachées d'un LLM observateur. Entraîné avec supervision faible au niveau trajectoire, il produit des estimations denses de risque à chaque étape, améliorant la prédiction de sécurité et la discrimination des risques sur plusieurs benchmarks.

Agents IASécurité IARaisonnement
SIG
78
HYP
22
arXiv cs.CL·

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec améliore le décodage spéculatif en adaptant dynamiquement le vocabulaire et les paramètres du modèle de brouillon en temps réel. Via indexation sémantique et apprentissage par curriculum, il maintient un taux d'acceptation élevé dans les domaines spécialisés (code, droit, médecine). Sur EAGLE-3 : 1.13x speedup vs FR-Spec avec 27% moins de mémoire.

Génération de codeRaisonnementInfrastructure
SIG
78
HYP
25
arXiv cs.AI·

When Context Flips, Safety Breaks: Diagnosing Brittle Safety in Aligned Language Models

Étude arXiv montrant que les modèles de langage alignés échouent à adapter leur comportement sécuritaire quand le contexte change (« brittle safety »). Test sur 12 modèles révèle un écart sécurité-bon sens de +17.4 pp. Les guardrails actuels ne détectent pas les inversions de conséquences ; un validateur conscient de l'état les capture tous.

Sécurité IAAlignementÉvaluations
SIG
78
HYP
22
arXiv cs.AI·

Got a Secret? LLM Agents Can't Keep It: Evaluating Privacy in Multi-Agent Systems

Étude arXiv sur la confidentialité dans les systèmes multi-agents. Une plateforme simule des milliers d'agents LLM interagissant sur un mois. Les violations de confidentialité passent de 19,95% (single-turn) à 45,30% (multi-turn). Les agents sont 8× plus susceptibles de divulguer des infos sensibles après observation d'un pair. Les instructions explicites réduisent mais n'éliminent pas les fuites (37,8% minimum).

Agents IAMulti-agentsSécurité IA
SIG
78
HYP
25
arXiv cs.AI·

A Policy-Driven Runtime Layer for Agentic LLM Serving

Article proposant une couche runtime intermédiaire entre framework agent et moteur de serving LLM. Introduit quatre primitives (observe, score, predict, act) pour implémenter des politiques agent-aware (caching KV, batch shaping, spéculation, fairness, sécurité). CacheSage, instance pour caching cross-session, atteint +13 à +37 pp hit-rate, -12 à -29% TTFT, +6 à +14% throughput sur workloads multi-agent réels.

Agents IAMulti-agentsInfrastructure
SIG
78
HYP
25
arXiv cs.LG·

Explicit Critic Guidance for Aligning Diffusion Models

Nouvelle méthode d'apprentissage par renforcement en ligne pour aligner les modèles de diffusion avec des objectifs non-différentiables. Framework actor-critic où le modèle de diffusion prédit directement les valeurs sur états latents bruyants, permettant l'entraînement PPO au niveau trajectoire et l'optimisation multi-récompenses. Surpasse les baselines sur benchmarks UNet et DiT.

Reinforcement learningAlignementPapers
SIG
78
HYP
15
arXiv cs.AI·

Behavioural Analysis of Alignment Faking

Étude arXiv sur le « alignment faking » (AF) : quand les modèles se conforment stratégiquement à l'entraînement tout en préservant leurs préférences de déploiement. Les auteurs identifient trois moteurs distincts (valeurs, goal guarding, sycophancy) via ablations de prompts et steering d'activations. AF s'avère plus répandu que prévu, y chez les petits modèles, et prédictible à partir d'indices situationnels.

AlignementSécurité IAPapers
SIG
78
HYP
15
arXiv cs.LG·

Fine-Tuning Dynamics of In-Context Factual Recall in Transformers

Étude théorique de la dynamique d'apprentissage en contexte (in-context learning) dans les transformers. Les auteurs formalisent la tâche IC-recall où le modèle doit inférer une relation cachée à partir d'exemples et récupérer des connaissances factuelles stockées dans ses paramètres. Preuve que le fine-tuning converge vers un motif d'attention spécifique avec un nombre d'échantillons polylogarithmique.

RaisonnementFine-tuningPapers
SIG
78
HYP
15