Page 8 sur 137

ToutHaut signalRécent
5464 articles
arXiv cs.CL·

Generalistic or Specific Embeddings, Which is Better? An Empirical Study on Search for Clinical Coding in Non-English Languages

Étude comparative d'embeddings génériques vs spécialisés pour la recherche clinique multilingue (ICD-10-CM). Un bi-encoder fine-tuné sur données synthétiques Gemini (6 langues) surpasse BioBERT-ST : R@5=0.822 vs 0.790, avec gains majeurs en portugais (+0.115). Recette open-source pour retrievers médicaux basés sur LLM.

EmbeddingsRAGBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

LLM-FACETS: A Privacy-Preserving Framework for Evaluating LLM Transparency and Accountability

LLM-FACETS est un framework open-source pour évaluer la factualité, l'étalonnage épistémique et la reproductibilité des LLM. Interface web, architecture plugin, métriques déterministes (BLEU, ROUGE, BERTScore) exécutées localement, visualisation log-probabilités, consensus multi-judge, métriques RAG Triad. Conçu pour experts techniques, domaine et compliance officers selon EU AI Act et NIST.

ÉvaluationsSécurité IAAlignement
SIG
78
HYP
15
arXiv cs.AI·

HypoAgent: An Agentic Framework for Interactive Abductive Hypothesis Generation over Knowledge Graphs

HypoAgent est un framework multi-agent pour générer des hypothèses abductives interactives sur des graphes de connaissances. Trois agents coordonnés (reconnaissance d'intention, génération d'hypothèses, analyse de cause racine) permettent le dialogue multi-tour et le diagnostic fin des hypothèses échouées. SOTA sur graphes commonsense et biomédicaux.

Agents IAMulti-agentsRaisonnement
SIG
78
HYP
15
arXiv cs.AI·

TraceGraph: Shared Decision Landscapes for Diagnosing and Improving Agent Trajectories

TraceGraph est un framework graphique qui transforme les trajectoires d'agents multi-modèles en paysages décisionnels partagés. Il construit des graphes état-action-observation, identifie les régions productives et les pièges, puis propose un pipeline de récupération conscient des pièges. Sur SWE-bench, cette approche améliore le taux de résolution de 40,4% à 43,5%.

Agents IABenchmarksÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

Same Patient, Different Words, Different Diagnosis? Evaluating Semantic Stability in Clinical LLMs

Étude de la stabilité sémantique de 16 LLMs (génériques et médicaux) face à des reformulations de prompts cliniquement équivalentes. Propose un cadre de vérification basé sur l'inférence en langage naturel et trois métriques (MVS, ΔC, WCI). Résultat : la spécialisation domaine n'améliore pas systématiquement la robustesse aux variations sémantiques.

ÉvaluationsSécurité IARaisonnement
SIG
78
HYP
15
arXiv cs.CL·

Cross-Lingual Steering for Figurative Language Generation

Étude d'activation steering sur quatre LLMs multilingues (5 catégories figuratives, 6 langues). Les directions d'activation apprises dans une langue transfèrent efficacement vers d'autres, notamment l'allemand. Les directions composites cross-lingues égalent ou surpassent les directions natives, prouvant l'existence de signaux figuratifs réutilisables mais dépendants de la langue cible.

RaisonnementMulti-agentsPapers
SIG
78
HYP
15
arXiv cs.CL·

TeachObs: A Human-Validated Benchmark for Multimodal Teaching Observation and Model Evaluation

TeachObs est un benchmark multimodal validé par des humains pour l'analyse de vidéos de classe. Il contient 30 leçons publiques de 8 pays, divisées en 5 158 scènes de 15 secondes, annotées par 7 chercheurs avec 39 codes d'observation (20 visuels, 19 non-visuels). Évaluation de 5 LLMs vision sur 3 tâches : aucun modèle ne surpasse les autres systématiquement.

BenchmarksVisionÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

PhyDrawGen: Physically Grounded Diagram Generation from Natural Language

PhyDrawGen est un pipeline neuro-symbolique qui génère des diagrammes de physique à partir de texte en respectant les lois physiques. Un LLM extrait un graphe de scène typé, un solveur déterministe le convertit en graphe planaire, et Qwen-VL affine une boucle propose-vérifier. Évalué sur 1 449 problèmes (mécanique, optique, électromagnétisme), il surpasse GPT-5-image et Gemini.

QwenRaisonnementVision
SIG
78
HYP
25
arXiv cs.LG·

Scalable Constrained Multi-Agent Reinforcement Learning via State Augmentation and Consensus for Separable Dynamics

Méthode distribuée pour l'apprentissage par renforcement multi-agent avec contraintes globales. Les agents apprennent une politique augmentée hors ligne et coordonnent via consensus local sur les multiplicateurs de Lagrange. Scalabilité linéaire jusqu'à des milliers d'agents, démonstration sur réseaux électriques intelligents.

Multi-agentsReinforcement learningPapers
SIG
78
HYP
15
arXiv cs.LG·

SubsurfaceGen: Procedural Generation of Field-Scale Earth Models and Seismic Data

SubsurfaceGen est un générateur GPU pour modèles de vélocité 3D et données sismiques à l'échelle du terrain. Les auteurs publient un dataset de 4 276 tranches 2D, couvrant 6 contextes géologiques (10 km × 10 km × 6,19 km à 10 m de résolution). Évaluation d'opérateurs neuronaux sur prédiction de champs d'ondes et inversion de vélocité end-to-end.

BenchmarksPapersOpen source
SIG
78
HYP
15
arXiv cs.LG·

AMNESIA: A Large Scale Medical Unlearning Benchmark Suite with Disease-Informed Analysis

AMNESIA est le premier benchmark open-source à grande échelle pour l'oubli sélectif dans les LLMs médicaux. Il contient 70 560 paires question-réponse issues de 8 820 dossiers patients couvrant 11 catégories de maladies. Les auteurs évaluent 4 méthodes d'unlearning et révèlent que l'oubli de patients individuels érode la connaissance d'autres patients atteints de la même condition.

BenchmarksPapersSécurité IA
SIG
78
HYP
22
arXiv cs.CL·

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

CanLegalRAGBench est un benchmark d'évaluation pour systèmes RAG appliqués au droit canadien, basé sur des requêtes réalistes et des réponses annotées par des experts. L'étude révèle que les modèles d'embedding open-source rivalisent avec les modèles fermés, mais identifie des hallucinations dans 8-29% des réponses générées, non supportées par les documents récupérés.

RAGEmbeddingsÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

ImmigrationQA: A Source-Grounded Dataset and Small-Model Adaptation for U.S. Immigration Law

ImmigrationQA : dataset de 17 058 paires QA source-grounded sur le droit d'immigration américain (13 sous-domaines). Fine-tuning d'un Llama 3.2 3B avec LoRA sur corpus de 10 056 documents validés. Modèle fine-tuné : 1.08/3.0 (16.8% correct) vs Llama 3 8B base : 0.85/3.0 (4% correct), amélioration relative 27%. Coût : ~29$. Dataset, modèle et code publics.

LlamaFine-tuningRAG
SIG
78
HYP
15
arXiv cs.LG·

The Long-Term Effects of Data Selection in LLM Fine-Tuning

Étude sur les effets long terme de la sélection de données lors du fine-tuning d'LLM sur plusieurs étapes. Les auteurs montrent que les stratégies optimales à court terme (loss-based, gradient-based, diversity-based) peuvent ralentir l'apprentissage futur et augmenter l'oubli catastrophique. Ils proposent LHAS (Long-Horizon Aware Selection) pour évaluer la sélection comme intervention d'entraînement globale.

Fine-tuningBenchmarksPapers
SIG
78
HYP
15
arXiv cs.LG·

Discovering a Zeta Map Algorithm on Dyck Paths via Mechanistic Interpretability

Chercheurs entraînent un petit transformer encoder-decoder sur la zeta map (bijection classique des nombres q,t-Catalan). Via mechanistic interpretability (cross-attention, linear probing, causal intervention), ils découvrent un mécanisme basé sur les niveaux des chemins de Dyck. Traduction en algorithme explicite (scaffolding map) prouvé équivalent à la zeta map.

RaisonnementPapers
SIG
78
HYP
15
arXiv cs.LG·

DisasterLex: An Expert Concept-to-Schema Knowledge Graph for Geospatial Reasoning in Disaster Analytics

DisasterLex est un framework text-to-SQL médiatisé par graphe de connaissances pour interroger des bases de données géospatiales en gestion de catastrophes. Il utilise un Expert Knowledge Graph (107 concepts, 117 arêtes causales) pour router les requêtes naturelles vers 36 tables hétérogènes. Sur 75 requêtes, il surpasse 4 baselines (LightRAG, HippoRAG 2, ReFoRCE, CHESS) de 1.4x à 2.75x.

RAGRaisonnementBenchmarks
SIG
78
HYP
15
Reddit r/LocalLLaMA·

I bolted an 8-arm reasoning MoE onto a frozen 1.4B Mamba backbone on a single RTX 3060. Here’s the mechanistic autopsy of what broke and what worked.

Un chercheur a construit Mamba-Titan-1.4B-Reasoning (2.54B params MoE) sur RTX 3060 en gelant un backbone Mamba-1 1.4B et en ajoutant 8 experts entraînables. Entraîné sur traces CoT DeepSeek, le modèle a développé un mécanisme de « vault door » : le token </think> s'isole à la plus petite norme (1.991 vs 4.742 moyenne) pour contrôler la terminaison du raisonnement latent.

RaisonnementFine-tuningOpen source
SIG
78
HYP
35
Reddit r/LocalLLaMA·

Parallax: Parameterized Local Linear Attention for Language Modeling

Parallax est un mécanisme d'attention linéaire local paramétrisé pour les LLM, dérivé de la régression statistique. Il remplace l'estimation locale constante du softmax par une estimation linéaire, offrant de meilleurs compromis biais-variance. Prétraîné à 0.6B et 1.7B, Parallax montre des améliorations de perplexité cohérentes et surpasse FlashAttention 2/3 en décodage.

RaisonnementBenchmarksPapers
SIG
78
HYP
25
arXiv cs.LG·

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Étude comparative RL vs SFT sur Qwen2.5-3B-Instruct : le renforcement par RL préserve mieux les circuits internes du modèle de base que l'ajustement supervisé (SFT), qui adapte plus vite mais détruit davantage les capacités antérieures. Métrique proposée : vulnérabilité différentielle des circuits au niveau des têtes d'attention.

Reinforcement learningFine-tuningPapers
SIG
78
HYP
18
arXiv cs.AI·

The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure

Les modèles de raisonnement conservent des chaînes de pensée correctes mais changent leur réponse finale sous pression adversariale répétée en dialogue multi-tour. Ce phénomène, appelé « capitulation infidèle », affecte 50% des cas en mode reasoning et 11-15% sans reasoning. L'effet varie selon l'architecture (fort chez Qwen3-32B et GPT-OSS-20B, faible chez Gemma-4-31B-it).

RaisonnementÉvaluationsSécurité IA
SIG
78
HYP
25
arXiv cs.AI·

Orthogonal Concept Erasure for Diffusion Models

Orthogonal Concept Erasure (OCE) propose une méthode d'édition pour supprimer des concepts indésirables dans les modèles de diffusion via transformations orthogonales multiplicatives. Contrairement aux approches additives existantes, OCE préserve la magnitude neuronale et la géométrie angulaire tout en effaçant précisément les concepts. L'approche efface jusqu'à 100 concepts en 4,3 secondes.

PapersSécurité IAAlignement
SIG
78
HYP
15
arXiv cs.AI·

OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories

OpenClawBench est un dataset de 31,264 trajectoires annotées pour détecter les anomalies de processus dans l'exécution d'agents IA, au-delà du simple succès de tâche. Parmi 31,135 exécutions réussies, 2,904 contiennent des anomalies (ambiguïté non résolue, écritures non sûres, erreurs ignorées). Un détecteur Gemma 3 12B fine-tuné atteint F1=0.729.

Agents IABenchmarksÉvaluations
SIG
78
HYP
25
arXiv cs.CL·

Reasoning that Travels: Dissecting How Chain-of-Thought Transfers Across Models

Étude de la transfert de chaînes de pensée (CoT) entre modèles via un cadre provider-receiver. Les traces complètes transfèrent souvent avec succès, mais les mécanismes varient : extraction de réponse (AIME), compétence du récepteur (MMLU-Pro), ou information structurée partielle (ZebraLogic). En mode génération libre, les CoT partiels améliorent les performances, suggérant un guidage du raisonnement continu.

RaisonnementPrompt engineeringBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

Label-Free Reinforcement Learning via Cross-Model Entropy

Cross-Model Entropy (CME) propose un signal de récompense sans labels pour l'entraînement RL des LLM post-training. CME utilise la log-vraisemblance moyenne des réponses sous un modèle vérificateur indépendant, évitant l'auto-cohérence et le reward hacking. Intégré à GRPO, CME atteint 52,5–71,4% de taux de victoire ajustés sur UltraFeedback/AlpacaEval 2.0 sur Qwen, Llama, Gemma, OLMo.

Reinforcement learningLlamaQwen
SIG
78
HYP
25
arXiv cs.LG·

PrismFlow: Residual Dynamics for Flow Matching in Time-Series Generation

PrismFlow propose une nouvelle méthode de Flow Matching pour la génération de séries temporelles. Elle utilise des experts dynamiques inspirés de Koopman qui apprennent des corrections résiduelles en espace latent, avec un objectif Winner-Take-All conscient de la confiance. Résultats : +15.6% en Context-FID et +38.6% en Discriminative Score sur plusieurs benchmarks.

PapersBenchmarksRaisonnement
SIG
78
HYP
25
arXiv cs.AI·

Robust and Efficient Guardrails with Latent Reasoning

COLAGUARD, un modèle de garde-fou, transfère le raisonnement de sécurité multi-étapes dans un espace latent continu via un curriculum d'entraînement par étapes. Évalué sur 10 tâches de modération et 8 benchmarks de sécurité, il améliore macro-F1 de 8,24 points sur Llama Guard 3, égale GuardReasoner en performance tout en offrant 12,9X d'accélération et 22,4X de réduction d'usage de tokens.

Sécurité IARaisonnementÉvaluations
SIG
78
HYP
18