Page 58 sur 146

ToutHaut signalRécent
5839 articles
arXiv cs.CL·

The Need for an External Observer Formalizing the Sufficiency Gap: A Mathematical Extension of Mixture Identifiability and Contextual Grounding in Sequence Models

Article théorique sur l'insuffisance des modèles de séquence face aux états latents non observés. Les auteurs formalisent un processus mixte où un prédicteur parfait peut devenir surconfiant si le contexte observé correspond au mauvais régime latent. Ils montrent que le « sufficiency gap » (écart de suffisance) ne peut être fermé que par révélation parfaite de l'état latent ou un mécanisme de vérification équivalent.

RaisonnementAlignementSécurité IA
SIG
72
HYP
15
arXiv cs.CL·

The Daily Dose: Workflow-Integrated Large Language Model Automation for Clinical Summarization and Trial Identification in Radiation Oncology

The Daily Dose (TDD) est un système LLM intégré en routine en oncologie radiothérapique pour résumer automatiquement les dossiers patients et identifier les essais cliniques pertinents. Évaluation sur 55 cliniciens : 83,6% utilisent TDD quotidiennement, satisfaction moyenne 3,89/5, 27% rapportent ≥10 min économisées/jour.

Génération de codeRAGBusiness
SIG
72
HYP
25
arXiv cs.CL·

Model Unlearning Objectives Vary for Distinct Language Functions

Étude arXiv sur le désapprentissage sélectif dans les LLM. Les auteurs proposent deux méthodes distinctes : une variante cosinus de RMU pour oublier les connaissances dangereuses, et un objectif multi-couches pour réduire la toxicité. Testées sur 4 modèles 7-8B open-source, les approches montrent que le désapprentissage nécessite des objectifs spécifiques selon la fonction linguistique ciblée.

Sécurité IAAlignementPapers
SIG
72
HYP
18
arXiv cs.AI·

BrickAnything: Geometry-Conditioned Buildable Brick Generation with Structure-Aware Tokenization

BrickAnything génère des structures de briques physiquement constructibles à partir de formes 3D via un framework autorégressif. La méthode utilise une tokenization arborescente consciente de la structure pour modéliser les dépendances entre briques, avec décodage contraint et alignement par préférence pour améliorer la stabilité et la fidélité géométrique.

PapersGénération de codeRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

Reasoning, Code, or Both? How Large Language Models Handle Variations in Math Questions

Étude comparative de trois approches LLM sur 1 000 problèmes mathématiques (GSM-Symbolic) : chain-of-thought (CoT), Program-Aided Language models (PAL) et Step-by-Step Coding (SBSC). CoT s'avère plus robuste face aux variations (drop 1,3pp vs 1,7pp pour PAL), contredisant l'hypothèse que l'exécution de code améliore la robustesse du raisonnement.

RaisonnementGénération de codeBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

Mind the Tool Failures: Achieving Synergistic Tool Gains for Medical Agents

Étude sur l'utilisation d'outils externes par les agents médicaux IA face à des défaillances d'outils. Propose un cadre RL basé sur GRPO avec sélection au niveau instance plutôt que tâche, récompenses de minimisation de risque probabiliste et apprentissage de synergies conscientes du désaccord. Évaluation sur 7 benchmarks médicaux montre améliorations robustes.

Agents IAReinforcement learningRaisonnement
SIG
72
HYP
18
Reddit r/MachineLearning·

Augmented Equivariant Mesh Networks for Anatomical Mesh Segmentation (ICML 2026 Workshops) [R]

EAMS (Equivariant Anatomical Mesh Segmentor) applique l'équivariance rotationnelle aux réseaux de mailles pour la segmentation anatomique 3D. Le modèle (<2M paramètres) maintient la performance sous perturbations géométriques (rotation 40°) où les méthodes existantes chutent de 25-26 points IoU. Évalué sur 4 tâches cliniques (anévrisme intracrânien, segmentation intra-orale, foie).

PapersVisionRaisonnement
SIG
72
HYP
18
Reddit r/MachineLearning·

[P] I built a system that lets you ask questions about any GitHub repo and get answers grounded in the actual source code [P]

GitRAG permet de poser des questions sur n'importe quel repo GitHub public et obtient des réponses ancrées dans le code source avec chemins de fichiers et numéros de lignes. Le système combine parsing AST, embeddings denses, index BM25, fusion RRF et reranking Cohere avant génération via llama-3.3-70b sur Groq. Supporte 15+ langages.

RAGEmbeddingsGénération de code
SIG
72
HYP
35
arXiv cs.LG·

Cascade-KDE: Robust Time-Series Restoration under Out-of-Distribution Impulse Corruptions

Cascade-KDE est une méthode sans apprentissage pour restaurer les séries temporelles corrompues par du bruit gaussien et des pics aberrants. Elle estime une densité spatio-temporelle, applique une troncature robuste pour limiter l'influence des anomalies, puis affine via cascade exponentielle. Testée sur ECG et dégradation batterie, elle préserve les pics de dérivée mieux que les filtres classiques.

BenchmarksÉvaluations
SIG
72
HYP
15
arXiv cs.CL·

Discovering Lexical Gaps Using Embeddings from Multilingual LLMs

Cadre automatisé pour détecter les lacunes lexicales (mots inexistants dans certaines langues) via embeddings de LLMs multilingues. Sur paires de traduction coréen-anglais, 4000 espaces d'embedding testés montrent que les mots lacunaires ont un alignement sémantique cross-lingue plus faible. Classifieurs logistiques atteignent AUC 0.81-0.76 et récupèrent 18/19 et 26/27 mots lacunaires.

EmbeddingsBenchmarksPapers
SIG
72
HYP
15
arXiv cs.CL·

DRInQ: Evaluating Conversational Implicature with Controlled Context Variation

DRInQ est un benchmark pour évaluer le raisonnement pragmatique des LLM sur l'implicature conversationnelle. Les chercheurs montrent une asymétrie génération-inférence : les modèles génèrent des scénarios pragmatiques plausibles mais échouent à récupérer l'implication intended à l'inférence. Le prompting structuré améliore l'alignement pour les petits modèles.

BenchmarksRaisonnementÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

Distinguishing Right from Wrong in Debates: Attribution Analysis of Chinese Harmful Memes

Nouvel article arXiv sur la détection interprétable de mèmes nuisibles en chinois. Les auteurs créent Ex-ToxiCN-MM, premier dataset d'explications avec interprétations opposées (nuisible/non-nuisible), et C-HarmKB, base de connaissances culturelles chinoises. Ils proposent RIKE, framework d'analyse d'attribution avec modules AKE et RIR, surpassant les baselines. Code et données open-sourcés.

VisionSécurité IAÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

How Much Structure Do LLMs Need? Evaluating LLMs for Bibliometric Cluster Description

Étude évaluant 6 pipelines LLM pour générer des descriptions de clusters bibliométriques. Sur 100 analyses publiées, les LLMs produisent des descriptions sémantiquement proches des versions humaines mais hallucinent des références et échouent à inférer la structure bibliométrique seuls. Performance optimale en workflow hybride : algorithmes définissent clusters, LLMs génèrent descriptions lisibles.

BenchmarksÉvaluationsRAG
SIG
72
HYP
15
arXiv cs.CL·

Decompose-and-Refine: Structured Legal Question Answering with Parametric Retrieval

DaR (Decompose-and-Refine) est un framework pour répondre à des questions juridiques complexes en décomposant la question en sous-questions atomiques et en générant des requêtes paramétriques alignées sur le texte statutaire. Évalué sur KoBLEX (benchmark coréen multi-hop), avec Qwen3-32B et Gemma3-27B, DaR améliore la précision de récupération et la qualité des réponses en réduisant les hallucinations.

RaisonnementRAGQwen
SIG
72
HYP
18
arXiv cs.AI·

LC-ERD: Mining Latent Logic for Self-Evolving Reasoning via Consistency-Regulated Reward Decomposition

LC-ERD est un framework d'auto-alignement pour LLM qui mine les structures logiques latentes via décomposition de récompenses régulées. Il résout trois défis : le bruit d'étiquetage par biais mimétique, la supervision grossière et l'effondrement distributionnel. Utilise un Potentiel Logique Variationnel et décomposition multi-agent basée sur le principe IGM.

RaisonnementReinforcement learningAlignement
SIG
72
HYP
28