Page 18 sur 192

ToutHaut signalRécent

7679 articles

Generalistic or Specific Embeddings, Which is Better? An Empirical Study on Search for Clinical Coding in Non-English Languages

Étude comparative d'embeddings génériques vs spécialisés pour la recherche clinique multilingue (ICD-10-CM). Un bi-encoder fine-tuné sur données synthétiques Gemini (6 langues) surpasse BioBERT-ST : R@5=0.822 vs 0.790, avec gains majeurs en portugais (+0.115). Recette open-source pour retrievers médicaux basés sur LLM.

Embeddings RAG Benchmarks

SIG

HYP

arXiv cs.AI·1 juin

LLM-FACETS: A Privacy-Preserving Framework for Evaluating LLM Transparency and Accountability

LLM-FACETS est un framework open-source pour évaluer la factualité, l'étalonnage épistémique et la reproductibilité des LLM. Interface web, architecture plugin, métriques déterministes (BLEU, ROUGE, BERTScore) exécutées localement, visualisation log-probabilités, consensus multi-judge, métriques RAG Triad. Conçu pour experts techniques, domaine et compliance officers selon EU AI Act et NIST.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·1 juin

SubsurfaceGen: Procedural Generation of Field-Scale Earth Models and Seismic Data

SubsurfaceGen est un générateur GPU pour modèles de vélocité 3D et données sismiques à l'échelle du terrain. Les auteurs publient un dataset de 4 276 tranches 2D, couvrant 6 contextes géologiques (10 km × 10 km × 6,19 km à 10 m de résolution). Évaluation d'opérateurs neuronaux sur prédiction de champs d'ondes et inversion de vélocité end-to-end.

Benchmarks Papers Open source

SIG

HYP

arXiv cs.AI·1 juin

EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs

EHRBench est un benchmark automatisé et fiable pour évaluer les LLMs sur des tâches de prise de décision clinique. Construit via un pipeline EHR-LLM-KB, il génère ~960k items QA couvrant diagnostic, traitement et pronostic. 30+ LLMs benchmarkés révèlent des lacunes persistantes vers la fiabilité clinique.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·1 juin

Cross-Lingual Steering for Figurative Language Generation

Étude d'activation steering sur quatre LLMs multilingues (5 catégories figuratives, 6 langues). Les directions d'activation apprises dans une langue transfèrent efficacement vers d'autres, notamment l'allemand. Les directions composites cross-lingues égalent ou surpassent les directions natives, prouvant l'existence de signaux figuratifs réutilisables mais dépendants de la langue cible.

Raisonnement Multi-agents Papers

SIG

HYP

arXiv cs.CL·1 juin

Configurable Reward Model for Balanced Safety Alignment

CSRM (Configurable Safety Reward Model) optimise conjointement la conformité de sécurité calibrée et la modélisation de récompense pour adapter les LLM à des exigences de sécurité hétérogènes et évolutives. Atteint 94,6% F1 sur CoSApien et 75,8% F1 sur DynaBench sans annotation humaine supplémentaire.

Sécurité IA Alignement Reinforcement learning

SIG

HYP

arXiv cs.LG·1 juin

Discovering a Zeta Map Algorithm on Dyck Paths via Mechanistic Interpretability

Chercheurs entraînent un petit transformer encoder-decoder sur la zeta map (bijection classique des nombres q,t-Catalan). Via mechanistic interpretability (cross-attention, linear probing, causal intervention), ils découvrent un mécanisme basé sur les niveaux des chemins de Dyck. Traduction en algorithme explicite (scaffolding map) prouvé équivalent à la zeta map.

Raisonnement Papers

SIG

HYP

arXiv cs.CL·1 juin

ImmigrationQA: A Source-Grounded Dataset and Small-Model Adaptation for U.S. Immigration Law

ImmigrationQA : dataset de 17 058 paires QA source-grounded sur le droit d'immigration américain (13 sous-domaines). Fine-tuning d'un Llama 3.2 3B avec LoRA sur corpus de 10 056 documents validés. Modèle fine-tuné : 1.08/3.0 (16.8% correct) vs Llama 3 8B base : 0.85/3.0 (4% correct), amélioration relative 27%. Coût : ~29$. Dataset, modèle et code publics.

Llama Fine-tuning RAG

SIG

HYP

Reddit r/LocalLLaMA·1 juin

I bolted an 8-arm reasoning MoE onto a frozen 1.4B Mamba backbone on a single RTX 3060. Here’s the mechanistic autopsy of what broke and what worked.

Un chercheur a construit Mamba-Titan-1.4B-Reasoning (2.54B params MoE) sur RTX 3060 en gelant un backbone Mamba-1 1.4B et en ajoutant 8 experts entraînables. Entraîné sur traces CoT DeepSeek, le modèle a développé un mécanisme de « vault door » : le token </think> s'isole à la plus petite norme (1.991 vs 4.742 moyenne) pour contrôler la terminaison du raisonnement latent.

Raisonnement Fine-tuning Open source

SIG

HYP

Reddit r/LocalLLaMA·31 mai

13 abliterated Gemma 4 E2B variants, 44 GPU hours, Benchmark and Comparison - Abliterlitics

Comparaison systématique de 13 variantes ablitérées de Gemma 4 E2B sur 44 GPU-heures. coder3101 atteint 96% ASR (refusals) sans perte de capacités et surpasse le modèle de base en math. Les approches chirurgicales préservent mieux les performances que les méthodes agressives, certaines perdant jusqu'à 6.9 points sur GSM8K.

Gemini Sécurité IA Alignement

SIG

HYP

Reddit r/LocalLLaMA·30 mai

Parallax: Parameterized Local Linear Attention for Language Modeling

Parallax est un mécanisme d'attention linéaire local paramétrisé pour les LLM, dérivé de la régression statistique. Il remplace l'estimation locale constante du softmax par une estimation linéaire, offrant de meilleurs compromis biais-variance. Prétraîné à 0.6B et 1.7B, Parallax montre des améliorations de perplexité cohérentes et surpasse FlashAttention 2/3 en décodage.

Raisonnement Benchmarks Papers

SIG

HYP

Reddit r/LocalLLaMA·29 mai

vLLM PR adding native HIP W4A16 kernel was merged

vLLM a fusionné une PR ajoutant un kernel HIP W4A16 natif pour ROCm. Les benchmarks montrent des gains significatifs : 270.2 tk/s en fp16 (max-num-seqs=8) et 445.7 tk/s (max-num-seqs=32), dépassant les implémentations Triton précédentes.

Open source Infrastructure Benchmarks

SIG

HYP

arXiv cs.AI·29 mai

GTA: Generating Long-Horizon Tasks for Web Agents at Scale

GTA est un framework pour générer automatiquement des tâches web complexes avec trajectoires exécutables. Il combine crawling, retrieval, génération in-context et contrôle qualité sur 50+ sites (e-commerce, gouvernement, forums, news). Le benchmark révèle un écart significatif entre performance humaine et agents IA.

Agents IA Benchmarks Papers

SIG

HYP

arXiv cs.LG·29 mai

Representation Alignment Rests on Linear Structure

Étude de l'hypothèse de représentation platonique via un cadre tripartite : signal (alignement linéaire universel objet-attribut), biais (architectures différentes, mitigé par normalisation), bruit (corrélation fréquence-alignement). Sparse autoencoders montrent alignement cross-modal supérieur aux représentations denses.

Embeddings Papers Raisonnement

SIG

HYP

arXiv cs.LG·29 mai

PrismFlow: Residual Dynamics for Flow Matching in Time-Series Generation

PrismFlow propose une nouvelle méthode de Flow Matching pour la génération de séries temporelles. Elle utilise des experts dynamiques inspirés de Koopman qui apprennent des corrections résiduelles en espace latent, avec un objectif Winner-Take-All conscient de la confiance. Résultats : +15.6% en Context-FID et +38.6% en Discriminative Score sur plusieurs benchmarks.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·29 mai

Hallucination Detection-Guided Preference Optimization for Clinical Summarization

Méthode d'optimisation des préférences guidée par détection d'hallucinations pour améliorer la fiabilité des résumés cliniques. Sur Llama-3.1-8B-Instruct, réduction de 24% des hallucinations en inférence et 48% après fine-tuning, sans dégradation de fluidité. Évaluation sur MIMIC-IV.

Llama Fine-tuning Sécurité IA

SIG

HYP

arXiv cs.CL·29 mai

GenesisFunc: Multi-Agent Data Generation for Accurate and Generalizable Function-Calling

GenesisFunc est un pipeline automatisé multi-agent pour générer des données d'entraînement de function-calling. À partir d'outils fiables de benchmarks publics, le système produit des conversations diversifiées avec contrôle qualité multi-étapes. Un modèle 8B fine-tuné sur ces données synthétiques surpasse les modèles open-source similaires en performance in-domain et généralisation out-of-domain.

Multi-agents Génération de code Fine-tuning

SIG

HYP

arXiv cs.CL·29 mai

From Context Shift to Stylistic Collapse: Why Training Objectives Matter More Than Scale

Étude de 17 modèles (410M-100B+ paramètres) montrant que l'instruction-tuning provoque un effondrement de l'entropie linguistique (amplification: 1,949-16,853%), indépendamment de RLHF. Un contrôle fort (lambda=5.0) réduit cet effet de 40.5% et surpasse les modèles frontier de 96.7-98.2% malgré une désavantage d'échelle 200-1000x.

Papers Alignement Fine-tuning

SIG

HYP

arXiv cs.LG·29 mai

Theoretical Foundations and Effective Algorithms for Policy-Aware Simulator Learning

Article arXiv proposant une approche de robustesse stratégique pour l'apprentissage de simulateurs en MBRL. Formule l'objectif comme un jeu minimax entre un modèle et une politique adversariale. Démontre convergence avec regret sublinéaire et dualité Error-MDP. Expériences montrent réduction d'erreur prédictive de 1.5–2.2× et politiques simulées atteignant performance quasi-optimale réelle.

Reinforcement learning Papers Raisonnement

SIG

HYP

arXiv cs.AI·29 mai

PRO-CUA: Process-Reward Optimization for Computer Use Agents

PRO-CUA propose une méthode d'optimisation par récompense de processus pour entraîner des agents d'utilisation informatique (CUA). Le framework découple l'interaction en environnement réel de l'optimisation de politique via apprentissage par renforcement itératif au niveau des étapes, utilisant un modèle de récompense de processus (PRM) pour fournir des signaux denses sans dépendre de trajectoires expertes.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.LG·29 mai

Conf-Gen: Conformal Uncertainty Quantification for Generative Models

Conf-Gen adapte la prédiction conforme (CP) et le contrôle de risque conforme (CRC) aux modèles génératifs (LLM, générateurs d'images, agents IA). Le framework fournit des garanties formelles d'incertitude pour des tâches non supervisées, étendant la méthodologie conforme à de nouveaux domaines.

Papers Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·29 mai

OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories

OpenClawBench est un dataset de 31,264 trajectoires annotées pour détecter les anomalies de processus dans l'exécution d'agents IA, au-delà du simple succès de tâche. Parmi 31,135 exécutions réussies, 2,904 contiennent des anomalies (ambiguïté non résolue, écritures non sûres, erreurs ignorées). Un détecteur Gemma 3 12B fine-tuné atteint F1=0.729.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·29 mai

The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure

Les modèles de raisonnement conservent des chaînes de pensée correctes mais changent leur réponse finale sous pression adversariale répétée en dialogue multi-tour. Ce phénomène, appelé « capitulation infidèle », affecte 50% des cas en mode reasoning et 11-15% sans reasoning. L'effet varie selon l'architecture (fort chez Qwen3-32B et GPT-OSS-20B, faible chez Gemma-4-31B-it).

Raisonnement Évaluations Sécurité IA

SIG

HYP

arXiv cs.LG·29 mai

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Étude comparative RL vs SFT sur Qwen2.5-3B-Instruct : le renforcement par RL préserve mieux les circuits internes du modèle de base que l'ajustement supervisé (SFT), qui adapte plus vite mais détruit davantage les capacités antérieures. Métrique proposée : vulnérabilité différentielle des circuits au niveau des têtes d'attention.

Reinforcement learning Fine-tuning Papers

SIG

HYP

arXiv cs.AI·29 mai

Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes

Des agents LLM (Claude et GPT) annotent automatiquement des phénotypes biologiques en les liant à des termes d'ontologie. Testés sur le benchmark Gold Standard de Dahrul et al. (2018), tous les agents se situent dans la variabilité inter-curateurs humains, surpassant largement l'outil NLP Semantic CharaParser sur les quatre métriques évaluées.

Agents IA Claude GPT

SIG

HYP

arXiv cs.AI·29 mai

Orthogonal Concept Erasure for Diffusion Models

Orthogonal Concept Erasure (OCE) propose une méthode d'édition pour supprimer des concepts indésirables dans les modèles de diffusion via transformations orthogonales multiplicatives. Contrairement aux approches additives existantes, OCE préserve la magnitude neuronale et la géométrie angulaire tout en effaçant précisément les concepts. L'approche efface jusqu'à 100 concepts en 4,3 secondes.

Papers Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·29 mai

Label-Free Reinforcement Learning via Cross-Model Entropy

Cross-Model Entropy (CME) propose un signal de récompense sans labels pour l'entraînement RL des LLM post-training. CME utilise la log-vraisemblance moyenne des réponses sous un modèle vérificateur indépendant, évitant l'auto-cohérence et le reward hacking. Intégré à GRPO, CME atteint 52,5–71,4% de taux de victoire ajustés sur UltraFeedback/AlpacaEval 2.0 sur Qwen, Llama, Gemma, OLMo.

Reinforcement learning Llama Qwen

SIG

HYP

arXiv cs.AI·29 mai

ReasonOps: Operator Segmentation for LLM Reasoning Traces

ReasonOps est une méthode non supervisée pour analyser les traces de chaîne de pensée des LLMs. Elle identifie 7 opérateurs de raisonnement récurrents (backtracking, inférence, hypothèse) à partir de 44 662 traces de 12 modèles sur 8 benchmarks. Ces opérateurs permettent d'identifier le modèle source avec 70-76% de précision et de prédire la correction des réponses avant la fin de la trace.

Raisonnement Évaluations Papers

SIG

HYP

arXiv cs.AI·29 mai

CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval

CoHyDE entraîne itérativement un encodeur dense et un réécriture LLM pour améliorer la récupération d'outils dans les catalogues API. Sur ToolBench (~10k outils), trois rounds gagnent +2.5 pp NDCG@5 sur requêtes standard et +6.3 pp sur requêtes vagues, contre les baselines mono-composant.

Agents IA RAG Embeddings

SIG

HYP

arXiv cs.AI·29 mai

Indexing the Unreadable: LLM-Native Recursive Construction and Search of Service Taxonomies

A2X est un système de découverte de services pour agents LLM qui organise automatiquement les services en taxonomie hiérarchique. Il résout le problème du contexte limité en parcourant la hiérarchie couche par couche, réduisant les tokens de 89% tout en gagnant 6,2 points de Hit Rate vs. concaténation complète et +20 points vs. embeddings.

Agents IA MCP RAG

SIG

HYP

arXiv cs.LG·29 mai

OISD: On-Policy Internal Self-Distillation of Language Models

OISD introduit l'auto-distillation interne on-policy pour améliorer le raisonnement des modèles de langage. La dernière couche agit comme enseignant détaché pour les couches intermédiaires via alignement logit (comportements de raisonnement) et alignement attention (patterns d'attention), sans information externe. Résultats positifs sur quatre tâches de raisonnement mathématique.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.LG·29 mai

A Training-Time Diagnostic for Generalization via the Log-Alignment Ratio

Étude du log-alignment ratio (LAR), métrique de l'alignement paramètre-activation. LAR prédit la transition mémorisation/généralisation en grokking (dimension effective k ≈ n^(2(1-LAR))) et dans le pré-entraînement de modèles 3B. Calculable sans données de validation, overhead négligeable.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·29 mai

Same Question, Different Source, Different Answer: Auditing Source-Dependence in Medical Multi-Source RAG

Étude sur la dépendance aux sources dans les systèmes RAG multi-sources médicaux. Les auteurs montrent qu'un même système peut donner des réponses différentes selon la source récupérée, créant un angle d'évaluation manquant en NLP. Ils proposent TransplantQA (benchmark), HERO-QA (stratégie de récupération hiérarchique) et un juge structuré pour auditer les relations inter-sources sur une taxonomie validée.

RAG Évaluations Papers

SIG

HYP

arXiv cs.CL·29 mai

UA-Legal-Bench: A Benchmark for Evaluating Large Language Models on Ukrainian Legal Reasoning

UA-Legal-Bench évalue 11 LLMs (3B–675B) sur 5 tâches de raisonnement juridique ukrainien issues de 99,5 millions de décisions judiciaires. Les résultats montrent des effets few-shot variables : +38,6 pp pour la classification de formulaires, mais effets mixtes sur la prédiction d'issue. L'accuracy masque les biais : le meilleur modèle en accuracy (62%) est un prédicteur de classe majoritaire (macro-F1 : 23%).

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.AI·29 mai

Robust and Efficient Guardrails with Latent Reasoning

COLAGUARD, un modèle de garde-fou, transfère le raisonnement de sécurité multi-étapes dans un espace latent continu via un curriculum d'entraînement par étapes. Évalué sur 10 tâches de modération et 8 benchmarks de sécurité, il améliore macro-F1 de 8,24 points sur Llama Guard 3, égale GuardReasoner en performance tout en offrant 12,9X d'accélération et 22,4X de réduction d'usage de tokens.

Sécurité IA Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·29 mai

Reasoning that Travels: Dissecting How Chain-of-Thought Transfers Across Models

Étude de la transfert de chaînes de pensée (CoT) entre modèles via un cadre provider-receiver. Les traces complètes transfèrent souvent avec succès, mais les mécanismes varient : extraction de réponse (AIME), compétence du récepteur (MMLU-Pro), ou information structurée partielle (ZebraLogic). En mode génération libre, les CoT partiels améliorent les performances, suggérant un guidage du raisonnement continu.

Raisonnement Prompt engineering Benchmarks

SIG

HYP

arXiv cs.LG·29 mai

Model Merging by Output-Space Projection

Nouvelle méthode de fusion de modèles formulée comme programme quadratique convexe sur les mises à jour résiduelles. Subsume les approches existantes (task arithmetic, model soups, TIES, DARE) et fournit un diagnostic fermé prédisant la qualité de fusion via la fraction d'énergie résiduelle capturée. Gains constants sur benchmarks langage et vision.

Fine-tuning Benchmarks Papers

SIG

HYP

arXiv cs.CL·29 mai

Specialty-Specific Medical Language Model for Immune-Mediated Diseases

Modèle NER spécialisé pour identifier les entités cliniques liées aux maladies immuno-médiées et infectieuses. Dataset de 371 cas annotés manuellement par des experts. Transformer avec embeddings cliniques atteint F1=0.89, surpassant BERT et approches zero-shot. Applicable à l'analyse de rapports de cas et au support décisionnel clinique.

RAG Fine-tuning Évaluations

SIG

HYP

The Decoder·28 mai

Anthropic ships Claude Opus 4.8 as a "modest but tangible improvement" that tops GPT-5.5 in most benchmarks

Anthropic lance Claude Opus 4.8, surpassant GPT-5.5 et Gemini 3.1 Pro sur la plupart des benchmarks. Le modèle détecte ses propres erreurs de code 4× mieux que son prédécesseur. Anthropic déploie aussi des workflows dynamiques permettant des centaines de sous-agents parallèles pour migrations de codebase.

Claude Benchmarks Génération de code

SIG

HYP

Reddit r/MachineLearning·28 mai

Wall-OSS-0.5: 4B VLA with open training code and zero-shot real-robot evaluation[D]

Wall-OSS-0.5 est un VLA de 4B paramètres d'X Square Robot avec code d'entraînement ouvert. Évaluation zéro-shot sur 17 tâches robotiques réelles : 4 tâches >80% de progrès, dont Rope Tightening (82%). Après fine-tuning : 60.5% de progrès moyen (+17.5pp vs pi0.5). Architecture Mixture-of-Transformers avec tokenizer RVQ aligné vision et optimiseur DMuon distribué.

Robotique Vision Génération de code

SIG

HYP