Page 46 sur 192

ToutHaut signalRécent

7679 articles

Augmenting Human Evaluation with LLM Judges: How Many Human Reviews Do You Need?

Article arXiv proposant un cadre formel pour combiner évaluations LLM et humaines. Utilise un estimateur doublement robuste (missing data) pour déterminer le nombre optimal d'évaluations humaines nécessaires en validation de benchmarks, plutôt que de substituer les humains par des LLM.

Évaluations Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Sherpa.ai Privacy-Preserving Multi-Party Entity Alignment without Intersection Disclosure for Noisy Identifiers

Sherpa.ai introduit un protocole multi-parties pour l'alignement d'entités préservant la vie privée en Federated Learning vertical. La méthode cache l'intersection des données tout en permettant l'appariement exact et tolérant aux fautes de frappe, sans révéler quels échantillons sont partagés entre parties.

Alignement Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Ensembling Tabular Foundation Models - A Diversity Ceiling And A Calibration Trap

Six modèles fondamentaux tabulaires modernes forment un ensemble hautement redondant (Q-statistic moyen 0.961). Sur 153 tâches OpenML, le meilleur ensemble (cascade stacking deux niveaux) gagne +0.18% de précision au coût de 253× le calcul. L'analyse Friedman-Nemenyi place trois ensembles et le meilleur modèle seul dans le même groupe d'équivalence. La sélection gloutonne est recommandée.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Spiker-LL: An Energy-Efficient FPGA Accelerator Enabling Adaptive Local Learning in Spiking Neural Networks

Spiker-LL est un accélérateur FPGA pour réseaux de neurones impulsionnels (SNN) permettant l'apprentissage local adaptatif en temps réel. Basé sur l'architecture Spiker+, il implémente la règle STSF avec surcharge minimale. Sur MNIST/F-MNIST/DIGITS : 93% de précision, latence <1ms, <0,1 mJ par inférence, sans DSP.

Raisonnement Infrastructure Open source

SIG

HYP

arXiv cs.AI·19 mai

Algorithmic Cultivation: How Social Media Feeds Shape User Language

Étude longitudinale sur 235M posts de 4M utilisateurs Bluesky montrant que l'exposition à des feeds algorithmiques (News, Science, Blacksky) modifie mesurément le langage des utilisateurs : alignement sémantique, formalisation du registre, restructuration psycholinguistique. Le reposting est le prédicteur principal de convergence linguistique.

Papers Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

D$^2$Evo: Dual Difficulty-Aware Self-Evolution for Data-Efficient Reinforcement Learning

D²Evo est un framework RL pour améliorer le raisonnement des LLM via l'auto-évolution. La méthode génère des échantillons d'entraînement de difficulté moyenne en minant des ancres adaptées aux capacités du modèle, puis optimise conjointement un Questioner et un Solver. Résultats : surpasse les méthodes existantes sur benchmarks mathématiques avec <2K exemples réels.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Generalization or Memorization? Brittleness Testing for Chess-Trained Language Models

Des chercheurs entraînent KinGPT (25M paramètres) sur des données d'échecs et montrent que les performances élevées des modèles fine-tunés sur les échecs résultent surtout du pattern-matching, non de la compréhension réelle. LLM-Modulo, un framework avec vérificateur externe, améliore RedPajama 3B de 1,2% à 21,2% en précision de meilleur coup. Code, données et checkpoints open-sourcés.

Benchmarks Évaluations Fine-tuning

SIG

HYP

arXiv cs.AI·19 mai

A Theory of Training Profit-Optimal LLMs

Modèle économique combinant lois de scaling et théorie microéconomique pour caractériser le comportement rationnel des entreprises d'entraînement LLM. Analyse la maximisation du profit en régimes compute-bound et data-bound : en compute-bound, la taille optimale suit l'efficacité matérielle (FLOPs/$) à taux quasi-linéaire ; en data-bound, les dépenses d'entraînement optimales évoluent en D²/E.

Benchmarks Papers Business

SIG

HYP

arXiv cs.AI·19 mai

Multi-agent AI systems outperform human teams in creativity

Des équipes multi-agents basées sur LLM surpassent les équipes humaines en créativité (Cohen's d=1.50) sur 4 541 idées d'IA contre 341 idées humaines sur six tâches. L'avantage provient de la nouveauté tout en maintenant l'utilité. Les équipes LLM bénéficient d'une exploration efficace (large dispersion sémantique, chemins courts), tandis que les humains privilégient la cohérence conversationnelle locale.

Multi-agents Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Self-supervised Hierarchical Visual Reasoning with World Model

ResDreamer, un modèle monde hiérarchique auto-supervisé, reconstruit les résidus de chaque couche pour abstraire progressivement la dynamique visuelle. Entraîné sans connaissance de domaine, il atteint l'efficacité échantillon et paramètre de pointe en RL dans des environnements 3D adversariaux. Code disponible.

Reinforcement learning Raisonnement Vision

SIG

HYP

arXiv cs.LG·19 mai

Augmenting Human Evaluation with LLM Judges: How Many Human Reviews Do You Need?

Article arXiv proposant un cadre statistique formel pour combiner évaluations LLM et humaines. Utilise un estimateur doublement robuste (missing data) pour déterminer le nombre optimal d'évaluations humaines nécessaires en validation de benchmarks, en fonction de la prédictibilité des jugements LLM.

Évaluations Papers Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

Sustainability via LLM Right-sizing

Étude empirique comparant 11 LLMs (GPT-4o, Gemma-3, Phi-4, etc.) sur 10 tâches professionnelles courantes. GPT-4o surpasse mais coûte plus cher ; les petits modèles offrent un bon compromis coût/performance. Propose une évaluation centrée sur la suffisance contextuelle plutôt que la maximisation de performance.

Benchmarks Évaluations Open source

SIG

HYP

arXiv cs.AI·19 mai

Semantic Generative Tuning for Unified Multimodal Models

Semantic Generative Tuning (SGT) aligne la compréhension visuelle et la génération dans les modèles multimodaux unifiés en utilisant la segmentation d'image comme proxy génératif. Les tâches sémantiques de haut niveau améliorent la séparabilité linéaire des features et l'allocation d'attention visuo-textuelle, surpassant les approches découplées.

Vision Génération d'images Fine-tuning

SIG

HYP

arXiv cs.AI·19 mai

MARS: Technical Report for the CASTLE Challenge at EgoVis 2026

MARS est un système multimodal pour le défi CASTLE 2026 qui traite le raisonnement sur 4 jours d'activité, 15 perspectives synchronisées, transcriptions et modalités auxiliaires (photos, vidéos, eye-tracking, thermographie, fréquence cardiaque). L'approche utilise DeepSeek pour les résumés vidéo et un agent GPT-5.4 pour sélectionner les sources d'evidence. Le système a obtenu la 2e place au classement final.

Agents IA Multi-agents Vision

SIG

HYP

arXiv cs.AI·19 mai

Data Presentation Over Architecture: Resampling Strategies for Credit Risk Prediction with Tabular Foundation Models

Étude comparative de modèles tabulaires (TFMs) vs classiques sur prédiction de défaut de crédit. Sur Home Credit et Lending Club, la stratégie de construction du contexte (sampling équilibré vs uniforme) explique plus de variance en AUC-ROC que le choix du modèle : +3-4 points AUC. Avec 5K-10K exemples équilibrés, les TFMs égalent les GBDTs classiques tout en améliorant le recall.

Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

SAPO: Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation

SAPO améliore la recommandation générative en alignant l'optimisation par renforcement sur les étapes de raisonnement individuelles. Au lieu d'attribuer un seul avantage à la réponse complète, SAPO calcule un avantage relatif pour chaque étape de raisonnement et token SID, stabilisant l'entraînement et surpassant les baselines sur trois datasets réels.

Reinforcement learning Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

Learning How to Cube

Un framework neuro-symbolique entraîne un modèle 4B-paramètres à générer des heuristiques de cubing pour SAT via SFT+DPO. Le modèle atteint pass@5=53 sur 100 benchmarks SAT, égalant la meilleure heuristique symbolique et surpassant Claude-Sonnet-4 (50). Les données proviennent d'une pipeline MCTS explorant les décisions de splitting sur formules de compétition SAT.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

General Preference Reinforcement Learning

Nouvelle méthode GPRL (General Preference Reinforcement Learning) qui remplace les reward models scalaires par un General Preference Model (GPM) utilisant k sous-espaces asymétriques. Teste sur Llama-3-8B-Instruct : 56,51% win rate AlpacaEval 2.0, surpasse SimPO et SPPO sur Arena-Hard, MT-Bench, WildBench en évitant l'exploitation d'un seul axe.

Reinforcement learning Llama Alignement

SIG

HYP

arXiv cs.AI·19 mai

A Comparative Study in Surgical AI: Potential and Limitations of Data, Compute, and Scaling

Étude comparative sur l'IA chirurgicale : les modèles Vision-Language multi-milliards de paramètres échouent sur la détection d'instruments en neurochirurgie malgré l'entraînement extensif. Les expériences de scaling montrent des améliorations décroissantes. Les obstacles persistent across architectures, suggérant que données et compute seuls ne suffisent pas.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

MirrorBench: A Benchmark to Evaluate Conversational User-Proxy Agents for Human-Likeness

MirrorBench est un framework de benchmark pour évaluer les agents proxy utilisateur dans les systèmes conversationnels. Il combine 6 métriques (MATTR, Yule's K, HD-D, GTEval, Pairwise Indistinguishability, Rubric-and-Reason) pour mesurer le réalisme des énoncés générés par des LLM simulant des utilisateurs, sur 4 datasets publics. Code open-source disponible.

Agents IA Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning

AMARIS améliore l'apprentissage par renforcement basé sur des rubriques en intégrant une mémoire persistante d'évaluation. Le système accumule les diagnostics d'évaluation au fil du temps, les récupère via recherche statique et sémantique, et adapte les rubriques de récompense en continu. Expériences montrent gains de performance avec ~5% de surcharge temporelle.

Reinforcement learning Fine-tuning Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Prior Knowledge Makes It Possible: From Sublinear Graph Algorithms to LLM Test-Time Methods

Article théorique formulant le raisonnement multi-étapes comme problème de connectivité sur graphe de connaissances. Montre une transition de phase : si les connaissances pré-entraînées sont fragmentées, l'augmentation requiert Ω(√n) requêtes ; au-delà d'un seuil de densité formant une composante géante, un nombre constant de requêtes suffit.

RAG Raisonnement Papers

SIG

HYP

arXiv cs.AI·19 mai

EXG: Self-Evolving Agents with Experience Graphs

EXG est un framework de graphe d'expérience pour agents auto-évolutifs basés sur LLM. Il organise succès et échecs en représentation structurée et relationnelle, permettant la réutilisation d'expérience en temps réel entre tâches et hors ligne. Testé sur code generation et reasoning, EXG surpasse les baselines de réflexion et mémoire.

Agents IA Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle

EvolveR est un framework permettant aux agents LLM d'apprendre de leurs propres expériences via une boucle fermée. Il combine l'auto-distillation hors ligne (synthèse de trajectoires en principes stratégiques réutilisables) et l'interaction en ligne (récupération active de principes pour guider les décisions). Testé sur des benchmarks QA multi-hop complexes, il surpasse les baselines existantes.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

CheckSupport: A Local LLM-Powered Tool for Automated Manuscript Submission Checklist Selection and Completion

CheckSupport est un système open-source utilisant des LLM locaux pour automatiser la sélection et la complétion de checklists de reporting scientifique. Évalué sur des manuscrits peer-reviewed, il atteint 90% de précision pour les recommandations et 88% pour la complétion d'items, en 12,5 secondes par manuscrit sur CPU.

Llama Prompt engineering Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Detecting Verbatim LLM Copy-Paste in Homework

SteganoPrompt, un outil web open-source, détecte les copies verbatim d'énoncés d'exercices soumis à des LLM. Il encode une instruction invisible dans le prompt via le bloc Unicode Tags (U+E0000–U+E007F), créant une signature détectable dans la réponse du modèle. Testé sur 7 familles de LLM, l'approche contourne les limites des détecteurs post-hoc et ne nécessite pas la coopération du fournisseur.

Évaluations Sécurité IA Prompt engineering

SIG

HYP

arXiv cs.AI·19 mai

Reconciling Contradictory Views on the Effectiveness of SFT in LLMs: An Interaction Perspective

Étude arXiv sur l'efficacité du fine-tuning supervisé (SFT) pour les LLM. Les auteurs montrent que le SFT supprime principalement les interactions bruitées entre tokens, mais acquiert rarement de nouvelles interactions fiables. La phase de débruitage est très brève ; le fine-tuning prolongé introduit des interactions surapprenantes. Implications pour l'early stopping et l'entraînement des LLM.

Fine-tuning Raisonnement Papers

SIG

HYP

arXiv cs.AI·19 mai

StyleText: A Large-Scale Dataset and Benchmark for Stylized Scene Text Inpainting

StyleText est un dataset de 28,518 triplets image-masque-prompt pour l'inpainting de texte en scène avec préservation de style. Pipeline automatisé combinant LLM, Flux avec injection KV-cache, OCR, extraction de masques polygonaux et augmentation FluxFill. Baseline FluxFill+LoRA améliore significativement la précision OCR tout en maintenant la cohérence stylistique.

Benchmarks Génération d'images Vision

SIG

HYP

arXiv cs.AI·19 mai

PAIR: Prefix-Aware Internal Reward Model for Multi-Turn Agent Optimization

PAIR est un modèle de récompense interne pour optimiser l'entraînement multi-étapes des LLM via GRPO. Il combine une sonde d'état caché (cohérence des croyances) et une tête attention légère pour générer des signaux de récompense denses à chaque étape, sans appels externes ni dépendances aux réponses correctes.

Reinforcement learning Raisonnement Agents IA

SIG

HYP

arXiv cs.AI·19 mai

DuIVRS-2: An LLM-based Interactive Voice Response System for Large-scale POI Attribute Acquisition

DuIVRS-2 est un système de réponse vocale interactif basé LLM déployé chez Baidu Maps pour l'acquisition d'attributs POI à grande échelle. Utilisant augmentation de données guidée par FSM, génération sélective et mécanisme Chain-of-Thought, le système traite 0,4 million d'appels/jour avec 83,9% de taux de succès et 130ms de latence.

Agents IA Raisonnement Voix

SIG

HYP

arXiv cs.CL·19 mai

Compress the Context, Keep the Commitments: A Formal Framework for Verifiable LLM Context Compression

Context Codec propose un cadre formel pour compresser les contextes LLM en préservant les engagements sémantiques (objectifs, contraintes, décisions, preuves). Le framework introduit des métriques (Critical Atom Recall, Commitment Density) et CCL, un langage de rendu compact ASCII-first, pour rendre la compression vérifiable et auditable.

Prompt engineering Raisonnement Papers

SIG

HYP

arXiv cs.CL·19 mai

Multi-agent AI systems outperform human teams in creativity

Des équipes multi-agents basées sur LLM surpassent les équipes humaines en créativité (Cohen's d=1.50) sur 4 541 idées d'IA vs 341 idées humaines sur 6 tâches. L'avantage provient de la nouveauté tout en maintenant l'utilité. Les équipes LLM bénéficient d'une exploration efficace (spread sémantique élevé, chemins courts), tandis que les humains privilégient la cohérence conversationnelle locale.

Multi-agents Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

SAME: A Semantically-Aligned Music Autoencoder

SAME est un autoencoder pour musique stéréo et audio général atteignant une compression temporelle 4096× tout en préservant la qualité de reconstruction. L'architecture combine un backbone transformer, régularisations sémantiques, pertes de reconstruction sensibles à la phase et discriminateurs améliorés. Deux variantes (SAME-L et SAME-S) sont publiées en open-weights.

Open source Papers

SIG

HYP

arXiv cs.LG·19 mai

PropGuard: Safeguarding LLM-MAS via Propagation-Aware Exploration and Remediation

PropGuard est un framework de sécurité pour systèmes multi-agents basés sur LLM. Il construit un graphe spatio-temporel dual pour tracer la propagation des instructions malveillantes à travers les agents et les rounds, puis applique une remédiation guidée par la source. Testé sur quatre architectures de communication et cinq scénarios d'attaque.

Multi-agents Sécurité IA Agents IA

SIG

HYP

arXiv cs.AI·19 mai

FUNCanon: Learning Pose-Aware Action Primitives via Functional Object Canonicalization for Generalizable Robotic Manipulation

FUNCanon décompose les tâches de manipulation longue en séquences d'actions (acteur-verbe-objet) et canonicalise les objets par leurs affordances fonctionnelles via VLM. FuncDiffuser, une politique diffusion objet-centrique et action-centrique, apprend sur ces données alignées pour généraliser entre catégories d'objets et réutiliser les comportements cross-task.

Robotique Vision Agents IA

SIG

HYP

arXiv cs.AI·19 mai

FediLoRA: Practical Federated Fine-Tuning of Foundation Models Under Missing-Modality Constraints

FediLoRA propose un framework de fine-tuning fédéré avec LoRA pour les modèles de vision-langage (VLLMs). Il résout deux défis : les rangs LoRA imbalancés dus aux ressources hétérogènes et les modalités manquantes (erreurs utilisateur, pannes matérielles). L'approche combine moyennes simples et édition structurée, validée sur benchmarks généraux et médicaux.

Fine-tuning Vision Papers

SIG

HYP

arXiv cs.AI·19 mai

CarbonScaling: Extending Neural Scaling Laws for Carbon Footprint in Large Language Models

CarbonScaling est un framework analytique pour modéliser les émissions carbone lors de l'entraînement de LLMs à grande échelle. Il intègre les lois de scaling neural, les stratégies d'entraînement distribué, la modélisation du matériel et du carbone opérationnel/incorporé. Le code source est disponible sur GitHub.

Benchmarks Papers Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

Not What You Asked For: Typographic Attacks in Household Robot Manipulation

Des chercheurs démontrent des attaques typographiques contre les robots manipulateurs domestiques utilisant CLIP. En plaçant des autocollants adversariaux, ils obtiennent 67,8% de taux de succès d'attaque sur le benchmark HomeRobot en simulation Habitat, causant des erreurs de saisie physique et de transport d'objets.

Vision Robotique Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

AgroCoT: A Chain-of-Thought Benchmark for Evaluating Reasoning in Vision-Language Models for Agriculture

AgroCoT est un benchmark VQA de 4 759 échantillons avec raisonnement Chain-of-Thought pour évaluer les capacités de raisonnement des Vision-Language Models en agriculture. L'évaluation de 30 VLMs (propriétaires et open-source) révèle des lacunes significatives en zéro-shot, soulignant l'importance du CoT pour les applications de précision agricole.

Vision Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

MoleCode unlocks structural intelligence in large language models

MoleCode est un langage moléculaire natif pour LLM qui représente les molécules comme des graphes explicites avec entités typées et relations directes, au lieu de chaînes SMILES implicites. Sans entraînement, il améliore les performances sur le raisonnement moléculaire, l'édition et la génération, particulièrement pour structures complexes et opérations topologiquement sensibles.

Raisonnement Génération de code Papers

SIG

HYP