Page 23 sur 192

ToutHaut signalRécent

7679 articles

Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

COSMO-Agent, un framework RL augmenté d'outils, entraîne des LLM à orchestrer des processus CAD-CAE itératifs. Le système apprend à générer de la géométrie paramétrique, résoudre des simulations et réviser les designs sous contraintes multiples. Dataset industriel de 25 catégories de composants. Les petits LLM entraînés surpassent les modèles fermés en faisabilité et stabilité.

Agents IA Reinforcement learning Outils

SIG

HYP

arXiv cs.LG·22 mai

ConTact: Contact-First Antibody CDR Design via Explicit Interface Reasoning

ConTact décompose explicitement la conception de CDR d'anticorps en trois étapes : empreintes de complémentarité, prédiction des contacts CDR-antigène, et injection de caractéristiques pondérées. Sur CHIMERA-Bench, le modèle améliore la qualité structurale de 7% (RMSD), la conscience épitopique de 10% (F1), avec AAR 0.38 en récupération de séquence.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·22 mai

ScenePilot: Controllable Boundary-Driven Critical Scenario Generation for Autonomous Driving

ScenePilot génère des scénarios critiques pour tester les systèmes de conduite autonome via apprentissage par renforcement multi-objectif. Le framework combine une mesure de faisabilité physique (RSS) avec un prédicteur de risque pour cibler les scénarios à la limite : physiquement possibles mais causant des défaillances. Résultats : +6,2 points de collision sur SafeBench tout en préservant la validité physique.

Reinforcement learning Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·22 mai

ArabDiscrim: A Decade-Long Arabic Facebook Corpus on Racism and Discrimination

ArabDiscrim est un corpus de 293K posts Facebook arabes (2014-2024) sur le racisme et la discrimination. Il inclut 200 termes curatés avec familles morphologiques (13+ inflexions), 20 axes de discrimination, et signaux d'engagement natifs (réactions, partages, commentaires). Licence recherche restreinte pour conformité éthique.

Benchmarks Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·22 mai

Token-weighted Direct Preference Optimization with Attention

Token-weighted DPO (TwDPO) et AttentionPO proposent une optimisation des préférences qui pondère les tokens selon leur importance. AttentionPO utilise l'attention du modèle lui-même pour estimer les poids, sans modèle de récompense séparé. Résultats : amélioration sur AlpacaEval, MT-Bench, ArenaHard.

Reinforcement learning Alignement Benchmarks

SIG

HYP

arXiv cs.CL·22 mai

ACC: Compiling Agent Trajectories for Long-Context Training

ACC convertit les trajectoires d'agents (recherche, ingénierie logicielle, requêtes BD) en paires QA long-contexte pour l'entraînement SFT. Élimine le masquage des réponses d'outils et crée une supervision explicite sur les dépendances distantes. Qwen3-30B-A3B atteint +18.1 sur MRCR et +7.6 sur GraphWalks, comparable à Qwen3-235B.

Agents IA Raisonnement Fine-tuning

SIG

HYP

arXiv cs.CL·22 mai

Does Slightly Mean Somewhat? Measuring Vague Intensity Words in LLM Numeric Actions

Étude sur 6,620 exécutions montrant que Claude Haiku compresse 10 modifieurs d'intensité anglais en 5 sorties distinctes. Le contexte d'état système domine l'effet lexical (variance expliquée : 0,782 vs 0,079). Près des limites opérationnelles, le modèle adopte trois modes : petits ajustements pour mots faibles, abstention pour mots forts, plafonnement pour « drastically ».

Claude Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·22 mai

When Cases Get Rare: A Retrieval Benchmark for Off-Guideline Clinical Question Answering

OGCaReBench est un benchmark de retrieval pour évaluer les LLMs sur des questions cliniques hors-guideline, extraites de cas médicaux publiés. GPT-5.2 atteint 56% sans retrieval, 82% avec articles médicaux récupérés. Les modèles spécialisés plafonnent à 42%.

Benchmarks RAG Raisonnement

SIG

HYP

arXiv cs.CL·22 mai

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

RankJudge est un générateur de benchmark pour évaluer les LLM utilisés comme juges sur des conversations multi-tours ancrées dans des documents de référence. Le système crée des paires de conversations avec une faille injectée dans un tour, permettant un étiquetage sans ambiguïté. Évaluation de 21 juges LLM frontier avec classement via le modèle Bradley-Terry sur ML, biomédecine et finance.

Évaluations Benchmarks Multi-agents

SIG

HYP

arXiv cs.CL·22 mai

Sem-Detect: Semantic Level Detection of AI Generated Peer-Reviews

Sem-Detect détecte les avis de relecture générés par IA en analysant les caractéristiques textuelles et sémantiques au niveau des affirmations. La méthode compare un avis cible à plusieurs avis générés par IA du même article, exploitant la convergence des modèles IA versus la diversité des reviewers humains. Sur 20 000+ avis ICLR/NeurIPS, Sem-Detect améliore la baseline de 25,5% en TPR@0.1% FPR.

Évaluations Sécurité IA Papers

SIG

HYP

arXiv cs.AI·22 mai

Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum

Étude arXiv sur les lois de scaling des données : la couverture progressive d'un spectre latent de contributions prédictives (via automate de suffixes) corrèle fortement avec l'exposant de scaling empirique. Sur 12 corpus réels, log K(N) suit une relation quasi-linéaire avec log N (R²≈0.96), suggérant que l'entraînement avance une frontière effective à travers un spectre d'états prédictifs.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.AI·22 mai

DeepWeb-Bench: A Deep Research Benchmark Demanding Massive Cross-Source Evidence and Long-Horizon Derivation

DeepWeb-Bench est un benchmark de recherche profonde évaluant 9 modèles frontière sur des tâches exigeant collecte massive d'evidence, réconciliation cross-source et dérivation multi-étapes longue. Les erreurs proviennent surtout de la dérivation et calibration (>70%), pas de la retrieval (12-14%). Les modèles forts et faibles échouent différemment : dérivation incomplète vs hallucination de précision.

Benchmarks Raisonnement Agents IA

SIG

HYP

arXiv cs.CL·22 mai

SpecHop: Continuous Speculation for Accelerating Multi-Hop Retrieval Agents

SpecHop accélère les agents multi-hop utilisant outils externes (recherche web, retrieval) en maintenant plusieurs threads spéculatifs parallèles avec des outils plus rapides mais moins fiables. Le framework vérifie asynchroniquement les prédictions et valide/annule les branches, réduisant la latence jusqu'à 40% sans changer la trajectoire finale du modèle.

Agents IA RAG Raisonnement

SIG

HYP

arXiv cs.AI·22 mai

PALS: Power-Aware LLM Serving for Mixture-of-Experts Models

PALS est un système d'optimisation de l'inférence LLM intégré à vLLM qui traite les limites de puissance GPU comme un paramètre de contrôle ajustable. En combinant modèles de puissance-performance hors ligne et contrôle par rétroaction, il améliore l'efficacité énergétique jusqu'à 26,3% et réduit les violations QoS de 4x à 7x sur modèles denses et MoE.

Infrastructure Benchmarks Outils

SIG

HYP

arXiv cs.AI·22 mai

AutoRPA: Efficient GUI Automation through LLM-Driven Code Synthesis from Interactions

AutoRPA distille la logique décisionnelle d'agents LLM (paradigme ReAct) en fonctions RPA robustes via un pipeline traducteur-constructeur et génération augmentée par récupération. Sur tâches GUI répétitives, les fonctions générées réduisent l'usage de tokens de 82–96% tout en maintenant la performance.

Agents IA Génération de code Raisonnement

SIG

HYP

ActuIA·21 mai

Anthropic loue Colossus 1 à 1,25 Md$/mois sur un parc xAI qui plafonne à 11% de capacité

Anthropic loue Colossus 1, le supercalculateur de xAI, pour 1,25 Md$/mois jusqu'en mai 2029 (40+ Md$ total). Le contrat plafonne à 11% de la capacité du cluster, limitant l'accès d'Anthropic à une fraction des ressources disponibles.

Anthropic Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·21 mai

Agent Execution Tax: new procurement metric for browser agent benchmarks?

Benchmark WebVoyager sur 720 tâches d'agents navigateur : MiniMax M2.5 coûte 2,3× moins cher par tâche réussie que Gemini 2.5 Flash. GLM-5 atteint 57,1% d'accuracy, Kimi K2.5 affiche 0% d'erreurs de parsing. Les modèles open-weight surpassent Gemini non par intelligence mais par fiabilité. Le coût réel dépasse le prix au token une fois les retries comptabilisés.

Agents IA Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·21 mai

Tencent Hy 30B/7B/1.8B

Tencent lance Hy-MT2, famille de modèles de traduction multilingue en trois tailles (1.8B, 7B, 30B-MoE) supportant 33 langues. Le modèle 1.8B compressé à 440 MB via quantization 1.25-bit surpasse les APIs commerciales Microsoft/Doubao. Les 7B et 30B dépassent DeepSeek-V4-Pro et Kimi K2.6. Benchmark IFMTBench et intégration WMT26 inclus.

Génération de code Benchmarks Open source

SIG

HYP

Reddit r/MachineLearning·21 mai

Masked Diffusion Language Models are Strong and Steerable Text-Based World Models for Agentic RL [R]

Les modèles de diffusion masqués (MDLMs) surpassent les LLMs autorégressifs comme modèles du monde pour l'RL agentic. Fine-tuning sur SDAR-8B et WeDLM-8B montre +4x sur BLEU-1/ROUGE-L/MAUVE. GRPO training atteint +15% de succès sur ScienceWorld, ALFWorld, AppWorld avec Qwen3, Mistral, LFM2.5 en zéro-shot.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.LG·21 mai

FusionCell: Cross-Attentive Fusion of Layout Geometry and Netlist Topology for Standard-Cell Performance Prediction

FusionCell prédit les performances des cellules standard en fusionnant la géométrie du layout (via DeiT) et la topologie du netlist (via graph transformer). Entraîné sur 19.5k cellules 7nm (ASAP7), le modèle atteint 0.92% MAPE sur délai/puissance et accélère la caractérisation de plusieurs ordres de magnitude vs simulation.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·21 mai

TabPFN-MT: A Natively Multitask In-Context Learner for Tabular Data

TabPFN-MT étend les Prior-Data Fitted Networks au multitâche en contexte pour données tabulaires. Entraîné sur synthétiques multi-cibles, le modèle capture les dépendances inter-tâches et réduit l'inférence de O(T) à O(1) passages. Sur 344 datasets (<1000 samples), il atteint le rang 4.89 en précision multitâche, compétitif avec les ensembles single-task.

Papers Benchmarks RAG

SIG

HYP

Page 23 sur 192

Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

ConTact: Contact-First Antibody CDR Design via Explicit Interface Reasoning

ScenePilot: Controllable Boundary-Driven Critical Scenario Generation for Autonomous Driving

ArabDiscrim: A Decade-Long Arabic Facebook Corpus on Racism and Discrimination

Token-weighted Direct Preference Optimization with Attention

ACC: Compiling Agent Trajectories for Long-Context Training

Does Slightly Mean Somewhat? Measuring Vague Intensity Words in LLM Numeric Actions

When Cases Get Rare: A Retrieval Benchmark for Off-Guideline Clinical Question Answering

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

Sem-Detect: Semantic Level Detection of AI Generated Peer-Reviews

Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum

DeepWeb-Bench: A Deep Research Benchmark Demanding Massive Cross-Source Evidence and Long-Horizon Derivation

SpecHop: Continuous Speculation for Accelerating Multi-Hop Retrieval Agents

PALS: Power-Aware LLM Serving for Mixture-of-Experts Models

AutoRPA: Efficient GUI Automation through LLM-Driven Code Synthesis from Interactions

Anthropic loue Colossus 1 à 1,25 Md$/mois sur un parc xAI qui plafonne à 11% de capacité

Agent Execution Tax: new procurement metric for browser agent benchmarks?

Tencent Hy 30B/7B/1.8B

Masked Diffusion Language Models are Strong and Steerable Text-Based World Models for Agentic RL [R]

FusionCell: Cross-Attentive Fusion of Layout Geometry and Netlist Topology for Standard-Cell Performance Prediction

TabPFN-MT: A Natively Multitask In-Context Learner for Tabular Data

Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models

What Do Biomedical NER and Entity Linking Benchmarks Measure? A Corpus-Centric Diagnostic Framework

Conformal Selective Acting: Anytime-Valid Risk Control for RLVR-Trained LLMs

FlowLM: Few-Step Language Modeling via Diffusion-to-Flow Adaptation

Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum

Mix-Quant: Quantized Prefilling, Precise Decoding for Agentic LLMs

Do as I Say, Not as I Do: Instruction-Induction Conflict in LLMs

SCRIBE: Diagnostic Evaluation and Rich Transcription Models for Indic ASR

Mechanics of Bias and Reasoning: Interpreting the Impact of Chain-of-Thought Prompting on Gender Bias in LLMs

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

OmniISR: A Unified Framework for Centralized and Federated Learning via Intermediate Supervision and Regularization

MTR-Suite: A Framework for Evaluating and Synthesizing Conversational Retrieval Benchmarks

Direct Translation between Sign Languages

HRM-Text: Efficient Pretraining Beyond Scaling

Retrieval-Augmented Long-Context Translation for Cultural Image Captioning: Gators submission for AmericasNLP 2026 shared task

On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

DIVE: Embedding Compression via Self-Limiting Gradient Updates

Distributional Alignment as a Criterion for Designing Task Vectors in In-Context Learning