Page 30 sur 192

ToutHaut signalRécent

7679 articles

SignRoundV2: Toward Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

SignRoundV2 est un framework de quantization post-training pour LLMs qui maintient les performances sous compression extrême (2-4 bits). Il combine une stratégie de précision mixte adaptative guidée par les gradients et des techniques de stabilisation légères. Les résultats montrent une perte de ~1% à 4.5 bits en moyenne en configuration MXFP mixte, avec amélioration significative en quantization 2-bit.

Fine-tuning Benchmarks Infrastructure

SIG

HYP

arXiv cs.CL·19 mai

Beyond Accuracy: Decomposing the Reasoning Efficiency of LLMs

Papier arXiv proposant un protocole d'évaluation décomposant l'efficacité en tokens des LLMs raisonnants. Analyse 14 modèles open-weight sur CogniLoad, GSM8K, ProofWriter, ZebraLogic en séparant taux de complétude, correction conditionnelle et longueur générée. Identifie trois modes de défaillance : limité par la logique, par le contexte ou par la verbosité.

Raisonnement Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

EnvFactory automatise la création d'environnements exécutables et la synthèse de trajectoires multi-tours pour l'entraînement d'agents RL. Avec 85 environnements vérifiés sur 7 domaines, le framework génère 2 575 trajectoires SFT/RL et améliore les modèles Qwen3 de +15% sur BFCLv3, +8.6% sur MCP-Atlas et +6% sur conversational benchmarks.

Agents IA Reinforcement learning Génération de code

SIG

HYP

Page 30 sur 192

SignRoundV2: Toward Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

Beyond Accuracy: Decomposing the Reasoning Efficiency of LLMs

EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

Old Habits Die Hard: How Conversational History Geometrically Traps LLMs

Learning from Self-Debate: Preparing Reasoning Models for Multi-Agent Debate

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

SkillMOO: Multi-Objective Optimization of Agent Skills for Software Engineering

SynCABEL: Synthetic Contextualized Augmentation for Biomedical Entity Linking

Multi-layer Cross-attention is Provably Optimal for Multi-modal In-context Learning

Vector RAG vs LLM-Compiled Wiki: A Preregistered Comparison on a Small Multi-Domain Research

OmniCode: A Benchmark for Evaluating Software Engineering Agents

UbuntuGuard: A Culturally-Grounded Policy Benchmark for Equitable AI Safety in African Languages

BELIEF: Structured Evidence Modeling and Uncertainty-Aware Fusion for Biomedical Question Answering

Adversarial Agent Collaboration for Correctness Improvements of C to Safe Rust Translation

SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning

TaskGround: Structured Executable Task Inference for Full-Scene Household Reasoning

LoopQ: Quantization for Recursive Transformers

Self-Supervised Bootstrapping of Action-Predictive Embodied Reasoning

SocialMemBench: Are AI Memory Systems Ready for Social Group Settings?

Lying with Truths: Open-Channel Multi-Agent Collusion for Belief Manipulation via Generative Montage

SignRoundV2: Toward Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

Lean Meets Theoretical Computer Science: Scalable Synthesis of Theorem Proving Challenges in Formal-Informal Pairs

Unleashing LLMs in Bayesian Optimization: Preference-Guided Framework for Scientific Discovery

DISA: Offline Importance Sampling for Distribution-Matching LLM-RL

Fourier Compressor: Frequency-Domain Visual Token Compression for Vision-Language Models

Perovskite-R1: a domain-specialized large language model for intelligent discovery of precursor additives and experimental design

Locally Coherent Parallel Decoding in Diffusion Language Models

Proof-Carrying Certificates for LLM Pipelines: A Trust-Boundary Architecture

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

RAP: Runtime Adaptive Pruning for LLM Inference

DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving

InvDesFlow-AL: active learning-based workflow for inverse design of functional materials

KISS - Knowledge Infrastructure for Scientific Simulation: A Scaffolding for Agentic Earth Science

ReTAMamba: Reliability-Aware Temporal Aggregation with Mamba for Irregular Clinical Time Series Prediction

Surface-Form Neural Sparse Retrieval: Robust Fuzzy Matching for Industrial Music Search

Toward Robust Multilingual Adaptation of LLMs for Low-Resource Languages

Supervising the search process produces reliable and generalizable information-seeking agents

SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning

Experimentally validated quantum-secure federated learning over a multi-user quantum network