Page 29 sur 192

ToutHaut signalRécent

7679 articles

OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation

OpenDeepThink utilise l'agrégation Bradley-Terry pour sélectionner les meilleures solutions parmi plusieurs candidats générés en parallèle. Le système compare aléatoirement des paires de réponses, agrège les votes et préserve les meilleures pour mutation. Sur Codeforces, Gemini 3.1 Pro gagne +405 points Elo en 8 appels LLM (~27 min). Les auteurs publient CF-73, 73 problèmes annotés par des experts.

Raisonnement Benchmarks Gemini

SIG

HYP

arXiv cs.CL·19 mai

SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning

SD-Search propose une auto-distillation par hindsight pour améliorer les agents de raisonnement augmentés par recherche. Un modèle unique joue deux rôles (étudiant et enseignant) : l'enseignant a accès aux résultats des requêtes passées et guide l'étudiant via divergence Jensen-Shannon au niveau des tokens. Aucun modèle externe ni annotation supplémentaire requise.

Raisonnement Reinforcement learning Agents IA

SIG

HYP

arXiv cs.LG·19 mai

When Is Rank-1 Steering Cheap? Geometry, Granularity, and Budgeted Search

Les chercheurs formalisent le steering d'activation (contrôle d'LLM sans réentraînement) comme optimisation contrainte par budget sur la couche et le coefficient. Ils introduisent la granularité conceptuelle pour mesurer l'hétérogénéité directionnelle et présentent GRACE, un framework utilisant la géométrie d'activation pour diagnostiquer les difficultés de steering et réduire de 39,8% les évaluations nécessaires.

Raisonnement Alignement Papers

SIG

HYP

Page 29 sur 192

OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation

SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning

When Is Rank-1 Steering Cheap? Geometry, Granularity, and Budgeted Search

Ensemble Monitoring for AI Control: Diverse Signals Outweigh More Compute

HEED: Density-Weighted Residual Alignment for Hybrid Vision-Language Model Distillation

DexWild: Dexterous Human Interactions for In-the-Wild Robot Policies

SignMuon: Communication-Efficient Distributed Muon Optimization

GeoSym127K: Scalable Symbolically-verifiable Synthesis for Multimodal Geometric Reasoning

SkillMOO: Multi-Objective Optimization of Agent Skills for Software Engineering

When Is Rank-1 Steering Cheap? Geometry, Granularity, and Budgeted Search

From Volume to Value: Preference-Aligned Memory Construction for On-Device RAG

State-of-the-Art Claims Require State-of-the-Art Evidence

LARGER: Lexically Anchored Repository Graph Exploration and Retrieval

LoopQ: Quantization for Recursive Transformers

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

Fine-tuning vs. In-context Learning in Large Language Models: A Formal Language Learning Perspective

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

SomaliWeb v1: A Quality-Filtered Somali Web Corpus with a Matched Tokenizer and a Public Language-Identification Benchmark

Mixing Times of Glauber Dynamics on Masked Language Models

DataClawBench: An Agent Benchmark for Exploratory Real-World Financial Data Analysis

Scale Determines Whether Language Models Organize Representation Geometry for Prediction

Breaking $\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning

Temporal Decay of Co-Citation Predictability: A 20-Year Statute Retrieval Benchmark from 396M Ukrainian Court Citations

RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs

(Sparse) Attention to the Details: Preserving Spectral Fidelity in ML-based Weather Forecasting Models

Contrastive Conceptor Activation Steering (COAST): Unlocking Vision-Language-Action Models through Hidden States

LiTS: A Modular Framework for LLM Tree Search

CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection

Helping Customers in Distress: An LLM-powered Agent that Converses, Probes, and Routes

Constrained Code Generation with Discrete Diffusion

Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings

Learning Reasoning Rewards from Expert Demonstrations with Inverse Reinforcement Learning

What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?

SocialMemBench: Are AI Memory Systems Ready for Social Group Settings?

SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents

Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning

Protection Is (Nearly) All You Need: Structural Protection Dominates Scoring in Globally Capped KV Eviction

AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent

KVDrive: A Holistic Multi-Tier KV Cache Management System for Long-Context LLM Inference

Distilling Tabular Foundation Models for Structured Health Data