Page 34 sur 142

ToutHaut signalRécent
5654 articles
arXiv cs.CL·

A Data-Efficient Path to Multilingual LLMs: Language Expansion via Post-training PARAM$\Delta$ Integration into Upcycled MoE

Méthode pour étendre les LLM à de nouvelles langues sans phase d'alignement coûteuse. Convertit un modèle dense en architecture Mixture-of-Experts avec experts dédiés par langue, puis transfère les capacités d'alignement via fusion de deltas post-training. Améliore les performances sur les nouvelles langues tout en préservant les capacités originales.

Fine-tuning
SIG
75
HYP
25
arXiv cs.AI·

AutoLLMResearch: Training Research Agents for Automating LLM Experiment Configuration - Learning from Cheap, Optimizing Expensive

AutoLLMResearch propose un framework agentic pour automatiser la configuration d'expériences LLM coûteuses. Le système apprend de petites expériences bon marché pour extrapoler vers des configurations prometteuses en haute-fidélité. LLMConfig-Gym fournit un environnement multi-fidélité avec >1M heures GPU d'expériences vérifiées.

Agents IAReinforcement learningBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

D$^2$Evo: Dual Difficulty-Aware Self-Evolution for Data-Efficient Reinforcement Learning

D²Evo est un framework RL pour améliorer le raisonnement des LLM via l'auto-évolution. La méthode génère des échantillons d'entraînement de difficulté moyenne en minant des ancres adaptées aux capacités du modèle, puis optimise conjointement un Questioner et un Solver. Résultats : surpasse les méthodes existantes sur benchmarks mathématiques avec <2K exemples réels.

Reinforcement learningRaisonnementBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

A Comparative Study in Surgical AI: Potential and Limitations of Data, Compute, and Scaling

Étude comparative sur l'IA chirurgicale : les modèles Vision-Language multi-milliards de paramètres échouent sur la détection d'instruments en neurochirurgie malgré l'entraînement extensif. Les expériences de scaling montrent des améliorations décroissantes. Les obstacles persistent across architectures, suggérant que données et compute seuls ne suffisent pas.

VisionBenchmarksPapers
SIG
75
HYP
15
arXiv cs.CL·

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities

UniversalRAG étend la génération augmentée par récupération (RAG) à des corpus hétérogènes multi-modaux (texte, images, vidéos) avec granularités variables. Le framework propose un routage conscient de la modalité pour éviter le biais intra-modal et récupérer dynamiquement dans le corpus approprié. Validation sur 10 benchmarks multi-modaux.

RAGVisionMulti-agents
SIG
75
HYP
25
arXiv cs.AI·

A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation

A2RBench est un pipeline automatisé pour générer des benchmarks de raisonnement abstrait vérifiables formellement. Via vérification programmatique (cycle consistency), il élimine les hallucinations et crée des variations de tâches à grande échelle. Les évaluations montrent que les LLMs actuels obtiennent 39,8% vs 68,5% pour les humains, et peinent sur les tâches 3D complexes.

BenchmarksRaisonnementÉvaluations
SIG
75
HYP
25
arXiv cs.AI·

The Alien Space of Science: Sampling Coherent but Cognitively Unavailable Research Directions

Un framework utilise des modèles de langage pour identifier des directions de recherche « alien » — cohérentes avec la littérature existante mais improbables sous la distribution actuelle des chercheurs. Sur 16 068 papiers IA/NLP, la méthode explore 3,5-7× plus d'espace conceptuel que les baselines tout en maintenant la cohérence scientifique.

PapersRaisonnementBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

Is VLA Reasoning Faithful? Probing Safety of Chain-of-Causation

Étude systématique de la fidélité du raisonnement dans les modèles VLA (Vision-Language-Action) de conduite autonome. Analyse de 300 inférences Alpamayo-R1-10B sur 100 scénarios PhysicalAI-AV révèle : fidélité de raisonnement de 42,5%, 94 piétons manqués, fragilité de trajectoire de 97,7% sous perturbations visuelles, cohérence raisonnement-action de 48,3%. Propose une architecture de sécurité à quatre composants.

VisionRaisonnementSécurité IA
SIG
75
HYP
15
arXiv cs.AI·

MirrorBench: A Benchmark to Evaluate Conversational User-Proxy Agents for Human-Likeness

MirrorBench est un framework de benchmark pour évaluer les agents proxy utilisateur dans les systèmes conversationnels. Il combine 6 métriques (MATTR, Yule's K, HD-D, GTEval, Pairwise Indistinguishability, Rubric-and-Reason) pour mesurer le réalisme des énoncés générés par des LLM simulant des utilisateurs, sur 4 datasets publics. Code open-source disponible.

Agents IAÉvaluationsBenchmarks
SIG
75
HYP
15
arXiv cs.AI·

AgroCoT: A Chain-of-Thought Benchmark for Evaluating Reasoning in Vision-Language Models for Agriculture

AgroCoT est un benchmark VQA de 4 759 échantillons avec raisonnement Chain-of-Thought pour évaluer les capacités de raisonnement des Vision-Language Models en agriculture. L'évaluation de 30 VLMs (propriétaires et open-source) révèle des lacunes significatives en zéro-shot, soulignant l'importance du CoT pour les applications de précision agricole.

VisionBenchmarksRaisonnement
SIG
75
HYP
25
Reddit r/MachineLearning·

Program misleading high school students into paying to perform academic misconduct in ML Research [D]

Un programme payant (Algoverse AI Research) commercialisé auprès de lycéens produit massivement des publications NeurIPS 2025 (289 acceptations revendiquées) contenant des erreurs évidentes : résultats dupliqués, abstracts contradictoires avec les résultats, citations générées par IA, données non relues. Kevin Zhu, affilié au programme, cumule 158 publications et 468 coauteurs sur OpenReview.

PapersÉvaluationsRégulation
SIG
75
HYP
45
Vercel AI Blog·

How General Intelligence used agents to build an agent platform on Vercel

General Intelligence construit Cofounder, une plateforme d'agents IA pour gérer une entreprise complète (engineering, marketing, finance, support). L'équipe de 8 personnes (5 ingénieurs) a migré vers Vercel pour obtenir un contrôle programmatique total : 4000+ branches preview, 70+ commits/ingénieur/jour, 90% du travail SRE automatisé via leurs propres agents.

Agents IAMulti-agentsInfrastructure
SIG
75
HYP
35