Page 29 sur 139

ToutHaut signalRécent
5534 articles
arXiv cs.LG·

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

PROWL introduit un curriculum adversarial avec contrainte KL pour améliorer la robustesse des world models vidéo. Une politique expose les trajectoires haute-erreur d'un modèle diffusion tandis qu'un buffer PAT (Prioritized Adversarial Trajectory) re-classe les données selon l'erreur de prédiction et le progrès d'apprentissage. Évaluation sur MineRL montre une robustesse accrue sur trajectoires OOD.

RaisonnementReinforcement learningPapers
SIG
75
HYP
15
Reddit r/LocalLLaMA·

An overview of modern LLM compiler stack: writing an interactive and hackable compiler

Un développeur a construit un compilateur ML minimaliste en Python/CUDA pur, sans dépendances externes. Il abaisse des transformers (TinyLlama, Qwen2.5-7B) via 6 IRs successifs jusqu'à des kernels CUDA. Sur RTX 5090, performance à 0.96× du stack PyTorch production, avec 32/84 formes de kernel surpassant les optimisations manuelles (jusqu'à 5.6× plus rapide).

Génération de codeInfrastructureOpen source
SIG
75
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> NVlabs /</span> Sana

NVIDIA Labs publie Sana, un modèle de diffusion transformer linéaire pour la synthèse d'images haute résolution. Architecture efficace réduisant la complexité computationnelle tout en maintenant la qualité visuelle.

Génération d'imagesOpen sourcePapers
SIG
75
HYP
25
arXiv cs.AI·

ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

ESI-Bench est un benchmark pour l'intelligence spatiale incarnée couvrant 10 catégories de tâches sur OmniGibson. Les agents doivent combiner perception, locomotion et manipulation pour accumuler activement des preuves. Les expériences montrent que l'exploration active surpasse les approches passives, mais les défaillances proviennent surtout de mauvais choix d'action plutôt que de perception faible.

VisionRobotiqueBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding

SWIM aligne les représentations vision-langage pour la compréhension fine d'objets vidéo via prompts textuels seuls. Utilise la supervision de masques en entraînement pour guider l'attention cross-modale. Construit NL-Refer, dataset enrichi avec expressions référentes précises. Surpasse les méthodes basées prompts visuels sur les benchmarks.

VisionRAGEmbeddings
SIG
75
HYP
25
arXiv cs.AI·

CheckSupport: A Local LLM-Powered Tool for Automated Manuscript Submission Checklist Selection and Completion

CheckSupport est un système open-source utilisant des LLM locaux pour automatiser la sélection et la complétion de checklists de reporting scientifique. Évalué sur des manuscrits peer-reviewed, il atteint 90% de précision pour les recommandations et 88% pour la complétion d'items, en 12,5 secondes par manuscrit sur CPU.

LlamaPrompt engineeringÉvaluations
SIG
75
HYP
15
arXiv cs.AI·

MoleCode unlocks structural intelligence in large language models

MoleCode est un langage moléculaire natif pour LLM qui représente les molécules comme des graphes explicites avec entités typées et relations directes, au lieu de chaînes SMILES implicites. Sans entraînement, il améliore les performances sur le raisonnement moléculaire, l'édition et la génération, particulièrement pour structures complexes et opérations topologiquement sensibles.

RaisonnementGénération de codePapers
SIG
75
HYP
25
arXiv cs.AI·

CrossView Suite: Harnessing Cross-view Spatial Intelligence of MLLMs with Dataset, Model and Benchmark

CrossView Suite introduit CrossViewSet (1.6M échantillons multi-vues), CrossViewBench (benchmark d'évaluation) et CrossViewer (framework trois étapes : Perception → Alignment → Reasoning) pour améliorer le raisonnement spatial multi-vues des MLLMs. Un moteur multi-agent génère des données annotées couvrant 17 types de tâches fine-grained.

VisionBenchmarksPapers
SIG
75
HYP
25
arXiv cs.AI·

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities

UniversalRAG est un framework RAG multi-modal qui récupère et intègre des connaissances de sources hétérogènes (texte, images, vidéos) à granularités variables. Il introduit le routage conscient de la modalité pour éviter le biais intra-modal et organise chaque modalité en niveaux de granularité. Validé sur 10 benchmarks, il surpasse les baselines mono-modales et unifiées.

RAGVisionGénération de vidéos
SIG
75
HYP
25
arXiv cs.CL·

Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models

Guided Topology Diffusion (GTD) utilise des modèles de diffusion de graphes pour générer dynamiquement les topologies de communication optimales dans les systèmes multi-agents LLM. Le framework itératif, guidé par un modèle proxy prédisant récompenses multi-objectifs (précision, utilité, coût), adapte les topologies aux tâches sans optimisation par gradient, surpassant les approches statiques.

Multi-agentsAgents IABenchmarks
SIG
75
HYP
25
arXiv cs.LG·

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Étude d'attaques adversariales par suppression d'actions en apprentissage par renforcement auto-jeu. Un attaquant masque sélectivement les actions légales de la victime. Expériences sur poker (6 à 5 531 états) et deux domaines non-poker : le masquage appris cause plus de dégâts que le masquage aléatoire, persiste sur Q-learning/PPO/NFSP/DQN, transfère entre agents et s'amplifie en auto-jeu.

Reinforcement learningSécurité IABenchmarks
SIG
75
HYP
15
arXiv cs.CL·

Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models

TABOM, une méthode de post-entraînement pour modèles de diffusion linguistiques, aligne l'optimisation sur la trajectoire de décodage multi-étapes facile-vers-difficile observée en inférence. Via une modélisation Boltzmann des préférences de démasquage, elle dérive un objectif de ranking par paires qui réduit le décalage entraînement-inférence et améliore les performances en nouveaux domaines.

Fine-tuningRaisonnementPapers
SIG
75
HYP
15
arXiv cs.AI·

The threat of analytic flexibility in using large language models to simulate human data

Étude arXiv montrant que les choix analytiques (sélection de modèle, paramètres, format de prompt, données démographiques) affectent significativement la fidélité des « silicon samples » (données synthétiques générées par LLM). Sur 252 configurations testées, les corrélations avec les données humaines varient de r=.23 à r=.84, révélant un risque majeur de flexibilité analytique.

LlamaÉvaluationsSécurité IA
SIG
75
HYP
25
arXiv cs.CL·

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Les chercheurs proposent IBPO (Implicit Behavior Policy Optimization), une méthode de credit assignment pour l'apprentissage par renforcement avec LLM. En comparant plusieurs trajectoires de raisonnement, le framework transforme les récompenses terminales éparses en signaux d'apprentissage sensibles aux étapes, réduisant la variance des gradients et améliorant la stabilité sur les benchmarks mathématiques et de code.

Reinforcement learningRaisonnementGénération de code
SIG
75
HYP
25
arXiv cs.AI·

ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

ECHO est un modèle de diffusion pour la génération de rapports de radiographie thoracique. Il utilise une distillation conditionnelle directe et un entraînement asymétrique pour générer des rapports en une seule étape par bloc, réduisant la latence d'inférence de 8× tout en améliorant RaTE (+64,33%) et SemScore (+60,58%) par rapport aux méthodes autorégressives.

VisionGénération de codeBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

The Illusion of Specialization: Unveiling the Domain-Invariant "Standing Committee" in Mixture-of-Experts Models

Une étude arXiv révèle que les modèles Mixture of Experts ne spécialisent pas réellement les experts par domaine comme supposé. Le framework COMMITTEEAUDIT identifie un « Standing Committee » — un groupe compact d'experts qui capture la majorité du routage indépendamment du domaine. Les experts périphériques gèrent seuls la connaissance spécifique au domaine.

BenchmarksPapers
SIG
75
HYP
15
arXiv cs.AI·

Herding CATs: ALARA for Agent Harness Engineering in Portable Composable Multi-Agent Teams

Papier présentant CAT (Context-Agent-Tool), une couche de données pour gérer les équipes multi-agents. Applique le principe ALARA (exposition minimale raisonnable) au contexte. Évalue 22 modèles (0.6B–35B paramètres) sur 115 tâches pratiques via npcsh, un shell CLI. ~2500 exécutions testent opérations fichiers, recherche web, scripting multi-étapes, chaînage d'outils et délégation inter-agents.

Multi-agentsAgents IAOutils
SIG
75
HYP
15
arXiv cs.AI·

Identifying Latent Actions and Dynamics from Offline Data via Demonstrator Diversity

Article théorique sur la récupération d'actions latentes et de dynamiques d'environnement à partir de trajectoires hors ligne sans observations d'actions. Les auteurs exploitent la diversité des démonstrateurs (chacun suivant une politique distincte) pour identifier les noyaux de transition latents via factorisation matricielle non-négative. Identifiabilité prouvée sous conditions de rang et diversité de politique.

Reinforcement learningPapers
SIG
75
HYP
15
arXiv cs.AI·

CounterRefine: Answer-Conditioned Counterevidence Retrieval for Inference-Time Knowledge Repair in Factual Question Answering

CounterRefine est une couche de réparation légère pour RAG qui traite la première réponse comme une hypothèse à tester. Le système émet des requêtes d'expansion conditionnées par la réponse pour récupérer des preuves spécifiques, puis applique une étape de raffinement KEEP/REVISE validée déterministiquement. Sur SimpleQA, il améliore un baseline RAG de 5,8 points de taux correct.

RAGRaisonnementÉvaluations
SIG
75
HYP
15
arXiv cs.AI·

Spherical VAE with Cluster-Aware Feasible Regions: Guaranteed Prevention of Posterior Collapse

Nouvelle méthode VAE utilisant la géométrie sphérique et des contraintes cluster-aware pour éliminer mathématiquement l'effondrement postérieur. Transforme les données en coque sphérique, applique K-means, définit une région faisable entre variance intra-cluster et perte d'effondrement. Garantit 100% de prévention d'effondrement sans surcharge computationnelle ni restrictions sur le décodeur.

PapersÉvaluations
SIG
75
HYP
25