Page 28 sur 139

ToutHaut signalRécent
5531 articles
Reddit r/LocalLLaMA·

LLM planner - pick a rig for your use-case/model/budget, or pick models for your rig. 60+ builds, 50+ models, 130+ cited t/s sources, 150+ reviewer YouTube videos, idle+active watts, multi-region prices, regular updates.

LLM Planner est un guide interactif pour choisir du matériel ou des modèles open-weights. 60+ configurations, 50+ modèles, tokens/sec sourcés, consommation électrique, prix multi-régions, 150+ vidéos YouTube de reviewers. Modes bidirectionnels : « quel rig pour ce modèle/budget » ou « quels modèles sur mon GPU ». Données mises à jour hebdomadairement, repo GitHub public.

Open sourceOutilsBenchmarks
SIG
75
HYP
25
arXiv cs.LG·

LEAP: A closed-loop framework for perovskite precursor additive discovery

LEAP couple un LLM spécialisé en chimie des pérovskites avec l'apprentissage actif pour découvrir des additifs précurseurs optimisant les cellules solaires. Le modèle extrait des connaissances mécanistiques de la littérature et génère des descripteurs interprétables intégrés dans une optimisation bayésienne. Validation expérimentale : PCE de 20,13-20,87% vs 19,25% contrôle, champion 21,32%.

Agents IARaisonnementBenchmarks
SIG
75
HYP
25
arXiv cs.LG·

CP-MoE: Consistency-Preserving Mixture-of-Experts for Continual Learning

CP-MoE propose un framework de continual learning pour LLMs et VLMs utilisant une architecture Mixture-of-Experts. Un expert transient capture les mises à jour initiales spécifiques aux tâches et guide leur intégration dans des experts stables via un routing bias et une régularisation. Validé sur SuperNI et VQA v2, CP-MoE réduit l'oubli catastrophique tout en préservant le transfert de connaissances cross-task.

Papers
SIG
75
HYP
20
arXiv cs.LG·

Automated Kernel Discovery Towards Understanding High-dimensional Bayesian Optimization

Kernel Discovery, un framework évolutionnaire piloté par LLM, automatise la conception de noyaux Gaussiens pour l'optimisation bayésienne haute-dimensionnelle. La méthode génère des formes mathématiques nouvelles via LLM, les convertit en code validé, et utilise un critère LOO-CRPS pour éviter le surapprentissage. Sur 5 benchmarks, elle atteint un rang moyen de 1,2/17.

RaisonnementBenchmarksPapers
SIG
75
HYP
25
arXiv cs.CL·

MedicalBench: Evaluating Large Language Models Toward Improved Medical Concept Extraction

MedicalBench est un benchmark pour l'extraction de concepts médicaux implicites à partir de dossiers médicaux (MIMIC-IV). Il formule la tâche comme vérification de paires note-concept avec identification d'évidences au niveau phrase. Les LLM actuels obtiennent des performances modestes, révélant la difficulté du raisonnement médical implicite.

BenchmarksRaisonnementÉvaluations
SIG
75
HYP
15
Reddit r/LocalLLaMA·

Moved from prompt-based output validation to schema-enforced execution — the reliability numbers are significant

Comparaison systématique de deux approches pour générer des sorties structurées avec Claude : instructions textuelles + parsing post-génération (65-70% de succès) vs tool_use avec schémas typés et contraintes enum (90-95%+). La validation au niveau API élimine les erreurs de parsing et réduit drastiquement le débogage en aval.

ClaudePrompt engineeringOutils
SIG
75
HYP
15
Reddit r/LocalLLaMA·

HalBench: I built a custom sycophancy and hallucination benchmark and tested 4 frontier models (Sonnet 4.6, Grok 4.3, GPT 5.4 and Gemini 3.1 Pro), looking for input on what OSS models to run next!

HalBench : benchmark open-source mesurant la sycophantie et les hallucinations sur 3 200 prompts à fausses prémisses testés sur 4 modèles (Sonnet 4.6, Grok 4.3, GPT-5.4, Gemini 3.1 Pro). Sonnet 4.6 obtient 0.565/1, Grok 4.3 0.498, GPT-5.4 0.381, Gemini 3.1 Pro 0.339. Dataset, code et résultats publics.

BenchmarksÉvaluationsSécurité IA
SIG
75
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> microsoft /</span> azure-devops-mcp

Microsoft publie un serveur MCP pour Azure DevOps, permettant aux agents IA d'accéder directement aux fonctionnalités Azure DevOps.

MCPAgents IAOutils
SIG
75
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> vllm-project /</span> vllm

vLLM est un moteur d'inférence et de serving haute performance pour LLMs, optimisé pour le débit et l'efficacité mémoire.

InfrastructureOpen source
SIG
75
HYP
15
arXiv cs.CL·

OpenCompass: A Universal Evaluation Platform for Large Language Models

OpenCompass est une plateforme d'évaluation open-source pour LLM proposant une architecture modulaire avec 5 composants clés : système de configuration, partitionnement de tâches, exécution/ordonnancement, unité d'exécution et visualisation. Supporte évaluateurs rule-based, LLM-as-a-Judge et en cascade sur benchmarks multi-domaines (connaissance, raisonnement, code, science).

BenchmarksÉvaluationsOpen source
SIG
75
HYP
25
arXiv cs.LG·

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

PROWL introduit un curriculum adversarial avec contrainte KL pour améliorer la robustesse des world models vidéo. Une politique expose les trajectoires haute-erreur d'un modèle diffusion tandis qu'un buffer PAT (Prioritized Adversarial Trajectory) re-classe les données selon l'erreur de prédiction et le progrès d'apprentissage. Évaluation sur MineRL montre une robustesse accrue sur trajectoires OOD.

RaisonnementReinforcement learningPapers
SIG
75
HYP
15
arXiv cs.AI·

Not all uncertainty is alike: volatility, stochasticity, and exploration

Article théorique sur l'exploration adaptative en environnements incertains. Distingue volatilité (drift des récompenses) et stochasticité (bruit d'observation) : la première augmente l'exploration optimale, la seconde la réduit. Propose CAUSE, bonus d'exploration en forme fermée via control-as-inference, validé sur bandits gaussiens avec dynamiques latentes.

Reinforcement learningRaisonnementPapers
SIG
75
HYP
15
arXiv cs.LG·

Emergence of Frontier Superposition: M\"obius attractor and Cascade Supervision

Article théorique sur l'émergence de superposition dans les Transformers pour le raisonnement en profondeur. Identifie un attracteur de Möbius sous symétrie S_n et une supervision en cascade qui permettent à la descente de gradient de converger vers un état de superposition équipondéré sur graphes Erdős-Rényi. Prédictions analytiques validées expérimentalement (cosinus final 0.37 vs 0.69).

RaisonnementPapersReinforcement learning
SIG
75
HYP
15
arXiv cs.LG·

Symmetry in the Wild: The Role of Equivariance in Neural Fluid Surrogates

Les architectures équivariantes améliorent les surrogates neuraux pour la dynamique des fluides (CFD) lorsque les données manquent de régularités fortes, mais dégradent les performances sur des datasets fortement alignés. AB-GATr, un transformateur géométrique E(3)-équivariant, surpasse l'augmentation de données sur aérodynamique automobile et hémodynamique.

RaisonnementBenchmarksPapers
SIG
75
HYP
15
arXiv cs.CL·

Lost in Interpretation: The Plausibility-Faithfulness Trade-off in Cross-Lingual Explanations

Les explications en anglais pour auditer des LLM multilingues masquent un compromis : elles obtiennent un meilleur accord avec les rationales humaines mais perdent leur ancrage causal dans les prédictions du modèle. Sur 3 tâches et 5 langues, la compréhensibilité se dégrade jusqu'à 5,7x en pivot anglais, même avec une précision stable. Les auteurs recommandent d'auditer dans la langue d'entrée.

Évaluations
SIG
75
HYP
15