Page 24 sur 139

ToutHaut signalRécent
5523 articles
arXiv cs.AI·

LinTree: Improving LLM Reasoning with Explicitly Structured Search Histories

LinTree améliore le raisonnement des LLM en représentant explicitement la structure arborescente des traces de recherche. Les chercheurs montrent que l'accès brut à l'historique de recherche ne suffit pas à surpasser la recherche heuristique guidée par LLM. Ajouter des pointeurs parents pour expliciter la structure arborescente améliore les performances sur Blocks World, Navigation et Sokoban.

RaisonnementPapers
SIG
75
HYP
15
arXiv cs.AI·

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

Étude sur l'auto-évolution des harnesses (prompts, skills, mémoires, outils) dans les agents LLM. Analyse deux capacités : harness-updating (produire des mises à jour utiles) et harness-benefit (en bénéficier). Résultats : harness-updating est indépendant de la capacité de base (Qwen3.5-9B rivalise avec Claude Opus), tandis que harness-benefit suit une courbe non-monotone (modèles mid-tier bénéficient le plus).

Agents IAPrompt engineeringBenchmarks
SIG
75
HYP
15
arXiv cs.CL·

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Étude de la dominance narrative globale dans les LLM via CulturalNB, dataset de 717 instances culturelles bengali avec paires questions-réponses parallèles anglais-bangla. Évaluation de 9 LLM montre que les questions en anglais augmentent la substitution globale et réduisent la couverture des perspectives locales, même avec des preuves locales.

BenchmarksAlignementSécurité IA
SIG
75
HYP
15
arXiv cs.CL·

Can LLM Teams Play What? Where? When?

Étude sur les équipes d'LLM jouant à ChGK (quiz de raisonnement collectif). Trois stratégies testées : Vote, Silent Team (capitaine observe réponses), Talkative Team (capitaine observe réponses + justifications). Sur 572 questions 2025, les équipes surpassent les modèles seuls (+20 points). Meilleure équipe : 44,23% accuracy, approchant la performance humaine. La communication des justifications réduit les erreurs.

Multi-agentsRaisonnementBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

UniScale: Adaptive Unified Inference Scaling via Online Joint Optimization of Model Routing and Test-Time Scaling

UniScale unifie le routage de modèles et le test-time scaling (TTS) dans un espace d'optimisation unique pour équilibrer qualité et coût computationnel des LLM. Le framework utilise LinUCB et la théorie des bandits contextuels pour apprendre des politiques d'inférence adaptatives en ligne, avec modélisation des coûts et apprentissage conscient de l'efficacité.

RaisonnementMulti-agents
SIG
75
HYP
25
arXiv cs.CL·

Neuron-Level Interventions for Gendered and Gender-Neutral Generation in Language Models

Étude des neurones liés au genre dans les modèles de langage (féminin, masculin, neutre). Les auteurs proposent une méthode d'intervention au niveau neuronal pour identifier et contrôler la génération de formes genrées. Expériences sur deux LMs open-source montrent que les neurones genrés se concentrent dans les premières couches. Code et datasets publiés.

PapersAlignementSécurité IA
SIG
75
HYP
15
arXiv cs.AI·

FAM-Bench: A Multimodal Benchmark for Condition-Aware Food-as-Medicine Reasoning

FAM-Bench est un benchmark multimodal de 2500 instances vérifiées par des experts en nutrition, évaluant le raisonnement « Food-as-Medicine » sur 13 conditions de santé. Deux tâches : évaluer l'adéquation d'un plat pour une condition (image + ingrédients) et classer 4 plats par pertinence clinique. Teste l'intégration de contraintes nutritionnelles, indices visuels et preuves d'ingrédients.

BenchmarksVisionRaisonnement
SIG
75
HYP
15
arXiv cs.LG·

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

NumLeak mesure la mémorisation de benchmarks publics dans les LLM frontier. Les modèles rappellent les données Fama-French (r=0.97-0.99), chômage US et température NOAA avec haute fidélité. Sur données récentes non vues, le taux de parsing chute à 21-57% mais r reste ~0.99 pour les mois répondus. Une défense prompt-système bloque 99.8% des attaques.

BenchmarksÉvaluationsSécurité IA
SIG
75
HYP
25
arXiv cs.LG·

DisjunctiveNet: Neural Symbolic Learning via Differentiable Convexified Optimization Layers

DisjunctiveNet propose une méthode neuro-symbolique pour intégrer des contraintes logiques et linéaires mixtes directement dans les réseaux de neurones via des couches d'optimisation différentiables. Utilisant des relaxations convexes hiérarchiques, le framework garantit la satisfaction exacte des règles tout en maintenant la performance prédictive sur des données réelles.

RaisonnementPapers
SIG
75
HYP
15
arXiv cs.LG·

Revisiting Padded Transformer Expressivity: Which Architectural Choices Matter and Which Don't

Étude théorique sur l'expressivité des transformers avec padding. Les auteurs prouvent que les transformers avec padding polynomial et précision constante équivalent à AC⁰ uniforme, tandis que ceux avec précision croissante atteignent TC⁰. La profondeur et la précision numérique sont les facteurs clés ; la largeur n'augmente pas l'expressivité au-delà du logarithmique.

RaisonnementPapersBenchmarks
SIG
75
HYP
15
arXiv cs.LG·

Supervised Training Rapidly Degrades Early Visual Cortex Alignment Across Biologically Plausible Learning Rules

Des réseaux de neurones non entraînés correspondent mieux au cortex visuel précoce que des réseaux entraînés. Une étude sur 720 images (THINGS) et données fMRI de 3 sujets montre qu'une époque de training réduit l'alignement V1 de 25-90% selon la règle d'apprentissage. La rétropropagation dégrade le plus (Δr = -0.080), tandis que le codage prédictif et STDP préservent mieux l'alignement (Δr ~ -0.04).

PapersRaisonnementAlignement
SIG
75
HYP
15
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Comfy-Org /</span> ComfyUI

ComfyUI est une interface graphique modulaire pour les modèles de diffusion, offrant une API et un backend basés sur un système de nœuds et graphes pour la génération d'images.

Génération d'imagesOpen sourceOutils
SIG
75
HYP
25
Reddit r/LocalLLaMA·

PolyRange: Contamination-resistant offensive-AI benchmark for web targets (that ain't a benchmark, THAT's a benchmark)

PolyRange est un benchmark de cybersécurité IA générant dynamiquement des cibles web fraîches pour chaque évaluation, éliminant la contamination de corpus d'entraînement. L'auteur adresse le consensus des labs (Anthropic, OpenAI, DeepMind) : les benchmarks statiques sont saturés et les défenses réelles manquent. MIT-licensed, indépendant du projet commercial de l'auteur.

BenchmarksSécurité IAÉvaluations
SIG
75
HYP
25
Reddit r/LocalLLaMA·

mudler/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-MTP-GGUF just released !

Mudler publie des quantifications APEX GGUF du modèle Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled avec tête MTP (multi-token prediction) intégrée. Les fichiers activent le décodage spéculatif auto-contenu via llama.cpp sans modèle brouillon séparé. Taille +2,5% vs version non-MTP, tête MTP quantifiée Q8_0 pour précision de draft élevée.

QwenGénération de codeOpen source
SIG
75
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> anthropics /</span> claude-code

Claude Code est un outil de codage agentique en ligne de commande qui comprend votre base de code et exécute des tâches routinières, explique du code complexe et gère les workflows Git via des commandes en langage naturel.

ClaudeClaude CodeAgents IA
SIG
75
HYP
35