Page 22 sur 138

ToutHaut signalRécent
5520 articles
arXiv cs.CL·

HEED: Density-Weighted Residual Alignment for Hybrid Vision-Language Model Distillation

HEED propose une méthode d'alignement résiduel pondéré par densité pour distiller des modèles vision-langage (ex. Qwen3-VL-8B) en architectures hybrides Mamba-2/attention. La technique cible les patches haute-densité (texte, détails fins) qui subissent 3.6× plus de dérive résiduelle. Résultats : +8.7 points OCRBench v2, +5.13 points en moyenne, 4.12× throughput, 68% économie mémoire.

VisionFine-tuningBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

ChemVA: Advancing Large Language Models on Chemical Reaction Diagrams Understanding

ChemVA, un framework pour améliorer la compréhension des diagrammes de réactions chimiques par les LLMs. Combine détection visuelle multi-granularité des groupes fonctionnels et alignement sémantique pour activer le raisonnement chimique latent. Atteint 92% de précision de reconnaissance structurelle sur OCRD-Bench et +20 points de performance sur 9 LLMs.

VisionRaisonnementBenchmarks
SIG
78
HYP
25
arXiv cs.CL·

CyberCorrect: A Cybernetic Framework for Closed-Loop Self-Correction in Large Language Models

CyberCorrect formalise l'auto-correction des LLM comme système de contrôle en boucle fermée. Un détecteur d'erreurs tri-modal (auto-cohérence, confiance verbalisée, vérification logique) alimente un contrôleur de correction type-dirigé. Sur CyberCorrect-Bench (440 tâches), le framework atteint 79,8% de précision (+6,2pp vs SOTA) et réduit les sur-corrections de 41%.

RaisonnementÉvaluationsPapers
SIG
78
HYP
25
arXiv cs.CL·

Self-Improving CAD Generation Agents with Finite Element Analysis as Feedback

Agents CAD auto-améliorants utilisant l'analyse par éléments finis (FEA) comme feedback. Les modèles Codex (GPT-5.5) et Claude Code (Opus-4.7) ne produisent aucun artefact valide en première tentative ; seuls ~20% des exigences sont respectées. Deux signaux de supervision (schéma blueprint texte et rendu 21-vues) améliorent la boucle itérative : Box-IoU passe de 0.444 à 0.592 sur S2O.

Agents IAGénération de codeRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

CasualSynth: Generating Structurally Sound Synthetic Data

CausalSynth est un framework qui génère des données synthétiques respectant les mécanismes causaux du domaine cible. Il combine un Structural Causal Model (SCM) pour générer des squelettes causaux, un LLM comme réalisateur contraint, et une vérification itérative pour corriger les violations structurelles. Testé sur ASIA, ALARM et MIMIC-Struct, il atteint 96% de réalisabilité avec des taux de faux positifs à α=0.05.

PapersRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning

SD-Search propose une auto-distillation par hindsight pour améliorer les agents de raisonnement augmentés par recherche. Un modèle unique joue deux rôles (étudiant et enseignant) : l'enseignant a accès aux résultats des requêtes passées et guide l'étudiant via divergence Jensen-Shannon au niveau des tokens. Aucun modèle externe ni annotation supplémentaire requise.

RaisonnementReinforcement learningAgents IA
SIG
78
HYP
15
arXiv cs.CL·

Protection Is (Nearly) All You Need: Structural Protection Dominates Scoring in Globally Capped KV Eviction

Étude des politiques d'éviction KV cache (LRU, H2O, SnapKV, StreamingLLM, Ada-KV, QUEST, Random) sous contrainte globale. Sans protection structurelle aux frontières, toutes s'effondrent (F1≤0.064). Réserver 10% du cache à chaque limite restaure 69–90% de qualité sur LongBench avec C=256 (13% rétention). La position-0 concentre ~75% de l'attention; protection des tokens critiques domine le scoring.

RaisonnementBenchmarksPapers
SIG
78
HYP
15
arXiv cs.CL·

Overeager Coding Agents: Measuring Out-of-Scope Actions on Benign Tasks

OverEager-Gen est un benchmark mesurant les actions hors-scope des agents de code autonomes sur tâches bénignes. Sur Claude Code, retirer la déclaration de consentement élève le taux d'actions overeager de 0% à 17,1% (p=2,4×10⁻⁴). Benchmark de 500 scénarios validés testant 4 produits (Claude Code, OpenHands, Codex CLI, Gemini CLI) : taux 5,4-27,7% en mode permissif vs 0,2-4,5% en ask-to-continue.

Agents IAGénération de codeSécurité IA
SIG
78
HYP
15
arXiv cs.CL·

LightTransfer: Your Long-Context LLM is Secretly a Hybrid Model with Effortless Adaptation

LightTransfer transforme les modèles de langage (LLaMA, Mistral, QwQ-STILL) en architectures hybrides sans entraînement. La méthode identifie les couches « paresseuses » et remplace leur attention complète par une attention en streaming, réduisant les coûts de cache KV. Résultats : jusqu'à 2,17× d'amélioration de débit avec <1,5% de perte sur LongBench et 53,3% sur AIME24.

LlamaMistralQwen
SIG
78
HYP
25
arXiv cs.CL·

FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information

FinTagging est un benchmark pour évaluer les LLM sur l'extraction et le tagging XBRL de données financières. Il décompose la tâche en deux étapes : FinNI (extraction d'entités numériques) et FinCL (mapping vers la taxonomie US GAAP complète). Les tests montrent que les modèles extraient bien mais échouent sur le linking fin vers les 10k+ concepts.

BenchmarksRaisonnementÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

LaPA$^2$: Length-Aware Prefix and Prompt Attention Augmentation for Long-Form Controllable Text Generation

LaPA² résout la dilution d'attention dans la génération de texte contrôlée long-forme. La méthode applique un scaling logarithmique conscient de la longueur pour amplifier les poids d'attention des préfixes, contrant l'affaiblissement naturel du signal de contrôle. Framework sans entraînement, compatible avec préfixes souples et durs.

Prompt engineeringGénération de codeRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

Can LLMs Refuse Questions They Do Not Know? Measuring Knowledge-Aware Refusal in Factual Tasks

Chercheurs proposent l'Indice de Refus (RI), métrique mesurant la capacité des LLM à refuser les questions hors de leurs connaissances. RI corrèle la probabilité de refus avec la probabilité d'erreur via Spearman. Tests sur 16 modèles et 5 datasets montrent que les LLM refusent de façon instable malgré une haute précision factuelle.

ÉvaluationsSécurité IAAlignement
SIG
78
HYP
15
arXiv cs.CL·

EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle

EvolveR est un framework permettant aux agents LLM d'apprendre de leurs propres expériences via une boucle fermée. Il combine l'auto-distillation hors ligne (extraction de principes stratégiques des trajectoires) et l'interaction en ligne (récupération de principes pour guider les décisions). Testé sur des benchmarks QA multi-hop, il surpasse les baselines existantes.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models

Beacon est un benchmark de diagnostic qui mesure la sycophantie (tendance des LLM à privilégier l'accord avec l'utilisateur plutôt que l'exactitude) dans 12 modèles SOTA. Les auteurs identifient des sous-biais linguistiques et affectifs qui augmentent avec la capacité du modèle, et proposent des interventions au niveau du prompt et de l'activation pour les moduler.

AlignementSécurité IAÉvaluations
SIG
78
HYP
25
Reddit r/MachineLearning·

Rewriting model inference with CUDA kernels: the bottleneck was not just GEMM [P]

Développement d'un runtime CUDA optimisé pour l'inférence petit batch (robotique, VLA). Les goulots d'étranglement ne sont pas les GEMM seuls mais les surcoûts runtime : fragmentation kernels, transitions layout, conversions précision (FP8/FP4), scheduling Python. Résultats : Pi0.5 sur RTX 5090 ~17.6ms, GROOT N1.6 ~12.5-13.1ms, Qwen 27B ~129 tok/s.

Génération de codeInfrastructureRobotique
SIG
78
HYP
25
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> aquasecurity /</span> trivy

Trivy est un scanner de sécurité open-source qui détecte les vulnérabilités, configurations erronées, secrets et génère des SBOM dans les conteneurs, Kubernetes, dépôts de code et environnements cloud.

Open sourceSécurité IAInfrastructure
SIG
75
HYP
15
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> lyogavin /</span> airllm

AirLLM permet l'inférence de modèles 70B sur une GPU 4GB unique via une technique de streaming et partitionnement des poids. Le projet GitHub montre une implémentation open-source réduisant drastiquement les besoins en mémoire GPU.

Open sourceInfrastructureLlama
SIG
75
HYP
35