Page 11 sur 137

ToutHaut signalRécent
5471 articles
arXiv cs.AI·

MobileExplorer: Accelerating On-Device Inference for Mobile GUI Agents via Online Exploration

MobileExplorer accélère l'inférence sur appareil pour les agents GUI mobiles via exploration en ligne. Le framework exploite le temps de raisonnement des VLM pour explorer parallèlement les éléments UI, enregistrant les traces comme mémoire structurée. Avec un mécanisme de rollback deux niveaux, il réduit les étapes de raisonnement et la latence de 23% sur AndroidWorld.

Agents IAVisionRaisonnement
SIG
78
HYP
25
arXiv cs.AI·

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

OmniToM est un benchmark évaluant la théorie de l'esprit dans les LLM via la modélisation explicite des croyances. Construit sur 895 histoires (22 343 propositions de croyances annotées), il teste l'extraction et l'étiquetage des états mentaux selon 7 dimensions. Les résultats montrent que les LLM actuels peinent à transformer les faits narratifs en croyances d'acteurs.

BenchmarksRaisonnementÉvaluations
SIG
78
HYP
15
Reddit r/LocalLLaMA·

SkillOpt treats markdown skill files as trainable parameters with proper optimization machinery

SkillOpt formalise l'optimisation de fichiers markdown comme paramètres entraînables via éditions bornées (ajout/suppression/remplacement) proposées par un modèle frontier et validées sur un ensemble de test. Les meilleures compétences convergent avec 1-4 éditions acceptées sur ~920 tokens. Une compétence optimisée sur Codex transfère à Claude Code (+59.7 SpreadsheetBench) sans modification.

Agents IAPrompt engineeringGénération de code
SIG
78
HYP
25
arXiv cs.LG·

Interdomain Attention: Beyond Token-Level Key-Value Memory

Interdomain Attention fusionne transformers et state space models via méthodes kernel : les features d'attention sont projetées sur des fonctions de base maintenues par un SSM, permettant une attention query-conditionnée sur état fixe. Sur FineWeb-Edu (125M-1.3B), surpasse les baselines softmax à 1.3B en perplexité et commonsense, avec comportement length-flat jusqu'à 3.5x le contexte d'entraînement.

RaisonnementBenchmarksPapers
SIG
78
HYP
15
arXiv cs.LG·

Iterative Refinement Neural Operators are Learned Fixed-Point Solvers: A Principled Approach to Spectral Bias Mitigation

IRNO (Iterative Refinement Neural Operator) améliore les opérateurs neuronaux en ajoutant un module d'affinement itératif basé sur la théorie des points fixes. Une perte spectrale progressive cible explicitement les erreurs haute fréquence. Résultats : 56% d'amélioration sur flux turbulent, réduction d'erreur de 1.48-2.04% en haute fréquence sur Active Matter.

PapersBenchmarksRaisonnement
SIG
78
HYP
15
arXiv cs.CL·

WhenLoss: Diagnosing Write and Retrieval Bottlenecks in Long-Context Memory Systems

WhenLoss propose un protocole diagnostic pour identifier les goulots d'étranglement dans les systèmes de mémoire long-contexte. Expected Predictive Compression (EPC) utilise un LLM pour anticiper les questions futures et préserver les preuves minimales lors de l'écriture. Sur LongMemEval (500 questions), EPC atteint 0.49 en score CSM vs 0.44 pour le meilleur baseline, réduisant l'écart d'écriture à 0.04.

RAGRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Temporal Concept Drift in Legal Judgment Prediction: Neural Baselines Across Three Epochs of Ukrainian Court Decisions

Étude de la dérive temporelle en NLP juridique sur 428K décisions de cours ukrainiennes (2008-2026). Quatre modèles transformers (XLM-RoBERTa, variantes légales) montrent une dégradation sévère en transfert forward (−27,2 pp macro-F1) mais robustesse en backward transfer. L'apprentissage continu chronologique élimine l'oubli catastrophique.

BenchmarksFine-tuningPapers
SIG
78
HYP
15
arXiv cs.CL·

Side-by-side Comparison Amplifies Dialect Bias in Language Models

Étude arXiv montrant que les modèles de langage amplifient les biais dialectaux (AAVE vs anglais standard) lors de comparaisons côte à côte de tweets, bien plus qu'en évaluation isolée. Le fine-tuning par équité contrefactuelle réduit partiellement le biais en isolation mais échoue en contexte contrastif, révélant une faille majeure des évaluations actuelles.

BenchmarksSécurité IAAlignement
SIG
78
HYP
25
arXiv cs.CL·

Document Classification Pattern Recognition via Information Fusion: A Systematic Review of Multimodal and Multiview Representation Approaches

Revue systématique de 139 études sur la fusion d'informations pour la classification de documents. Méta-analyse révélant que la fusion multimodale améliore la précision de +5,28 points (p=0,0016) et la fusion multivue de +4,67% en précision. Critique majeure : seulement 11,8% des études multimodales et 23,3% des études multivue utilisent des tests statistiques, compromettant la reproductibilité.

BenchmarksÉvaluationsPapers
SIG
78
HYP
15
arXiv cs.LG·

Fourier Feature Pyramids for Physics-Informed Neural Networks

Beignet, une nouvelle architecture de réseau de neurones pour résoudre les équations aux dérivées partielles (EDP), remplace les embeddings Fourier aléatoires des PINNs par une pyramide Fourier multi-résolution entraînable. Le modèle calcule efficacement les dérivées spatiales via FFT et atteint une précision supérieure avec moins de paramètres que les méthodes PINN existantes.

PapersBenchmarksRaisonnement
SIG
78
HYP
15
arXiv cs.LG·

LLMs Show No Signs Of Individuated Metacognition

Analyse de 20 LLMs frontier sur 6 benchmarks : la confiance exprimée par les modèles ne reflète pas leurs capacités individuelles. Décomposition par analyse factorielle tétrachorique révèle une matrice de confiance de rang quasi-un. Les modèles partagent un axe de difficulté commune et diffèrent surtout par leurs seuils de décision. Aucune preuve de métacognition individuée verbalisée significative.

ÉvaluationsBenchmarksRaisonnement
SIG
78
HYP
15
arXiv cs.LG·

PromptAudit: Auditing Prompt Sensitivity in LLM-Based Vulnerability Detection

PromptAudit évalue l'impact des stratégies de prompting sur la détection de vulnérabilités par LLM. Sur 5 modèles open-weight et 1 000 CVE (6 074 samples), le chain-of-thought standard surpasse les autres approches, tandis que few-shot aide certains modèles. L'adaptive chain-of-thought réduit le recall, self-consistency crée trop d'abstention.

Prompt engineeringÉvaluationsSécurité IA
SIG
78
HYP
15
arXiv cs.LG·

Feature Lottery? A Bifurcation Theory of Concept Emergence

Théorie de bifurcation pour détecter en temps réel l'émergence de représentations structurées dans les réseaux de neurones. Un ratio dynamique β(t)/βc(t) basé sur la Hessienne de la perte prédit quatre régimes de transition distincts (SAE sur Pythia, SSL CIFAR, grokking arithmétique). À 5% de l'entraînement, la pureté précoce des atomes prédit la convergence finale avec 12x le baseline.

PapersRaisonnementFine-tuning
SIG
78
HYP
15
arXiv cs.LG·

A Large-Scale Dataset and Benchmark: Do Protein-Ligand Models Learn Binding Sites or Just Binding Likelihood?

InteractBind, un dataset de ~100k paires protéine-ligand avec benchmark, évalue si les modèles localisent les sites de liaison ou prédisent simplement la probabilité de liaison. Huit modèles testés montrent une prédiction binaire forte mais une localisation faible des sites, révélant des lacunes dans l'interprétabilité physique.

BenchmarksPapersÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

LGMT: Logic-Grounded Metamorphic Testing for Evaluating the Reasoning Reliability of LLMs

LGMT est un framework d'évaluation sans oracle basé sur la logique du premier ordre pour tester la fiabilité du raisonnement des LLMs. En dérivant des relations métamorphiques d'équivalences logiques formelles, il crée des cas de test sémantiquement invariants. Expériences sur 6 LLMs SOTA révèlent des défauts cachés non détectés par les benchmarks statiques traditionnels.

RaisonnementÉvaluationsBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

Methods for Formal Verification of Agent Skills: Three Layers Toward a Mechanically Checkable Capability-Containment Proof

Article de vérification formelle pour les compétences d'agents IA. Propose trois méthodes composables : analyse statique par interprétation abstraite, système de types raffinés pour les appels d'outils, et model-checking SMT borné. Implémentation open-source en JavaScript (framework enclawed) avec 53 tests unitaires.

Agents IASécurité IARaisonnement
SIG
78
HYP
15
arXiv cs.AI·

Accelerating Long-Tail Generation in Synchronous RLHF Training via Adaptive Tensor Parallelism

PAT, une méthode de parallélisme tensoriel adaptatif, optimise l'étape de génération en RLHF synchrone. Elle reconfigure dynamiquement la parallélisation pendant le décodage pour compenser le déséquilibre de longueur de réponses. Implémentée sur SGLang/VeRL, PAT réduit la latence de génération jusqu'à 34,6% sur LLaMA3.1-8B et Qwen3-14B.

Reinforcement learningInfrastructureBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

Spectral Probe-Circuits: A Three-Step Recipe for Identifying Attention-Head Circuits in Pretrained Transformers

Méthode pour identifier les circuits d'attention-heads dans les transformers pré-entraînés via un signal spectral (participation ratio intégré temporellement), un filtrage par motifs de tâche, et une ablation de groupe. Validée sur 51M à 7B paramètres, deux architectures, quatre pipelines. Découverte : circuit d'induction de 2-6 heads causalement nécessaire dans tous les modèles (94-100% de drop après ablation).

PapersRaisonnementÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

When Correct Beliefs Collapse: Epistemic Resilience of LLMs under Clinical Pressure

Étude arXiv montrant que les LLMs abandonnent des diagnostics corrects sous pression en dialogue clinique multi-tour, malgré une bonne performance aux benchmarks médicaux. Les auteurs proposent Med-Stress (test de stabilité des croyances), RBED (défense inférence) et R-FT (fine-tuning de résilience) pour améliorer la robustesse sur 9 modèles frontière.

Sécurité IAAlignementÉvaluations
SIG
78
HYP
25
arXiv cs.CL·

SEAL: Synergistic Co-Evolution of Agents and Learning Environments

SEAL est un framework de co-évolution fermée pour agents LLM utilisant des outils. Il collecte des trajectoires vérifiables, diagnostique les échecs au niveau des tours, et utilise ces signaux pour adapter simultanément l'environnement d'apprentissage et la politique de l'agent. Avec 400 exemples, SEAL gagne +8.25 à +26.25 points sur trois backbones et transfère bien hors-distribution.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Des chercheurs appliquent Direct Preference Optimization (DPO) pour améliorer la transcription code-switching anglais-mandarin dans les Audio LLMs. Trois modes d'échec identifiés : omission de langue, traduction au lieu de transcription, hallucination. Entraînement sur 100K paires (570 heures) réduit le MER jusqu'à 89,6% (in-distribution) et 20,0% (out-of-distribution).

Reinforcement learningAlignementVoix
SIG
78
HYP
15
arXiv cs.CL·

AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue

AERIC est un moniteur de sécurité léger (387 paramètres) qui détecte les dialogues nuisibles implicites en analysant les états cachés pendant le décodage, sans passe forward supplémentaire. Sur DiaSafety et Harmful Advice, il améliore l'AUROC de 0.683→0.714 et 0.822→0.858. Le déploiement ajoute seulement 2.34% de latence contre 79.40% pour Qwen3Guard-Stream-4B.

Sécurité IAAlignementRaisonnement
SIG
78
HYP
15
Reddit r/MachineLearning·

DCGAN inference on a microcontroller: 12.6M parameters, 512KB SRAM, 26-second generation, pure C [P]

DCGAN 12.6M paramètres exécuté sur microcontrôleur RISC-V CH32H417 (512KB SRAM). Génération 64×64 visages de chats en 26 secondes, moteur C pur avec quantization int8. Poids streamés depuis carte SD via double buffering. Vecteur z seeded par 200 bytes de données quantiques (ANU QRNG). Aucun framework existant (TFLite, CMSIS NN) — implémentation from scratch.

Génération de codeBenchmarksOpen source
SIG
78
HYP
25
Reddit r/LocalLLaMA·

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

RTPurbo transforme les LLMs full-attention en modèles sparse en quelques centaines d'étapes d'entraînement. La méthode exploite trois observations : seuls certains heads nécessitent l'attention complète, la récupération long-range utilise un sous-espace 16D, et la sélection de tokens est query-dépendante. Résultats : 9.36x speedup prefill à 1M contexte, 2.01x speedup decode, précision préservée.

RaisonnementBenchmarksInfrastructure
SIG
78
HYP
25
Reddit r/LocalLLaMA·

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable)

Numind publie NuExtract3, un VLM open-weight de 4B paramètres basé sur Qwen3.5-4B (licence Apache-2.0). Le modèle extrait des données structurées et convertit documents/images en Markdown. Entraîné 3 jours sur 8xH100, il supporte PDFs, formulaires, tableaux avec quantifications multiples (GPTQ, W8A8, FP8, Q4, Q6) pour auto-hébergement à partir de 4GB VRAM.

QwenVisionOpen source
SIG
78
HYP
25