Page 59 sur 147

ToutHaut signalRécent
5853 articles
arXiv cs.AI·

Operationalizing Reconstructive Authority: Runtime Construction, Dependency Resolution, and Execution Gating in Autonomous Agent Systems

Papier sur l'application en temps réel de l'Autorité Reconstructive (RAM) dans les systèmes d'agents autonomes. Introduit un modèle d'exécution avec trois états (admit/deny/halt), résolution dynamique des dépendances, et une Recovery Loop intégrant détection de dérive et contrôle d'exécution. Garantit qu'aucune action n'est exécutée sans autorité constructible.

Agents IASécurité IARaisonnement
SIG
72
HYP
15
arXiv cs.LG·

Federated Learning over Human-Body Communication for On-Body Edge Intelligence: A Survey, Taxonomy, and BODYFED-HBC Scheduling Vignette

Article de synthèse sur l'intersection entre la communication intra-corporelle (HBC) et l'apprentissage fédéré pour les réseaux de capteurs portables. Propose une taxonomie des déploiements FL (intra-corps, corps-hub, multi-utilisateur, cloud clinique) et introduit BODYFED-HBC, une architecture de référence avec algorithme de planification et simulation reproductible basée sur des données publiques.

Benchmarks
SIG
72
HYP
15
arXiv cs.AI·

Low-Cost Labels, Reliable Choices: Rollout-Calibrated Hyper-Heuristics for Job Shop Scheduling

Hyper-heuristiques assistées par apprentissage pour le Job Shop Scheduling (JSSP). Le sélecteur proposé utilise des labels normalisés par regret, une estimation d'incertitude KNN contextuelle et une porte qui n'agit que si le gain prédit dépasse une marge ajustée. Réduit RPD moyen de Random-HH d'un ordre de magnitude sur instances synthétiques.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Beyond Predefined Learning Objects: A Thinking-Learning Interaction Model for Up-to-Date Autonomous Robot Learning

Modèle d'interaction pensée-apprentissage pour robots autonomes en environnements changeants. La pensée guide l'apprentissage (identification de changements, sélection d'évidences, planification), l'apprentissage améliore la pensée (mise à jour des connaissances, stratégies d'action). Résultats : précision de reconnaissance 0.419→0.845, longueur d'action 13.0→4.0, taux de sélection d'évidences 0.272→0.965.

RobotiqueReinforcement learningRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

Neuro-Inspired Inverse Learning for Planning and Control

Framework neuro-inspiré pour la planification et le contrôle embodié. L'Inverter utilise l'Inverse Learning (IL) pour générer des séquences d'actions multi-étapes. Améliore les baselines offline-RL et diffusion-planner sur D4RL (+24.2% en moyenne) avec 100-1000x moins de calcul à l'inférence. Application : synthèse de portes quantiques avec fidélité GRAPE en 1000x plus rapide.

RaisonnementReinforcement learningRobotique
SIG
72
HYP
18
arXiv cs.LG·

Towards Verifiable Transformers: Solver-Checkable Circuit Explanations

Framework Verifiable Transformers convertissant circuits Transformer en propriétés vérifiables par solveur SMT. Extraction de circuits task-localisés et vérification formelle d'équivalence fonctionnelle, nécessité des arêtes, invariance et robustesse. Démonstration sur tâches symboliques et GPT-2 scale avec architecture SMT-représentable (Signed L1 BandNorm, sparsemax, LeakyReLU).

RaisonnementSécurité IAPapers
SIG
72
HYP
18
arXiv cs.LG·

Cascade-KDE: Robust Time-Series Restoration under Out-of-Distribution Impulse Corruptions

Cascade-KDE est une méthode sans apprentissage pour restaurer les séries temporelles corrompues par du bruit gaussien et des pics aberrants. Elle estime une densité spatio-temporelle, applique une troncature robuste pour limiter l'influence des anomalies, puis affine via cascade exponentielle. Testée sur ECG et dégradation batterie, elle préserve les pics de dérivée mieux que les filtres classiques.

BenchmarksÉvaluations
SIG
72
HYP
15
arXiv cs.LG·

Overcoming "Physics Shock" in Earth Observation A Heteroscedastic Uncertainty Framework for PINN-based Flood Inference

Un cadre PINN avec incertitude hétéroscédastique pour la cartographie des inondations à partir de données SAR. Le modèle Attention-Gated FNO-UNet intègre un protocole Warm-Start et modélise l'incertitude aléatoire pour éviter la divergence de gradient (« Physics Shock »). Sur Sen1Floods11 : +25% IoU vs baselines déterministes, avec bornes de confiance calibrées.

PapersRaisonnementÉvaluations
SIG
72
HYP
18
arXiv cs.LG·

Riemannian Archetypal Analysis: Interpretable non-linear data analysis on deformed star distributions

Nouvelle approche d'analyse archétypale sur variétés riemanniennes avec géométrie pullback data-driven. Combine interprétabilité de l'analyse archétypale classique et flexibilité des modèles non-linéaires via distributions en étoile déformées. Tests sur MNIST montrent géodésiques significatives et projections de débruitage géométriquement conscientes.

PapersRaisonnement
SIG
72
HYP
15
arXiv cs.LG·

PrivFusion: A Privacy-preserving Multi-Agent Framework for Harmonizing Distributed Datasets

PrivFusion est un framework multi-agent préservant la confidentialité pour harmoniser automatiquement des datasets hétérogènes avant l'entraînement fédéré. Testé sur quatre datasets COVID-19, il utilise des agents pour analyser les données locales, regrouper les features sémantiquement similaires et recommander des transformations itératives sans centraliser les données sensibles.

Multi-agentsAgents IA
SIG
72
HYP
25
arXiv cs.LG·

Optimizing Digital Therapeutic Interventions: Online Learning under Endogenous Adherence

Framework de soutien décisionnel pour thérapies numériques modélisant les effets des recommandations et de l'adhérence des patients via un système dynamique linéaire. Algorithme UCB-BOLD proposé pour la sélection de traitement en ligne avec garanties de regret sublinéaire. Évaluation sur données de micro-essais randomisés : 2-3x moins de regret que les benchmarks.

Reinforcement learningRaisonnementÉvaluations
SIG
72
HYP
15
arXiv cs.LG·

ChainzRule: Sample-Efficient, Robust Deep Learning Across Tabular, NLP, and Vision Tasks

ChainzRule remplace les activations standard par des couches polynomiales apprises avec régularisation différentielle (DREG), une pénalité jacobienne calculée analytiquement. Testé sur tabular, NLP et vision : 85,71% sur Pima Diabetes, 46,20% sur SST-5 avec encodeur gelé (5% des données d'entraînement de RNTN), 55,79% sur SST-5 fine-tuné BERT, +2,32% sur CIFAR-10-C. Améliore robustesse et efficacité échantillon.

BenchmarksPapersRaisonnement
SIG
72
HYP
28
arXiv cs.LG·

Omissive Bias in Religious Representation: Benchmarking LLM Answers to Everyday Ethical Decision-making

Étude de l'« omissive bias » : les LLMs omettent systématiquement les perspectives religieuses dans leurs réponses à des questions éthiques quotidiennes. Benchmark AllFaith avec 150 questions (deuil, pardon, relations) évalué sur 27 modèles. Résultat : sous-représentation religieuse asymétrique, plus marquée pour les situations pratiques que pour les questions existentielles.

BenchmarksAlignementSécurité IA
SIG
72
HYP
15
arXiv cs.CL·

Improving the Completeness and Comparability of Segment Disclosures: A Large Language Model Approach

Un framework basé sur LLM extrait les divulgations de segments des formulaires 10-K pour améliorer la complétude et la comparabilité des données financières. Le système utilise RAG pour intégrer les informations entre plusieurs périodes et entreprises, démontrant son efficacité pour l'analyse longitudinale et l'alignement géographique cross-firm.

RAGBenchmarks
SIG
72
HYP
15
arXiv cs.CL·

Teaching Through Analogies: A Modular Pipeline for Educational Analogy Generation

Pipeline modulaire pour générer des analogies éducatives en quatre étapes (source, sous-concepts, explication, évaluation). Évaluation de 12 LLMs sur deux datasets annotés (SCAR, ParallelPARC). Les sous-concepts améliorent la qualité des explications et la précision de la récupération. Claude Sonnet 4.6 aligne mieux avec les classements humains qu'avec les scores absolus.

ClaudePapersÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval

Unveil est un framework d'embedding visual-textuel pour la récupération de documents multi-modaux. Il intègre features textuelles et visuelles via distillation de connaissance, transférant les capacités sémantiques d'un modèle visual-textuel vers un modèle purement visuel. Résultats : amélioration de la précision et de l'efficacité de retrieval sans parsing.

RAGEmbeddingsVision
SIG
72
HYP
25
arXiv cs.AI·

From Accuracy to Auditability: A Survey of Determinism in Financial AI Systems

Étude sur la reproductibilité des systèmes IA en finance réglementée (crédit, fraude, blanchiment). Identifie trois sources de non-déterminisme : variance des explications post-hoc (modèles tabulaires), échantillonnage stochastique (graphes), divergence batch-dépendante (LLM agents). Propose framework d'évaluation avec métriques RBO, D_cos, TDI, PSD pour audit.

ÉvaluationsSécurité IARégulation
SIG
72
HYP
15
arXiv cs.AI·

Why We Need World Models for AGI: Where LLMs Fail and How World Models May Outperform

Article arXiv argumentant que les LLM échouent en raisonnement causal et planification long-horizon faute de modèles du monde. Les auteurs introduisent Latent Dynamics Inference (LDI) et Flux, un environnement de raisonnement séquentiel en langage naturel. Agents RL avec accès à l'espace latent atteignent 79% de taux de victoire vs 11% pour LLM, révélant des défaillances en suivi d'état persistant.

RaisonnementReinforcement learningPapers
SIG
72
HYP
35
arXiv cs.AI·

EvoSci: A Bio-Inspired Multi-Agent Framework for the Evolution of Scientific Discovery

EvoSci est un framework multi-agent bio-inspiré pour la découverte scientifique utilisant des LLM. Il intègre évolution, graphes de connaissances et agents spécialisés (mentor, chercheur, reviewer) pour générer, évaluer et affiner itérativement des idées de recherche. Sur des sujets réels, EvoSci atteint un score peer-review ICLR de 4.90 et classement Top-10 de 54%.

Multi-agentsAgents IARaisonnement
SIG
72
HYP
35
arXiv cs.LG·

A lift for input-convex neural network training

Nouvelle méthode d'entraînement pour les réseaux de neurones input-convexes (ICNN) via une hypernetwork non-contrainte qui émet les poids inter-couches. Approche inspirée des lifts de problèmes inverses, elle contourne les limitations du gradient descent projeté et de la reparamétrisation softplus. Résultats sur estimation de densités log-concaves et flots normalisants convexes montrent convergence améliorée.

PapersRaisonnementReinforcement learning
SIG
72
HYP
15
arXiv cs.LG·

Generative Representation Learning on Hyper-relational Knowledge Graphs via Masked Discrete Diffusion

KREPE, une méthode d'apprentissage génératif pour graphes de connaissances hyper-relationnels, utilise la diffusion discrète masquée pour générer des faits complets à partir de requêtes partiellement observées. Unifie prédiction de liens et génération de faits dans un seul cadre, surpassant les baselines LLM sur les benchmarks standard.

PapersBenchmarksRaisonnement
SIG
72
HYP
28
arXiv cs.LG·

Agent-ToM: Learning to Monitor Autonomous LLM Agents via Theory-of-Mind Reasoning

Agent-ToM est un framework d'apprentissage pour surveiller les agents LLM autonomes via le raisonnement Theory-of-Mind. Il infère les croyances, intentions et déviations comportementales des agents pour détecter les comportements malveillants cachés. Évalué sur SHADE-Arena et CUA-SHADE-Arena, il surpasse les baselines d'ensemble tout en utilisant un pipeline de vérification à deux appels.

Agents IASécurité IARaisonnement
SIG
72
HYP
28
arXiv cs.LG·

Rethinking Continual Anomaly Detection on the Edge: Benchmarking Under Realistic Industrial Conditions

Nouvel article arXiv proposant DINOSaur, méthode sans entraînement pour la détection d'anomalies continue en environnement industriel. Combine backbone DINOv3 gelé, mémoire coreset indexée spatialement et scoring d'anomalies restreint. Atteint zéro oubli, surpasse tous les baselines sur 5 protocoles, inférence <100ms sur Jetson Orin Nano avec adaptation on-device <30s.

BenchmarksVision
SIG
72
HYP
25
Reddit r/LocalLLaMA·

Update on 12x32gb sxm v100 cluster / local AI for legal drafting

Un avocat partage son retour d'expérience sur un cluster de 12 V100-SXM2 32GB pour le traitement juridique local. Après avoir abandonné vLLM pour les modèles MoE (incompatibilité GPU Volta), il utilise llama.cpp avec des modèles comme Gemma-4-26B et Qwen3.5-122B. Les modèles denses sur V100 sont inefficaces (~20-28 tok/s) ; les MoE atteignent 50-113 tok/s en décodage sur contextes longs.

LlamaOpen sourceInfrastructure
SIG
72
HYP
15