Page 50 sur 144

ToutHaut signalRécent
5740 articles
Reddit r/LocalLLaMA·

I was a Data Scientist for 10 years before becoming a quadriplegic. For the past 3 months, I built VibeETL from scratch: A lightning-fast, visual Alteryx alternative powered by Polars & React Flow.

VibeETL : plateforme ETL visuelle open-source construite en 3 mois par un ancien data scientist. Backend Polars + Rust, frontend React Flow avec algorithme BFS natif. Zéro dépendance externe, exécution Python sandboxée (30s timeout). Alternatif léger à Alteryx.

Open sourceOutilsInfrastructure
SIG
72
HYP
45
arXiv cs.LG·

Functional MRI Time Series Generation via Wavelet-Based Image Transform and Spectral Flow Matching for Brain Disorder Identification

DSFM (Dual-Spectral Flow Matching) génère des séries temporelles fMRI synthétiques en combinant transformée en ondelettes discrète (DWT) et transformée en cosinus discret (DCT) avec flow matching spectral. Le modèle capture la non-stationnarité et la dynamique spatiotemporelle des signaux BOLD pour améliorer la classification de réseaux cérébraux.

PapersBenchmarksVision
SIG
72
HYP
18
arXiv cs.LG·

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

Unicorn, un framework de préentraînement multi-dataset, résout le compromis entre modèles indépendants par canal (scalables mais ignorant les dépendances) et modèles dépendants (expressifs mais limités en dimensions). Via un codebook de prototypes latents, il projette des canaux hétérogènes dans un espace partagé pour apprendre des patterns de corrélation réutilisables et transférables.

PapersBenchmarksFine-tuning
SIG
72
HYP
28
arXiv cs.AI·

COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation

COLLEAGUE.SKILL est un système automatisé de distillation de traces en compétences pour générer des skills IA ancrées à une personne via extraction de connaissances expertes. Le système produit des packages versionnés avec deux pistes : capacités (pratiques, modèles mentaux, heuristiques) et comportements bornés (style de communication, règles d'interaction). 18.5k stars GitHub, 215 skills de 165 contributeurs.

Agents IAPrompt engineeringOpen source
SIG
72
HYP
25
arXiv cs.AI·

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Framework d'apprentissage par renforcement pour la conduite autonome qui utilise des conseils d'experts régulés par l'incertitude. Les seuils adaptatifs d'incertitude épistémique/aléatoire déclenchent l'intervention d'experts, tandis qu'une stratégie de commitment-cooldown limite la dépendance. Testé sur CARLA : +5-7% de succès vs baseline IQN.

Reinforcement learningRobotiqueSécurité IA
SIG
72
HYP
18
arXiv cs.AI·

Structure-Induced Information for Rerooting Levin Tree Search

Algorithme √LTS pour la recherche en arbre avec rerootage implicite. Trois designs de rerooter proposés : clustering basé sur la structure d'état, heuristique avec estimations coût-à-aller, et hybride. Évite la génération explicite de sous-objectifs, réduit l'overhead computationnel et atteint l'efficacité d'entraînement en ligne optimale sur les domaines testés.

RaisonnementAgents IABenchmarks
SIG
72
HYP
15
arXiv cs.AI·

Healthcare Mechanisms from Policy-as-Code Search under Strategic Provider Response

Des chercheurs reformulent la conception de mécanismes de santé comme synthèse de programmes pour LLM. Medi-Sim, un simulateur multi-agent, évalue les règles face aux réponses stratégiques des prestataires (codage, sélection, délai, effort, triage). Une recherche évolutionnaire guidée par LLM synthétise un programme mixte qui élimine le sur-codage, réduit les rejets de 50% et préserve la rentabilité.

Agents IAMulti-agentsGénération de code
SIG
72
HYP
25
arXiv cs.AI·

Learning Agent-Compatible Context Management for Long-Horizon Tasks

AdaCoM, un système d'IA externe, gère le contexte d'agents LLM figés via apprentissage par renforcement pour les tâches longues (recherche web, recherche approfondie). Les stratégies apprises révèlent un compromis Fidélité-Fiabilité : les agents performants bénéficient d'une préservation contextuelle fidèle, tandis que les agents faibles nécessitent une compression agressive.

Agents IAReinforcement learningRaisonnement
SIG
72
HYP
25
arXiv cs.LG·

Gait2Hip-60: A Unified Deep Learning Benchmark for Predicting Hip Muscle Forces and Joint Moments from Multi-Cadence Gait Kinematics

Benchmark unifié Gait2Hip-60 comparant LSTM, Transformer et Mamba pour prédire les forces musculaires et moments articulaires de la hanche à partir de la cinématique de marche. Transformer surpasse les autres modèles (R²=0.819 pour les forces, R²=0.862 pour les moments). Validation externe sur 9 patients atteints de nécrose fémorale montre une généralisation modérée (R²=0.537-0.569).

BenchmarksRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

Learning to Adapt: Self-Improving Web Agent via Cognitive-Aware Exploration

SCALE est un framework d'auto-amélioration pour agents web basé sur MLLMs. Il utilise trois rôles adversariaux (Selector, Predictor, Judger) pour explorer autonomement les limites de l'agent et élargir ses capacités cognitives. SCALE-Hop optimise la planification globale. Un dataset SCALE-20k de 19 sites réels avec 20k démonstrations structurées valide l'approche sur plusieurs MLLMs.

Agents IAVisionReinforcement learning
SIG
72
HYP
35
arXiv cs.AI·

Gradient-Free Training of Spiking Neural Networks via Low-Rank Evolution Strategies

EGGROLL, une factorisation bas-rang des perturbations en Evolution Strategies, réduit la complexité mémoire de O(mn) à O(r(m+n)) pour l'entraînement sans gradient des réseaux de neurones impulsionnels. Sur N-MNIST, la méthode atteint 79,21% de précision avec 2,23× d'accélération par rapport aux ES plein-rang, compatible avec l'apprentissage sur matériel neuromorphe.

PapersBenchmarksReinforcement learning
SIG
72
HYP
15
arXiv cs.LG·

Bounded Behavioral Indistinguishability for Black-Box LLM Distillation

Étude de la distillation de LLM en boîte noire via la notion de « bounded behavioral indistinguishability ». Les auteurs évaluent des paires Qwen et Llama avec une suite de 5 000 prompts, montrant que LoRA améliore la similarité sémantique (0.788→0.862 pour Qwen, 0.814→0.874 pour Llama) mais laisse subsister des différences comportementales détectables par adversaires.

Fine-tuningÉvaluationsSécurité IA
SIG
72
HYP
18
arXiv cs.LG·

A Unified Framework for Gradient Aggregation in Multi-Objective Optimization

Framework unifié pour l'agrégation de gradients en optimisation multi-objectif. Les auteurs établissent des taux de convergence vers la stationnarité de Pareto via une condition d'alignement suffisant et montrent que les directions non-conflictuelles dans l'enveloppe convexe des gradients garantissent la convergence. Ils introduisent capped MGDA basé sur CVaR et valident sur benchmarks.

Reinforcement learningPapersBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

When LLM Reward Design Fails: Diagnostic-Driven Refinement for Sparse Structured RL

Étude arXiv sur l'affinage itératif des fonctions de récompense générées par LLM pour RL sparse structuré. Les auteurs identifient deux modes de défaillance dominants (reward flooding, incompréhension sémantique) et proposent un raffinement diagnostique guidé par taxonomie. Résultats : DoorKey-8x8 passe de 2,3% à 97,6%, KeyCorridor de 31,2% à 86,7%. Limites : méthode restreinte à PPO et tâches sparse structurées.

Reinforcement learningLlamaPrompt engineering
SIG
72
HYP
18
arXiv cs.LG·

Early Prediction of Future Behavioral Strategy from Process Traces

Modèle de variable latente au niveau processus (PLVM) pour prédire les stratégies comportementales futures à partir de traces partielles inter-tâches. Testé sur PowerWash Simulator : fusion de traces de deux tâches de nettoyage prédit si un joueur adoptera une stratégie « Zone Planner » ou « Zone Hopper » sur un niveau inédit. Utile pour systèmes adaptatifs (tuteurs, jeux, IA collaborative).

Reinforcement learningÉvaluationsAgents IA
SIG
72
HYP
15
arXiv cs.LG·

Benchmarking Machine Learning Uncertainty Quantification Methodologies for Predicting Turbine Gas Temperature Degradation

Comparaison de 5 méthodes de quantification d'incertitude (Delta, Bayesian Monte Carlo Dropout, Bootstrap, LUBE, MVE) pour prédire la dégradation de température de turbine. Évaluation sur dataset réel avec métriques de couverture et largeur d'intervalle. Trade-offs identifiés entre précision et fiabilité.

BenchmarksÉvaluationsRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

Diagnosing Failure Modes of Shared-State Collaboration in Resource-Constrained Visual Agents

CoSee, un framework d'audit, analyse les défaillances de systèmes de raisonnement visuel modulaires utilisant une mémoire partagée. Sur des modèles 4B–8B, deux modes de défaillance dominent : Noise Reinforcement (réutilisation de notes non fondées) et Policy Collapse (réponses sous-spécifiées). L'étude montre que les espaces de travail partagés naïfs amplifient les hallucinations sans vérification explicite.

VisionAgents IAMulti-agents
SIG
72
HYP
18
arXiv cs.CL·

XLGoBench: Detecting cross-lingual skill gaps with algorithmic tasks

XLGoBench est un benchmark de tâches algorithmiques synthétiques pour détecter les lacunes cross-lingues dans les capacités des LLM. Le benchmark est comparable entre langues, scalable (complexité variable), quantifiable (correction objective) et transparent (templates auditables). Les expériences révèlent des lacunes persistantes dans plusieurs modèles état-de-l'art.

BenchmarksÉvaluations
SIG
72
HYP
18
arXiv cs.LG·

Scientific Machine Learning for Engine Health Management and Remaining Useful Life Prediction

Framework de machine learning scientifique pour la prédiction de durée de vie utile restante (RUL) de turbines. Combine encodeur partagé (CNN + LSTM bidirectionnel + attention) avec têtes spécialisées pour prédire température turbine, delta température et RUL avec intervalles de confiance. Évaluation sur données réelles hétérogènes et non-stationnaires via MAE, PICP, MPIW et CWC.

RaisonnementMulti-agentsBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

Vector Linking via Cross-Model Local Isometric Consistency

Méthode pour établir des correspondances entre vecteurs d'embeddings produits par différents encodeurs. Exploite la cohérence géométrique locale des encodeurs contrastifs entraînés indépendamment : les distances courtes sont préservées à un facteur d'échelle près. Utilise un hachage géométrique itératif basé sur des ancres appairées pour récupérer les liens vectoriels. Code disponible.

EmbeddingsRecherche vectorielleBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

HADT: A Heterogeneous Multi-Agent Differential Transformer for Autonomous Earth Observation Satellite Cluster

Nouvelle architecture transformer pour la gestion autonome des ressources dans des constellations satellites hétérogènes (optiques et SAR). Utilise le reinforcement learning sans modèle pour la prise de décision en temps réel lors de missions d'observation terrestre. Démontre améliorations significatives et transferabilité sur différentes tailles de constellations.

Multi-agentsReinforcement learningRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

A Persona-Based Evaluation Framework for Pluralistic Alignment in Generative AI

Cadre d'évaluation basé sur des personas pour l'alignement pluraliste des IA génératives. Remplace les benchmarks monolithiques par une variété de profils cognitifs synthétiques représentant diverses perspectives humaines. Révèle une dégradation systématique de la cohérence des personas sous inférence séquentielle, suggérant le besoin de mécanismes de régulation dynamiques.

AlignementÉvaluationsBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

COMPASS: Cognitive MCTS-Guided Process Alignment for Safe Search Agents

COMPASS est un framework d'alignement de sécurité pour agents de recherche LLM multi-étapes. Il combine l'exploration d'arbres cognitifs (CTE) pour synthétiser des trajectoires d'attaque et l'alignement introspectif (ISA) pour superviser les actions intermédiaires risquées. Résultats : meilleur compromis sécurité-utilité avec moins de données d'entraînement.

Agents IASécurité IAAlignement
SIG
72
HYP
25
arXiv cs.CL·

Counterfactual Graph for Multi-Agent LLM Calibration

Les systèmes multi-agents LLM supposent que l'accord entre agents indique la fiabilité. Les auteurs montrent que la communication entre agents crée des défaillances corrélées et des faux consensus. Ils proposent CAGE-CAL, un cadre de calibration basé sur des graphes contrefactuels, qui compare les dépendances observées post-communication avec un scénario sans communication pour ajuster la confiance.

Multi-agentsAgents IARaisonnement
SIG
72
HYP
18
arXiv cs.CL·

Speculative Decoding Across Languages

Les chercheurs améliorent le speculative decoding multilingue en comparant trois stratégies : fine-tuning du modèle draft sur données spécifiques, fine-tuning sur corpus monolingues non annotés, et modèles n-gram. Évaluation sur 11 langues en traduction et génération d'histoires. Les modèles n-gram offrent les meilleurs accélérations malgré des taux d'acceptation plus faibles.

Génération de codeBenchmarksInfrastructure
SIG
72
HYP
15
arXiv cs.CL·

Knowledge Graph-Enhanced Zero-Shot Topic Classification: A Multi-Strategy Comparative Study

Étude comparative de classification de sujets multi-label en zero-shot utilisant des graphes de connaissances extraits des documents. Framework testé sur 15 LLMs et 8 datasets : la variante keyword-enhanced surpasse la baseline, l'augmentation par graphe aide les petits modèles mais nuit aux grands, et le self-consistency decoding augmente les coûts sans amélioration.

RAGBenchmarksPapers
SIG
72
HYP
15