Page 62 sur 192

ToutHaut signalRécent

7679 articles

Memory-Efficient Meta-Reinforcement Learning for Adaptive Safety-Critical Control in Adversarial Spacecraft Proximity Operations

Étude comparative de trois architectures récurrentes (LSTM, GRU, Mamba) et deux algorithmes (PPO, SAC) pour l'apprentissage par renforcement méta appliqué aux fonctions de barrière de contrôle (ICCBF) en opérations de proximité spatiale. Mamba + PPO surpasse les autres configurations en sécurité, complétude des tâches et économies de carburant, même en présence de comportements adversariaux.

Reinforcement learning Sécurité IA Robotique

SIG

HYP

arXiv cs.LG·17 juin

MorphStrata: Layer-Specific Perturbations for Generating Morphence Students in Time-Series Moving Target Defense

MorphStrata améliore la défense Moving Target Defense pour les modèles de prévision de séries temporelles en injectant du bruit stochastique sélectif par couche. Testé sur Transformer avec attaques FGSM, BIM et PGD, l'approche réduit l'RMSE adversarial jusqu'à 97,97% sur données AEP avec surcoût d'entraînement <1%.

Benchmarks Sécurité IA Papers

SIG

HYP

arXiv cs.CL·17 juin

When Multiple Scripts Matter: Evaluating ASR in Clinical Settings

MultiClin, un benchmark ASR clinique, évalue la robustesse des modèles de reconnaissance vocale face à la variabilité multiscript (plusieurs formes orthographiques valides du même terme). Les métriques conventionnelles sous-estiment les performances. L'unification des scripts améliore significativement les résultats.

Benchmarks Voix Évaluations

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Minimax M3 (4 bit MLX) Initial Benchmark on Mac Studio M3u 512gb

Benchmark du modèle Minimax M3 en 4-bit MLX sur Mac Studio M3 512GB. Résultats : TTFT 3.1s (pp1024/tg128), throughput 147.7 tok/s, pic mémoire 226.6GB. Batching continu : speedup 1.83x à 4 requêtes parallèles (49.9 tok/s).

Benchmarks Open source Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·16 juin

GLM-5.2 just dropped open weights and it already looks weirdly strong for coding

GLM-5.2 sort en poids ouverts avec licence MIT. Fenêtre de contexte 1M, deux modes de raisonnement, performances fortes en coding sur les arenas. Modèle open-source contrairement aux versions API-only.

Qwen Open source Génération de code

SIG

HYP

Reddit r/LocalLLaMA·16 juin

A benchmark for tiny LLMs based on a real world problem: natural language file search (using monkeSearch)

Benchmark pour petits LLM (<3B paramètres) évaluant la capacité à parser du langage naturel en JSON structuré pour la recherche de fichiers. 9 modèles testés (Gemma-3 270M à DeepSeek R1 Distill 1.5B) sur 80 requêtes couvrant types de fichiers, contexte temporel et spécificité. Résultats : modèles 0.8B–1.5B surpassent les sub-0.5B.

Benchmarks Open source Génération de code

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Glimmer 1 - Glint Research. A foundational 10,000 parameter language model

Glint Research présente Glimmer 1, un modèle de langage fondationnel de 10k paramètres entraîné sur 500K tokens de FineWeb-Edu. Architecture standard Llama avec 16 dimensions cachées, 2 couches, 4 têtes d'attention et fenêtre de contexte de 512 tokens. Benchmarks : arc_easy 25.46%, wikitext-2 perplexité 14.73 (byte).

Llama Open source Benchmarks

SIG

HYP

Simon Willison·16 juin

datasette-tailscale 0.1a0

Release de datasette-tailscale 0.1a0, plugin alpha expérimental permettant de déployer un serveur Datasette via Tailscale. Utilise les bindings Python de la librairie tailscale-rs pour connecter une instance locale à un Tailnet.

Outils Open source Infrastructure

SIG

HYP

Reddit r/MachineLearning·16 juin

My offline ablation said -0.19pp. The production retrain said +1.11pp. [D]

Un ingénieur ML rapporte que ses ablations offline (retraining avec/sans feature) donnaient des résultats opposés à la production. Quatre changements : Best Offer feature (+0.12pp offline → -0.19pp prod), backfill données enchères (+0.37pp prod), trimming outliers (-0.19pp offline → +1.11pp prod), encodeur CatBoost. Causes : train/serve skew, distribution shift non mesurée, population drift, instabilité baseline.

Évaluations Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Be wary of Qwen/Claude distillations - they're often worse than the base model

Les distillations Qwen/Claude circulant sur r/LocalLLaMA (Qwopus, Fable 5 sur Qwen 3.6) utilisent 4k-10k samples d'entraînement, insuffisant pour améliorer les performances. Comparé aux 700k samples des distillations DeepSeek-R1 officielles, ces modèles ne dépassent pas le Qwen de base et dégradent légèrement la qualité malgré un style de raisonnement différent.

Qwen Claude Fine-tuning

SIG

HYP

Reddit r/LocalLLaMA·16 juin

A fast, optimised, and open source application for running local AI easily (made for Apple Silicon only)

AeroLLM, application open source optimisée pour Apple Silicon, permet d'exécuter localement des LLM, TTS et STT via une interface graphique. Utilise MLX pour l'inférence native, télécharge les modèles depuis Hugging Face avec recommandations RAM, expose une API optionnelle. Version 0.1.0 disponible.

Open source Outils Llama

SIG

HYP

arXiv cs.CL·16 juin

Few-Shot Biomedical Relation Extraction with Large Language Models: A Viable Alternative to Supervised Learning?

Étude comparative du few-shot biomedical relation extraction avec LLMs vs apprentissage supervisé sur BioREDirect. Classification pairwise vs génération jointe : F1=0.44 (few-shot) vs 0.56 (supervisé) en micro-F1, mais 0.45 vs 0.38 en macro-F1. LLMs surpassent le baseline sur les relations rares.

Prompt engineering Benchmarks RAG

SIG

HYP

arXiv cs.AI·16 juin

A Formal Framework for Declarative Agentic AI in Business Process Analysis

Cadre formel AGO pour l'analyse des processus métier avec IA agentive. Définit précisément agents, objectifs et entités via théorie des ensembles et logique mathématique. Génère automatiquement workflows BP avec garanties de complétude et cohérence.

Agents IA Raisonnement Business

SIG

HYP

arXiv cs.AI·16 juin

Hierarchical Modeling of ICD Codes in EHR Foundation Models

Étude sur l'intégration de la hiérarchie ICD-10-CM dans les modèles de fondation EHR. Les auteurs comparent deux approches : augmentation de séquences BERT avec tokens hiérarchiques et injection de hiérarchie dans des représentations graphiques. Expériences sur MIMIC-IV et eICU montrent que l'encodage explicite de la hiérarchie améliore les prédictions en domaine et en transfert cross-dataset.

Papers Embeddings RAG

SIG

HYP

arXiv cs.CL·16 juin

SHARD: Safe and Helpful Alignment via Self-Reframing Distillation

SHARD est une méthode de distillation par auto-reformulation pour améliorer l'équilibre sécurité-utilité des LLM. Elle réécrit les prompts sensibles selon des principes philosophiques, reformule les réponses de manière sûre et plus utile, puis fine-tune le modèle sur ces réponses auto-reformulées. Testée sur DNA et LINGUASAFE, SHARD améliore l'utilité tout en préservant la sécurité.

Fine-tuning Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·16 juin

APEX: Adaptive Principle EXtraction A Three-Layer Self-Evolution Framework for Production AI Agents

APEX est un framework d'auto-amélioration pour agents IA en production qui évolue simultanément sur trois dimensions : le prompt harness (L1), les principes comportementaux (L2) et la topologie du workflow (L3). Testé sur Joe, un super-agent NVIDIA Nemotron, APEX atteint un Health Score de 0.570 (+90% vs baseline) et distille 6 principes réutilisables avec seulement 4 appels LLM.

Agents IA Prompt engineering Reinforcement learning

SIG

HYP

arXiv cs.AI·16 juin

Visual-Seeker: Towards Visual-Native Multimodal Agentic Search via Active Visual Reasoning

Visual-Seeker est un agent de recherche multimodal qui améliore le raisonnement visuel des MLLMs dans des scénarios complexes. L'approche utilise un pipeline de raisonnement visuel actif et 5K trajectoires multimodales synthétiques pour entraîner le modèle. L'agent atteint des performances SOTA sur cinq benchmarks de recherche multimodal, surpassant certains modèles propriétaires.

Agents IA Vision Multi-agents

SIG

HYP

arXiv cs.AI·16 juin

CogGuard: Cognitive and Operational Profiling for Proactive Warning in Edge Intelligent Services

CogGuard est un framework de prédiction proactive pour services edge utilisant des LLM hors-ligne pour construire des profils cognitifs et opérationnels, puis des SLM pour scorer en temps réel. Réduction de 48% du temps de construction de profils et 19% du fine-tuning distribué sur clusters hétérogènes. Erreur réduite de 15.4% vs baseline sur données éducatives.

Raisonnement Fine-tuning Benchmarks

SIG

HYP

arXiv cs.AI·16 juin

Relational Structural Causal Models

Article théorique sur les modèles causaux structurels relationnels (RSCM), extension des SCM de Pearl aux environnements avec objets et relations variables. Propose des critères d'identification symbolique et des modèles neuraux causaux relationnels testés sur scènes de trafic simulées.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

Contextual Bandits for Maximizing Stimulated Word-of-Mouth Rewards

Framework de bandit contextuel multi-bras pour optimiser le bouche-à-oreille stimulé via réseaux sociaux. L'approche apprend les probabilités individuelles de débordement (spillover) et classe les utilisateurs connectés pour maximiser les récompenses. Expériences sur données réelles montrent une amélioration de la précision de ciblage et des récompenses par rapport aux méthodes baseline.

Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·16 juin

Forced Deferral: Manipulating Routing Decisions in Multimodal LLM Cascades

Des chercheurs découvrent une vulnérabilité dans les cascades de modèles multimodaux : une attaque adversariale (Forced Deferral Attack) manipule la confiance du modèle faible pour forcer le routage vers le modèle fort, augmentant les coûts de calcul sans modifier les réponses.

Sécurité IA Vision Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

TriAdReview: Triangular Adversarial Review Architecture for Multi-Model Technical Document Generation

TriAdReview propose une architecture adversariale triangulaire avec deux modèles reviewers (ingénierie et sécurité) pour améliorer la génération de documents techniques. Sur 75 expériences, le système triple atteint +10.1% vs baseline (26.2 vs 23.8/50, p<0.05), avec gains forts en audit sécurité (+27.6%), génération code (+20.8%), design architecture (+15.6%), mais dégradation sur analyse requirements (-7.5%).

Multi-agents Génération de code Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

An Integrable Token Mixing Layer from the Generalized Yang Baxter Equation

YB Mixer est une couche de mélange de tokens dérivée de structures de fermions libres et de l'équation de Yang-Baxter généralisée. Elle utilise l'algèbre d'Ising pour créer une structure fermionique orthogonale préservant la norme, avec matrices de transfert commutantes permettant une inférence sans ordre. Un générateur circulant spectral assure la généralisation à des séquences plus longues.

Raisonnement Papers

SIG

HYP

arXiv cs.AI·16 juin

Feature Attribution in Directed Acyclic Graphs Using Edge Intervention

DAG-SHAP, une nouvelle méthode d'attribution de features basée sur l'intervention sur les arêtes dans les graphes acycliques dirigés. Améliore les méthodes Shapley existantes en capturant simultanément l'externalité et l'influence exogène des features. Code disponible sur GitHub.

Évaluations Papers

SIG

HYP

arXiv cs.LG·16 juin

Edu-Theater: A Data-Efficient Agent Framework for Scalable Learner Behavior Simulation through Staging Roll-Call

Edu-Theater est un système multi-agent basé LLM pour simuler le comportement d'apprenants à grande échelle. Il utilise une approche cohort-aware avec diagnostic ciblé plutôt que des historiques denses par apprenant, réduisant les appels LLM et les données nécessaires. Testé sur deux datasets réels, il améliore la précision de simulation et les applications aval comme les tests adaptatifs.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.LG·16 juin

Beyond Accuracy: Measuring Bias Acknowledgment in Chain-of-Thought Reasoning for Responsible AI Evaluation

Étude sur l'évaluation des modèles de raisonnement au-delà de la simple précision. Les auteurs introduisent deux métriques : susceptibilité (si le biais casse une réponse correcte) et reconnaissance (si la trace mentionne explicitement le contenu biaisé). Sur GSM8K, GPT-4o et Claude Sonnet 4 montrent des taux de susceptibilité similaires (1,3% vs 1,2%) mais des taux de reconnaissance très différents (13,0% vs 75,0%).

Évaluations Raisonnement Sécurité IA

SIG

HYP

arXiv cs.CL·16 juin

Evaluating and Preserving Lexical Stress in English-to-Chinese Speech-to-Speech Translation

Étude sur le transfert de l'accent lexical en traduction parole-à-parole anglais-chinois. Les auteurs créent un dataset annoté en chinois mandarin, développent un détecteur d'accent basé XLS-R et proposent une métrique d'évaluation objective. Un système S2ST affiné sur CosyVoice3 surpasse les systèmes existants en préservant l'accent tout en maintenant la qualité de traduction.

Voix Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·16 juin

Metric Match: A Subset Selection Approach to Evaluating LLM Judge Reliability

Metric Match est une méthode pour évaluer la fiabilité des juges LLM avec moins d'annotations humaines. Elle sélectionne un sous-ensemble d'échantillons dont les étiquettes synthétiques correspondent aux métriques de fiabilité de la population. Sur 15 datasets, elle réduit l'erreur d'estimation de 18,7% et les besoins en annotation de 32,5%, économisant $1,041.67 dans un cas médical.

Évaluations Benchmarks Papers

SIG

HYP

arXiv cs.CL·16 juin

Privacy-Preserving Text Sanitization for Distributed Agents Collaboration via Disentangled Representations

DiSan, un framework de sanitization préservant la vie privée, factorise le texte en deux sous-espaces : un préservant la sémantique métier et un contenant les signatures stylistiques. Sur un benchmark RAG multi-agent distribué, DiSan réduit l'exposition PII de 20× tout en maintenant 83% de fidélité, et abaisse l'attribution stylométrique Enron de 73,2% (TF-IDF) et 70,6% (sonde neurale).

Multi-agents RAG Sécurité IA

SIG

HYP

arXiv cs.AI·16 juin

Semantics-Enhanced Retrieval-Augmented Time Series Forecasting

SERAF, un framework de prévision de séries temporelles, combine récupération de segments historiques et descriptions textuelles auto-générées. Approche multimodale testée sur 7 datasets réels pour améliorer les prédictions au-delà de la simple similarité numérique.

RAG Benchmarks Papers

SIG

HYP

arXiv cs.CL·16 juin

Encode Errors: Representational Retrieval of In-Context Demonstrations for Multilingual Grammatical Error Correction

Méthode de récupération de démonstrations in-context basée sur les représentations d'erreurs grammaticales (GER) pour la correction grammaticale multilingue. Sur 8 modèles open-source 8B, les résultats égalent GPT-4o-mini et Deepseek2.5. Pour les langues peu dotées, amélioration F₀.₅ jusqu'à 1.20× vs baseline.

RAG Prompt engineering Benchmarks

SIG

HYP

arXiv cs.AI·16 juin

Frame-Conditioned Moral Computation in LLaMA 3.1-8B-Instruct: A Mechanistic Interpretability Audit of Ethical Reasoning

Audit de mécanismes internes du modèle LLaMA 3.1-8B-Instruct sur 54 prompts moraux utilisant Transluce. Découverte d'un « Situational Anchor Effect » : les représentations domaine-spécifiques dominent indépendamment du contenu éthique. L'éthique reste constante en capacité mais très sensible au cadre interprétatif du prompt. Identification d'un neurone candidat (L16/N3837) stable en température.

Llama Alignement Évaluations

SIG

HYP

arXiv cs.AI·16 juin

Large Language Models as Optimizers: A Survey of Direct vs. Tool-Augmented Approaches and Their Performance Frontiers

Enquête sur l'utilisation des LLM comme optimiseurs mathématiques selon trois paradigmes : optimisation directe (prompting itératif), augmentée par outils (traduction en spécifications formelles), et création d'outils (découverte d'algorithmes réutilisables). L'article identifie un écart de raisonnement critique et propose des compromis entre potentiel futur et auditabilité.

Raisonnement Agents IA Outils

SIG

HYP

arXiv cs.AI·16 juin

Minimal Oversight: Uncertainty-Aware Governance for Delegated AI Systems

Principe de supervision minimale suffisante (MSO) pour gouverner l'autonomie des systèmes IA délégués. Formulation variationnelle sur la variété d'information de Fisher minimisant la charge de gouvernance sous contrainte de performance. Théorème de capacité pour politiques de révision symbolique, loi d'échelle autonomie-temps, et identification du masquage comme pathologie de gouvernance. Code Python disponible.

Agents IA Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·16 juin

{\alpha}-Fair Insurance Pricing: A Fairness Continuum

Papier proposant α-FISP, un cadre d'optimisation pour la tarification d'assurance équilibrant équité actuarielle (différenciation par risque) et équité solidaire (mutualisation). Formulation contrainte garantissant la solvabilité avec paramètre α traçant un continuum entre deux approches. Validation numérique sur régimes US.

Papers Régulation

SIG

HYP

arXiv cs.LG·16 juin

Policy Regret for Embedding Model Routing: Contextual Bandits with Low-Rank Experts

Article théorique sur le routage dynamique de requêtes vers plusieurs modèles d'embedding. Formalise le problème comme un bandit contextuel linéaire adversarial avec experts low-rank. Propose l'algorithme Hypentropy Policy Gradient (HPG) avec regret Õ(s√MT) sans malédiction de dimensionnalité.

Benchmarks Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.LG·16 juin

A Comparative Study of Graph Neural Network Layer Selection for Interaction Modelling in Driving Trajectory Prediction

Étude comparative de 19 types de couches GNN pour la prédiction de trajectoires en conduite autonome. Les couches ARMA, Chebyshev et topology-aware surpassent les autres. L'agrégation par somme, l'attention multi-tête et la pondération par distance de saut améliorent significativement la précision.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·16 juin

Machine Learning and the Random Walk Puzzle: Forecasting the CAD/USD Exchange Rate with Expanding Window Evaluation and SHAP Interpretability

Étude comparant 5 modèles ML (régression linéaire, random forest, gradient boosting, XGBoost, AdaBoost) pour prévoir le taux CAD/USD mensuel (2017-2026, 113 observations). Seule la régression linéaire surpasse statistiquement la marche aléatoire (DM=3.06, p=0.0071). Random Forest atteint MAPE=1.17%. SHAP révèle que les lags courts (lag1-2) et moyennes mobiles dominent les prédictions.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.AI·16 juin

Fusion is not one-size-fits-all: Cross-Modal Representation Alignment for Time-to-Event Modeling

Framework de fusion multimodale pour prédire le temps jusqu'à un événement clinique (mortalité PE, résultats CVD) en alignant représentations CT et données EHR longitudinales via modèles fondation. Quatre stratégies testées (late fusion, contrastive alignment, cross-attention, co-attention) sur 3,099-2,951 patients. Fusion contrastive améliore l'indice de concordance de 1,5-5,4% vs unimodal.

Benchmarks Embeddings Vision

SIG

HYP

arXiv cs.LG·16 juin

AI for Social Good: An Investigation of the Causal Relationship Between Environmental Regulations and Their Effects on Air Pollution in London, UK

Étude Bayésienne sur l'impact des régulations anti-pollution à Londres (2010-2020). Un modèle LSTM Bayésien intégrant données PM2.5, météo et 32 mesures politiques estime une réduction moyenne de 1.88 µg/m³ (IC 95%: 1.64-2.12), soit -12.35% relatif. Effets croissants 2013-2019.

Papers Raisonnement Évaluations

SIG

HYP