Page 81 sur 192

ToutHaut signalRécent

7679 articles

What I learned building a debugger for PyTorch training loops and how it changed how I think about failure diagnosis [D]

Développeur a créé NeuralDBG, un debugger PyTorch qui détecte automatiquement les défaillances d'entraînement (gradients qui s'évanouissent/explosent, anomalies de données). Insight clé : les défaillances sont localisées par couche, pas globales. Monitoring efficace : transitions de normes de gradient par couche plutôt que histogrammes bruts. Outil open-source sur PyPI.

Outils Génération de code Open source

SIG

HYP

Reddit r/LocalLLaMA·30 mai

made a local voice AI for windows you can talk to in any language. open source, bring your own key

Shadow AI est un assistant vocal local pour Windows en open source (AGPL-3.0). Conversations naturelles multilingues, recherche web via SearXNG local, mémoire persistante, intégrations Google optionnelles (Gmail, Calendar, Drive). Utilise clé Gemini gratuite de l'utilisateur, zéro serveur distant.

Voix Gemini Open source

SIG

HYP

Reddit r/LocalLLaMA·29 mai

Anyone using Flash Attention 2 (ai-bond) on their V100's? How is the performance?

Utilisateur teste Flash Attention 2 (ai-bond) sur V100. Benchmarks montrent 7-24x speedup en backward pass, réduction mémoire jusqu'à 91.9% (323.4 MB économisés). Temps de réflexion avant réponse minimisé. Validation numérique OK sur configurations causal et non-causal.

Infrastructure Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·29 mai

I tested MTP on vLLM and llama.cpp for Gemma 4 & Qwen 3.6 — 3.34x faster inference, here are my findings RTX 6000 PRO.

Benchmark MTP (Multi-Token Prediction) sur Gemma 4 31B et Qwen 3.6 27B avec vLLM et llama.cpp. Résultat : 3.34x accélération (132.52 vs 39.69 tok/s). vLLM surpasse llama.cpp sur Gemma 4 ; llama.cpp performant sur Qwen. Pas de dégradation qualité confirmée, VRAM négligeable.

Gemini Qwen Génération de code

SIG

HYP

The Decoder·29 mai

OpenAI is giving away its life sciences AI model to help governments prepare for the next pandemic

OpenAI met gratuitement son modèle IA spécialisé en sciences de la vie, GPT-Rosalind, à disposition via le programme Rosalind Biodefense. Objectif : préparer les gouvernements aux futures pandémies. Partenaires initiaux : Lawrence Livermore National Laboratory, Johns Hopkins, CEPI.

OpenAI GPT Sécurité IA

SIG

HYP

Le Big Data·29 mai

Airbus s’allie à Mistral AI pour développer une IA souveraine dans l’aéronautique

Airbus s'associe à Mistral AI pour développer une intelligence artificielle souveraine dans le secteur aéronautique. Le partenariat vise à intégrer des modèles d'IA sécurisés dans les opérations et processus du groupe.

Mistral Business Sécurité IA

SIG

HYP

ActuIA·29 mai

Pourquoi Nvidia mise sur Decart, une start-up IA capable d’optimiser aussi les puces concurrentes

Nvidia investit 300 M$ dans Decart, une start-up spécialisée dans les world models et l'optimisation logicielle. La participation de Nvidia vise à contrôler une couche d'optimisation capable de fonctionner sur ses puces et celles de concurrents.

Infrastructure Business Financements

SIG

HYP

ActuIA·29 mai

Outils RH et intelligence artificielle : l’Europe repousse les obligations haut risque à décembre 2027

L'UE repousse à décembre 2027 l'entrée en vigueur des obligations pour les systèmes IA haut risque dans les outils RH. Un accord politique provisoire du 7 mai 2026 sur le Digital Omnibus IA modifie le calendrier du règlement 2024/1689.

Régulation Sécurité IA

SIG

HYP

arXiv cs.LG·29 mai

TaxDistill: Improving Metagenomic Taxonomic Annotation via Distilled Genomic Foundation Models

TaxDistill utilise la distillation de connaissances pour améliorer l'annotation taxonomique en métagénomique. GenomeOcean, un modèle fondation génomique de 500M paramètres, génère des soft labels pour entraîner un réseau étudiant léger, réduisant le bruit des outils de recherche initiaux. Sur 7 datasets CAMI2, TaxDistill améliore le F1 score de MMseqs2 de 0,763 à 0,941 sur le dataset Gastrointestinal.

Papers Fine-tuning Benchmarks

SIG

HYP

arXiv cs.LG·29 mai

Balancing Multimodal Learning through Label Space Reshaping

Nouvelle méthode BMLR pour équilibrer l'apprentissage multimodal en restructurant l'espace des labels. Adresse le problème d'imbalance modale où certaines modalités convergent plus vite que d'autres. Approche novatrice agissant au niveau du label plutôt que du gradient.

Papers Benchmarks Vision

SIG

HYP

arXiv cs.LG·29 mai

Towards Continuous-time Causal Foundation Models

Article proposant des modèles causaux continus pour séries temporelles via équations différentielles stochastiques (SDE). Introduit un critère de continuité (invariance de la trajectoire à l'observation) et une taxonomie à trois niveaux. Validation sur données pharmacocinétiques et physiques avec intégration fine-grid surpassant l'approche naïve sur 8/8 configurations (p<1/256).

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·29 mai

Feature Geometry of LoRA Adapters: A Sparse Autoencoder Analysis of Representational Divergence in Fine-Tuned Language Models

Étude de la géométrie des représentations induites par LoRA via autoencodeurs creux (SAE) sur Gemma-2-9B. Les chercheurs observent un faible alignement géométrique entre les dictionnaires de features LoRA et les SAE préentraînés, suggérant que LoRA crée des structures représentationnelles distinctes dans le flux résiduel.

Fine-tuning Sécurité IA Papers

SIG

HYP

arXiv cs.AI·29 mai

Tailoring the Curriculum: Student-Centered Reasoning Distillation via Dynamic Data-Model Compatibility

Nouvelle métrique DMC (Data-Model Compatibility) pour évaluer l'adéquation des données d'entraînement lors de la distillation de raisonnement vers des modèles plus petits. DMC considère la qualité des données, la difficulté relative et les capacités du modèle étudiant. Validation sur plusieurs modèles et tâches montre corrélation forte avec la performance et amélioration via sélection dynamique de données.

Raisonnement Fine-tuning Benchmarks

SIG

HYP

arXiv cs.AI·29 mai

DenseSteer: Steering Small Language Models towards Dense Math Reasoning

DenseSteer est une méthode d'inférence sans entraînement qui améliore le raisonnement mathématique des petits modèles (≤3B paramètres) en modulant leurs représentations internes vers des patterns de raisonnement dense. Sur Qwen-2.5, l'approche montre que un raisonnement plus efficace utilise moins d'étapes mais avec une densité informationnelle plus élevée.

Raisonnement Fine-tuning Benchmarks

SIG

HYP

arXiv cs.AI·29 mai

Provably Secure Agent Guardrail

Nouvel article arXiv proposant ePCA (Proof-Constrained Action), un framework de sécurité pour agents IA basé sur la vérification formelle. Les agents doivent formaliser leurs intentions en contraintes logiques du premier ordre avant d'exécuter des actions physiques, contournant les limites des garde-fous sémantiques empiriques. Évaluations montrent 0% de taux de succès d'attaque et 0% de faux positifs.

Agents IA Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·29 mai

When and How Human Curation Backfires: Preference Alignment under Multi-Model Self-Consuming Loop

Étude théorique sur l'entraînement de modèles fondamentaux sur données synthétiques générées par d'autres modèles. Les auteurs montrent que la curation humaine d'un modèle peut dégrader l'alignement d'autres modèles via des interactions croisées, contrairement aux cas isolés où elle améliore toujours l'alignement.

Alignement Reinforcement learning Papers

SIG

HYP

arXiv cs.LG·29 mai

When LLM Reward Design Fails: Diagnostic-Driven Refinement for Sparse Structured RL

Étude sur l'échec de la conception de récompenses par LLM en RL sparse structuré. Les auteurs identifient deux modes de défaillance dominants (reward flooding, incompréhension sémantique) et proposent un raffinement itératif guidé par diagnostics. Sur MiniGrid, DoorKey-8x8 passe de 2,3% à 97,6% de succès; KeyCorridor de 31,2% à 86,7%. La taxonomie des défaillances est le mécanisme principal.

Reinforcement learning Llama Prompt engineering

SIG

HYP

arXiv cs.AI·29 mai

Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces

Étude sur les traces long-CoT utilisées pour l'entraînement supervisé des LLM. Les chercheurs identifient une « continuation nuisible » : quand le raisonnement continue après que la réponse soit suffisamment justifiée. Supprimer ces continuations améliore les résultats du fine-tuning. Ils proposent HCC (Harmful Continuation Cut), un proxy léger pour détecter ces limites.

Raisonnement Fine-tuning Papers

SIG

HYP

arXiv cs.LG·29 mai

Learning Robust and Task-Invariant Functional Representation from fMRI through Siamese Self-Supervised Learning

BrainSimSiam, un framework d'apprentissage auto-supervisé léger, apprend des représentations robustes à partir de données fMRI sans labels. Utilisant des paires positives uniquement, il généralise sur plusieurs tâches (classification, régression) et surpasse les baselines supervisés, réduisant les besoins computationnels des modèles fondationnels en neuroimagerie.

Benchmarks

SIG

HYP

arXiv cs.LG·29 mai

LoRe: Adaptive Interaction-Evaluation Routing with Per-Step Interaction Budgets for Iterative Graph Solvers

LoRe est un wrapper d'inférence sans entraînement qui optimise les solveurs neuraux basés sur diffusion pour l'optimisation combinatoire. Il applique un budget d'évaluation d'interactions par étape, routant dynamiquement le calcul vers les interactions à haut conflit/incertitude. Sur MIS et TSP, LoRe atteint ×8 speedup, ×12 réduction mémoire (MIS) et ×15 speedup, ×44 réduction mémoire (TSP n=1000).

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.LG·29 mai

Causal Intelligence for Constraint-Aware Intervention Design to Induce State Transitions

COAST est une approche de causalité pour concevoir des interventions contraintes induisant des transitions d'état. Le système apprend des graphes causaux contextuels, attribue les changements distributionnels à des mécanismes causaux, et optimise via une formulation multi-objectifs équilibrant efficacité, complexité et stabilité. Validé sur benchmarks synthétiques et données biologiques réelles.

Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·29 mai

Designing Active Tether-Net Systems for Space Debris Capture with Graph-Learning-Aided Mixed-Combinatorial Optimization

Système de filet actif pour capture de débris spatiaux utilisant un réseau de neurones graphiques (GNN) pour optimiser simultanément la morphologie du filet, les masses et propulseurs des unités manœuvrables, et les points de visée du contrôleur. Le GNN réduit le problème d'optimisation mixte combinatoire non-linéaire (MCNLP) en problème non-linéaire (NLP) résolu par PSO avec affinage basé gradient.

Papers Raisonnement

SIG

HYP

arXiv cs.LG·29 mai

Moment Matching Q-Learning

MoMa QL utilise la divergence maximum mean discrepancy (MMD) pour accélérer l'inférence des modèles génératifs score-based et flow-based en RL. La méthode garantit la convergence au niveau distribution et améliore les performances en offline-to-online RL sur les benchmarks D4RL.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·29 mai

Ensemble Score Filtering for Real-Data Energy Consumption Forecast Correction

Méthode de correction de prévisions de consommation énergétique combinant un modèle spatio-temporel préentraîné avec l'Ensemble Score Filter (EnSF). EnSF utilise des modèles de diffusion basés sur les scores pour assimiler des observations partielles et bruitées. Tests sur données réelles montrent que EnSF surpasse l'Ensemble Kalman Filter en régime non-linéaire.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.CL·29 mai

What are They Thinking? Delineation, Probing and Tracking of Concepts in LLMs

Méthode pour créer des sondes linéaires détectant des concepts dans les embeddings des LLM. Les auteurs définissent un processus : délineation du concept via datasets contrastés, entraînement de sondes par couche, suivi sur contextes larges. Testé sur 4 concepts et 3 LLM différents. Objectif : monitoring scalable de nouveaux modèles.

Embeddings Évaluations

SIG

HYP

arXiv cs.CL·29 mai

A Modular Architecture for Typologically Controlled Lexicon Generation

Framework modulaire pour générer des lexiques artificiels prononçables et typologiquement plausibles. Utilise PHOIBLE pour les inventaires phonémiques, trois grammaires phonologiques (déterministe, OT, MaxEnt), et une ontologie Swadesh-Leipzig-Jakarta. Évaluation sur perplexité n-grammes et divergence KL : les grammaires probabilistes surpassent les baselines sur 100-5000 formes.

Papers Benchmarks

SIG

HYP

arXiv cs.CL·29 mai

Transcribing Children's Speech: ASR Performance and Obtaining Reliable Orthographic Transcriptions

Étude comparative de 9 modèles ASR (Whisper, Parakeet, Wav2Vec2) sur la parole enfantine en néerlandais. Whisper-medium fine-tuné atteint 5,54% WER sur JASMIN et 70,37% sur DART. Une méthode de sélection au niveau des énoncés identifie 42% (JASMIN) et 18,1% (DART) des utterances comme correctement prononcées avec précision ≥98,3%, réduisant le besoin de vérification manuelle.

Benchmarks Voix Évaluations

SIG

HYP

arXiv cs.CL·29 mai

Assessing Dutch Syllabification Algorithms and Improving Accuracy by Combining Phonetic and Orthographic Information through Deep Learning

Étude comparative de quatre algorithmes de syllabification du néerlandais (Brandt Corstius, Liang, Trogkanis-Elkan CRF, et un modèle deep learning). Le modèle deep learning combinant informations phonétiques et orthographiques atteint 99,65% de précision (+0,14% vs littérature). Les algorithmes data-driven surpassent l'approche basée sur des règles.

Papers Benchmarks Génération de code

SIG

HYP

arXiv cs.CL·29 mai

Thoughts-as-Planning: Latent World Models for Chain-of-Thoughts Optimization via Reinforcement Planning

Thoughts-as-Planning formalise l'optimisation des chaînes de raisonnement comme un processus de décision séquentielle sur un espace sémantique latent. Le framework apprend un modèle du monde latent simulant l'effet des édits de chaînes de raisonnement sur les sorties, supportant édits multi-échelle (token, segment, instruction) via planification par descente de gradient ou RL.

Raisonnement Reinforcement learning Prompt engineering

SIG

HYP

arXiv cs.CL·29 mai

GPF-LiveNews: A Streaming Evaluation Protocol for Group-Conditioned Framing in Large Language Models

GPF-LiveNews est un protocole d'évaluation en continu pour auditer comment les LLM encadrent les événements d'actualité pour différents publics. Testé sur 23 modèles et 12 cycles de monitoring, il mesure les variations sémantiques et de sentiment selon 42 labels d'identité. Les résultats montrent que les prompts Policy/Action produisent le plus fort mouvement sémantique.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·29 mai

From Data to Insights: Exploring Program-of-Thoughts Prompting for Chart Summarization

Article proposant une méthode de résumé de graphiques via Program-of-Thoughts (PoT) : les VLMs génèrent des programmes Python pour extraire des statistiques valides plutôt que du texte direct. Introduit une tâche auxiliaire chart-to-dictionary. Résultats comparables aux méthodes existantes sur métriques sémantiques et factuelles.

Prompt engineering Vision Raisonnement

SIG

HYP

arXiv cs.CL·29 mai

The Trust Paradox: How CS Researchers Engage LLM Leaderboards

Étude qualitative auprès de 8 chercheurs en IA révélant un paradoxe : ils se méfient des classements LLM mais les utilisent quand même. Les réseaux pairs dominent la sélection de modèles. Les chercheurs en NLP subissent une pression SOTA absente en HCI/Systèmes. Demande unanime : transparence des coûts.

Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·29 mai

Beyond Recall: Behavioral Specification as an Interpretive Layer for AI Personalization

Chercheurs proposent une « couche interprétative » (Behavioral Specification) pour personnaliser les décisions d'IA selon les préférences utilisateur. Testée sur 14 corpus autobiographiques, elle améliore la précision représentationnelle de 25× avec moins de contexte que le corpus brut, tout en réduisant l'hésitation du modèle. Efficace sur questions d'interprétation, moins sur questions factuelles.

Alignement RAG Agents IA

SIG

HYP

Vercel AI Blog·29 mai

Protecting against token theft

Vercel alerte sur le vol d'inférence IA : une requête à un modèle frontier coûte ~$2, créant une opportunité lucrative pour les attaquants. Les limites de débit et l'authentification par session sont insuffisantes ; Vercel propose BotID pour vérifier chaque requête IA individuellement et prévenir les pertes massives.

Sécurité IA Infrastructure Business

SIG

HYP

arXiv cs.CL·29 mai

LLMBridge: An LLM Pipeline for End-to-end Referential Bridging Resolution in English

LLMBridge est un système basé sur LLM pour la résolution de bridging référentiel en anglais. Le pipeline combine pré/post-traitement heuristique avec l'inférence en langage naturel des LLM. Évalué sur ISNotes, BASHI et GUMBridge, il surpasse l'état de l'art sur les trois datasets en configuration end-to-end et gold anaphor.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·29 mai

Bosses, Kings, and the Commons: Cooperation Under Power Asymmetry in LLM Societies

SovSim, un framework de simulation multi-agent, évalue comment 11 modèles LLM gèrent les ressources communes sous structures de pouvoir asymétriques. Résultat : l'introduction d'un agent avec pouvoir disproportionné (boss/roi) provoque une dégradation de 87,3% du taux de survie et des effondrements de coopération comparé aux paramètres symétriques.

Multi-agents Agents IA Benchmarks

SIG

HYP

arXiv cs.CL·29 mai

Analyzing Persona Effects in Generated Explanations from Multimodal LLM Agents in Urban Perception

Étude de l'effet des personas sur les explications générées par des agents multimodaux LLM en perception urbaine. Analyse de 59,808 annotations de 1,200 agents avec personas : les légendes convergent fortement, les justifications varient selon les attributs socioéconomiques/politiques, les tags de perception restent stables.

Vision Agents IA Prompt engineering

SIG

HYP

arXiv cs.CL·29 mai

Slogans or Stance? A Label-Light Diagnostic for Entrepreneurial-Discourse Measurement on Chinese SOE Speeches

Diagnostic de mesure pour évaluer des construits comme l'« esprit entrepreneurial » dans des discours d'entreprises chinoises. Sur 80 discours de dirigeants d'entreprises d'État, les auteurs testent LDA, des scoreurs dictionnaires et Qwen3.5:9b. Le modèle LLM atteint d=1.09 en contraste appairé, mais la moitié de l'effet provient du style du locuteur. Corpus de 2 190 segments et lexique de slogans publiés.

Benchmarks Évaluations Qwen

SIG

HYP

arXiv cs.CL·29 mai

Wait! There's a Way Out: A Decision Mechanism for Forecasting Conversational Derailment

Méthode pour prédire la dégénérescence conversationnelle (insultes personnelles) en ligne. Découple la décision d'alerte de l'estimation de probabilité en utilisant des simulations prospectives pour évaluer les chemins de récupération possibles. Réduit les faux positifs sans sacrifier la précision.

Papers Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·29 mai

Mind Your Tone: Does Tone Alter LLM Performance?

Étude sur l'impact du ton des prompts sur la performance des LLM. Tests sur ChatGPT-4o, ChatGPT-5-nano, Gemini 2.5 Flash/Lite avec 50 questions de base et 570 questions MMLU (57 sujets) en 5-7 variantes tonales. Résultats : effets tonals systématiques mais très dépendants du modèle, avec variations d'accuracy significatives selon le sujet.

Prompt engineering Benchmarks Évaluations

SIG

HYP