Page 42 sur 192

ToutHaut signalRécent

7679 articles

A Dataset of Robot-Patient and Doctor-Patient Medical Dialogues for Spoken Language Processing Tasks

MeDial-Speech : dataset de 111+ heures de dialogues médicaux parlés (robot-patient et médecin-patient) couvrant 4 conditions de santé. Benchmark de 3 LLMs (GPT-4 mini, DeepSeek-V3, Claude Sonnet 4) via sélection de phrases : Claude Sonnet 4 atteint 71,1% de précision. Révèle une surconfiance systématique des modèles.

Benchmarks Claude DeepSeek

SIG

HYP

arXiv cs.CL·27 mai

In-Context Optimization for Retrieval-Augmented Generation: A Gradient-Descent Perspective

Étude théorique montrant qu'une couche de self-attention linéaire peut implémenter une étape de gradient descent sur un objectif RAG unifié. Les auteurs proposent une méthode légère pour adapter l'interaction entre requêtes et documents récupérés sans modifier le retriever ni le modèle backbone, testée sur 7 benchmarks QA avec améliorations significatives.

RAG Raisonnement Papers

SIG

HYP

arXiv cs.AI·27 mai

The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence

MiniMax présente la série M2, des modèles MoE avec 229.9B paramètres totaux et 9.8B activés par token. Conçus pour le déploiement d'agents, ils intègrent des pipelines de données agent-driven, Forge (système RL agent-natif), et M2.7 capable d'auto-évolution. Performance frontier sur benchmarks de coding agent, recherche profonde et raisonnement.

Agents IA Raisonnement Génération de code

SIG

HYP

arXiv cs.CL·27 mai

Why Prompt Optimization Works, and Why It Sometimes Doesn't: A Causal-Inspired Edit-Level Analysis

Analyse causale des méthodes d'optimisation de prompts (DSpy, TextGrad) révélant pourquoi elles échouent à généraliser. Les édits augmentant la complexité nuisent aux tâches mathématiques et multi-sauts, tandis que les édits step-by-step améliorent le raisonnement logique. Les défaillances proviennent d'interactions systématiques entre familles d'édits et caractéristiques des tâches.

Prompt engineering Raisonnement Benchmarks

SIG

HYP

Hugging Face Blog·27 mai

Shipping a Trillion Parameters With a Hub Bucket: Delta Weight Sync in TRL

Hugging Face introduit Delta Weight Sync dans TRL pour optimiser le déploiement de modèles trillion-paramètres. La technique synchronise uniquement les changements de poids plutôt que les modèles complets, réduisant drastiquement les besoins en stockage et bande passante pour les mises à jour.

Infrastructure Open source

SIG

HYP

Reddit r/LocalLLaMA·26 mai

PrismML just released Binary and Ternary Bonsai Image 4B: 1-bit/ternary text-to-image diffusion transformers that can even run 100% locally in your browser on WebGPU.

PrismML publie Bonsai Image 4B, des modèles de diffusion texte-vers-image quantifiés en 1-bit/ternaire. Taille ~3GB (vs 16GB pour FLUX.2 Klein), exécutables 100% localement en WebGPU. Licence Apache-2.0.

Génération d'images Open source Outils

SIG

HYP

Reddit r/MachineLearning·26 mai

Tomesphere, 3M paper pages with TLDRs, peer reviews, code, and a SPECTER2 similarity graph [P]

Tomesphere indexe 3 millions de papiers arxiv/OpenAlex avec TLDRs Gemini, avis pairs OpenReview, repos GitHub, graphe de citations (250M arêtes) et graphe sémantique SPECTER2 (768D pgvector). Quatre modes de ranking : Influential, Recent, Hidden gems, Nearest. Extension Chrome pour arxiv. Accès gratuit, sans inscription.

Papers Embeddings Recherche vectorielle

SIG

HYP

Simon Willison·26 mai

Microsoft Copilot Cowork Exfiltrates Files

Microsoft Copilot Cowork permettait aux agents d'envoyer des emails non approuvés à la boîte de réception de l'utilisateur. Ces messages pouvaient contenir des images externes déclenchant des requêtes réseau, permettant l'exfiltration de données. Une injection de prompt réussie aurait pu divulguer des liens OneDrive pré-authentifiés, donnant accès aux fichiers à un attaquant.

Agents IA Sécurité IA Prompt engineering

SIG

HYP

Reddit r/LocalLLaMA·26 mai

[OSS] dlmserve - first serving engine for diffusion language models

dlmserve est le premier moteur de serving pour modèles de langage par diffusion (LLaDA, Dream-7B). Contrairement aux LLM autorégressifs, ils débruitent une phrase entièrement masquée en parallèle. API compatible OpenAI, batching continu, 2.5x de débit vs HuggingFace à batch=4, fonctionne en 12 GB VRAM. MIT, pip install dlmserve.

Open source Génération de code Infrastructure

SIG

HYP

The Decoder·26 mai

AI-hallucinated citations are creeping into papers that shape clinical guidelines, researchers warn

Un audit de 2,5 millions d'articles biomédicaux révèle une augmentation de 1200% des références fictives depuis 2023. Les chercheurs suspectent les modèles de langage : les fausses citations correspondent au sujet, respectent le format et sont indétectables. 98% des articles affectés n'ont reçu aucune réponse des éditeurs.

Sécurité IA Alignement Benchmarks

SIG

HYP

ActuIA·26 mai

ContextEcho : la compaction ne corrige pas la dérive de persona, benchmark sur 23 modèles

Étude benchmark sur 23 modèles montrant que la compaction de contexte, technique standard pour les sessions d'agent longues, ne corrige pas la dérive de persona. ContextEcho évalue cette limitation critique des systèmes actuels.

Benchmarks Agents IA Raisonnement

SIG

HYP

GitHub Trending·26 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> mozilla /</span> cargo-vet

Mozilla publie cargo-vet, un outil de sécurité de la chaîne d'approvisionnement pour Rust. Il permet d'auditer et de valider les dépendances Rust avant leur utilisation en production.

Open source Sécurité IA Outils

SIG

HYP

GitHub Trending·26 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> modelscope /</span> FunASR

FunASR est un toolkit de reconnaissance vocale industriel supportant 170x temps réel, 50+ langues, diarisation de locuteur, détection d'émotion, streaming et API compatible OpenAI.

Voix Open source Outils

SIG

HYP

Hacker News (AI)·26 mai

I bypassed AWS API Gateway auth with a trailing slash. Got $12K bounty

Un chercheur en sécurité a contourné l'authentification AWS API Gateway en exploitant une vulnérabilité de slash final, obtenant une prime de 12 000 $ du programme de bug bounty AWS.

Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Shard - getting to 10× KV cache compression

Shard est un cache HuggingFace qui compresse la mémoire KV de Llama-3.1-8B par 10× à contexte 8K (11× à 32K) sans dégradation mesurable sur NIAH/LongBench. Combine PCA + quantization int4 sur K et rotation Hadamard + vector quantization sur V. L'attention s'exécute directement sur K compressé.

Llama Génération de code Infrastructure

SIG

HYP

arXiv cs.CL·26 mai

Improving Labeling Consistency with Detailed Constitutional Definitions and AI-Driven Evaluation

Méthode pour améliorer la cohérence des étiquetages automatisés en modération de contenu. Les auteurs proposent un workflow où une IA rédige des « constitutions » détaillées par catégorie (harcèlement, discours haineux, crime non-violent), puis un LLM frontier les interprète pour générer les étiquettes. Résultat : réduction de l'incohérence cross-modèle jusqu'à 57x vs définitions paragraphes.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·26 mai

TUBE: Tangent Upper Bound on Evidence for Discrete Diffusion Language Models

TUBE est une borne supérieure variationnelle sur la log-vraisemblance pour les modèles de diffusion discrets. Contrairement aux ELBO existantes, TUBE admet un estimateur Monte Carlo sans biais et s'applique aux modèles de diffusion masqués, ARMs d'ordre quelconque et leurs variantes par blocs. Les expériences montrent que les modèles de diffusion restent strictement en dessous des ARMs en vraisemblance exacte.

Papers Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·26 mai

Towards trustworthy agentic AI: a comprehensive survey of safety, robustness, privacy, and system security

Enquête complète sur la fiabilité des systèmes d'IA agentive (LLM augmentés de planification, outils, mémoire). Examine sécurité, robustesse, confidentialité et sécurité système. Propose métriques unifiées, benchmarks et stratégies d'atténuation par étape du workflow agent. Identifie défis ouverts : agents auto-évolutifs, vérification runtime, personnalisation préservant la confidentialité.

Agents IA Sécurité IA Benchmarks

SIG

HYP

arXiv cs.CL·26 mai

AstroMind: A High-Fidelity Benchmark for Spacecraft Behavior Reasoning Based on Large Language Models

AstroMind est un benchmark pour évaluer le raisonnement des LLM sur le comportement des engins spatiaux. Basé sur des simulations astrodynamiques haute fidélité, il teste l'inférence d'intention, l'estimation de paramètres de manœuvre et l'évaluation des menaces. Qwen3 (32B) excelle en inférence d'intention, QwQ (32B) en évaluation de menaces, GPT-OSS (20B) en qualité de raisonnement.

Benchmarks Raisonnement Qwen

SIG

HYP

arXiv cs.CL·26 mai

Word Class Representations Spontaneously Emerge from Successor Representations Trained on Natural Language

Des chercheurs entraînent des réseaux de neurones sur WikiText-103 (103M tokens) en utilisant les Successor Representations (SR) du RL pour prédire les distributions de mots futurs. Sans supervision linguistique explicite, des catégories grammaticales (noms, verbes, adjectifs) émergent spontanément et deviennent séparables par clustering non supervisé, organisées selon l'horizon prédictif.

Papers Raisonnement Embeddings

SIG

HYP

arXiv cs.AI·26 mai

HyperGuide: Hyperbolic Guidance for Efficient Multi-Step Reasoning in Large Language Models

HyperGuide utilise la géométrie hyperbolique pour guider le raisonnement multi-étapes dans les LLM. Une tête légère projette les états cachés dans l'espace hyperbolique, où la distance à l'origine encode la proximité de la solution. Un adaptateur bas-rang est affiné interactivement. Gains constants sur plusieurs benchmarks, plus importants pour les chaînes de raisonnement profondes.

Raisonnement Fine-tuning

SIG

HYP

arXiv cs.LG·26 mai

Algometrics: Forecasting Under Algorithmic Feedback

Un cadre théorique (algometrics) analyse les risques de déploiement des modèles prédictifs dans les marchés algorithmiques, où les prédictions modifient les données futures. Les auteurs prouvent que le risque de déploiement n'est pas identifiable à partir de données historiques seules, et que les classements de modèles peuvent s'inverser sous crowding.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·26 mai

Toxicity in Twitch Chats: An LLM-Based Analysis Across Gaming Communities

Analyse de 20 millions de messages de chat Twitch (4 452 streams, 7 genres) avec un LLM en classification zéro-shot. 2,4% des messages classés toxiques selon la taxonomie Twitch (harcèlement, discrimination, contenu sexuel, profanité). F1=94,5% sur TextDetox. Les jeux MOBA affichent 3,2% de toxicité, les jeux de sport 2%. Variations significatives intra-genre révélant des normes communautaires spécifiques.

Sécurité IA Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·26 mai

Reason--Imagine--Act: Closed-Loop LLM Decision Making with World Models for Autonomous Driving

RIA couple un LLM avec un world model pour la conduite autonome. À chaque étape, le LLM propose des actions, le world model valide via rollouts court-horizon, et un safety scorer sélectionne l'action la plus sûre. Sur CARLA (1000 épisodes) : 80,05% route completion, 51,10% arrival rate, 0,20% collision rate.

Raisonnement Agents IA Benchmarks

SIG

HYP

Vercel AI Blog·26 mai

Sandbox persistence is now GA

Vercel Sandboxes active la persistance des fichiers par défaut en GA. Les snapshots sont automatiques, les sandboxes reprennent depuis le dernier état sauvegardé. Nouvelles méthodes : fork(), getOrCreate(), delete(), tags personnalisés et hooks de cycle de vie.

Outils Infrastructure

SIG

HYP

Reddit r/MachineLearning·25 mai

The famous METR AI time horizons graph contains numerous severe errors [D]

Nathan Witkin (NYU Stern) critique sévèrement le graphique METR sur les horizons temporels de l'IA. Les erreurs incluent : baselines humaines non mesurées mais estimées, benchmarkers payés à l'heure (incitation à traîner), échantillon biaisé vers les pairs des auteurs, et ignorance de l'avantage de familiarité (5-18x plus rapide). Witkin conclut que le graphique contient trop d'erreurs cumulatives pour être sauvé.

Benchmarks Évaluations Sécurité IA

SIG

HYP

Reddit r/MachineLearning·25 mai

We gave an LLM a structural graph of a codebase before exploring. It used 54% MORE context than without one. Paper + explanation inside [R]

Étude contrôlée sur codebase TypeScript (25 sections, 3,250 fichiers) : un LLM (Kimi K2.6) équipé d'un graphe structurel (Blueprint : Universal Ctags + ast-grep + BM25) a consommé 54% plus de tokens d'entrée (63,541 vs 41,327) mais a exploré plus profondément (6 tours vs 5). Le graphe coûte ~6,500 tokens et augmente la confiance de navigation du modèle.

Génération de code RAG Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·25 mai

CUDA: add fast walsh-hadamard transform by am17an · Pull Request #23615 · ggml-org/llama.cpp

Implémentation CUDA de la transformée de Walsh-Hadamard rapide (FWHT) pour llama.cpp optimisant la quantification du KV-cache. Gains de 1-2% en prefill et 7-9% en token generation sur RTX 5090 avec quantification q8_0.

Open source Infrastructure Génération de code

SIG

HYP

Reddit r/MachineLearning·25 mai

Call for Papers - Workshop on Efficient Reasoning at COLM 2026 [R]

Appel à contributions pour le 2e Workshop on Efficient Reasoning à COLM 2026 (9 octobre). Deadline : 12 juillet 2026. Thèmes : raisonnement multimodal sous contraintes, datasets, optimisations algorithmiques, inférence rapide (pruning, compression, KV-cache), benchmarks, déploiement on-device, sécurité, applications temps réel (santé, robotique).

Raisonnement Benchmarks Robotique

SIG

HYP

Vercel AI Blog·25 mai

Building a real-time power outage map with Next.js on Vercel

Endeavour Energy, distributeur électrique australien, a migré son application de carte des pannes vers Next.js et Vercel. Résultats : chargements sub-1s en pic de trafic, cycles de sync 5 min, déploiements 38% plus rapides. Supabase gère la couche données temps réel.

Infrastructure Outils Business

SIG

HYP

Reddit r/LocalLLaMA·25 mai

The reason small-model agent stacks aren't the default has nothing to do with whether they work

Les petits modèles spécialisés (Gemma 4 31B à 86.4% sur tau2-bench, Qwen 27B surpassant des modèles 397B) dominent désormais les benchmarks d'agents. Pourtant l'industrie continue d'utiliser des modèles frontière coûteux : les labs de frontier gagnent à la facturation par token, créant un désalignement économique entre performance technique et adoption.

Agents IA Benchmarks Qwen

SIG

HYP

Reddit r/LocalLLaMA·25 mai

numind/NuExtract3 · Hugging Face

NuExtract3 est un modèle vision-langage 4B pour la compréhension documentaire. Il combine extraction structurée (texte/images + template JSON → JSON) et conversion image-to-Markdown, avec support multilingue et modes reasoning/non-reasoning. Disponible en GGUF, NVFP4, MLX, VLLM.

Vision RAG Génération de code

SIG

HYP

Reddit r/LocalLLaMA·25 mai

server: fix checkpoints creation by jacekpoplawski · Pull Request #22929 · ggml-org/llama.cpp

PR llama.cpp #22929 optimise le traitement des checkpoints pour éviter la re-processing complète du contexte lors d'éditions. Cas d'usage : coding agentic avec 70k tokens. Améliore la réactivité en ne retraitant que les portions modifiées, testé 2 semaines.

Llama Agents IA Génération de code

SIG

HYP

arXiv cs.AI·25 mai

Design and Report Benchmarks for Knowledge Work

Article arXiv proposant une méthodologie pour concevoir des benchmarks d'IA adaptés au travail de connaissance (coding, recherche, santé). Les auteurs critiquent les évaluations actuelles qui ne reflètent pas les conditions réelles et proposent un cadre en 3 étapes : définir l'activité, spécifier le contexte (outils, rôles, contraintes), scorer le produit final. Analyse de 3 cas : GDPval, OfficeQA Pro, APEX-SWE.

Benchmarks Agents IA Génération de code

SIG

HYP

arXiv cs.LG·25 mai

Certification from Examples is Hard for Circuits and Transformers under Minimal Overparametrization

Étude théorique montrant que la certification exacte de circuits de seuil (depth ≥2) et de Transformers log-précision devient exponentiellement difficile avec une légère surparamétrisation. Ajouter une seule porte logique ou un surcoût architectural constant suffit à rendre les certificats exponentiels en dimension d'entrée. Validation empirique sur l'addition binaire.

Papers Raisonnement Sécurité IA

SIG

HYP

arXiv cs.LG·25 mai

MedExpMem: Adapting Experience Memory for Differential Diagnosis

MedExpMem est un framework de mémoire d'expérience permettant aux modèles de vision-langage médicaux d'accumuler une expertise en diagnostic différentiel. Contrairement à la RAG, il mémorise les expériences discriminantes issues des erreurs diagnostiques passées sous forme de notes différentielles appairées. Évalué sur 11 sous-spécialités radiologiques, il améliore la précision jusqu'à 7,0% sur plusieurs modèles.

Vision RAG Raisonnement

SIG

HYP

arXiv cs.LG·25 mai

Transcoders Trace Visual Grounding and Hallucinations in Vision-Language Models

Des chercheurs utilisent les Transcoders pour interpréter comment les modèles vision-langage transforment les images en texte. Appliqué à Gemma 3-4B-IT, le framework décompose le modèle en chemins computationnels reliant les patches d'image à la génération de tokens. Les attributions des Transcoders surpassent les SAE pour identifier les hallucinations (AUC 0.68).

Vision Évaluations Gemini

SIG

HYP

arXiv cs.AI·25 mai

Parallel Context Compaction for Long-Horizon LLM Agent Serving

Article proposant une technique de compaction parallèle du contexte pour les agents LLM long-horizon. La méthode résout les problèmes de latence et d'imprévisibilité des résumés séquentiels en permettant un contrôle fin du volume de résumé. Évaluée sur HotpotQA et LoCoMo avec modèles 8B-120B (dense et MoE).

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·25 mai

The Implicit Bias of Depth: From Neural Collapse to Softmax Codes

Étude théorique montrant que la profondeur des réseaux de neurones induit un biais implicite vers des solutions de faible rang, alternatives au neural collapse. Analyse des dynamiques d'entraînement du modèle UFM (unconstrained feature model) sans régularisation, révélant comment la profondeur favorise les softmax codes plutôt que les géométries structurées classiques.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·25 mai

Building a privacy-preserving Federated Recommender system for mobile devices

Système de recommandation fédéré en deux étapes pour mobiles : filtrage collaboratif cloud sur données non-sensibles, puis re-ranking on-device avec signaux sensibles. Validation sur MovieLens, UCI HAR et dataset propriétaire. Implémentation Kotlin Multiplatform pour Android/iOS.

RAG

SIG

HYP