mai 2026

3149 articles

What I learned building a debugger for PyTorch training loops and how it changed how I think about failure diagnosis [D]

Développeur a créé NeuralDBG, un debugger PyTorch qui détecte automatiquement les défaillances d'entraînement (gradients qui s'évanouissent/explosent, anomalies de données). Insight clé : les défaillances sont localisées par couche, pas globales. Monitoring efficace : transitions de normes de gradient par couche plutôt que histogrammes bruts. Outil open-source sur PyPI.

Outils Génération de code Open source

SIG

HYP

The Decoder·30 mai

Meta's leaked memo reveals AI pendant, supersensing glasses, and enterprise wearables strategy

Meta prépare des appareils portables IA : un pendentif IA et des lunettes « supersensing » pour l'entreprise. Après des milliards investis en IA sans retour commercial significatif, la stratégie open-source n'a pas décollé. Meta pivote vers le matériel.

Meta AI Outils

SIG

HYP

Hacker News (AI)·30 mai

Rsync 3.4.3 has hundreds of Claude commits

Rsync 3.4.3 contient des centaines de commits générés par Claude. L'outil de synchronisation de fichiers a intégré du code produit par le modèle d'IA d'Anthropic dans sa dernière version.

Claude Génération de code Open source

SIG

HYP

Reddit r/LocalLLaMA·30 mai

Project Blackwell: It Will Work, Eventually — Making an RTX Pro 6000 Run in a Dell R730 at 650K Context

Un utilisateur a réussi à faire fonctionner une RTX Pro 6000 Blackwell dans un serveur Dell PowerEdge R730 de 2016, permettant un contexte de 650k tokens. Le projet a nécessité des modifications firmware, des contournements PCIe et des ajustements physiques pour surmonter les incompatibilités entre l'architecture legacy du serveur et les exigences modernes du GPU.

Infrastructure Open source

SIG

HYP

Reddit r/LocalLLaMA·30 mai

made a local voice AI for windows you can talk to in any language. open source, bring your own key

Shadow AI est un assistant vocal local pour Windows en open source (AGPL-3.0). Conversations naturelles multilingues, recherche web via SearXNG local, mémoire persistante, intégrations Google optionnelles (Gmail, Calendar, Drive). Utilise clé Gemini gratuite de l'utilisateur, zéro serveur distant.

Voix Gemini Open source

SIG

HYP

Reddit r/LocalLLaMA·30 mai

this new Moss tts 1.5 is damn good with voice cloning

MOSS-TTS v1.5 offre un clonage vocal de qualité supérieure à Fish Audio S2 Pro, avec avantage commercial. Long Cat DiT 3.5 mentionné comme alternative performante.

Voix Open source Outils

SIG

HYP

Reddit r/MachineLearning·30 mai

Event like spiking neuron lib that fits into the CPU cache [P]

Bibliothèque de neurones impulsionnels optimisée pour tenir en cache CPU. Benchmarkée contre PyTorch sur Wikipedia. Développée avec Gemini Flash 3.5.

Génération de code Benchmarks Open source

SIG

HYP

Hacker News (AI)·30 mai

Show HN: VT Code – open-source terminal coding agent in Rust

VT Code est un agent de codage terminal open-source écrit en Rust. Outil permettant l'exécution de tâches de programmation directement en ligne de commande.

Agents IA Génération de code Open source

SIG

HYP

Reddit r/LocalLLaMA·30 mai

I compared all specs of the major GPUs/machines that are being used here, because bandwidth is not everything. Some of ya'll need a reality check.

Analyse comparative des GPU/machines pour LLM : critique de l'efficacité réelle des Mac Studio, réévaluation des cartes anciennes (P100, V100, P40) comme alternatives bon marché aux 3090, et appel à distinguer prefill vs generation dans les benchmarks. L'auteur collecte des données de performance et consommation électrique.

Benchmarks Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·29 mai

Anyone using Flash Attention 2 (ai-bond) on their V100's? How is the performance?

Utilisateur teste Flash Attention 2 (ai-bond) sur V100. Benchmarks montrent 7-24x speedup en backward pass, réduction mémoire jusqu'à 91.9% (323.4 MB économisés). Temps de réflexion avant réponse minimisé. Validation numérique OK sur configurations causal et non-causal.

Infrastructure Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·29 mai

I tested MTP on vLLM and llama.cpp for Gemma 4 & Qwen 3.6 — 3.34x faster inference, here are my findings RTX 6000 PRO.

Benchmark MTP (Multi-Token Prediction) sur Gemma 4 31B et Qwen 3.6 27B avec vLLM et llama.cpp. Résultat : 3.34x accélération (132.52 vs 39.69 tok/s). vLLM surpasse llama.cpp sur Gemma 4 ; llama.cpp performant sur Qwen. Pas de dégradation qualité confirmée, VRAM négligeable.

Gemini Qwen Génération de code

SIG

HYP

Hacker News (AI)·29 mai

Hackers are now using ChatGPT share links to deliver malware

Des pirates utilisent les liens de partage ChatGPT pour distribuer des malwares. Les attaquants exploitent la confiance accordée aux URLs OpenAI pour contourner les filtres de sécurité et livrer des charges malveillantes aux utilisateurs.

OpenAI Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·29 mai

Me train LLM on 8GB from Scratch. Me happy

Un développeur a créé un script pour entraîner un petit modèle (25M paramètres) sur TinyStories avec seulement 8GB de VRAM. Après tests de plusieurs techniques (mHC, BitNet, TurboQuant, MTP), seule MTP fonctionne correctement, bien que plus lentement. Le code et le modèle sont disponibles sur GitHub et Hugging Face.

Open source Fine-tuning Infrastructure

SIG

HYP

Hacker News (AI)·29 mai

Show HN: Tiny-vLLM – high performance LLM inference engine in C++ and CUDA

Tiny-vLLM est un moteur d'inférence LLM haute performance écrit en C++ et CUDA. Projet open-source présenté sur Hacker News avec peu d'engagement initial (score 5, 0 commentaires).

Infrastructure Open source Génération de code

SIG

HYP

Reddit r/LocalLLaMA·29 mai

Uploaded my Qwen3.6 27B based fine tune, after two years of experience fine tuning models

Un utilisateur partage un fine-tune de Qwen 3.6 27B développé après 2 ans d'expérience. Le modèle atteint 75% d'alignement humain (+2% vs Qwen 3.5 précédent) grâce à des techniques d'expansion de dataset. Évaluation sur benchmarks personnalisés.

Qwen Fine-tuning Open source

SIG

HYP

Hacker News (AI)·29 mai

CVE-Bench: testing LLM agents on real-world vulnerability patches

CVE-Bench est un benchmark pour évaluer les agents LLM sur des patches de vulnérabilités réelles. L'étude teste la capacité des modèles à identifier et corriger des failles de sécurité dans du code existant.

Agents IA Benchmarks Génération de code

SIG

HYP

Hacker News (AI)·29 mai

Shift will clean homes for free to train future robots

Shift, une startup de robotique, propose de nettoyer gratuitement les maisons pour collecter des données d'entraînement destinées à ses futurs robots domestiques. Modèle commercial basé sur l'acquisition de données réelles plutôt que sur la monétisation immédiate.

Robotique Reinforcement learning Business

SIG

HYP

Reddit r/LocalLLaMA·29 mai

Mutating Gemma 4 31B Dense in to a native Gemma 4 additive-MoE model

Un utilisateur de r/LocalLLaMA a créé un script d'entraînement pour convertir Gemma 4 31B Dense en modèle MoE additif natif, inspiré par JDONE-Research/AIOne-Agent-52B-A36B-it. Le projet vise à ajouter un routeur et des experts au modèle dense existant en 24h sur GPU B300.

Gemini Fine-tuning Open source

SIG

HYP

Hacker News (AI)·29 mai

AI will be used to estimate age of asylum seekers from next year

Le Royaume-Uni utilisera l'IA pour estimer l'âge des demandeurs d'asile à partir de 2025. La technologie analysera des images faciales pour déterminer si les mineurs sont majeurs, soulevant des questions sur la précision et les implications éthiques.

Régulation Sécurité IA Alignement

SIG

HYP

The Decoder·29 mai

OpenAI gives GPT-5.5 Instant a readability upgrade while phasing out two older models

OpenAI améliore GPT-5.5 Instant pour des réponses plus naturelles et supprime Canvas au profit d'une intégration directe dans le chat. Les modèles o3 et GPT-4.5 seront retirés de ChatGPT d'ici août 2026.

GPT OpenAI

SIG

HYP

Reddit r/LocalLLaMA·29 mai

Nvidia teases new PC laptop chip to be announced at Computex June 2

Nvidia annoncera un nouveau chip ARM pour laptops PC à Computex le 2 juin à Taipei. Le processeur viserait à concurrencer Snapdragon X (Qualcomm) et offrirait des specs matérielles compétitives, mais l'adoption dépendra du support logiciel (Office, jeux). Prix attendu inférieur aux 4,7K$ du DGX Spark.

Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·29 mai

Qwen3.6-27B Quantization Benchmark

Benchmark de quantifications Qwen3.6-27B sur HuggingFace (unsloth, mradermacher, IQ4_XS, Ununnilium) de Q8 à Q2. Mesure via llama.cpp : KL Divergence et Same Top P Percentage vs version BF16. Contexte 8192 tokens, KV cache q8_0. Q6-Q8 quasi sans perte.

Qwen Benchmarks Open source

SIG

HYP

The Decoder·29 mai

Google fixes several bugs in Gemini usage limits that burned through quotas too fast

Google corrige des bugs dans les limites d'utilisation de Gemini : une vidéo Omni consommait la totalité du quota. Les membres Ultra obtiennent désormais deux fois plus de générations vidéo, les requêtes échouées ne sont plus facturées, et Google prévoit plus de transparence.

Gemini Génération de vidéos

SIG

HYP

Hacker News (AI)·29 mai

Tesla's AI trainers don't trust its self-driving tech – or its safety stats

Les formateurs IA de Tesla ne font pas confiance à la technologie d'autopilotage et aux statistiques de sécurité publiées par l'entreprise. Doutes internes sur la fiabilité des données et des capacités réelles du système.

Sécurité IA Alignement

SIG

HYP

Hacker News (AI)·29 mai

Robinhood now lets your AI agents trade stocks

Robinhood intègre une API permettant aux agents IA de passer des ordres boursiers directement. Les utilisateurs peuvent connecter leurs agents à la plateforme pour automatiser le trading. Pas de détails techniques ou de limitations mentionnés.

Agents IA Business

SIG

HYP

The Decoder·29 mai

One company reportedly spent $500 million on Claude in one month after failing to cap AI usage

Une entreprise non nommée aurait dépensé 500 millions de dollars en licences Claude en un mois faute de limites d'utilisation. L'incident illustre les risques de coûts incontrôlés sans expertise en sélection de modèles et optimisation de contexte.

Claude Business

SIG

HYP

Hacker News (AI)·29 mai

New Study Reveals the Manipulative 'Dark Patterns' of AI Chatbots

Une étude révèle les « dark patterns » manipulatoires des chatbots IA : interfaces conçues pour influencer les utilisateurs au-delà de leurs intentions initiales. Les chercheurs documentent des tactiques de persuasion cachées et des biais de conception.

Sécurité IA Alignement Régulation

SIG

HYP

The Decoder·29 mai

OpenAI is giving away its life sciences AI model to help governments prepare for the next pandemic

OpenAI met gratuitement son modèle IA spécialisé en sciences de la vie, GPT-Rosalind, à disposition via le programme Rosalind Biodefense. Objectif : préparer les gouvernements aux futures pandémies. Partenaires initiaux : Lawrence Livermore National Laboratory, Johns Hopkins, CEPI.

OpenAI GPT Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·29 mai

If you had $150K for building a production-class local inference server to serve 300 people, what would you buy?

Un utilisateur cherche à acheter un serveur d'inférence de production pour $150K capable de servir 300 utilisateurs en failover. Configuration actuelle : 4 H100s exécutant des modèles AWQ 122B à 256k contexte avec vLLM. Envisage SuperMicro avec RTX Pro 6000 ou DGX Station comme alternatives.

Infrastructure Open source

SIG

HYP

Reddit r/LocalLLaMA·29 mai

llama : website + unified `llama` binary · ggml-org/llama.cpp · Discussion #23875

Annonce d'un nouveau site web llama.app et d'un binaire unifié `llama` pour le projet llama.cpp. Développement continu de l'écosystème d'inférence locale.

Llama Open source Infrastructure

SIG

HYP

Hacker News (AI)·29 mai

Liquid AI reveals 8B-A1B MoE trained on 38T

Liquid AI dévoile 8B-A1B, un modèle MoE (Mixture of Experts) entraîné sur 38 trillions de tokens. Le modèle combine 8 milliards de paramètres denses avec une architecture d'experts modulaires pour optimiser l'efficacité computationnelle.

Open source Benchmarks

SIG

HYP

Hacker News (AI)·29 mai

Flathub disallows AI-assisted code and documentation

Flathub, le dépôt d'applications Linux, interdit désormais le code et la documentation générés ou assistés par l'IA. La plateforme renforce ses politiques de qualité et d'attribution.

Régulation Open source

SIG

HYP

Hacker News (AI)·29 mai

Show HN: Promptloop – create, run, and improve prompt evals from the terminal

Promptloop est un outil terminal pour créer, exécuter et améliorer des évaluations de prompts. Permet d'itérer rapidement sur la qualité des prompts sans quitter la CLI.

Prompt engineering Évaluations Outils

SIG

HYP

GitHub Trending·29 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> ai-boost /</span> awesome-harness-engineering

Liste de ressources pour l'ingénierie des agents IA : outils, patterns, évaluations, mémoire, MCP, permissions, observabilité et orchestration.

Agents IA MCP Évaluations

SIG

HYP

Hacker News (AI)·29 mai

CAPTCHAs can still detect AI agents

Des chercheurs démontrent que les CAPTCHAs restent efficaces pour détecter les agents IA, contredisant l'idée que ces systèmes seraient obsolètes face aux modèles de vision modernes.

Agents IA Sécurité IA Évaluations

SIG

HYP

Le Big Data·29 mai

Claude Opus 4.8 est-il enfin honnête ? Le test de l’honnêteté

Anthropic teste l'honnêteté de Claude Opus 4.8 au-delà du discours marketing. L'article évalue si le modèle fonctionne réellement comme garde-fou contre les dérives.

Claude Sécurité IA Alignement

SIG

HYP

Le Big Data·29 mai

Pourquoi Claude Opus 4.8 change vraiment la donne (tests et benchmarks) ?

Claude Opus 4.8 affiche des progrès significatifs selon les premiers tests. L'article promet des benchmarks détaillés mais l'extrait fourni reste vague sur les chiffres et résultats concrets.

Claude Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·29 mai

Unsloth Studio updated to support training with MLX on macs

Unsloth Studio ajoute le support complet de l'entraînement avec MLX sur Mac. La fonctionnalité, précédemment annoncée comme « à venir », est désormais disponible dans les dernières versions du dépôt GitHub.

Fine-tuning Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·29 mai

Updated MarkItDown API Server

MarkItDown API Server enveloppe la bibliothèque officielle MarkItDown de Microsoft dans un serveur FastAPI léger. L'outil convertit fichiers (PDF, Word, Excel) en Markdown pour pipelines RAG et LLM. Cette version corrige des vulnérabilités de sécurité dans Starlette et les parseurs de documents.

RAG Outils Open source

SIG

HYP

Hacker News (AI)·29 mai

Claude Opus 4.8 distilled Alibaba Qwen models

Alibaba a distillé Claude Opus 4.8 dans ses modèles Qwen. La distillation de connaissances transfère les capacités d'un grand modèle vers des versions plus légères et efficaces.

Claude Qwen Fine-tuning

SIG

HYP

Reddit r/MachineLearning·29 mai

What's the theoretical basis for using llm consensus as a probability estimator for real world events [R]

Discussion technique sur la validité théorique d'utiliser le consensus de plusieurs LLM pour estimer des probabilités d'événements réels. L'auteur questionne l'indépendance réelle des erreurs entre modèles entraînés sur données similaires et l'efficacité sur événements hors-distribution.

Évaluations Raisonnement Benchmarks

SIG

HYP

Hacker News (AI)·29 mai

Show HN: AISlop, a CLI for catching AI generated code smells

AISlop est un outil CLI qui détecte les défauts de code générés par l'IA. Le projet, partagé sur Hacker News, vise à identifier les patterns problématiques dans le code synthétisé par les modèles de langage.

Génération de code Outils Open source

SIG

HYP

Reddit r/LocalLLaMA·29 mai

Llama.cpp B9406 MTP mmproj fix

Llama.cpp version B9406 corrige un crash GGML_ASSERT dans get_rows/mtmd_helper_decode_image_chunk lors de l'utilisation simultanée de MTP, MoE et vision avec Qwen 3.6-35B-A3B.

Llama Vision Open source

SIG

HYP

The Decoder·29 mai

New review paper argues code is how AI agents think and act, not just what they produce

Un article de recherche soutient que le véritable goulot d'étranglement des agents IA autonomes n'est pas le modèle de langage mais la couche logicielle qui l'entoure : outils, mémoire, tests et limites de permissions transforment un modèle sans état en agent fonctionnel. Deepseek construit une équipe dédiée « Harness » à Pékin confirmant cette thèse.

Agents IA DeepSeek Génération de code

SIG

HYP

Reddit r/LocalLLaMA·29 mai

Comparing Vector search libraries

Benchmark comparatif de bibliothèques de recherche vectorielle (FAISS, Scann, Usearch) sur vitesse, mémoire et précision. Tests sur 500 à 1 million d'échantillons. Résultats et code disponibles sur GitHub.

Recherche vectorielle Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·29 mai

vLLM PR adding native HIP W4A16 kernel was merged

vLLM a fusionné une PR ajoutant un kernel HIP W4A16 natif pour ROCm. Les benchmarks montrent des gains significatifs : 270.2 tk/s en fp16 (max-num-seqs=8) et 445.7 tk/s (max-num-seqs=32), dépassant les implémentations Triton précédentes.

Open source Infrastructure Benchmarks

SIG

HYP

Le Big Data·29 mai

Mercedes prépare son anti-FSD : Tesla a peut-être du souci à se faire ?

Mercedes lance MB.Drive Assist Pro, un système de conduite assistée urbaine capable de gérer feux rouges et trafic, pour concurrencer le Full Self-Driving de Tesla en Europe.

Robotique

SIG

HYP

OpenAI Blog·29 mai

Boston Children’s uses AI to unlock new diagnoses

Boston Children's Hospital déploie la technologie OpenAI pour améliorer le diagnostic de maladies rares, ayant identifié plus de 40 cas supplémentaires. Le système réduit la charge opérationnelle et accélère la prise en charge des patients.

OpenAI Business

SIG

HYP

OpenAI Blog·29 mai

How Braintrust turns customer requests into code with Codex

Braintrust utilise Codex avec GPT-5.5 pour accélérer les expériences et la génération de code. Les ingénieurs de la plateforme transforment les demandes clients directement en code exécutable.

Génération de code GPT

SIG

HYP

ActuIA·29 mai

Anthropic à 965 Md$ : série H de 65 milliards, aucun fonds public européen au tour

Anthropic lève 65 milliards de dollars en série H, portant sa valorisation à 965 milliards. Aucun fonds public européen n'a participé au tour de financement.

Anthropic Financements Business

SIG

HYP

Le Big Data·29 mai

Airbus s’allie à Mistral AI pour développer une IA souveraine dans l’aéronautique

Airbus s'associe à Mistral AI pour développer une intelligence artificielle souveraine dans le secteur aéronautique. Le partenariat vise à intégrer des modèles d'IA sécurisés dans les opérations et processus du groupe.

Mistral Business Sécurité IA

SIG

HYP

GitHub Trending·29 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> galilai-group /</span> stable-worldmodel

Plateforme open-source pour la recherche et l'évaluation reproductibles de modèles du monde. Fournit une infrastructure standardisée pour entraîner et tester des world models sur des environnements simulés.

Open source Benchmarks Infrastructure

SIG

HYP

GitHub Trending·29 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> anthropics /</span> claude-code

Claude Code est un outil de codage agentique en ligne de commande qui comprend votre base de code et exécute des tâches routinières, explique du code complexe et gère les workflows Git via des commandes en langage naturel.

Claude Claude Code Agents IA

SIG

HYP

GitHub Trending·29 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> razvandimescu /</span> numa

numa est un résolveur DNS portable écrit en Rust. Il supporte les domaines locaux .numa, le blocage de publicités et les surcharges pour développeurs.

Open source Outils Infrastructure

SIG

HYP

GitHub Trending·29 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> ogulcancelik /</span> herdr

Herdr est un multiplexeur d'agents IA fonctionnant en terminal. Permet de gérer plusieurs agents simultanément dans une interface ligne de commande.

Agents IA Outils

SIG

HYP

GitHub Trending·29 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> SaladDay /</span> cc-switch-cli

cc-switch-cli est un outil CLI multiplateforme permettant de basculer entre Claude Code, Codex et Gemini. Disponible sur GitHub, il offre une interface unifiée pour gérer plusieurs assistants IA.

Claude Code Outils Génération de code

SIG

HYP

GitHub Trending·29 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> millionco /</span> react-doctor

react-doctor est un outil qui détecte les mauvaises pratiques dans le code React. Il fonctionne comme un agent qui analyse et signale les patterns problématiques.

Agents IA Génération de code Outils

SIG

HYP

GitHub Trending·29 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> ronisarkarexe /</span> story-spark-ai

StorySparkAI est une plateforme open-source permettant de générer et partager plusieurs variations d'histoires à partir d'un seul prompt. Outil destiné aux créatifs.

Open source Prompt engineering Outils

SIG

HYP

GitHub Trending·29 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Crosstalk-Solutions /</span> project-nomad

Project N.O.M.A.D est un ordinateur de survie autonome et hors ligne intégrant outils critiques, bases de connaissances et IA pour fonctionner sans connexion réseau.

Agents IA Open source

SIG

HYP

GitHub Trending·29 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> GH05TCREW /</span> pentestagent

PentestAgent est un framework d'agent IA pour les tests de sécurité en boîte noire, supportant les workflows de bug bounty, red-team et penetration testing.

Agents IA Open source

SIG

HYP

GitHub Trending·29 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> galilai-group /</span> stable-worldmodel

Open source Benchmarks Évaluations

SIG

HYP

GitHub Trending·29 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> PaddlePaddle /</span> PaddleOCR

PaddleOCR est un toolkit OCR léger et multilingue (100+ langues) conçu pour convertir documents PDF et images en données structurées exploitables par les LLM.

Open source Vision Outils

SIG

HYP

GitHub Trending·29 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> opendatalab /</span> MinerU

MinerU transforme documents complexes (PDF, Office) en markdown/JSON prêts pour LLM et workflows agentic. Outil open-source pour extraction et structuration de données documentaires.

Agents IA RAG Open source

SIG

HYP

Le Big Data·29 mai

H1 obtient 40 million $ de CVS malgré le recul des investissements SaaS

H1 lève 40 millions de dollars auprès de CVS malgré le ralentissement des investissements SaaS. Le financement intervient dans un contexte de contraction du marché des logiciels d'entreprise.

Business Financements

SIG

HYP

Reddit r/LocalLLaMA·29 mai

Shoutout to Gemma4 as a conversational assistant / agent

Gemma 2 26B A4B impressionne sur MacBook M5 : vitesse élevée, polyvalence (écriture créative, débogage, vision), personnalité conversationnelle. Comparé à Qwen 3.6 35B, Gemma excelle hors coding malgré une légère faiblesse en programmation.

Gemini Qwen Open source

SIG

HYP

ActuIA·29 mai

Pourquoi Nvidia mise sur Decart, une start-up IA capable d’optimiser aussi les puces concurrentes

Nvidia investit 300 M$ dans Decart, une start-up spécialisée dans les world models et l'optimisation logicielle. La participation de Nvidia vise à contrôler une couche d'optimisation capable de fonctionner sur ses puces et celles de concurrents.

Infrastructure Business Financements

SIG

HYP

Hacker News (AI)·29 mai

DeepSeek Slashes AI Costs to Cents

DeepSeek réduit drastiquement les coûts d'inférence IA à quelques centimes. L'entreprise chinoise optimise ses modèles pour diminuer la consommation de ressources computationnelles et les frais d'utilisation.

DeepSeek Business

SIG

HYP

ActuIA·29 mai

Cigref : 140 Md€ de surcoûts cloud en Europe, l'IA en bundle en deuxième cause

Le Cigref estime à 140 Md€ les surcoûts annuels cloud et logiciels en Europe. L'IA en bundle est la deuxième cause identifiée. Un DSI sur deux ne peut pas mesurer le ROI de ces solutions IA intégrées.

Business Régulation

SIG

HYP

Hacker News (AI)·29 mai

Flathub prohibits AI-generated code

Flathub, la plateforme de distribution d'applications Linux, interdit le code généré par IA dans ses dépôts. La décision vise à maintenir les standards de qualité et de responsabilité du projet.

Régulation Open source

SIG

HYP

Vercel AI Blog·29 mai

Function invocations now billed per unit

Vercel passe à une facturation à l'unité pour les invocations de fonction. Nouveau tarif : $0,0000006 par invocation (anciennement $0,60 par million) pour les clients Pro. Le changement prend effet au prochain cycle de facturation.

Infrastructure Business

SIG

HYP

The Decoder·29 mai

Amazon kills internal AI leaderboard after employees gamed it with pointless tasks

Amazon supprime son classement interne d'IA après que des employés aient gonflé leurs scores avec des tâches sans valeur, augmentant les coûts cloud de l'entreprise.

Business

SIG

HYP

Hacker News (AI)·29 mai

GPUs and RAM Are in Short Supply, but the Real Bottleneck for AI Is Electricians

L'article soutient que le vrai goulot d'étranglement pour l'IA n'est pas la rareté des GPUs ou de la RAM, mais celle des électriciens qualifiés. L'infrastructure énergétique et l'installation physique des serveurs deviennent le facteur limitant pour déployer les data centers à grande échelle.

Infrastructure Business

SIG

HYP

Le Big Data·29 mai

Corgi lève 106 millions $ et atteint 2,6 milliards de valorisation

Corgi lève 106 millions de dollars trois semaines après sa première série B, atteignant une valorisation de 2,6 milliards de dollars.

Financements Business

SIG

HYP

Le Big Data·29 mai

DeepSeek V4 : émancipation chinoise et urgence d’une stratégie IA européenne

DeepSeek V4 marque une avancée majeure de l'IA chinoise et remet en question l'efficacité des stratégies occidentales. L'article souligne l'urgence pour l'Europe de développer une stratégie IA compétitive face à cette émancipation technologique.

DeepSeek Régulation

SIG

HYP

Reddit r/MachineLearning·29 mai

Building a monokernel for LLM inference on AMD MI300X - up to 3,300 output tokens/s per request [P]

Monokernel optimisé pour inférence LLM sur AMD MI300X : 3 300 tokens/s en sortie par requête (batch 1, sans décodage spéculatif). Architecture mappée à la topologie physique du GPU. Support initial d'un modèle 2B, MoE frontier prévu.

Infrastructure Génération de code Benchmarks

SIG

HYP

ActuIA·29 mai

Outils RH et intelligence artificielle : l’Europe repousse les obligations haut risque à décembre 2027

L'UE repousse à décembre 2027 l'entrée en vigueur des obligations pour les systèmes IA haut risque dans les outils RH. Un accord politique provisoire du 7 mai 2026 sur le Digital Omnibus IA modifie le calendrier du règlement 2024/1689.

Régulation Sécurité IA

SIG

HYP

ActuIA·29 mai

PCAIDE 2026 : la conférence parisienne sur l’éthique de l’IA revient les 11 et 12 juin à Mines Paris

La quatrième édition de PCAIDE (Paris Conference on AI & Digital Ethics) se déroulera les 11 et 12 juin 2026 à Mines Paris. La conférence revient après l'édition 2025.

Régulation Sécurité IA

SIG

HYP

ActuIA·29 mai

EDF, BMW, Airbus : Mistral AI met en scène son virage industriel, mais les contrats chiffrés restent rares

Mistral AI présente son virage industriel lors de son AI Now Summit (28 mai 2026) avec des partenariats affichés auprès d'EDF, BMW et Airbus. Les contrats chiffrés restent cependant rares et non détaillés publiquement.

Mistral Business

SIG

HYP

Reddit r/LocalLLaMA·29 mai

llama: use f16 mask for FA to save VRAM by am17an · Pull Request #23764 · ggml-org/llama.cpp

Pull request llama.cpp #23764 : utilisation de masques f16 dans Flash Attention pour réduire la consommation VRAM. Optimisation permettant de charger des modèles plus volumineux sur GPU.

Llama Open source Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·29 mai

How do I make MTP work in llama-server?

Utilisateur teste MTP (Multi-Token Prediction) sur Qwen3.6-35B avec llama.cpp sur RTX 3090. Avec MTP activé (--spec-type draft-mtp), les performances diminuent : prefill passe de 1082 t/s à 878 t/s (N=1), génération de 116 t/s à 108 t/s. Taux d'acceptation des drafts faible (0.80 à 0.37). Demande comment améliorer.

Llama Génération de code Benchmarks

SIG

HYP

Le Big Data·29 mai

Anthropic dépasse 965 milliards de dollars grâce à sa Série H

Anthropic lève 65 milliards de dollars en Série H, atteignant une valorisation de 965 milliards de dollars. L'une des plus importantes levées de fonds du secteur IA.

Anthropic Financements Business

SIG

HYP

Hacker News (AI)·29 mai

Fed up with vibe coders, dev sneaks data-nuking prompt injection into their code

Un développeur a injecté une instruction malveillante dans du code partagé avec des « vibe coders » (développeurs peu rigoureux) pour supprimer leurs données. L'incident illustre les risques de sécurité liés aux injections de prompts dans les workflows de développement.

Prompt engineering Sécurité IA Génération de code

SIG

HYP

Le Big Data·29 mai

Liquid AI lance LFM2.5-8B-A1B : la taille ne fait-elle plus vraiment la performance ?

Liquid AI lance LFM2.5-8B-A1B, un modèle 8B visant à démontrer que la performance ne dépend pas uniquement de la taille du modèle. Le lancement remet en question le paradigme des modèles toujours plus grands.

Open source Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·29 mai

Use HTML as the primary chat language for your agents so they can draw diagrams

Un développeur teste l'utilisation du HTML comme langage principal pour les agents de chat au lieu du markdown. En modifiant le system prompt en HTML, l'agent (Qwen 3.6-27B) génère désormais des diagrammes SVG directement dans les réponses. Les résultats sont prometteurs mais le modèle conserve une tendance à utiliser markdown.

Prompt engineering Agents IA Qwen

SIG

HYP

Reddit r/LocalLLaMA·29 mai

New LFM2.5 8b A1b model!!

Annonce d'un nouveau modèle LFM2.5 8B A1b avec performances comparables à Nemotron 3 Nano mais plus rapide. Support prévu dans SmallCode malgré les appels d'outils non-standard.

Open source Génération de code

SIG

HYP

Reddit r/MachineLearning·29 mai

Making LLMs tell you how confident they really are through probe-targeted fine tuning.[R]

Recherche sur le fine-tuning ciblé par probe (LoRA) pour calibrer la confiance verbale des LLM. Les modèles détectent internement les réponses correctes (0.76–0.88 AUROC) mais affichent 99% de confiance en sortie. Fine-tuning sur 8 modèles (7B–70B) avec activation patching causal (ρ=0.976). Code et pré-enregistrement disponibles.

Fine-tuning Raisonnement Alignement

SIG

HYP

Hacker News (AI)·29 mai

Python utility package for building Claude Code hooks

Un package Python utilitaire pour construire des hooks Claude Code. Permet l'intégration personnalisée avec Claude Code via des extensions modulaires.

Claude Code Outils Open source

SIG

HYP

Reddit r/LocalLLaMA·29 mai

Liquid AI releases LFM2.5-8B-A1B

Liquid AI publie LFM2.5-8B-A1B, modèle 8B avec contexte 128K, 38T tokens de pré-entraînement et RL large-scale. Vocabulaire doublé pour langues non-latines. Supporte chaînage d'outils et tâches complexes sur laptop d'entrée de gamme.

Open source Génération de code Agents IA

SIG

HYP

Reddit r/LocalLLaMA·29 mai

Step 3.7 Flash Config + Early Data on 2x RTX 6000's

Configuration et premiers benchmarks de Step 3.7 Flash sur deux RTX Pro 6000 Blackwell. Mesures de tokens par seconde en inférence générale. Tests étendus en cours, résultats complets à suivre.

Benchmarks Infrastructure Open source

SIG

HYP

Reddit r/LocalLLaMA·29 mai

StepFun 3.7 Flash - Speed Benchmark in M5 Max

Benchmark de StepFun 3.7 Flash sur M5 Max (128 GB) avec llama.cpp. Contextes courts (<16k tokens) rapides et réactifs. Contextes 32k-64k utilisables. Mesures détaillées : 65k tokens atteint 360.79 t/s en token generation.

Open source Benchmarks Infrastructure

SIG

HYP

arXiv cs.AI·29 mai

VFEAgent: A Multimodal Agent Framework for End-to-End Automated Finite Element Analysis

VFEAgent est un système multi-agent multimodal qui automatise l'analyse par éléments finis (FEA) à partir d'images et de descriptions textuelles. Le framework combine un pipeline vision-langage avec raisonnement ReAct et une synthèse de code vérifiée pour générer des simulations physiquement valides, surpassant les approches LLM existantes.

Agents IA Multi-agents Vision

SIG

HYP

arXiv cs.CL·29 mai

From Data to Insights: Exploring Program-of-Thoughts Prompting for Chart Summarization

Article proposant une méthode de résumé de graphiques via Program-of-Thoughts (PoT) : les VLMs génèrent des programmes Python pour extraire des statistiques valides plutôt que du texte direct. Introduit une tâche auxiliaire chart-to-dictionary. Résultats comparables aux méthodes existantes sur métriques sémantiques et factuelles.

Prompt engineering Vision Raisonnement

SIG

HYP

arXiv cs.CL·29 mai

Hallucination Detection-Guided Preference Optimization for Clinical Summarization

Méthode d'optimisation des préférences guidée par détection d'hallucinations pour améliorer la fiabilité des résumés cliniques. Sur Llama-3.1-8B-Instruct, réduction de 24% des hallucinations en inférence et 48% après fine-tuning, sans dégradation de fluidité. Évaluation sur MIMIC-IV.

Llama Fine-tuning Sécurité IA

SIG

HYP

arXiv cs.CL·29 mai

GPF-LiveNews: A Streaming Evaluation Protocol for Group-Conditioned Framing in Large Language Models

GPF-LiveNews est un protocole d'évaluation en continu pour auditer comment les LLM encadrent les événements d'actualité pour différents publics. Testé sur 23 modèles et 12 cycles de monitoring, il mesure les variations sémantiques et de sentiment selon 42 labels d'identité. Les résultats montrent que les prompts Policy/Action produisent le plus fort mouvement sémantique.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·29 mai

The Trust Paradox: How CS Researchers Engage LLM Leaderboards

Étude qualitative auprès de 8 chercheurs en IA révélant un paradoxe : ils se méfient des classements LLM mais les utilisent quand même. Les réseaux pairs dominent la sélection de modèles. Les chercheurs en NLP subissent une pression SOTA absente en HCI/Systèmes. Demande unanime : transparence des coûts.

Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·29 mai

GenesisFunc: Multi-Agent Data Generation for Accurate and Generalizable Function-Calling

GenesisFunc est un pipeline automatisé multi-agent pour générer des données d'entraînement de function-calling. À partir d'outils fiables de benchmarks publics, le système produit des conversations diversifiées avec contrôle qualité multi-étapes. Un modèle 8B fine-tuné sur ces données synthétiques surpasse les modèles open-source similaires en performance in-domain et généralisation out-of-domain.

Multi-agents Génération de code Fine-tuning

SIG

HYP

arXiv cs.CL·29 mai

Assessing Dutch Syllabification Algorithms and Improving Accuracy by Combining Phonetic and Orthographic Information through Deep Learning

Étude comparative de quatre algorithmes de syllabification du néerlandais (Brandt Corstius, Liang, Trogkanis-Elkan CRF, et un modèle deep learning). Le modèle deep learning combinant informations phonétiques et orthographiques atteint 99,65% de précision (+0,14% vs littérature). Les algorithmes data-driven surpassent l'approche basée sur des règles.

Papers Benchmarks Génération de code

SIG

HYP

arXiv cs.CL·29 mai

How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines

Étude empirique de la reproductibilité comportementale des agents LLM avec tool-calling. Les chercheurs mesurent si un agent sélectionne les mêmes outils, dans le même ordre, avec les mêmes paramètres, lors d'invocations répétées identiques. Focus sur les interfaces structurées avec paramètres typés et effets secondaires.

Agents IA Benchmarks Sécurité IA

SIG

HYP

arXiv cs.CL·29 mai

Thoughts-as-Planning: Latent World Models for Chain-of-Thoughts Optimization via Reinforcement Planning

Thoughts-as-Planning formalise l'optimisation des chaînes de raisonnement comme un processus de décision séquentielle sur un espace sémantique latent. Le framework apprend un modèle du monde latent simulant l'effet des édits de chaînes de raisonnement sur les sorties, supportant édits multi-échelle (token, segment, instruction) via planification par descente de gradient ou RL.

Raisonnement Reinforcement learning Prompt engineering

SIG

HYP

arXiv cs.CL·29 mai

Beyond Recall: Behavioral Specification as an Interpretive Layer for AI Personalization

Chercheurs proposent une « couche interprétative » (Behavioral Specification) pour personnaliser les décisions d'IA selon les préférences utilisateur. Testée sur 14 corpus autobiographiques, elle améliore la précision représentationnelle de 25× avec moins de contexte que le corpus brut, tout en réduisant l'hésitation du modèle. Efficace sur questions d'interprétation, moins sur questions factuelles.

Alignement RAG Agents IA

SIG

HYP