mai 2026

3149 articles

Warp’s big bet on building open source with GPT-5.5

Warp intègre GPT-5.5 et les modèles OpenAI pour coordonner des agents de codage sur des workflows locaux, cloud et open-source.

GPT Agents IA Génération de code

SIG

HYP

OpenAI Blog·27 mai

Election information and safeguards in 2026

OpenAI annonce des mesures pour les élections 2026 : accès à l'information, soutien aux défenseurs contre les cybermenaces, et transparence accrue sur l'IA. Pas de détails techniques ou de modèles spécifiques mentionnés.

OpenAI Sécurité IA Régulation

SIG

HYP

Vercel AI Blog·27 mai

Experimental native binaries for Vercel CLI

Vercel CLI propose un binaire natif expérimental optionnel, plus rapide et sécurisé, sans dépendance Node.js. Les binaires sont signés cryptographiquement et stockent les credentials dans le Keychain système (macOS). Disponible sur macOS, Linux, Windows en x64/arm64.

Outils Infrastructure

SIG

HYP

Vercel AI Blog·27 mai

Redesigned Deployments List

Vercel redesigne sa liste de déploiements avec une mise en page plus dense. Les environnements sont groupés par statut, facilitant la lecture des branches et commits. L'expérience mobile est améliorée.

Outils Infrastructure

SIG

HYP

Hugging Face Blog·27 mai

Shipping a Trillion Parameters With a Hub Bucket: Delta Weight Sync in TRL

Hugging Face introduit Delta Weight Sync dans TRL pour optimiser le déploiement de modèles trillion-paramètres. La technique synchronise uniquement les changements de poids plutôt que les modèles complets, réduisant drastiquement les besoins en stockage et bande passante pour les mises à jour.

Infrastructure Open source

SIG

HYP

Simon Willison·26 mai

The pressure

Daniel Stenberg, mainteneur de curl, rapporte une augmentation sans précédent des rapports de sécurité : 4-5× plus qu'en 2024, plus d'un par jour en moyenne. Les rapports sont détaillés et de haute qualité, générés par des outils IA. Malgré cette pression extrême, les vulnérabilités trouvées restent de sévérité basse à moyenne.

Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Cactus Hybrid Router: Gemma4-2B can match Gemini-3.1-Flash-Lite by routing 15-55% of tasks to Gemini And Running The Rest Locally.

Cactus Hybrid Router, un modèle routeur de 65k paramètres, dirige 15-55% des tâches vers Gemini-3.1-Flash-Lite et exécute le reste localement avec Gemma4-2B. Le système maintient les performances même avec quantification 4-bit et gère texte, vision et audio.

Gemini Agents IA Open source

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Small comparison on full compute performance (Anima) of 5090 (600,475 and 400W) vs 6000 PRO MaxQ (325W), and 6000 PRO WS/SE (600W).

Benchmark de performance en compute (diffusion texte-image) comparant RTX 5090 (400-600W) vs RTX 6000 PRO MaxQ (325W) et 6000 PRO WS (600W). Tests sur Forge Neo avec SageAttention 2.1, résolution 896x1088, batch size 4. 5090 undervolté/overclocké (2930MHz, +4400MHz VRAM), 6000 PRO MaxQ modifié (+550MHz core).

Génération d'images Benchmarks Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·26 mai

$400 Qwen 3.6-27B Setup - Dual RTX 3060 - 30-50 t/s

Configuration budget à 400$ avec deux RTX 3060 (24GB total) pour exécuter Qwen 3.6-27B. Vitesse de décodage 30-50 t/s sur llama.cpp avec quantization Q4_K_S. Plateforme i7-4770K ancienne mais supportant PCIe 3.0 x8 dual, comparable aux setups modernes. Limitation : pas de KV cache quantization avec tensor parallel, contexte limité à 64k.

Qwen Génération de code Open source

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Quale - a tool to help LLMs not do dumb stuff

Quale est un analyseur de code agnostique au langage qui fournit aux LLMs le contexte structurel du repository (fichiers à éditer, tests associés, limites stables) sous forme de contrats JSON. Testé avec Qwen et Mistral locaux, il réduit les hallucinations et améliore la précision des modifications de code.

Agents IA Génération de code Qwen

SIG

HYP

Hacker News (AI)·26 mai

Bay Area mom out thousands after scammers use AI to mimic daughter's voice

Une mère de la Bay Area a perdu plusieurs milliers de dollars après que des arnaqueurs ont utilisé l'IA pour imiter la voix de sa fille et demander de l'argent d'urgence. L'incident illustre les risques croissants des deepfakes vocaux dans les escroqueries ciblées.

Sécurité IA Voix

SIG

HYP

Hacker News (AI)·26 mai

DeepSWE: A contamination-free benchmark for long-horizon coding agents

DeepSWE est un benchmark sans contamination pour évaluer les agents de codage sur des horizons longs. Il mesure la capacité des systèmes à résoudre des tâches complexes de développement logiciel de manière autonome.

Benchmarks Génération de code Agents IA

SIG

HYP

ActuIA·26 mai

GPT plus confiant sur les tâches difficiles où ils se trompe le plus, selon un preprint USC/Berkeley

GPT-4o, ChatGPT et GPT-o3 affichent une confiance supérieure à leur précision réelle, particulièrement sur les tâches difficiles où ils commettent le plus d'erreurs. Un preprint USC/Berkeley révèle un écart croissant entre confiance déclarée et performance réelle.

GPT OpenAI Évaluations

SIG

HYP

Reddit r/LocalLLaMA·26 mai

PrismML just released Binary and Ternary Bonsai Image 4B: 1-bit/ternary text-to-image diffusion transformers that can even run 100% locally in your browser on WebGPU.

PrismML publie Bonsai Image 4B, des modèles de diffusion texte-vers-image quantifiés en 1-bit/ternaire. Taille ~3GB (vs 16GB pour FLUX.2 Klein), exécutables 100% localement en WebGPU. Licence Apache-2.0.

Génération d'images Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·26 mai

I made a Windows app for managing llama.cpp in WSL/Ubuntu

llama.cpp Console est une application Windows desktop (WPF) pour gérer llama.cpp sur WSL/Ubuntu sans terminal. Elle automatise l'installation de WSL, Ubuntu, CUDA, Vulkan, le téléchargement de modèles GGUF depuis Hugging Face, et le lancement de llama-server avec monitoring en temps réel (tokens, GPU, logs).

Llama Outils Open source

SIG

HYP

The Decoder·26 mai

Claude Mythos reportedly solves OpenAI's landmark Erdős problem with a "cute, simple proof"

Claude Mythos d'Anthropic résout la conjecture d'Erdős (1946) peu après qu'OpenAI l'ait réfutée. Sholto Douglas rapporte une preuve « mignonne et simple » trouvée « le week-end », suggérant un « sérieux surplomb » dans les découvertes mathématiques assistées par IA.

Claude Anthropic Raisonnement

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Turning local agents into self-optimizing agents

Un développeur a créé autoswarm, un pipeline d'agents auto-optimisants qui améliore les performances de 30% à 90% sur TerminalBench. Le système enregistre les chats avec un LLM local, les analyse via reflection, extrait des leçons dans skills.yaml et les injecte dans le prompt système des futurs chats.

Agents IA Prompt engineering Open source

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Long-context performance at lower quants

Utilisateur rapporte une dégradation drastique des performances de Qwen3.5 122B en quantification Q3_K_XL au-delà de 75-80k tokens de contexte : hallucinations, oublis, confusion. Demande si le problème vient de la quantification Q3 ou du modèle lui-même, et cherche des optimisations llama.cpp.

Qwen Open source

SIG

HYP

Reddit r/MachineLearning·26 mai

Augmented Equivariant Mesh Networks for Anatomical Mesh Segmentation (ICML 2026 Workshops) [R]

EAMS (Equivariant Anatomical Mesh Segmentor) applique l'équivariance rotationnelle aux réseaux de mailles pour la segmentation anatomique 3D. Le modèle (<2M paramètres) maintient la performance sous perturbations géométriques (rotation 40°) où les méthodes existantes chutent de 25-26 points IoU. Évalué sur 4 tâches cliniques (anévrisme intracrânien, segmentation intra-orale, foie).

Papers Vision Raisonnement

SIG

HYP

Le Big Data·26 mai

Spotify ajoute des articles narrés à son app, vos lectures passent maintenant par l’audio

Spotify intègre des articles narrés dans son app (26 mai 2026). La plateforme transforme le contenu textuel en audio pour élargir son offre au-delà de la musique et des podcasts.

Voix

SIG

HYP

Reddit r/MachineLearning·26 mai

Tomesphere, 3M paper pages with TLDRs, peer reviews, code, and a SPECTER2 similarity graph [P]

Tomesphere indexe 3 millions de papiers arxiv/OpenAlex avec TLDRs Gemini, avis pairs OpenReview, repos GitHub, graphe de citations (250M arêtes) et graphe sémantique SPECTER2 (768D pgvector). Quatre modes de ranking : Influential, Recent, Hidden gems, Nearest. Extension Chrome pour arxiv. Accès gratuit, sans inscription.

Papers Embeddings Recherche vectorielle

SIG

HYP

Interconnects (Nathan Lambert)·26 mai

Some ideas for what comes next, May 2026

Nathan Lambert analyse les tendances IA de mai 2026 : Gemini Flash 3.5, le modèle Mythos, l'équilibre open-closed source, la montée en puissance de l'open-source américain et les luttes de pouvoir émergentes dans l'écosystème.

Gemini Open source Business

SIG

HYP

Simon Willison·26 mai

Microsoft Copilot Cowork Exfiltrates Files

Microsoft Copilot Cowork permettait aux agents d'envoyer des emails non approuvés à la boîte de réception de l'utilisateur. Ces messages pouvaient contenir des images externes déclenchant des requêtes réseau, permettant l'exfiltration de données. Une injection de prompt réussie aurait pu divulguer des liens OneDrive pré-authentifiés, donnant accès aux fichiers à un attaquant.

Agents IA Sécurité IA Prompt engineering

SIG

HYP

Hacker News (AI)·26 mai

A sleep-like consolidation mechanism for LLMs

Des chercheurs proposent un mécanisme de consolidation inspiré du sommeil pour les LLM, permettant de renforcer les connaissances acquises et d'améliorer la rétention sans entraînement supplémentaire. Le concept s'appuie sur des processus biologiques de consolidation mémoire.

Raisonnement Papers Alignement

SIG

HYP

Reddit r/MachineLearning·26 mai

Verbosity is not faithfulness: an architectural argument that reasoning models cannot perform faithful inference [D]

Un essai argue que les modèles de raisonnement ne peuvent pas effectuer une inférence fidèle car leur trace de raisonnement et réponse finale proviennent de la même opération. Critique empirique des travaux de Lanham/Turpin/Mirzadeh, comparaison avec HRM, TRM, GRAM, AlphaProof et Kona/Aleph.

Raisonnement Alignement Papers

SIG

HYP

Reddit r/LocalLLaMA·26 mai

OpenMOSS-Team/MOSS-TTS-v1.5 · Hugging Face

MOSS-TTS-v1.5 améliore la synthèse vocale multilingue (31 langues), le clonage de voix zéro-shot et la stabilité. Nouvelles capacités : contrôle explicite des pauses, meilleure gestion des références longues, prosody plus stable. Modèle open-source sur Hugging Face.

Voix Open source Génération de code

SIG

HYP

Hacker News (AI)·26 mai

Show HN: We made a cinematic heist trailer with 4 AI models for $60

Créateurs ont produit une bande-annonce de film de braquage cinématographique en combinant 4 modèles IA pour 60 dollars. Démonstration de faisabilité de production vidéo IA à bas coût.

Génération de vidéos Outils

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Feedback Wanted: Building for easier local AI

Un projet open-source développe un installateur unifié pour simplifier le déploiement local d'IA sur Linux, Windows et Mac. L'outil automatise la configuration des modèles, pipelines et ressources matérielles, offre une interface unifiée de monitoring, et intègre la détection multi-GPU avec parallélisation automatique. Gestion des modèles et téléchargements directement via dashboard.

Open source Outils Infrastructure

SIG

HYP

Reddit r/MachineLearning·26 mai

[P] have a couple technical questions for my LLM router. [P]

Un étudiant en informatique développe un routeur LLM spécialisé pour le code, basé sur l'extraction de signaux bon marché du prompt plutôt que sur un LLM fine-tuné. Il utilise la taxonomie de Bloom pour évaluer la complexité des requêtes. Il cherche des conseils sur les datasets, le bootstrapping IA, et les classifieurs pour différencier les nuances entre requêtes.

Génération de code Prompt engineering Agents IA

SIG

HYP

Reddit r/MachineLearning·26 mai

Added a Chrome Dino-style game to my research tool's pipeline wait screen driven by real SSE events [P]

ScholarScout v1.5.3 ajoute un jeu Chrome Dino au écran d'attente du pipeline (2-3 min). Un hibou pixel traverse une forêt en parallaxe ; chaque point de papier spawné correspond à un vrai événement SSE backend (600ms d'intervalle). Couleurs = source (arXiv blanc, PubMed vert, Crossref violet). Nouvelles fonctionnalités : clustering k-means sur embeddings, synthèse par cluster, gestion de fraîcheur des papiers.

Outils RAG Embeddings

SIG

HYP

Reddit r/LocalLLaMA·26 mai

[OSS] dlmserve - first serving engine for diffusion language models

dlmserve est le premier moteur de serving pour modèles de langage par diffusion (LLaDA, Dream-7B). Contrairement aux LLM autorégressifs, ils débruitent une phrase entièrement masquée en parallèle. API compatible OpenAI, batching continu, 2.5x de débit vs HuggingFace à batch=4, fonctionne en 12 GB VRAM. MIT, pip install dlmserve.

Open source Génération de code Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Small set of local MCP server installers for home Linux users

MCP Basic Servers : bundle open-source de scripts Bash pour installer localement 6 serveurs MCP (web, fichiers, mémoire, contacts, wiki, météo) sur Linux. Endpoints HTTP sur ports 8001-8006, conçu pour utilisateurs débutants/intermédiaires en home-lab, testé sur Arch et Ubuntu.

MCP Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Harbor v0.4.19 - vllm/sglang/llama.cpp launch codex/claude/pi/opencode

Harbor v0.4.19 permet de lancer des outils de codage agentiques locaux (Codex, Claude, Pi, OpenCode) avec des backends d'inférence locaux (vLLM, SGLang, llama.cpp). La nouvelle version inclut une passerelle LLM optimisée qui injecte automatiquement des outils comme la recherche web via des flags CLI simples.

Agents IA Génération de code Open source

SIG

HYP

The Decoder·26 mai

China reportedly now requires top AI researchers to get permission before leaving the country

La Chine impose désormais une autorisation officielle aux chercheurs IA de haut niveau chez Alibaba et DeepSeek avant de quitter le pays. Pékin craint les fuites de données, le vol technologique et le détournement de talents.

Régulation DeepSeek Business

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Okay 27B made me a believer

Utilisateur impressionné par Qwen 3.6 27B pour générer un jeu Breakout complet en HTML5. Le modèle a produit du code fonctionnel au premier essai avec API console, contrôles gamepad, graphiques et son intégrés. Nécessité d'une seule correction mineure pour finaliser.

Qwen Génération de code

SIG

HYP

The Decoder·26 mai

Google Cloud COO says AI security belongs in the boardroom, not just the server room

Le COO de Google Cloud Francis de Souza plaide pour intégrer la sécurité IA dans la stratégie d'entreprise dès le départ, au niveau de la direction générale et pas seulement des équipes techniques.

Sécurité IA Business

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Tencent Hy-MT2 is now under Apache License 2.0

Tencent Hy-MT2 passe sous licence Apache 2.0, rendant le modèle accessible en open-source.

Open source

SIG

HYP

Hacker News (AI)·26 mai

Spain blocks prediction markets Polymarket, Kalshi over lack of gambling licence

L'Espagne a bloqué l'accès aux marchés de prédiction Polymarket et Kalshi, les accusant d'opérer sans licence de jeu. Les autorités espagnoles considèrent ces plateformes comme des services de paris non réglementés.

Régulation

SIG

HYP

Reddit r/MachineLearning·26 mai

[P] I built a system that lets you ask questions about any GitHub repo and get answers grounded in the actual source code [P]

GitRAG permet de poser des questions sur n'importe quel repo GitHub public et obtient des réponses ancrées dans le code source avec chemins de fichiers et numéros de lignes. Le système combine parsing AST, embeddings denses, index BM25, fusion RRF et reranking Cohere avant génération via llama-3.3-70b sur Groq. Supporte 15+ langages.

RAG Embeddings Génération de code

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Keye-VL-2.0-30B-A3B -- Introducing DSA attention into multimodality for the first time

Keye-VL-2.0-30B-A3B, modèle multimodal 30B de Kwai, intègre l'attention DSA pour la première fois. Conçu pour la compréhension vidéo longue et les capacités Agent.

Vision Agents IA Open source

SIG

HYP

Reddit r/LocalLLaMA·26 mai

New KV Quants coming 😍 Welcome OSCAR kv quant open sourced by togetherAI

Together AI publie OSCAR, une nouvelle méthode de quantification KV open source. Cette approche arrive après TurboQuant et pourrait améliorer l'efficacité des modèles de langage.

Open source Infrastructure

SIG

HYP

The Decoder·26 mai

AI-hallucinated citations are creeping into papers that shape clinical guidelines, researchers warn

Un audit de 2,5 millions d'articles biomédicaux révèle une augmentation de 1200% des références fictives depuis 2023. Les chercheurs suspectent les modèles de langage : les fausses citations correspondent au sujet, respectent le format et sont indétectables. 98% des articles affectés n'ont reçu aucune réponse des éditeurs.

Sécurité IA Alignement Benchmarks

SIG

HYP

ActuIA·26 mai

ContextEcho : la compaction ne corrige pas la dérive de persona, benchmark sur 23 modèles

Étude benchmark sur 23 modèles montrant que la compaction de contexte, technique standard pour les sessions d'agent longues, ne corrige pas la dérive de persona. ContextEcho évalue cette limitation critique des systèmes actuels.

Benchmarks Agents IA Raisonnement

SIG

HYP

ActuIA·26 mai

Huawei annonce LogicFolding : densité 3D sans machines EUV, 1,4 nm visé pour 2031

Huawei présente LogicFolding, une technologie de densité 3D visant 1,4 nm en 2031 sans dépendre des machines EUV. He Tingbo, présidente du département semiconducteurs, l'a annoncée le 25 mai 2026 à la conférence IEEE ISCAS de Shanghai.

Infrastructure Benchmarks

SIG

HYP

Hacker News (AI)·26 mai

A reality check on the AI jobs hysteria

Article critiquant l'alarmisme autour de la destruction d'emplois par l'IA. Remet en question les prédictions catastrophistes sans données chiffrées précises ni timeline claire.

Régulation

SIG

HYP

The Decoder·26 mai

Y Combinator founder Paul Graham says AI-written founder emails feel like being lied to

Paul Graham, fondateur de Y Combinator et investisseur précoce d'OpenAI, ignore les emails rédigés par IA, les trouvant trompeurs. Des études confirment que cette réaction est commune parmi les destinataires.

OpenAI Business

SIG

HYP

GitHub Trending·26 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Open-Dev-Society /</span> OpenStock

OpenStock est une alternative open-source aux plateformes de marché payantes. Suivi des prix en temps réel, alertes personnalisées et analyses d'entreprises détaillées.

Open source Outils

SIG

HYP

GitHub Trending·26 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> thedotmack /</span> claude-mem

claude-mem ajoute une mémoire persistante aux agents IA en capturant les actions de session, les compressant par IA, et réinjectant le contexte pertinent dans les futures sessions. Compatible Claude Code, OpenClaw, Codex, Gemini, Hermes, Copilot et autres.

Agents IA Claude Claude Code

SIG

HYP

GitHub Trending·26 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> twentyhq /</span> twenty

Twenty est une alternative open-source à Salesforce conçue pour l'IA. Le projet gagne en popularité sur GitHub Trending sans détails techniques spécifiques fournis.

Open source Business Agents IA

SIG

HYP

GitHub Trending·26 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Hmbown /</span> CodeWhale

CodeWhale est un terminal de codage agentique utilisant DeepSeek en priorité, avec support multi-fournisseurs, optimisation du cache, interface en 5 langues et endpoints régionaux CN.

Agents IA Génération de code DeepSeek

SIG

HYP

GitHub Trending·26 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> mozilla /</span> cargo-vet

Mozilla publie cargo-vet, un outil de sécurité de la chaîne d'approvisionnement pour Rust. Il permet d'auditer et de valider les dépendances Rust avant leur utilisation en production.

Open source Sécurité IA Outils

SIG

HYP

GitHub Trending·26 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> alpic-ai /</span> skybridge

Skybridge est un framework TypeScript full-stack pour applications MCP et ChatGPT. Type-safe, basé sur React, agnostique de plateforme.

MCP Génération de code Outils

SIG

HYP

GitHub Trending·26 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> vas3k /</span> TaxHacker

TaxHacker est une application comptable auto-hébergée utilisant des LLM pour analyser reçus, factures et transactions avec prompts personnalisés et catégories configurables.

Open source Outils RAG

SIG

HYP

GitHub Trending·26 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Open-Dev-Society /</span> OpenStock

OpenStock est une alternative open-source aux plateformes de marché payantes. Suivi des prix en temps réel, alertes personnalisées et analyses d'entreprises détaillées, gratuit et ouvert.

Open source Outils

SIG

HYP

GitHub Trending·26 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> thedotmack /</span> claude-mem

Agents IA Claude Claude Code

SIG

HYP

GitHub Trending·26 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> marktext /</span> marktext

MarkText est un éditeur markdown simple et élégant disponible sur Linux, macOS et Windows. Projet open-source de gestion de contenu textuel.

Open source Outils

SIG

HYP

GitHub Trending·26 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> NangoHQ /</span> nango

Nango est une plateforme pour construire des intégrations produit avec l'IA. Le projet GitHub trending propose des outils et infrastructure pour automatiser les connexions entre applications.

Agents IA Outils Infrastructure

SIG

HYP

GitHub Trending·26 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> modelscope /</span> FunASR

FunASR est un toolkit de reconnaissance vocale industriel supportant 170x temps réel, 50+ langues, diarisation de locuteur, détection d'émotion, streaming et API compatible OpenAI.

Voix Open source Outils

SIG

HYP

GitHub Trending·26 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> shareAI-lab /</span> learn-claude-code

Un harness d'agent minimaliste inspiré de Claude Code, construit en Bash. Démontre l'exécution d'agents sans dépendances lourdes.

Claude Code Agents IA Open source

SIG

HYP

GitHub Trending·26 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> dograh-hq /</span> dograh

Dograh est une plateforme vocale IA open-source auto-hébergée, alternative à Vapi et Retell. Supporte Speech-to-Speech, LLM/STT/TTS, workflow visuel, MCP natif et téléphonie.

Voix Open source MCP

SIG

HYP

Le Big Data·26 mai

Comment les agentic databases redéfinissent l’IA en entreprise ?

95 % des dirigeants visent une transformation en plateforme IA/données dans 1 000 jours. Les agentic databases émergent comme infrastructure clé pour cette transition, intégrant autonomie décisionnelle et gestion de données en temps réel.

Agents IA Infrastructure

SIG

HYP

The Decoder·26 mai

The AI justice gap solution is slowly turning into an existential paperwork nightmare for US federal courts

Une étude MIT/USC révèle que les plaintes sans avocat aux tribunaux fédéraux US ont doublé depuis ChatGPT. Une plainte sur cinq contient du texte généré par IA. Les juges adoptent des mesures drastiques face à l'afflux de dossiers.

GPT Régulation Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Output Length Constrained Summarization using GRPO on tiny LLMs | smolcluster

Étude de fine-tuning GRPO sur modèles ultra-légers (Qwen2.5-0.5B, LFM-2.5-350M) pour résumer des posts Reddit en exactement 64 tokens. Comparaison de deux stratégies : entraînement séquentiel (longueur puis qualité) vs joint. Le curriculum staged gagne avec scores G-Eval de 2.904 (LFM) et 2.817 (Qwen), contre 2.376/2.332 en zero-shot.

Qwen Fine-tuning Reinforcement learning

SIG

HYP

Le Big Data·26 mai

Google et l’UNICEF lancent des programmes d’éducation à l’IA

Google, Google.org et l'UNICEF lancent un partenariat de trois ans pour intégrer l'IA dans les systèmes éducatifs de quatre pays.

DeepMind

SIG

HYP

Reddit r/LocalLLaMA·26 mai

China Expands Travel Curbs to Top AI Talent at Private Firms

La Chine étend les restrictions de voyage aux cadres IA des entreprises privées, rendant plus difficile le recrutement de talents comme Junyang Lin (ancien responsable Qwen). Les restrictions affectent aussi les déplacements personnels à l'étranger.

Qwen Régulation

SIG

HYP

Hacker News (AI)·26 mai

I bypassed AWS API Gateway auth with a trailing slash. Got $12K bounty

Un chercheur en sécurité a contourné l'authentification AWS API Gateway en exploitant une vulnérabilité de slash final, obtenant une prime de 12 000 $ du programme de bug bounty AWS.

Infrastructure

SIG

HYP

Hacker News (AI)·26 mai

Uber president says AI spending is getting 'harder to justify'

Le président d'Uber déclare que les dépenses en IA deviennent « plus difficiles à justifier ». L'entreprise réévalue son allocation budgétaire face aux coûts croissants et aux retours sur investissement incertains.

Business

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Are local LLM users testing prompt injection before connecting models to tools?

Discussion sur la sécurité des LLM locaux connectés à des outils. L'auteur soulève que si l'exécution locale protège les données, l'injection de prompts devient critique une fois le modèle relié à des fichiers, commandes shell, APIs ou RAG. Peu de setups locaux testent la robustesse face aux instructions malveillantes avant de donner accès aux outils.

Agents IA Sécurité IA Prompt engineering

SIG

HYP

Reddit r/LocalLLaMA·26 mai

SkillOpt treats markdown skill files as trainable parameters with proper optimization machinery

SkillOpt formalise l'optimisation de fichiers markdown comme paramètres entraînables via éditions bornées (ajout/suppression/remplacement) proposées par un modèle frontier et validées sur un ensemble de test. Les meilleures compétences convergent avec 1-4 éditions acceptées sur ~920 tokens. Une compétence optimisée sur Codex transfère à Claude Code (+59.7 SpreadsheetBench) sans modification.

Agents IA Prompt engineering Génération de code

SIG

HYP

Le Big Data·26 mai

Dust lève 40 M$ pour accélérer les assistants IA collaboratifs en entreprise

Dust lève 40 M$ auprès de Sequoia et Abstract pour développer des assistants IA collaboratifs en entreprise. La startup vise à évoluer l'IA d'entreprise au-delà des cas d'usage actuels.

Agents IA Business

SIG

HYP

ActuIA·26 mai

IA & banques : La BCE convoque ses banques sur Mythos, mais DORA ne garantit aucun accès souverain à l'outil

La BCE convoque les banques supervisées de la zone euro pour discuter des risques de cybersécurité liés à Mythos. Le règlement DORA ne garantit pas un accès souverain à cet outil pour les institutions financières.

Régulation Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·26 mai

qwen 3.6 27B AR-> Diffusion - local training on 5090

Expérience de fine-tuning local du Qwen 3.6 27B sur RTX 5090 en convertissant l'architecture autoregressive vers diffusion. Utilise QLoRA et nvfp4 pour réduire les besoins VRAM (600GB → entraînable sur 5090). S'inspire d'open-dllm (4x speedup sur Qwen 2.5) et intègre d3LLM pour optimiser les étapes de diffusion. Pas encore de modèle entraîné, mais forward pass validé.

Qwen Fine-tuning Open source

SIG

HYP

ActuIA·26 mai

EQT désigné gestionnaire du Scaleup Europe Fund à 5 milliards d'euros, sans LP français fondateur

EQT devient gestionnaire du Scaleup Europe Fund, un fonds de 5 milliards d'euros pour la souveraineté technologique européenne. Aucun investisseur institutionnel français n'est fondateur du véhicule.

Financements Business

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Qwen3.5 27B Uncensored Heretic Native MTP Preserved is Out Now With the Full 15 MTPs Preserved and Retained, Available in Safetensors, GGUFs, NVFP4, NVFP4 GGUFs and GPTQ-Int4 Formats!

Qwen3.5 27B uncensored en version MTP Preserved (15 MTPs conservés) disponible en Safetensors, GGUF, NVFP4 et GPTQ-Int4. Modèle optimisé pour assistance IA généraliste, contrairement à Qwen3.6 orienté agents et coding. Même architecture qwen35 mais comportements différents.

Qwen Open source Génération de code

SIG

HYP

Le Big Data·26 mai

La startup IA sans employés Polsia boucle une levée de fonds de 30 M$

Polsia, startup IA sans employés, lève 30 M$ avec un chiffre d'affaires annuel proche de 10 M$. Le modèle économique basé sur l'automatisation IA attire les investisseurs.

Business Financements

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Stop pretending self-hosting is cheaper. It's not. We do it for different reasons and we should say so.

Analyse coûts réels : self-hosting sur dual 3090 (~$0.50-0.80/token avec amortissement) vs RunPod H100 (~$1.49-1.99/h, 2-3x plus rapide). Pour usage léger (2-3h/jour), le cloud est moins cher. Les vrais motifs du self-hosting : confidentialité, autonomie, apprentissage, pas de cold-start, souveraineté—non économiques.

Infrastructure Open source

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Strix Halo users, a rejected PR can give you up to 30% faster PP for MOEs.

Un PR rejeté pour llama.cpp optimise le traitement par paquet (PP) des modèles MOE de 30% sur Qwen 3.5 MoE 35B. L'amélioration diminue avec l'augmentation du contexte. Le code peut être appliqué manuellement à la version courante.

Open source Génération de code Infrastructure

SIG

HYP

Hacker News (AI)·26 mai

Prompt Politeness Affects LLM Accuracy

Une étude montre que la politesse dans les prompts influence la précision des LLM. Les modèles répondent mieux aux demandes formulées poliment, suggérant que le ton du prompt affecte les performances.

Prompt engineering Évaluations

SIG

HYP

Reddit r/LocalLLaMA·26 mai

I finally put my NPU (Intel Arrow Lake) to use doing ASR for my smart home

Un utilisateur a optimisé l'ASR (reconnaissance vocale) sur NPU Intel Arrow Lake via OpenVINO. Résultats : 4,8× plus rapide et 10,7× moins d'énergie que CPU INT8 sur audio 10s. Le NPU (13 TOPS) libère CPU et VRAM pour d'autres tâches ML, surpassant en latence un RTX 3060 eGPU.

Génération de code Voix Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Running on a macbook, and having issues with crashing? Maybe this will help...

Utilisateur partage sa configuration stable pour exécuter Qwen 3.6 35B sur MacBook M2 Max 64GB. Recommande : GGUF + llama.cpp/LM Studio (pas Ollama), désactiver ProMotion, augmenter iogpu.wired_limit_m. Atteint 49 tokens/sec génération, 400+ tokens/sec traitement prompt, contexte 131k stable.

Qwen Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Qwen3.5 35B A3B uncensored heretic Native MTP Preserved is Out Now With the Full 785 MTPs Preserved and Retained, Available in Safetensors, GGUFs. NVFP4, NVFP4 GGUFs and GPTQ-Int4 Formats

Qwen3.5 35B uncensored v2 avec 785 MTPs préservés disponible en Safetensors, GGUF, NVFP4 et GPTQ-Int4. Modèle optimisé pour assistance IA généraliste contrairement à Qwen3.6 orienté agents et coding, malgré une architecture qwen35 commune.

Qwen Open source Génération de code

SIG

HYP

Reddit r/LocalLLaMA·26 mai

CXMT started selling ram to corsair

CXMT, fabricant chinois de mémoire, produit désormais des barrettes RAM pour Corsair. Cette entrée sur le marché grand public pourrait réduire les prix des composants mémoire.

Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·26 mai

model : add support for talkie-1930-13b by niklassheth · Pull Request #22596 · ggml-org/llama.cpp

Talkie-1930-13b-it, modèle 13B entraîné sur 260B tokens de texte anglais pré-1931, est ajouté à llama.cpp. Instruction-tuné via DPO avec LLM-as-judge sur des manuels d'étiquette et encyclopédies historiques. Simule conversations avec des personnages du passé.

Open source Fine-tuning Reinforcement learning

SIG

HYP

Le Big Data·26 mai

Jinnove lance le Mail Recommandé Électronique eIDAS

Jinnove lance Mail Recommandé Électronique (MRE), une solution transformant les courriels en envois certifiés conformes à eIDAS.

Régulation

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Shard - getting to 10× KV cache compression

Shard est un cache HuggingFace qui compresse la mémoire KV de Llama-3.1-8B par 10× à contexte 8K (11× à 32K) sans dégradation mesurable sur NIAH/LongBench. Combine PCA + quantization int4 sur K et rotation Hadamard + vector quantization sur V. L'attention s'exécute directement sur K compressé.

Llama Génération de code Infrastructure

SIG

HYP

arXiv cs.LG·26 mai

A Large-Scale Dataset and Benchmark: Do Protein-Ligand Models Learn Binding Sites or Just Binding Likelihood?

InteractBind, un dataset de ~100k paires protéine-ligand avec benchmark, évalue si les modèles localisent les sites de liaison ou prédisent simplement la probabilité de liaison. Huit modèles testés montrent une prédiction binaire forte mais une localisation faible des sites, révélant des lacunes dans l'interprétabilité physique.

Benchmarks Papers Évaluations

SIG

HYP

arXiv cs.CL·26 mai

Phonetic Modeling of Dialectal Variation in Vietnamese Speech

Cadre phonétique conscient des dialectes pour la reconnaissance vocale vietnamienne. Décompose les syllabes en composants phonétiques structurés mappés à des représentations IPA spécifiques aux dialectes. Sur UIT-ViMD, égale les performances de wav2vec2-base-vi-250h avec moins de paramètres et sans préentraînement externe.

SIG

HYP

arXiv cs.CL·26 mai

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Étude sur les biais de rationalisation chez les juges LLM. Les chercheurs testent si les explications des modèles restent stables quand des indices non-pertinents sont modifiés (verbosité, confiance). Ils proposent PROOF-BEFORE-PREFERENCE pour améliorer l'invariance aux indices et réduire l'ancrage des explications.

Évaluations Raisonnement Alignement

SIG

HYP

arXiv cs.CL·26 mai

Discovering Lexical Gaps Using Embeddings from Multilingual LLMs

Cadre automatisé pour détecter les lacunes lexicales (mots inexistants dans certaines langues) via embeddings de LLMs multilingues. Sur paires de traduction coréen-anglais, 4000 espaces d'embedding testés montrent que les mots lacunaires ont un alignement sémantique cross-lingue plus faible. Classifieurs logistiques atteignent AUC 0.81-0.76 et récupèrent 18/19 et 26/27 mots lacunaires.

Embeddings Benchmarks Papers

SIG

HYP

arXiv cs.LG·26 mai

Feature Lottery? A Bifurcation Theory of Concept Emergence

Théorie de bifurcation pour détecter en temps réel l'émergence de représentations structurées dans les réseaux de neurones. Un ratio dynamique β(t)/βc(t) basé sur la Hessienne de la perte prédit quatre régimes de transition distincts (SAE sur Pythia, SSL CIFAR, grokking arithmétique). À 5% de l'entraînement, la pureté précoce des atomes prédit la convergence finale avec 12x le baseline.

Papers Raisonnement Fine-tuning

SIG

HYP

arXiv cs.CL·26 mai

Measuring the Depth of LLM Unlearning via Activation Patching

Nouvelle métrique UDS (Unlearning Depth Score) pour évaluer si les connaissances sont vraiment effacées dans les LLM. Via activation patching, UDS mesure la profondeur mécanique de l'oubli couche par couche. Évaluation sur 150 modèles et 8 méthodes : UDS surpasse 20 métriques existantes en fidélité et robustesse.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.CL·26 mai

Temporal Concept Drift in Legal Judgment Prediction: Neural Baselines Across Three Epochs of Ukrainian Court Decisions

Étude de la dérive temporelle en NLP juridique sur 428K décisions de cours ukrainiennes (2008-2026). Quatre modèles transformers (XLM-RoBERTa, variantes légales) montrent une dégradation sévère en transfert forward (−27,2 pp macro-F1) mais robustesse en backward transfer. L'apprentissage continu chronologique élimine l'oubli catastrophique.

Benchmarks Fine-tuning Papers

SIG

HYP

arXiv cs.CL·26 mai

Improving the Completeness and Comparability of Segment Disclosures: A Large Language Model Approach

Un framework basé sur LLM extrait les divulgations de segments des formulaires 10-K pour améliorer la complétude et la comparabilité des données financières. Le système utilise RAG pour intégrer les informations entre plusieurs périodes et entreprises, démontrant son efficacité pour l'analyse longitudinale et l'alignement géographique cross-firm.

RAG Benchmarks

SIG

HYP

arXiv cs.LG·26 mai

TUBE: Tangent Upper Bound on Evidence for Discrete Diffusion Language Models

TUBE est une borne supérieure variationnelle sur la log-vraisemblance pour les modèles de diffusion discrets. Contrairement aux ELBO existantes, TUBE admet un estimateur Monte Carlo sans biais et s'applique aux modèles de diffusion masqués, ARMs d'ordre quelconque et leurs variantes par blocs. Les expériences montrent que les modèles de diffusion restent strictement en dessous des ARMs en vraisemblance exacte.

Papers Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·26 mai

Truthful Online Preference Aggregation for LLM Fine-Tuning in Mobile Crowdsourcing

Papier arXiv proposant un mécanisme d'agrégation en ligne pour aligner les LLM avec le feedback humain en crowdsourcing mobile. Le système incite les travailleurs à rapporter honnêtement leurs préférences via un jeu bayésien dynamique, réduisant le regret de O(T) à O(√T) sur T slots temporels.

Fine-tuning Reinforcement learning Papers

SIG

HYP

arXiv cs.CL·26 mai

CSP-Atlas: Concept-Specific Neural Circuits in a Sparse Python Transformer

Une étude identifie 106 circuits neuronaux dédiés dans un transformateur sparse 8-couches entraîné sur du code Python. Les circuits se structurent selon des principes computationnels (atomicité, ambiguïté lexicale) plutôt que sémantiques. 62,5% des neurones les plus actifs aux couches intermédiaires sont concept-spécifiques pour les construits AST.

Génération de code Raisonnement Papers

SIG

HYP

arXiv cs.LG·26 mai

From One-Pass SGD to Data Reuse: Mini-Batch Scaling Laws in Sketched Linear Regression

Étude théorique des lois d'échelle pour la régression linéaire esquissée avec mini-batches. Analyse comparée de SGD one-pass, SGD multi-pass avec et sans remplacement. Résultat clé : variance en O(min(M,(T_eff*γ)^(1/a))/(B*T_eff)), réduction 1/B en régime multi-pass sans remplacement, fluctuation nulle à B=N.

Papers Benchmarks Reinforcement learning

SIG

HYP

arXiv cs.AI·26 mai

HyperGuide: Hyperbolic Guidance for Efficient Multi-Step Reasoning in Large Language Models

HyperGuide utilise la géométrie hyperbolique pour guider le raisonnement multi-étapes dans les LLM. Une tête légère projette les états cachés dans l'espace hyperbolique, où la distance à l'origine encode la proximité de la solution. Un adaptateur bas-rang est affiné interactivement. Gains constants sur plusieurs benchmarks, plus importants pour les chaînes de raisonnement profondes.

Raisonnement Fine-tuning

SIG

HYP

arXiv cs.LG·26 mai

Fourier Feature Pyramids for Physics-Informed Neural Networks

Beignet, une nouvelle architecture de réseau de neurones pour résoudre les équations aux dérivées partielles (EDP), remplace les embeddings Fourier aléatoires des PINNs par une pyramide Fourier multi-résolution entraînable. Le modèle calcule efficacement les dérivées spatiales via FFT et atteint une précision supérieure avec moins de paramètres que les méthodes PINN existantes.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·26 mai

Towards Verifiable Transformers: Solver-Checkable Circuit Explanations

Framework Verifiable Transformers convertissant circuits Transformer en propriétés vérifiables par solveur SMT. Extraction de circuits task-localisés et vérification formelle d'équivalence fonctionnelle, nécessité des arêtes, invariance et robustesse. Démonstration sur tâches symboliques et GPT-2 scale avec architecture SMT-représentable (Signed L1 BandNorm, sparsemax, LeakyReLU).

Raisonnement Sécurité IA Papers

SIG

HYP