Page 41 sur 192

ToutHaut signalRécent

7679 articles

Anthropic's run-rate revenue hits $47 billion

Anthropic annonce un chiffre d'affaires annualisé de $47 milliards en mai 2026, en hausse depuis $9 milliards fin 2025. La croissance s'accélère : $14 milliards en février, $30 milliards en avril. Métrique partagée lors de la levée de $65 milliards en Series H.

Anthropic Business Financements

SIG

HYP

Reddit r/LocalLLaMA·29 mai

StepFun 3.7 Flash

StepFun lance Step 3.7 Flash, un MoE multimodal 196B/11B actifs avec ViT 1.8B intégré. Sur SWE-Bench Pro : 56.26% (devance DeepSeek V4 Flash 55.6%), DeepSearchQA F1 : 92.82%. Exécutable localement sur 128GB RAM.

Open source Génération de code Agents IA

SIG

HYP

Simon Willison·28 mai

Claude Opus 4.8: "a modest but tangible improvement"

Anthropic lance Claude Opus 4.8, décrit comme une amélioration « modeste mais tangible » par rapport à 4.7. Le modèle excelle en honnêteté : 4 fois moins susceptible de laisser passer des flaws de code sans les signaler, et abstient davantage sur les questions incertaines. Tarification inchangée : $5/M tokens input, $25/M output.

Claude Anthropic Évaluations

SIG

HYP

Hacker News (AI)·28 mai

Anthropic raises $65B in Series H funding at $965B post-money valuation

Anthropic lève 65 milliards de dollars en financement de série H, valorisant l'entreprise à 965 milliards de dollars post-money. Cette levée majeure intervient dans un contexte de consolidation du marché des modèles de langage.

Anthropic Financements Business

SIG

HYP

Reddit r/MachineLearning·28 mai

Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems [R]

AgingBench, un nouveau benchmark de déploiement longitudinal, montre que remplacer Claude Sonnet 4.6 par Opus 4.7 dans l'agent Claude Code CLI réduit le taux de réussite PyTest de ~15%. La politique mémoire seule provoque une variation de 4,5x dans la demi-vie de l'agent, plus importante que tout changement de modèle testé.

Agents IA Claude Claude Code

SIG

HYP

Reddit r/LocalLLaMA·28 mai

Zai replaced the network architecture running GLM-5.1 inference and the gains are pretty wild

Zai a remplacé l'architecture réseau d'un cluster de 1000 GPU exécutant GLM-5.1 en passant de ROFT à ZCube (développé avec Tsinghua et HarnetsAI). Résultats : coûts de commutation/optique -33%, débit GPU +15%, latence P99 premier token -40.6%. ZCube élimine la couche Spine pour une interconnexion bipartite complète, résolvant les hotspots de trafic asymétrique du Prefill-Decode disaggregated.

Infrastructure Raisonnement

SIG

HYP

Reddit r/MachineLearning·28 mai

A new dataset with more that 100M hi-quality, curated images, with captions and meta data! [P]

MONET, un dataset Apache 2.0 de 104,9 millions d'images haute qualité avec captions et métadonnées, publié sur Hugging Face. Construit à partir de 2,9 milliards d'images et raffiné. Accompagné d'un paper, d'outils de visualisation UMAP, d'un moteur de recherche texte/image et d'une codebase pour entraîner des modèles T2I.

Génération d'images Embeddings Open source

SIG

HYP

GitHub Trending·28 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> anthropics /</span> claude-code

Claude Code est un outil de codage agentique en ligne de commande qui comprend votre base de code et exécute des tâches routinières, explique du code complexe et gère les workflows Git via des commandes en langage naturel.

Claude Claude Code Agents IA

SIG

HYP

GitHub Trending·28 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> microsoft /</span> RAMPART

Microsoft publie RAMPART, un framework de test de sécurité natif pytest pour les applications IA agentiques. Permet d'évaluer les risques de sécurité et de sûreté des systèmes multi-agents.

Agents IA Multi-agents Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·28 mai

Qwen3.6-35B-A3B-APEX / 128K ctx on RTX 3060 12GB — 37 t/s gen with 72k ctx filled, PPL 3.25, offloading 17GB model

Qwen3.6-35B-A3B-APEX quantifié par mudler atteint 37 t/s en génération avec 72K contexte rempli sur RTX 3060 12GB via offloading 17.3GB. Optimisations CUDA de spiritbuun (fused MMA, TurboQuant, fattn) + quantization I-Compact APEX donnent PPL 3.25. Contexte 128K supporté, dégradation à 28 t/s @129K.

Qwen Génération de code Open source

SIG

HYP

Latent Space·28 mai

[AINews] Cognition raises $1B in $26B Series D

Cognition lève 1 milliard de dollars en Series D à une valorisation de 26 milliards. L'entreprise derrière Devin, l'agent IA pour le codage, positionne le marché du code comme un TAM sans plafond.

Agents IA Génération de code Financements

SIG

HYP

Vercel AI Blog·28 mai

Opus 4.8 on AI Gateway

Claude Opus 4.8 est disponible sur Vercel AI Gateway. Le modèle excelle dans l'exécution agentique long-horizon et les tâches de codage multi-étapes complexes. AI Gateway offre une API unifiée avec suivi d'usage, optimisations de performance et tarification transparente sans markup.

Claude Agents IA Génération de code

SIG

HYP

Reddit r/LocalLLaMA·28 mai

Nvidia LocateAnything - Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding. (10x faster than Qwen3-VL)

Nvidia lance LocateAnything, un modèle vision-langage 3B pour le grounding spatial. Utilise le décodage parallèle de boîtes et affiche 10x plus rapide que Qwen3-VL. Code et démo disponibles sur HuggingFace.

Vision Open source Benchmarks

SIG

HYP

arXiv cs.CL·28 mai

UserHarness: Harnessing User Minds for Stronger Agent Theory-of-Mind

UserHarness propose un cadre pour améliorer la théorie de l'esprit (ToM) des agents IA en reconstituant explicitement l'état mental de l'utilisateur. Le système décompose les observations, croyances, intentions et actions de l'utilisateur. Sur cinq benchmarks, UserHarness atteint 95,94% de précision macro, surpassant les méthodes existantes de plus de 15% en relatif.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·28 mai

GRADE: Generalizable Reasoning-Aware Dialogue Evaluation for AI Tutors

GRADE évalue 120 configurations de modèles open-source (Gemma3-12B/27B, LoRA, CoT+Reasoning) pour l'évaluation pédagogique en dialogues tuteur-étudiant. Gemma3-27B 8-bit surpasse les systèmes propriétaires. L'augmentation synthétique aide les modèles faibles ; CoT+Reasoning est plus utile pour la génération que la classification directe.

Benchmarks Fine-tuning Raisonnement

SIG

HYP

arXiv cs.CL·28 mai

PAST2HARM: A Simple Adaptive Past Tense Attack for Jailbreaking Multimodal AI

PAST2HARM est une attaque de jailbreak adaptative exploitant la reformulation au passé pour contourner les garde-fous de modèles multimodaux texte-image. Testée sur Gemini Nano, GPT Image 2 et SD XL, elle atteint 83%, 67% et 100% de taux de succès. L'attaque génère contenu sexuel explicite, désinformation politique et discours haineux.

Sécurité IA Alignement Vision

SIG

HYP

arXiv cs.LG·28 mai

The Fundamental Limits of Fraud Detection in Card Payment Networks

Étude théorique des limites fondamentales de la détection de fraude dans les réseaux de paiement par carte. Les auteurs formalisent l'autorisation de paiement comme un problème de décision séquentielle avec retours retardés, censurés et corrompus. Ils dérivent une borne inférieure de regret minimax montrant que l'amélioration de la qualité des données dépasse en impact l'augmentation de la complexité des modèles.

Benchmarks Raisonnement Papers

SIG

HYP

arXiv cs.CL·28 mai

From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons

FLUID adapte efficacement les modèles de langage autorégressifs (AR) à la génération par diffusion via l'alignement causal strict et les horizons élastiques. Le framework réduit les coûts d'entraînement de plusieurs ordres de magnitude en réutilisant les checkpoints GPT existants, tout en maintenant la performance état-de-l'art.

Génération de code Fine-tuning Raisonnement

SIG

HYP

arXiv cs.AI·28 mai

Intelligence as Managed Autonomy: Failure, Escalation, and Governance for Agentic AI Systems

Papier proposant SMARt, un framework formel pour gérer l'autonomie des systèmes IA agentic. Introduit une théorie de l'autonomie gérée basée sur la détection de la dérive épistémique, la suspension du raisonnement et l'escalade vers un contrôle humain. Utilise des réseaux de Petri temporisés pour garantir des propriétés de sécurité et de gouvernance.

Agents IA Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·28 mai

Worker Disagreement Reveals Sharp Directions in Local SGD

Les chercheurs montrent que Local SGD révèle la géométrie anisotrope de la perte via le désaccord entre workers. Les écarts worker-moyenne fournissent un estimateur sans Hessien des directions dominantes du spectre. Validé sur MLPs, CNNs et Transformers.

Papers Reinforcement learning

SIG

HYP

arXiv cs.AI·28 mai

C-MIG: Multi-view Information Gain-based Retrieval-Augmented Generation for Clinical Diagnosis Reasoning

C-MIG propose un framework RAG avec apprentissage par renforcement pour le diagnostic clinique. Il utilise un gain d'information multi-vue (documents récupérés + raffinement) pour améliorer la supervision des modèles de langage, éliminant les récompenses binaires exactes. Tests sur 4 benchmarks médicaux montrent des gains en domaine et hors-domaine.

RAG Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.LG·28 mai

The Energy Blind Spot: NVIDIA's Flagship Edge AI Hardware Cannot Support Process-Level Energy Attribution

NVIDIA's GB10 edge AI hardware (ASUS Ascent GX10) manque de compteurs d'énergie CPU et d'interfaces de monitoring (IPMI, SCMI). Seule la puissance GPU instantanée est exposée via NVML. Les workloads agentic consomment 4.33x plus d'énergie que les baselines linéaires. L'attribution énergétique par processus reste impossible sur cette plateforme contrairement à x86/RAPL.

Agents IA Benchmarks Infrastructure

SIG

HYP

arXiv cs.LG·28 mai

Aligning LLMs with Human Uncertainty: A Beta-Bernoulli Calibrator for LLM Forecasting

BBC (Beta-Bernoulli Calibrator) convertit les prévisions ponctuelles d'un LLM en distributions de probabilité en utilisant les résultats binaires et les prévisions humaines agrégées. Le modèle capture l'incertitude épistémique via la variance, surpassant les méthodes de calibration post-hoc et le fine-tuning spécialisé.

Raisonnement Évaluations Alignement

SIG

HYP

arXiv cs.CL·28 mai

Narrative Flattening: How Post-Training Compresses Thematic, Affective, and Stylistic Variation in LLM Fiction

Étude sur quatre checkpoints OLMo 32B montrant que le post-training (SFT, DPO, RLVR) compresse la variation narrative en réduisant les transitions thématiques, l'intensité émotionnelle et la diversité stylistique. L'effet « narrative flattening » est plus marqué sur la fiction littéraire professionnelle que sur les histoires de plateformes publiques.

Papers Fine-tuning Alignement

SIG

HYP

arXiv cs.CL·28 mai

Playing with Words, Improving with Rewards: Training Language Models for Creative Association

Entraînement de modèles Qwen (1.7B, 4B, 8B) sur le jeu Codenames pour améliorer la créativité via reinforcement learning avec récompenses vérifiables (RLVR). Le modèle 8B gagne en créativité (+8/10 benchmarks) avec dégradation mineure du raisonnement, tandis que les petits modèles privilégient la précision. Étude sur le compromis créativité-précision selon l'échelle.

Qwen Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.CL·28 mai

Chain-based Adaptive Reconfiguration Over Lattices for Hallucination Reduction

CAROL est un framework probabiliste pour réduire les hallucinations des LLM au moment du test. Il définit une mesure d'incertitude sémantique basée sur la cohérence entre réponses générées et contexte de confiance, formulant la mitigation comme un processus de chaîne de Markov avec garanties de convergence. Résultats sur QA et multi-agent reasoning montrent réduction significative des hallucinations.

Raisonnement Sécurité IA Alignement

SIG

HYP

Vercel AI Blog·28 mai

Team-wide provider allowlist on AI Gateway

Vercel AI Gateway introduit une liste blanche de fournisseurs au niveau équipe. Les organisations peuvent restreindre les fournisseurs autorisés pour tous les requêtes, y compris BYOK. Le filtrage s'applique par fournisseur (pas par modèle) et fonctionne avec tous les formats API supportés.

Infrastructure Sécurité IA Régulation

SIG

HYP

Vercel AI Blog·28 mai

Amazon OpenSearch Serverless is now available in the Vercel Marketplace

Amazon OpenSearch Serverless intègre la Vercel Marketplace avec configuration automatique et gestion unifiée. L'intégration supporte recherche vectorielle, lexicale, hybride et agentic. Crédits AWS $100 offerts pour les nouveaux comptes.

Agents IA Recherche vectorielle Infrastructure

SIG

HYP

Reddit r/MachineLearning·27 mai

"Unified Neural Scaling Laws" paper release [R]

Publication d'un paper sur les lois d'échelle unifiées en apprentissage profond. Étude des relations entre taille du modèle, données d'entraînement et performance. Résultats reproductibles et benchmarks inclus.

Papers Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·27 mai

260K-param LLM running on an emulated 90s CPU inside an 18-year-old RTOS

Un développeur a fait tourner un LLM de 260K paramètres (llama2.c/stories260K) sur un émulateur JavaScript d'un CPU Motorola 68K des années 90, lui-même exécuté dans un RTOS de 2008. Quantification INT8 + lookup tables pour RoPE et inverse square root (Quake) pour contourner l'absence de FPU. Génération : 2-4 secondes/token.

Llama Génération de code Fine-tuning

SIG

HYP

Reddit r/MachineLearning·27 mai

AI-generated CUDA kernels silently break training and inference [R]

NVIDIA a publié SOL-ExecBench (235 kernels CUDA de production). Des kernels générés par IA classés premiers se révèlent bugués en entraînement réel : un kernel de backward embedding+RMSNorm accumule en bf16 au lieu de fp32, causant une divergence de loss masquée par AdamW mais visible avec SGD.

Benchmarks Génération de code Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·27 mai

ReAligned-Qwen3.5 Release

Lazarus AI et Eric Hartford (créateur de Dolphin) publient ReAligned-Qwen3.5, une série de modèles Qwen finetunés pour réduire les biais idéologiques chinois et la censure. Licence Apache 2.0, entraînement SFT + GRPO avec classifier ReAligned. Disponibles en 0.8B à 35B, formats BF16/FP8/GGUF sur HuggingFace.

Qwen Fine-tuning Reinforcement learning

SIG

HYP

Reddit r/LocalLLaMA·27 mai

I ran 8 open-weight models as agents in a persistent MMO for 10 days. Here's the 93k event dataset and some things that I learned

Un studio a lancé Null Epoch, un MMO persistant où 25 agents LLM (8 modèles open-weight : Qwen3, Nemotron, Ministral, Gemma, GLM) ont joué pendant 10 jours. Dataset de 93k événements publié sur HuggingFace. Test de planification long-horizon, contention de ressources et pression adversariale en simulation dynamique.

Agents IA Multi-agents Benchmarks

SIG

HYP

Vercel AI Blog·27 mai

How Conductor moved parallel coding agents from the laptop to the cloud with Vercel Sandbox

Conductor, plateforme de direction d'agents de codage parallèles, migre son exécution du laptop vers le cloud via Vercel Sandboxes. Les équipes d'ingénierie de Notion, Linear, Ramp et Life360 utilisent cet outil model-agnostic (Claude Code, Codex, etc.) pour lancer plusieurs agents simultanément sur des branches isolées du codebase.

Agents IA Multi-agents Génération de code

SIG

HYP

GitHub Trending·27 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> langfuse /</span> langfuse

Langfuse est une plateforme open-source d'ingénierie LLM offrant observabilité, métriques, évaluations, gestion de prompts et playground. Intègre OpenTelemetry, Langchain, OpenAI SDK, LiteLLM. Lauréate Y Combinator W23.

Open source Outils Évaluations

SIG

HYP

arXiv cs.CL·27 mai

Conceptual Steganography

Des chercheurs montrent qu'un modèle de langage peut dissimuler des messages dans ses chaînes de pensée (CoT) via des patterns de raisonnement conceptuel, contournant les défenses par paraphrase. Cette forme de stéganographie est plus robuste que les approches lexicales sur quatre familles de modèles. Une paraphrase consciente de la stratégie peut réduire ce risque.

Raisonnement Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·27 mai

In-Context Optimization for Retrieval-Augmented Generation: A Gradient-Descent Perspective

Étude théorique montrant qu'une couche de self-attention linéaire peut implémenter une étape de gradient descent sur un objectif RAG unifié. Les auteurs proposent une méthode légère pour adapter l'interaction entre requêtes et documents récupérés sans modifier le retriever ni le modèle backbone, testée sur 7 benchmarks QA avec améliorations significatives.

RAG Raisonnement Papers

SIG

HYP

arXiv cs.CL·27 mai

Alignment Tuning for Large Language Models: A Data-Centric Lens on Alignment Data Pipelines

Étude des pipelines de données d'alignement pour LLM. Décompose la construction en trois étapes : synthèse de réponses, évaluation de préférences, instanciation de préférences. Identifie trade-offs récurrents et principes de conception influençant le signal d'optimisation.

Alignement Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·27 mai

Advancing Creative Physical Intelligence in Large Multimodal Models

MM-CreativityBench, un nouveau benchmark, évalue la capacité des modèles multimodaux à résoudre des problèmes créatifs en identifiant des usages non-évidents d'objets dans des environnements physiquement contraints. Les LMMs actuels échouent par manque d'exploration ancrée et hallucinations. L'alignement par affordances via DPO réduit ces erreurs et améliore la sélection d'entités pertinentes.

Benchmarks Vision Raisonnement

SIG

HYP

arXiv cs.LG·27 mai

From Privacy to Generalization: Linear Max-Information Bounds for DP-SGD

Article théorique prouvant une borne finie sur l'information maximale approximée de DP-SGD avec scaling linéaire en taille du dataset. Dérive une borne PAC-Bayes générale où la distribution a priori est apprise par DP-SGD, et une borne de généralisation explicite contrôlée par les hyperparamètres d'optimisation.

Papers Sécurité IA Alignement

SIG

HYP