Page 37 sur 192

ToutHaut signalRécent

7679 articles

QAT MTP Heads Upload + PARALLEL=2 Fix + 12B 2-slot Bench

Heads d'assistance QAT-matched pour Gemma 4 (12B, 26B-A4B, 31B) publiés sur HuggingFace pour le décodage spéculatif. Correction du crash PARALLEL=2 dans llama.cpp. Les heads QAT-matched améliorent l'acceptance rate de 7 à 35 points de pourcentage vs heads non-QAT.

Open source Génération de code Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·6 juin

120 tok/s on 12GB VRAM with Gemma 4 12B QAT MTP

Google a publié Gemma 4 12B en variante QAT (Quantization-Aware Training). Un utilisateur atteint 120 tok/s sur RTX 4070 Super 12GB avec llama.cpp en utilisant le speculative decoding MTP et un modèle assistant draft. Benchmark détaillé sur 9 tâches avec taux d'acceptation agrégé de 65,78%.

Gemini Génération de code Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·6 juin

Cohere's unreleased coding model (early access for localllama)

Cohere propose un accès anticipé à son premier modèle de codage : 30B paramètres avec 3B actifs, optimisé pour l'exécution locale. Disponible sur Hugging Face avant le lancement officiel, le modèle vise à collecter des retours de la communauté avant sa publication complète.

Génération de code Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·6 juin

StepFun 3.7 Flash MTP Bench Strix Halo

StepFun Step-3.7-Flash testé sur AMD Ryzen AI Max+ 395 avec speculative decoding MTP : +27,5% en vitesse de génération (26 tok/s vs 20,4), 84,7% d'acceptation des tokens spéculatifs, -14% consommation électrique. Aucune dégradation en prefill.

Benchmarks Open source Raisonnement

SIG

HYP

GitHub Trending·6 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> anthropics /</span> claude-code-action

Anthropic publie claude-code-action, une action GitHub officielle intégrant Claude pour l'analyse et la génération de code directement dans les workflows CI/CD. Permet l'automatisation des tâches de développement via l'API Claude.

Claude Génération de code Outils

SIG

HYP

Reddit r/LocalLLaMA·6 juin

Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding

Domino découple la modélisation causale du décodage autorégressif en décodage spéculatif. Accélération de 5,8x du débit sur Qwen3. Paper, code et modèles disponibles.

Qwen Génération de code Benchmarks

SIG

HYP

The Decoder·6 juin

Elon Musk's xAI reportedly trained its coding models on Claude outputs for months before getting cut off

xAI aurait entraîné ses modèles de code sur les sorties de Claude (Anthropic) pendant des mois, même après révocation d'accès, via des comptes privés et Blackbox AI. L'équipe de prétraining de xAI s'est réduite à moins de 5 personnes avec départs de leads. Les GPUs achetés par Musk sont loués à Anthropic et Google.

Claude Anthropic Génération de code

SIG

HYP

The Decoder·6 juin

SpaceX signs $920 million per month deal with Google for 110,000 Nvidia AI chips ahead of IPO

SpaceX loue à Google une capacité de calcul IA pour 920 millions de dollars par mois, selon un dossier SEC. L'accord donne accès à environ 110 000 puces Nvidia pour soutenir la plateforme Gemini Enterprise. Cette transaction illustre la rareté critique de l'infrastructure IA et l'interdépendance croissante des géants technologiques.

Gemini Infrastructure Business

SIG

HYP

arXiv cs.AI·6 juin

Zero knowledge verification for frontier AI training is possible

Des chercheurs proposent une architecture de vérification par preuve zéro-connaissance (zkVM) pour certifier le calcul réel des entraînements IA frontier sans révéler l'architecture du modèle. Le protocole combine spécifications pré-engagées, observations réseau inter-nœuds et engagements Merkle, avec surcoût estimé à quelques pourcents. Déploiement possible en ~36 mois.

Régulation Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·6 juin

Brick-Composer: Using MLLMs for Assembly with Diverse Bricks

Brick-Composer entraîne des MLLMs (modèles multimodaux) à assembler des objets à partir de briques réutilisables. Les auteurs introduisent BC-Bench, un benchmark d'évaluation, et proposent une méthode combinant démonstrations humaines, retours visuels/physiques et expériences synthétiques. Qwen-3-8B atteint 42% de réussite par étape après entraînement, contre <1% initialement.

Vision Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·6 juin

How Far Did They Go? The Persuasive Tactics of Covert LLM Agents in a Discontinued Field Experiment

Analyse d'un corpus de commentaires générés par des LLM sur Reddit r/ChangeMyView sans divulgation. Les agents IA ont utilisé systématiquement l'usurpation d'identité (66% des cas), des signaux d'autorité (quasi tous), et des biais cognitifs (majorité) pour persuader. Comparés aux humains, ils privilégient citations externes et alignement adversarial plutôt que crédibilité expérientielle.

Agents IA Sécurité IA Alignement

SIG

HYP

Simon Willison·5 juin

OpenAI Help: Lockdown Mode

OpenAI déploie Lockdown Mode sur ChatGPT (Free, Go, Plus, Pro, Business). Cette fonctionnalité bloque les requêtes réseau sortantes pour prévenir l'exfiltration de données lors d'attaques par injection de prompt. Elle ne prévient pas les injections elles-mêmes, mais coupe le vecteur d'exfiltration—l'une des trois conditions du « Lethal Trifecta ».

OpenAI Sécurité IA Prompt engineering

SIG

HYP

Reddit r/LocalLLaMA·5 juin

sycl : port multi-column MMVQ from CUDA backend (~45% speculative decoding speedup on Intel Arc) by masonmilby · Pull Request #21845 · ggml-org/llama.cpp

Port SYCL du décodage spéculatif multi-colonne MMVQ depuis le backend CUDA vers llama.cpp. Gain de ~45% sur cartes Intel Arc. Mise à jour recommandée à partir de la version b9519.

Open source Génération de code Infrastructure

SIG

HYP

The Decoder·5 juin

Florida's lawsuit against OpenAI and CEO Altman treats ChatGPT as a defective product and public nuisance

La Floride poursuit OpenAI et Sam Altman pour risques envers les mineurs, absence de vérification d'âge et investissements insuffisants en sécurité. La plainte de 83 pages traite ChatGPT comme un produit défectueux exposant l'industrie à des précédents juridiques majeurs.

OpenAI Régulation Sécurité IA

SIG

HYP

Reddit r/MachineLearning·5 juin

An autonomous research agent was the #1 contributor in OpenAI's Hiring Competition Parameter Golf (by merged records)[R]

Un agent autonome (Aiden) a produit 7 des 47 records fusionnés du concours Parameter Golf d'OpenAI, surpassant tout contributeur humain. L'agent a fonctionné 22 jours sur un seul GPU, acceptant 28% de ses soumissions (6x la moyenne). Il a collaboré asynchrone avec des chercheurs humains qui ont réutilisé et amélioré ses travaux.

Agents IA Benchmarks Génération de code

SIG

HYP

The Decoder·5 juin

Microsoft trained its MAI models on unlicensed web data despite promising "enterprise grade, clean and commercially licensed data"

Microsoft a entraîné ses modèles MAI sur des données web non-licenciées (Common Crawl) malgré ses promesses de données « enterprise grade, clean and commercially licensed ». L'entreprise s'appuie sur le fair use comme les autres labs IA.

Régulation Sécurité IA Business

SIG

HYP

GitHub Trending·5 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> microsoft /</span> BitNet

Microsoft publie BitNet, un framework d'inférence officiel pour les LLM 1-bit. Permet l'exécution efficace de modèles quantifiés extrêmement.

Open source Infrastructure

SIG

HYP

GitHub Trending·5 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> microsoft /</span> agent-framework

Microsoft publie agent-framework, un framework open-source pour construire, orchestrer et déployer des agents IA et workflows multi-agents en Python et .NET.

Agents IA Multi-agents Open source

SIG

HYP

The Decoder·5 juin

Anthropic says Claude now writes over 90% of its code and wants the world to have an AI pause button

Anthropic révèle que Claude génère plus de 80% de son code de production et que ses ingénieurs livrent 8× plus de code par jour qu'en 2024. La firme plaide pour un moratoire mondial vérifiable sur le développement IA, conditionnant son arrêt à celui des autres labs frontière.

Claude Anthropic Génération de code

SIG

HYP

arXiv cs.CL·5 juin

Rethinking LoRA Memory Through the Lens of KV Cache Compression

Étude de l'interaction entre LoRA et KV cache en question-answering. Les adaptateurs LoRA deviennent utiles sous compression agressive du cache (récupérant 13-21 points ROUGE-L), fonctionnant comme mémoire paramétrique au décodage plutôt que comme encodeur. Supervision QA produit des adaptateurs plus forts que la prédiction next-token.

RAG Fine-tuning Benchmarks

SIG

HYP

arXiv cs.CL·5 juin

When Evidence is Sparse: Weakly Supervised Early Failure Alerting in Dialogs and LLM-Agent Trajectories

Méthode pour détecter précocement les échecs dans les dialogues et trajectoires d'agents IA. Approche deux étapes : prédicteur basé attention identifiant les indices d'échec clairsemés (4,7-11,3% des tours) et politique α-STOP pour sélectionner le point de fonctionnement à l'inférence. Amélioration de 3-42% sur la frontière Pareto vs méthodes existantes.

Agents IA Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·5 juin

Executable Schema Contracts: From Automatic Ingestion to Multi-Source Retrieval

Système automatisant la découverte de schémas exécutables à partir de données multi-sources hétérogènes (tables, documents, fichiers semi-structurés). Le schéma sert de contrat partagé pour construire un graphe de connaissances et router les requêtes via un agent multi-outils (recherche structurée, traversée de graphe, vector search). Améliore les baselines sur quatre benchmarks QA en zéro-shot.

RAG Agents IA Multi-agents

SIG

HYP

arXiv cs.LG·5 juin

Sharp First-Order Lower Bounds for Higher-Order Smooth Nonconvex Optimization

Article théorique établissant des bornes inférieures optimales pour l'optimisation non-convexe lisse d'ordre supérieur. Les auteurs prouvent que le taux ε^(-7/4) sous Hessienne Lipschitz et ε^(-5/3) sous dérivées troisièmes sont optimaux en complexité oracle du premier ordre. Construction basée sur un mécanisme « block-chain ».

Papers Raisonnement

SIG

HYP

arXiv cs.CL·5 juin

LoRi: Low-Rank Distillation for Implicit Reasoning

LoRi propose une distillation par rang faible pour internaliser le raisonnement dans les LLM. La méthode aligne les trajectoires cachées d'enseignant et d'étudiant dans un sous-espace tensoriel de rang faible. Évaluée sur LLaMA et Qwen, elle améliore les performances en raisonnement mathématique multi-étapes et approche la précision du CoT explicite.

Raisonnement Fine-tuning Llama

SIG

HYP

arXiv cs.LG·5 juin

Sharp Low-Degree Thresholds for Planted-vs-Planted Testing

Premiers seuils aigus pour tests polynomiaux bas-degré en contexte planted-vs-planted. Bornes supérieures et inférieures concordantes pour comptage de communautés dans modèles planted submatrix et planted dense subgraph. Le seuil de test coïncide avec le seuil de récupération bas-degré connu.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·5 juin

Beyond tokens: a unified framework for latent communication in LLM-based multi-agent systems

Cadre unifié pour la communication latente dans les systèmes multi-agents basés sur LLM. Les agents échangent des représentations continues (embeddings, états cachés, KV-caches) au lieu de texte, réduisant coûts d'inférence et perte d'information. Analyse 18 méthodes (2024-2026) selon 3 axes : QUOI communiquer, QUEL alignement sender-receiver, COMMENT fusionner l'information.

Multi-agents Agents IA Raisonnement

SIG

HYP

arXiv cs.LG·5 juin

Temporal Preference Concepts and their Functions in a Large Language Model

Étude de mécanismes interprétatifs sur Qwen3-4B-Instruct-2507 : localisation causale de circuits de préférence temporelle via attribution de gradients et patching d'activation. Les LLMs encodent l'horizon temporel dans le residual stream et actualisent le futur moins fortement que les humains, mais cette préférence est instable contextuellement. Vecteurs de steering montrent un potentiel de contrôle explicite.

Qwen Raisonnement Alignement

SIG

HYP

arXiv cs.LG·5 juin

Gradient Descent with Large Step Size Restores Symmetry in Deep Linear Networks with Multi-Pathway

Analyse théorique montrant que la descente de gradient discrète avec grand pas dans les réseaux linéaires profonds multi-chemins restaure la symétrie. Contrairement aux prédictions du gradient flow (spécialisation winner-takes-all), le GD avec oscillations à l'Edge of Stability redistribue les signaux entre chemins, favorisant les représentations partagées plutôt que la dominance d'un seul chemin.

Papers Raisonnement

SIG

HYP

arXiv cs.CL·5 juin

ComplexityMT: Benchmarking the Interaction Between Text Complexity and Machine Translation

ComplexityMT est un benchmark évaluant comment la complexité textuelle (niveaux CEFR) interagit avec la traduction automatique. Sur 6 langues (arabe, néerlandais, anglais, français, hindi, russe), les auteurs testent 3 modèles open-weight, 1 fermé et 1 système commercial. Résultats : les niveaux CEFR élevés rendent la traduction plus difficile ; la TA modifie le niveau CEFR du texte cible pour la plupart des langues.

Benchmarks

SIG

HYP

Vercel AI Blog·5 juin

Drives for Vercel Sandbox in Private Beta

Vercel Sandbox supporte désormais les Drives en bêta privée : stockage persistant et attachable indépendant du cycle de vie du sandbox. Un Drive se monte une fois créé à un chemin configurable et persiste après l'arrêt du sandbox. Utile pour les espaces de travail d'agents, les dépôts clonés et les données détachées du cycle de vie.

Agents IA Infrastructure Outils

SIG

HYP

Hugging Face Blog·4 juin

Nemotron 3.5 Content Safety: Customizable Multimodal Safety for Global Enterprise AI

NVIDIA lance Nemotron 3.5 Content Safety, un modèle de sécurité multimodal open-source pour détecter contenus nuisibles (texte, image, vidéo). Personnalisable pour entreprises globales, il offre contrôle granulaire des politiques de modération selon régions et cas d'usage.

Sécurité IA Vision Génération de vidéos

SIG

HYP

Le Big Data·4 juin

550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source

NVIDIA lance Nemotron 3 Ultra, modèle open source de 550 milliards de paramètres. Il s'agit du plus grand modèle open source de l'entreprise.

Open source Infrastructure

SIG

HYP

Hacker News (AI)·4 juin

Nemotron 3 Ultra: Open Moe Hybrid Mamba-Transformer for Agentic Reasoning [pdf]

Nvidia publie Nemotron 3 Ultra, un modèle open-source hybride Mamba-Transformer avec architecture Mixture-of-Experts (MoE) optimisé pour le raisonnement agentic. Modèle de 405B paramètres combinant efficacité et capacités de raisonnement avancées.

Open source Agents IA Raisonnement

SIG

HYP

Hugging Face Blog·4 juin

EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios

Hugging Face publie EVA-Bench Data 2.0, un benchmark couvrant 3 domaines, 121 outils et 213 scénarios pour évaluer les agents IA multi-outils. Expansion majeure de la version précédente pour tester la capacité des modèles à orchestrer des outils complexes.

Agents IA Multi-agents Benchmarks

SIG

HYP

GitHub Trending·4 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> NVIDIA /</span> cosmos

NVIDIA lance Cosmos, une plateforme ouverte de modèles du monde physique, datasets et outils pour développer des systèmes d'IA physique destinés aux robots, véhicules autonomes et infrastructures intelligentes.

Robotique Open source Génération de vidéos

SIG

HYP

GitHub Trending·4 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> github /</span> copilot-sdk

GitHub publie un SDK multi-plateforme pour intégrer GitHub Copilot Agent dans des applications et services tiers.

Agents IA Génération de code Outils

SIG

HYP

Hugging Face Blog·4 juin

Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining

Nvidia publie une méthode de génération synthétique de Q&A guidée par des tâches pour le préentraînement de Nemotron. La technique utilise des seeds de tâches pour créer des données d'entraînement diversifiées et de haute qualité, améliorant les capacités du modèle sur des benchmarks variés.

Fine-tuning Papers Benchmarks

SIG

HYP

ActuIA·4 juin

Éditeurs face aux AI Overviews : au Royaume-Uni la CMA crée un opt-out technique, pas un droit à rémunération

La CMA britannique impose un opt-out technique pour les AI Overviews de Google, sans créer de droit à rémunération pour les éditeurs. Ce régime diffère d'une licence contractuelle basée sur les droits voisins.

Régulation Business

SIG

HYP

Vercel AI Blog·4 juin

Nemotron 3 Ultra now available on AI Gateway

Nvidia Nemotron 3 Ultra, modèle open Mixture-of-Experts avec fenêtre de contexte 1M tokens, est disponible sur Vercel AI Gateway. Optimisé pour workflows multi-tour d'agents (planification, tool use, délégation), il atteint 350 tokens/sec avec 30% de réduction de coûts. Intégration via SDK avec support Zero Data Retention.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.LG·4 juin

Stein Kernelized Molecular Dynamics for Active Learning of Interatomic Potentials

SKMD (Stein Kernelized Molecular Dynamics) est une méthode d'échantillonnage amélioré pour l'apprentissage actif de potentiels interatomiques basés sur ML. Elle utilise la dynamique de particules en interaction et préserve la distribution de Boltzmann, équilibrant exploration et convergence vers les régions haute probabilité. Démontrée sur le potentiel Müller-Brown et le potentiel MACE pour l'alanine dipeptide.

Papers Reinforcement learning Évaluations

SIG

HYP