Page 34 sur 192

ToutHaut signalRécent

7679 articles

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> trycua /</span> cua

Infrastructure open-source pour agents d'utilisation informatique. Propose des bacs à sable, SDKs et benchmarks pour entraîner et évaluer des agents IA capables de contrôler des bureaux complets (macOS, Linux, Windows).

Agents IA Open source Benchmarks

SIG

HYP

ActuIA·15 juin

Les États-Unis coupent l'accès aux modèles Fable 5 et Mythos 5 d'Anthropic : un précédent pour la souveraineté IA

Les États-Unis ont imposé à Anthropic de restreindre l'accès aux modèles Fable 5 et Mythos 5 pour les ressortissants étrangers. Anthropic a désactivé ces modèles pour l'ensemble des utilisateurs non-américains, établissant un précédent en matière de contrôle souverain des IA avancées.

Anthropic Régulation Business

SIG

HYP

Reddit r/LocalLLaMA·15 juin

I ported EXL3 to run well on Apple Silicon - PonyExl3

Portage d'EXL3 (codec haute qualité/faible RAM) sur Apple Silicon via Metal. M5 Max atteint ~600 tok/s prefill et ~38 tok/s génération (Qwen 27B), surpassant RTX 4090 sur certains benchmarks (68.5-80 tok/s decode). Repo GitHub avec résultats reproductibles.

Open source Génération de code Infrastructure

SIG

HYP

arXiv cs.CL·15 juin

Beyond Perplexity: UTF-8 Validity in Byte-aware Language Models

Étude sur la fiabilité UTF-8 dans les modèles byte-level (355M params, 80B tokens multilingues). La validité UTF-8 converge 2× plus lentement que la perplexité (4.2B vs 2.1B tokens). Les caractères rares génèrent du UTF-8 plus valide que les caractères fréquents, révélant une sur-spécialisation.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·15 juin

StreamMemBench: Streaming Evaluation of Agent Memory for Future-Oriented Assistance

StreamMemBench est un benchmark d'évaluation pour tester la mémoire des agents IA dans des scénarios réalistes. Il construit des séquences de deux tâches autour d'observations vidéo (EgoLife) pour mesurer si l'agent utilise les preuves stockées et réutilise les retours utilisateur. Tests sur 8 systèmes de mémoire montrent que les agents échouent souvent à transformer le feedback en comportement fiable.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·15 juin

QIAS 2026: Overview of the Shared Task on Islamic Inheritance Reasoning

QIAS 2026 est un défi partagé évaluant la capacité des LLM à raisonner sur l'héritage islamique. Basé sur MAWARITH (12 500 cas arabes annotés), il requiert calcul complet : identification des héritiers et attribution des parts. 16 équipes ont testé prompting, RAG et fine-tuning. Les résultats montrent que l'interprétation légale précise et le raisonnement numérique structuré restent très difficiles.

Benchmarks Raisonnement RAG

SIG

HYP

arXiv cs.AI·15 juin

HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

HarnessX est une plateforme pour créer des harnesses d'agents IA composables et adaptatifs. Elle utilise AEGIS, un moteur d'évolution multi-agent piloté par les traces d'exécution, pour optimiser les prompts, outils et flux de contrôle. Sur 5 benchmarks (ALFWorld, GAIA, WebShop, tau³-Bench, SWE-bench), HarnessX atteint +14,5% de gain moyen (+44% max), sans augmenter la taille du modèle.

Agents IA Multi-agents Prompt engineering

SIG

HYP

arXiv cs.AI·15 juin

GitOfThoughts: Version-Controlled Reasoning and Agent Memory You Can Replay, Diff, and Merge

GitOfThoughts stocke le raisonnement des agents LLM sous forme de dépôt git : chaque pensée est un commit, les scores sont des notes, les résultats sont des tags. Étude empirique sur 5 substrats de mémoire (aucun, markdown, vecteur, graphe, git) : la mémoire n'améliore la précision que si le cas récupéré est quasi-identique au problème actuel (similarité >0,8). Le gain principal reste l'échantillonnage au test-time.

Agents IA Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·15 juin

Sorries Are Not the Hard Part: An Expert-Review Case Study of a Semi-Autonomous Formalization

Une étude de cas sur la formalisation semi-autonome du théorème d'annulation de Grothendieck montre que les LLM ferment les trous de preuve mais produisent des formalisations non réutilisables. Après révision d'expert, les agents s'adaptent bien aux retours locaux mais échouent à concevoir des définitions et APIs robustes.

Raisonnement Génération de code Évaluations

SIG

HYP

arXiv cs.LG·15 juin

Contract-Based Compositional Shielding for Safe Multi-Agent Reinforcement Learning

Méthode de shielding décentralisé pour l'apprentissage par renforcement multi-agent garantissant la sécurité globale sans contrôle centralisé. Les agents partagent une spécification LTL_safe globale et sélectionnent des obligations locales dont la conjonction implique la spécification globale, via un bandit multi-armé non-stationnaire. Évaluation sur 6 environnements et 15 variantes algorithmiques.

Multi-agents Reinforcement learning Sécurité IA

SIG

HYP

arXiv cs.AI·15 juin

FactoryLLM: A Safe and Open-Source AI Playground for Evaluating LLMs in Smart Factories

FactoryLLM est un environnement open-source pour évaluer des modèles LLM en diagnostic de pannes dans les usines intelligentes. Il utilise RAG pour analyser la documentation multi-machines et propose une évaluation dual (RAGAS + LLM-as-a-Judge). Étude de cas : 3 LLMs testés sur 30 requêtes de maintenance avec scores de groundedness > 0.88.

RAG Évaluations Open source

SIG

HYP

arXiv cs.AI·15 juin

When Sample Selection Bias Precipitates Model Collapse

L'entraînement récursif sur données synthétiques risque l'effondrement du modèle : la sélection de données basée sur des références locales fragmentées élimine les modes de queue globalement pertinents. Les auteurs prouvent théoriquement que cette sélection en silos accélère l'effondrement et proposent des références proxy Wasserstein multi-silos sans partage de données brutes.

Papers Benchmarks Sécurité IA

SIG

HYP

arXiv cs.LG·15 juin

Neural Slack Variables for Shape Constraints

Nouvelle méthode pour imposer des contraintes d'inégalité (monotonie, convexité) dans les réseaux de neurones via des variables slack neurales. Approche couplant un réseau principal avec un réseau auxiliaire appris conjointement, convertissant l'application de contraintes en problème de régression. Atteint zéro violation mesurée sur tests de monotonie/convexité, surpassant méthodes de pénalité et primal-dual.

Papers Raisonnement Fine-tuning

SIG

HYP

arXiv cs.LG·15 juin

High-Frequency Pricing at Scale for E-Commerce

Zalando déploie un système de pricing algorithmique haute-fréquence pour 5M+ articles en mode vente. Architecture forecast-then-optimize combinant gradient boosting et optimisation multi-objectifs. Tests A/B sur 12 marchés (2023-2024) : +6% profit, temps de décision réduit de heures à minutes.

Business Benchmarks Outils

SIG

HYP

arXiv cs.AI·15 juin

SkillAudit: Ground-Truth-Free Skill Evolution via Paired Trajectory Auditing

SkillAudit est un framework pour faire évoluer les compétences d'agents LLM sans feedback ground-truth. Via l'audit de trajectoires appariées, le système exécute la même tâche avec et sans la compétence candidate, puis utilise Process-Aligned Contrastive Evaluation pour isoler les changements de comportement. Sur 89 tâches, SkillAudit atteint 73,9% de récompense moyenne vs 56,7% pour la compétence expert statique.

Agents IA Raisonnement Évaluations

SIG

HYP

Reddit r/LocalLLaMA·14 juin

EAGLE support merged into llama.cpp

Le support EAGLE a été fusionné dans llama.cpp. EAGLE est une technique d'accélération de l'inférence pour les modèles de langage qui réduit la latence en prédisant plusieurs tokens en parallèle.

Llama Génération de code Infrastructure

SIG

HYP

OpenAI Blog·14 juin

Introducing the OpenAI Partner Network

OpenAI lance son Partner Network avec un investissement de 150M$ pour accélérer l'adoption, le déploiement et la transformation IA en entreprise auprès de partenaires mondiaux.

OpenAI Business

SIG

HYP

The Decoder·14 juin

KPMG fabricated AI case studies in a report designed to sell clients on AI adoption

KPMG a publié un rapport sur l'IA en entreprise contenant des études de cas fictives impliquant UBS, le NHS et d'autres organisations. Edward Tian (GPTZero) a aidé à découvrir les erreurs et alerte sur les « hallucinations secondaires » : des affirmations erronées de cabinets de conseil de confiance qui se propagent sans vérification. KPMG a retiré le rapport.

Sécurité IA Business Évaluations

SIG

HYP

Reddit r/MachineLearning·14 juin

The Verifier Tax: Horizon-Dependent Safety–Success Tradeoffs in Tool-Using LLM Agents [R]

Papier présenté à ACM CAIS 2026 sur l'évaluation de sécurité des agents LLM utilisant des outils. Les auteurs distinguent succès sûr, succès non sûr et échec, et montrent que la vérification réduit les succès non sûrs mais diminue aussi la complétude des tâches avec l'augmentation de l'horizon (« Verifier Tax »). Architecture à deux niveaux : vérifications déterministes puis vérificateur basé LLM.

Agents IA Sécurité IA Évaluations

SIG

HYP

Simon Willison·13 juin

Publishing WASM wheels to PyPI for use with Pyodide

Pyodide 314.0 permet de publier directement sur PyPI des packages Python compilés en WASM (via PEP 783). Auparavant, les mainteneurs Pyodide devaient gérer manuellement 300+ packages. Les développeurs peuvent désormais distribuer des wheels WASM comme des wheels natifs Linux/macOS/Windows.

Open source Infrastructure Outils

SIG

HYP

GitHub Trending·13 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> vercel /</span> ai

Vercel lance AI SDK, une librairie open-source TypeScript pour construire des applications et agents IA. Outil gratuit des créateurs de Next.js.

Agents IA Génération de code Open source

SIG

HYP

GitHub Trending·13 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> NVIDIA /</span> physicsnemo

NVIDIA publie PhysicsNeMo, framework open-source pour construire et entraîner des modèles deep learning avec des méthodes Physics-ML. Disponible sur GitHub.

Open source Infrastructure Fine-tuning

SIG

HYP

The Decoder·13 juin

US government forces Anthropic to disable Claude Fable 5 and Mythos 5 for all customers worldwide

Le gouvernement américain a ordonné à Anthropic de désactiver Claude Fable 5 et Mythos 5 mondialement, invoquant des risques de jailbreak. Anthropic se conforme mais conteste : les vulnérabilités sont mineures et présentes dans GPT-5.5. L'entreprise avertit que ce précédent pourrait bloquer tous les déploiements frontier.

Claude Anthropic Sécurité IA

SIG

HYP

ActuIA·13 juin

Anthropic contraint de suspendre Fable 5 et Mythos 5 après une directive du gouvernement américain

Le 12 juin 2026, une directive gouvernementale américaine force Anthropic à suspendre Fable 5 et Mythos 5 pour tous les clients, invoquant un risque de jailbreak. Anthropic se conforme mais conteste, jugeant qu'un contournement potentiel ne justifie pas le rappel d'un modèle largement déployé.

Anthropic Sécurité IA Régulation

SIG

HYP

Simon Willison·13 juin

Statement on the US government directive to suspend access to Fable 5 and Mythos 5

Le gouvernement américain a ordonné à Anthropic de suspendre l'accès à Fable 5 et Mythos 5 pour tous les utilisateurs, citant des raisons de sécurité nationale. La directive invoque un risque de « jailbreak » permettant de contourner les protections du modèle. Anthropic conteste : les vulnérabilités identifiées sont mineures et disponibles sur d'autres modèles publics comme GPT-5.5.

Anthropic Régulation Sécurité IA

SIG

HYP

Vercel AI Blog·13 juin

Workflow SDK now runs natively in Nitro v3

Vercel Workflow SDK s'intègre nativement à Nitro v3 en bêta. Les étapes s'exécutent dans le même runtime que l'app, avec accès direct aux APIs serveur. Interface web de monitoring disponible à /_workflow. Bundling optimisé avec tree-shaking réduit la taille des bundles.

Outils Infrastructure Génération de code

SIG

HYP

ActuIA·12 juin

JPMorgan et Goldman Sachs entrent dans une levée IA pre-revenue à 41 Md$

Prometheus, startup d'IA physique cofondée par Jeff Bezos et Vik Bajaj fin 2025, lève 12 Md$ en série B à 41 Md$ de valorisation. JPMorgan et Goldman Sachs participent au tour.

Robotique Financements

SIG

HYP

The Decoder·12 juin

Anthropic's Claude Fable 5 costs twice as much for 5.7 percent more performance

Claude Fable 5 atteint 64,9 points à l'Artificial Analysis Intelligence Index et établit des records sur 5 benchmarks sur 10. Le gain de performance par rapport à Opus 4.8 est de 5,7% seulement, pour un coût en tokens doublé. Les filtres de sécurité avec routage de secours augmentent encore les dépenses.

Claude Benchmarks Sécurité IA

SIG

HYP

Hugging Face Blog·12 juin

olmo-eval: An evaluation workbench for the model development loop

Hugging Face lance olmo-eval, un banc d'essai d'évaluation pour le cycle de développement des modèles. L'outil automatise les tests de performance et facilite l'itération rapide lors de l'entraînement et du fine-tuning de modèles de langage.

Outils Évaluations Open source

SIG

HYP

ActuIA·12 juin

Aidés par GPT-5, puis livrés à eux-mêmes : un essai randomisé mesure le coût d'apprentissage de l'assistance IA

Une étude randomisée contrôlée (arXiv, avril) mesure l'impact de l'apprentissage avec GPT-5 sur la rétention de compétences après retrait de l'assistant. Les résultats quantifient le coût cognitif de la dépendance à l'IA.

GPT Évaluations Reinforcement learning

SIG

HYP

ActuIA·12 juin

S-1 confidentiels : OpenAI emboîte le pas à Anthropic, et la SEC obtiendra ce que les valorisations privées cachaient

OpenAI a soumis un S-1 confidentiel à la SEC le 9 juin, huit jours après Anthropic. Les deux entreprises d'IA préparent leur introduction en bourse, révélant des données financières jusqu'alors cachées dans les valorisations privées.

OpenAI Anthropic Business

SIG

HYP

Reddit r/LocalLLaMA·12 juin

Open Dungeon: local roleplay with Gemma 4 QAT + inline Uncen-FLUX images, running at full 256K context under 8GB RAM (OS)

Open Dungeon est un jeu de rôle local utilisant Gemma 4 QAT (12B) via Ollama pour la narration et FLUX pour générer les images. Fonctionne en 7.7GB RAM avec contexte 256K complet, sans API ni cloud. Interface avec modes Do/Say/Story, édition de lignes, sélection de modèle. MIT, source disponible.

Gemini Open source Génération d'images

SIG

HYP

The Decoder·12 juin

OpenAI buys Ona to push Codex toward long-running, autonomous coding tasks

OpenAI acquiert Ona (anciennement Gitpod), startup allemande fondée en 2020, spécialisée dans les agents IA et les environnements de développement cloud sécurisés. L'acquisition vise à renforcer les capacités de Codex pour les tâches de codage autonomes longue durée.

OpenAI Génération de code Agents IA

SIG

HYP

Reddit r/LocalLLaMA·12 juin

Huawei Released openPangu 2.0 (Will open source on June 30)

Huawei lance openPangu 2.0 à la HDC 2026 (12 juin). Deux versions : Pro (505B params, 18B activés) et Flash (92B params, 6B activés). Contexte 512K, sparsité 28:1. Optimisé pour Ascend : débit 2x supérieur, latence réduite. Open-source à partir du 30 juin (architecture, poids, code d'inférence et d'entraînement).

Open source Benchmarks Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·12 juin

EAGLE3 has landed in llama.cpp

EAGLE3 intégré à llama.cpp après 6 mois de développement. Le modèle assistant reçoit des indications du modèle principal, contrairement à MTP où il opère indépendamment.

Llama Open source

SIG

HYP

arXiv cs.CL·12 juin

SkillChain: Closing the Loop on Skill Evolution for Image-Based E-Commerce AI Assistants

SkillChain automatise l'évolution des compétences pour assistants IA multimodaux en e-commerce. Le système gère trois étapes : création de Skills à partir de specs, optimisation du routage, et raffinement itératif via évaluation LLM. Déployé en production, il améliore la conformité structurelle et la qualité du contenu, confirmé par A/B test sur l'engagement utilisateur.

Agents IA Multi-agents Vision

SIG

HYP

arXiv cs.CL·12 juin

SafeLLM: Extraction as a Hallucination-Resistant Alternative to Rewriting in Safety-Critical Settings

SafeLLM compare l'extraction de lignes à la réécriture libre pour les systèmes RAG en contexte critique (SOPs, politiques HR, guidelines médicales). L'extraction basée sur numéros de ligne surpasse la copie directe et les stratégies orientées sécurité, atteignant 95% de rappel de termes sur documents NHS et NICE, avec meilleure fidélité au texte source.

RAG Sécurité IA Évaluations

SIG

HYP

arXiv cs.AI·12 juin

APCyc: Property-Informed Design of Cyclic Peptides via Automated Cyclization

APCyc est un framework de génération de novo de peptides cycliques qui modélise explicitement la cyclisation et optimise simultanément plusieurs propriétés physicochimiques. Le modèle utilise un vocabulaire de résidus étendu et un guidage bayésien pour générer des peptides cycliques adaptés à des cibles thérapeutiques spécifiques.

Génération de code Reinforcement learning Papers

SIG

HYP

arXiv cs.CL·12 juin

A Context-Aware Dataset for Stance Detection in Bioethical Controversies on Reddit

BioStance : dataset de 39 600 paires Post-Comment annotées depuis Reddit pour la détection de stance dans les débats bioéthiques. Couvre 6 cibles controversées (conflits de valeurs, liberté individuelle vs responsabilité collective, incertitude technologique). Annotations triple-validées, α de Krippendorff = 0.82.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·12 juin

Shopping Reasoning Bench: An Expert-Authored Benchmark for Multi-Turn Conversational Shopping Assistants

Shopping Reasoning Bench : benchmark expert de 525 missions (232 single-turn, 293 multi-turn) avec 10863 rubriques binaires pondérées pour évaluer les assistants conversationnels de shopping. Évaluation de 9 modèles (GPT, Claude, Gemini) : taux de réussite 57-77%, dégradation de 4-18 points au fil de la conversation, écart de 13-29 points entre critères obligatoires et optionnels.

Benchmarks GPT Claude

SIG

HYP