mai 2026

3149 articles

arXiv cs.AI·25 mai

Ontological Knowledge Blocks: Executable Compliance and Profile-Based Validation for Trustworthy AI Systems

Ontological Knowledge Blocks (OKBs) : infrastructure de gouvernance programmable qui compile les obligations réglementaires en contraintes vérifiables par machine sur des graphes de preuves structurées. Utilise RDF/OWL, SHACL et PROV-O. Prototype évalué sur allocation de ressources HPC avec 24 exécutions et 4 profils de gouvernance. Latence SHACL : 12,6–100,3 ms.

Régulation Sécurité IA Alignement

SIG

72

HYP

15

arXiv cs.AI·25 mai

Parallel Context Compaction for Long-Horizon LLM Agent Serving

Article proposant une technique de compaction parallèle du contexte pour les agents LLM long-horizon. La méthode résout les problèmes de latence et d'imprévisibilité des résumés séquentiels en permettant un contrôle fin du volume de résumé. Évaluée sur HotpotQA et LoCoMo avec modèles 8B-120B (dense et MoE).

Agents IA Raisonnement Benchmarks

SIG

75

HYP

15

arXiv cs.AI·25 mai

When Planning Fails Despite Correct Execution: On Epistemic Calibration for LLM-Based Multi-Agent Systems

Les systèmes multi-agents basés sur LLM échouent parfois malgré une exécution correcte des plans, car les agents mal évaluent leurs connaissances (« epistemic miscalibration »). Les auteurs proposent EPC-AW, un workflow qui sélectionne les plans stables entre agents et affine l'état épistémique au fil du temps. Amélioration de 9,75% du succès système.

Multi-agents Agents IA Raisonnement

SIG

72

HYP

15

arXiv cs.AI·25 mai

KPI2KVI: A Multi Agent Workflow for Calculating Key Value Indicators from Service Descriptions

KPI2KVI est un outil qui transforme des descriptions de services en langage naturel en estimations de Key Value Indicators (KVIs) via un workflow multi-agent déterministe avec LLMs. Le système élicite le contexte manquant, extrait les catégories KVI pertinentes, génère des KPIs spécifiques au service, collecte les valeurs via dialogue interactif, et calcule des KVIs avec explications traçables.

Agents IA Multi-agents Prompt engineering

SIG

72

HYP

25

arXiv cs.AI·25 mai

Inductive Deductive Synthesis: Enabling AI to Generate Formally Verified Systems

IDS (Inductive Deductive Synthesis) est un système multi-agent LLM qui synthétise conjointement implémentation et preuve formelle pour les systèmes distribués. Sur 7 spécifications de key-value stores, IDS atteint 7/7 en 6.8h/$106, contre 2/7 pour GPT-5.4 et Claude Opus 4.6. Résultat 200x plus rapide que l'effort expert, 17% moins cher que les agents SOTA.

Agents IA Multi-agents Génération de code

SIG

82

HYP

28

arXiv cs.AI·25 mai

EVE-Agent: Evidence-Verifiable Self-Evolving Agents

EVE-Agent est un agent auto-évolutif qui génère ses propres questions, réponses et preuves vérifiables sans annotations humaines. Un vérificateur de preuves récompense les spans textuels selon leur contribution marginale à la réponse correcte. Le curriculum d'entraînement devient auditable et fiable sans oracles externes.

Agents IA Raisonnement RAG

SIG

78

HYP

18

arXiv cs.AI·25 mai

GENSTRAT: Toward a Science of Strategic Reasoning in Large Language Models

GENSTRAT introduit un benchmark d'évaluation pour le raisonnement stratégique des LLM via des jeux de cartes générés procéduralement. Évaluation de 9 modèles (GPT-5, Claude, Gemini-3.1-Pro) sur 36 000+ matchs. Méthodologie décomposant les compétences sur 6 axes et mesurant la volatilité locale (jaggedness) pour diagnostiquer les déploiements réels.

Benchmarks Raisonnement GPT

SIG

78

HYP

25

arXiv cs.AI·25 mai

SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific Research

SciAtlas est un graphe de connaissances académique à grande échelle intégrant 43M articles de 26 disciplines, 157M entités et 3B triplets. Il propose un algorithme de récupération neuro-symbolique avec rappel tri-chemin et réclassement graphique pour améliorer la recherche sémantique et réduire les coûts d'inférence des agents IA en recherche scientifique automatisée.

Agents IA RAG Benchmarks

SIG

78

HYP

25

arXiv cs.AI·25 mai

ImProver 2: Iteratively Self-Improving LMs for Neurosymbolic Proof Optimization

ImProver 2 est un framework neurosymbolique pour optimiser automatiquement les preuves formelles en Lean 4. Un modèle 7B entraîné surpasse des modèles bien plus grands et rivalise avec les modèles frontière. Le scaffold expose la structure formelle et des abstractions informelles légères.

Raisonnement Fine-tuning Papers

SIG

82

HYP

18

arXiv cs.LG·25 mai

Robust OT-Guided Generative Residual Domain Adaptation for Bike-Sharing Demand Prediction under Temporal Domain Shift

Gen-ROTDA, une méthode de transport optimal robuste, adapte les modèles de prédiction de demande Citi Bike à travers les années (2021-2026). Elle transfère les résidus plutôt que les demandes brutes et utilise un générateur de caractéristiques préservant les labels. Gen-ROTDA atteint le MAE le plus bas sur la tâche 2025-2026 et surpasse les variantes OT non-robustes sous données anormales.

Benchmarks Papers

SIG

72

HYP

15

arXiv cs.LG·25 mai

The Implicit Bias of Depth: From Neural Collapse to Softmax Codes

Étude théorique montrant que la profondeur des réseaux de neurones induit un biais implicite vers des solutions de faible rang, alternatives au neural collapse. Analyse des dynamiques d'entraînement du modèle UFM (unconstrained feature model) sans régularisation, révélant comment la profondeur favorise les softmax codes plutôt que les géométries structurées classiques.

Papers Raisonnement Benchmarks

SIG

75

HYP

15

arXiv cs.AI·25 mai

Computable Fairness: Boltzmann-Softmax Control for AI Resource Allocation

CFD (Computable Fair Division) propose un cadre pour allouer équitablement les ressources GPU et bande passante entre agents IA. Le paramètre β du Boltzmann-Softmax contrôle l'équilibre efficacité-équité. AHC++ ajuste β en temps réel pour maintenir la diversité sans dégradation majeure du débit. Simulations : 100x agents = +5.5x temps d'exécution.

Agents IA Infrastructure Benchmarks

SIG

72

HYP

18

arXiv cs.LG·25 mai

GEMQ: Global Expert-Level Mixed-Precision Quantization for MoE LLMs

GEMQ propose une quantification mixte au niveau expert pour les modèles MoE-LLM. La méthode utilise une formulation de programmation linéaire globale pour estimer l'importance des experts et affine le routeur pour adapter le routage aux experts quantifiés. Résultats : réduction mémoire et accélération inférence avec dégradation minimale.

SIG

78

HYP

15

arXiv cs.LG·25 mai

Anytime Training with Schedule-Free Spectral Optimization

SF-NorMuon, un optimiseur spectral sans calendrier, égale ou surpasse AdamW sur des modèles de langage de 125M et 772M paramètres sans nécessiter de calendrier d'apprentissage prédéfini. Preuve théorique de garantie de stationnarité et identification de la décroissance de poids comme essentielle pour la stabilité long-horizon.

Reinforcement learning Benchmarks Papers

SIG

78

HYP

18

arXiv cs.LG·25 mai

World Machine: Towards Generative World Modeling for Time-Series

World Machine est une architecture de modélisation générative basée sur transformers avec états latents pour les séries temporelles. Elle réduit la complexité quadratique des transformers classiques et s'adapte à différentes quantités de données observées. Validation sur dataset synthétique Toy1D.

Raisonnement Papers

SIG

45

HYP

35

arXiv cs.CL·25 mai

DreamerNLplus: Interpretable Modeling of Mental Health Dynamics from Social Media Timelines using Hybrid Rule-Based and RAG Methods

DreamerNLplus combine DeBERTa, Random Forest, Llama 3.1 et RAG pour modéliser la santé mentale à partir de timelines réseaux sociaux (CLPsych 2026). Classement 2e en résumé, 1er en amélioration et 3e en détérioration. Code publié.

Llama RAG Fine-tuning

SIG

72

HYP

18

arXiv cs.LG·25 mai

Uncovering the Latent Potential of Deep Intermediate Representations

Étude sur la distribution non-monotone d'informations pertinentes aux tâches dans les couches intermédiaires des modèles fondamentaux. Propose LOES (Layer-wise Optimal Embedding Selection), méthode spectrale identifiant les sous-espaces discriminants, et GeoReg, régularisation géométrique stabilisant les représentations lors du fine-tuning. Gains croissants avec la profondeur du modèle.

Fine-tuning Embeddings Papers

SIG

72

HYP

15

arXiv cs.CL·25 mai

HawkesLLM: Semantic Uncertainty Propagation in Agentic Text Simulation

HawkesLLM modélise la propagation d'incertitude sémantique dans les systèmes de simulation textuelle multi-agents. Un processus de Hawkes multivariable capture les dépendances temporelles entre agents générateurs de texte, tandis qu'un LLM génère chaque nouvel événement à partir d'une mémoire compacte. Évaluation sur GDELT montre une meilleure alignement sémantique en fin de cascade.

Agents IA Multi-agents Raisonnement

SIG

72

HYP

15

arXiv cs.LG·25 mai

Worse than Random: The Importance of a Baseline for Unsupervised Feature Selection

Une étude arXiv montre que nombreuses méthodes récentes de sélection de features non-supervisées sont surpassées par une sélection aléatoire en performance et efficacité. Les auteurs proposent d'utiliser la sélection aléatoire comme baseline obligatoire pour évaluer les nouvelles méthodes.

Benchmarks Évaluations

SIG

72

HYP

15

arXiv cs.LG·25 mai

Smoothed Elicitation Complexity for Approximate $\Gamma$-calibration of Discrete Classification Tasks

Étude théorique sur la calibration des classificateurs multiclasses. Les auteurs caractérisent la complexité d'élicitation pour les propriétés discrètes ordonnables (mode, classements) via des propriétés Lipschitz continues, résolvant le problème de complexité exponentielle en nombre de classes.

Évaluations Benchmarks

SIG

72

HYP

08

arXiv cs.LG·25 mai

Steered Generation via Gradient-Based Optimization on Sparse Query Features

Prototype-Based Sparse Steering applique des Sparse Autoencoders aux activations d'attention query des LLMs pour décomposer les représentations en features interprétables. L'optimisation par gradient pendant l'inférence aligne ces représentations avec des prototypes de comportements cibles. Validé sur Textualized Gridworld (contraintes de planification) et domaine éducatif (complexité cognitive via Bloom's Taxonomy).

Raisonnement Fine-tuning Papers

SIG

72

HYP

18

arXiv cs.LG·25 mai

Learned Relay Representations for Forward-Thinking Discrete Diffusion Models

Learned Relay Representations (Relay) permet aux Masked Diffusion Models de propager l'information latente entre étapes de débruitage via un canal par token entraîné en BPTT. Appliqué à Fast-dLLM v2, la méthode surpasse le fine-tuning supervisé sur tâches de code et réduit la latence d'inférence de 32%.

Génération de code Raisonnement Papers

SIG

78

HYP

25

arXiv cs.LG·25 mai

A mathematical theory of balancing relational generalization and memorization

Étude théorique sur l'équilibre entre généralisation relationnelle et mémorisation dans les systèmes d'apprentissage. Les auteurs introduisent une tâche d'inférence transitive avec exceptions et caractérisent analytiquement le comportement de modèles de régression ridge à noyau. Validation sur des modèles de langage préentraînés montrant que la généralisation réussie dépend de la géométrie représentationnelle.

Papers Raisonnement Évaluations

SIG

72

HYP

15

arXiv cs.LG·25 mai

The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models

Sur des modèles 1-3B, le CoT en arithmétique repose sur un raccourci positionnel : le modèle copie simplement le nombre en dernière position avant le délimiteur de réponse, indépendamment du raisonnement intermédiaire. Cette stratégie explique 54-92 pp de précision sur GSM8K. Remplacer ce nombre par une valeur incorrecte effondre la performance même avec des étapes correctes.

Raisonnement Évaluations Benchmarks

SIG

78

HYP

15

arXiv cs.LG·25 mai

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Étude montrant que le raisonnement explicite (CoT) n'est bénéfique que sur certaines tâches. Les auteurs proposent EDRM, un framework sans entraînement qui utilise la dynamique d'entropie en début de génération pour router adaptivement vers CoT ou inférence directe. Sur 15 benchmarks et 4 LLMs, EDRM réduit les tokens de 41–55% tout en améliorant la précision jusqu'à 4,7%.

Raisonnement Évaluations Benchmarks

SIG

78

HYP

25

arXiv cs.LG·25 mai

Reading Calibrated Uncertainty from Language Model Trajectories

Méthode pour quantifier l'incertitude dans les modèles de langage en analysant les trajectoires de représentations internes couche par couche. Onze features géométriques extraites des mises à jour MLP surpassent la probabilité softmax maximale (MSP) de 21 points AURC, révélant où et comment les erreurs émergent en profondeur.

Évaluations Raisonnement Sécurité IA

SIG

78

HYP

15

arXiv cs.LG·25 mai

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

Tensor Cache propose un système de cache à deux niveaux pour transformateurs : attention glissante locale (L1) + mémoire à poids rapides (L2) stockant les paires KV évincées sous forme de matrice. Un gate appris fusionne les sorties. Améliore le compromis mémoire-qualité sur modèles long-contexte.

Raisonnement Infrastructure Benchmarks

SIG

78

HYP

15

arXiv cs.CL·25 mai

Cultural Adaptation in Large Language Models for Political Discourse

Article proposant un cadre de « cultural adaptation » pour les LLM en analyse politique. Identifie les biais anglais et les défaillances systématiques sur données multilingues. Propose une matrice d'évaluation (fidélité culturelle, calibration, sécurité démocratique) et des méthodes : datasets participatifs, transfer learning culturellement conscient, benchmarks adaptés.

Benchmarks Évaluations Sécurité IA

SIG

72

HYP

25

arXiv cs.LG·25 mai

Building a privacy-preserving Federated Recommender system for mobile devices

Système de recommandation fédéré en deux étapes pour mobiles : filtrage collaboratif cloud sur données non-sensibles, puis re-ranking on-device avec signaux sensibles. Validation sur MovieLens, UCI HAR et dataset propriétaire. Implémentation Kotlin Multiplatform pour Android/iOS.

SIG

75

HYP

15

arXiv cs.CL·25 mai

ClimateChat-300K: A Multi-Modal Facebook Dataset for Understanding Diverse Perspectives in Climate Communication

ClimateChat-300K : dataset de 299 329 posts Facebook publics sur le changement climatique (mai 2020 - mai 2024), collectés via CrowdTangle. 41 features de métadonnées, 26 000+ pages globales. Analyse thématique (10 thèmes, 5 domaines) et sentiment révèlent que contenu émotionnel et visuel génère plus d'engagement. Ressource ouverte pour étudier polarisation et désinformation.

Benchmarks Papers Open source

SIG

72

HYP

25

arXiv cs.CL·25 mai

Metacognition as Reward: Reinforcing LLM Reasoning via Knowledge and Regulation Signals

MaR (Metacognition-as-Reward) est un framework RL qui améliore le raisonnement des LLM via deux dimensions : la connaissance métacognitive (identification d'infos pertinentes) et la régulation métacognitive (planification du processus). Testé sur 22 benchmarks, Qwen3.5-9B + MaR gagne jusqu'à 7.7% vs modèle de base et 11.0% vs DAPO vanilla, surpassant GPT-OSS-120B en moyenne.

Reinforcement learning Raisonnement Qwen

SIG

78

HYP

25

arXiv cs.CL·25 mai

Same Model, Different Weakness: How Language and Modality Reshape the Jailbreak Attack Surface in Frontier MLLMs

Étude de red-teaming multilingue sur quatre MLLMs (Claude Sonnet 4.5, GPT-5, Pixtral Large, Qwen Omni) révélant que la vulnérabilité aux jailbreaks varie selon la langue. Les attaques par rôle-play sont moins efficaces en espagnol mexicain, tandis que les attaques visuelles le deviennent plus. Les classements de sécurité ne se conservent pas entre langues.

Sécurité IA Alignement Évaluations

SIG

78

HYP

25

arXiv cs.CL·25 mai

When Symptoms Are Not Enough: Evidence-Weighting Patterns in Large Language Model Psychiatric Screening

Benchmark SCID de 555 entretiens semi-structurés évalue 5 LLMs (GPT-4.1 Mini, GPT-5 Mini) sur dépistage psychiatrique (anxiété, dépression, PTSD). Précision 0.49–0.86, MCC 0.16–0.38. Les faux négatifs révèlent que les modèles sous-pondèrent les symptômes face à un fonctionnement préservé ou un soutien social, nécessitant validation clinique avant déploiement.

Benchmarks GPT Sécurité IA

SIG

72

HYP

25

arXiv cs.CL·25 mai

Positional Failures in Long-Context LLMs: A Blind Spot in Reasoning Benchmarks

Audit de 11 benchmarks de raisonnement long-contexte : aucun ne contrôle la position de la tâche cible, le contenu de remplissage et la longueur du contexte. Évaluation de 9 LLMs avec Context Rot Evaluation (CRE) révèle des chutes drastiques de précision quand la tâche passe de fin à milieu (ex: Mimo-v2-Flash -88pp à 64K). Les modèles plus récents montrent moins de vulnérabilité positionnelle.

Benchmarks Raisonnement Évaluations

SIG

78

HYP

15

arXiv cs.CL·25 mai

A Comparative Evaluation of Structural Topic Models and BERTopic for Short, Open-Ended Survey Responses

Comparaison de Structural Topic Models (STM) et BERTopic pour analyser des réponses courtes à des enquêtes ouvertes. BERTopic produit une cohérence thématique supérieure, renforcée par l'augmentation contextuelle (stratégie introduite pour enrichir les réponses très courtes). STM offre meilleure support pour l'analyse inférentielle des covariables, BERTopic pour l'interprétabilité.

Embeddings Benchmarks Papers

SIG

72

HYP

15

arXiv cs.CL·25 mai

The Efficiency Frontier: A Unified Framework for Cost-Performance Optimization in LLM Context Management

Cadre unifié pour optimiser le coût-performance de la gestion du contexte dans les LLM. Évalue conjointement performance, coût en tokens et réutilisation du prétraitement sur 5000 instances HotpotQA. Réduit l'usage de tokens de 25% à performance comparable (F1≈0.78) et atteint 50% de réduction de coût avec compression mémoire.

RAG Benchmarks Infrastructure

SIG

72

HYP

18

arXiv cs.AI·25 mai

Solving the Aircraft Disassembly Scheduling Problem

Article présentant le problème d'ordonnancement du démantèlement d'aéronefs en fin de vie. Propose deux approches : un modèle de programmation par contraintes et un modèle de programmation linéaire mixte. Testé sur instances réelles jusqu'à 1450 tâches avec données d'un partenaire industriel.

SIG

65

HYP

15

arXiv cs.CL·25 mai

Sparse Autoencoders Map Brain-LLM Alignment onto Cortical Semantic Topography

Des autoencodeurs creux (SAE) décomposent GPT-2 XL et Llama-3.1-8B en 16K-32K features interprétables par couche. Les features sémantiques seules récupèrent 94% de la performance d'encodage peak (r=0.285), et s'alignent avec l'organisation corticale sémantique connue (ρ=0.72, p<0.001). Les résultats généralisent sur l'anglais, le chinois et le français.

Papers GPT Llama

SIG

82

HYP

15

arXiv cs.CL·25 mai

What Training Data Teaches RL Memory Agents: An Empirical Study of Curriculum Effects in Memory-Augmented QA

Étude empirique sur l'effet du curriculum d'entraînement sur les agents RL avec mémoire externe en dialogue multi-session. Trois conditions testées (LoCoMo seul, LoCoMo + LongMemEval, LongMemEval seul) montrent que la composition des données façonne les compétences spécialisées plutôt que la performance globale. Le curriculum mixte obtient le meilleur F1 global.

Reinforcement learning Agents IA Raisonnement

SIG

72

HYP

15

arXiv cs.CL·25 mai

Hidden Human-Like Nature of Machine-Generated Texts: Theory and Detection Enhancement

Des chercheurs révèlent que les textes générés par LLM contiennent des spans « humain-like » cachés qui compliquent leur détection. Ils proposent un framework stacked model-agnostic utilisant une procédure hard-EM pour filtrer itérativement les sous-séquences humaines et améliorer les détecteurs existants, fonctionnant aussi sans entraînement.

Évaluations Sécurité IA Papers

SIG

72

HYP

28

arXiv cs.CL·25 mai

Graph Alignment Topology as an Inductive Bias for Grounding Detection

Méthode utilisant des graphes bipartites alignés et réseaux de neurones graphiques pour détecter les hallucinations dans les LLM. Entraîne un GNN sur la structure d'alignement entre documents source et sorties de modèles. Résultats SOTA sur 4 datasets de hallucination et QA, surpassant GPT-4o.

Raisonnement Évaluations Sécurité IA

SIG

75

HYP

15

arXiv cs.CL·25 mai

Can AI Guess What You Know? Performance Comparison of Large Language Models for Human Domain Knowledge Estimation From Communication Logs

Étude comparative de 7 LLMs (Gemini, Claude, GPT) pour estimer les compétences professionnelles à partir de logs Slack. Sur 27 188 messages de 43 utilisateurs, Gemini 2.5 Flash obtient l'erreur la plus basse (MAE 21,13%). La précision ne dépend que faiblement du volume de messages.

Benchmarks Gemini Claude

SIG

72

HYP

25

arXiv cs.CL·25 mai

Memorization Dynamics of Fill-in-the-Middle Pretraining

Étude de la mémorisation verbatim lors du préentraînement Fill-in-the-Middle (FIM) sur Llama 3.2. FIM récupère davantage de spans courts ou partiels comparé au LTR standard, avec une extraction croissant linéairement avec les répétitions. Le contexte suffixe ne suffit pas : la mémorisation reste ancrée au contexte préfixe.

Llama Génération de code Fine-tuning

SIG

75

HYP

15

arXiv cs.CL·25 mai

RAS: Reflection-Augmented Scaling with In-Context Learning for Executable Cypher Query Generation

RAS (Reflection-Augmented Scaling) améliore la génération de requêtes Cypher en exploitant les messages d'erreur du système via apprentissage en contexte. Sur trois datasets Neo4j et cinq modèles spécialisés en code, RAS réduit le taux d'erreur d'exécution de 41–50% (n=5), surpassant l'échantillonnage indépendant (32–38%).

Génération de code Raisonnement Benchmarks

SIG

78

HYP

15

arXiv cs.CL·25 mai

Query-Adaptive Semantic Chunking for Retrieval-Augmented Generation: A Dynamic Strategy with Contextual Window Expansion

QASC (Query-Adaptive Semantic Chunking) améliore la segmentation de documents pour RAG en intégrant les requêtes utilisateur au moment du chunking. Via scoring de similarité cosinus, expansion contextuelle et agrégation de scores, QASC atteint F1=0.85, soit +18-27% vs chunking fixe et +8-12% vs méthodes sémantiques/agentic sur 100 documents techniques et 200 requêtes.

RAG Benchmarks Papers

SIG

78

HYP

15

arXiv cs.CL·25 mai

Knowledge Distillation for Low-Resource Open-source Text-to-SQL Model

Framework de distillation de connaissances pour Text-to-SQL en contexte low-resource. Construit une base de connaissances (sémantique schéma, abréviations, logique métier) injectée en entraînement et inférence. Génère données synthétiques contextualisées. Évalué sur 7 benchmarks : améliore LLMs open-source et fermés, notamment sur données domain-specific.

Génération de code Fine-tuning RAG

SIG

72

HYP

25

arXiv cs.CL·25 mai

A Proactive Multi-Agent Dialogue Framework for Assessing Social Language Disorder Traits in Autism

TPA (Think, Plan, Ask) est un framework multi-agent qui guide les LLM à sélectionner proactivement des stratégies de questionnement pour évaluer les troubles du langage social (SLD) dans l'autisme. Testé sur 484 épisodes cliniques (ADOS-2), TPA atteint 82,1% de couverture des traits SLD vs 65,5% pour les cliniciens, avec une efficacité diagnostique supérieure (AUCC: 0,628 vs 0,458).

Agents IA Multi-agents Raisonnement

SIG

78

HYP

25

arXiv cs.CL·25 mai

Convergence Without Understanding: When Language Models Agree on Representations but Disagree on Reasoning

Étude de 16 modèles de langage (1.5B–72B paramètres) révélant que leur convergence représentationnelle ne s'étend pas au raisonnement. Les modèles s'alignent davantage sur les problèmes qu'ils échouent collectivement (CKA=0.897) que sur ceux résolus (CKA=0.830). Les représentations post-décision divergent fortement (CKA=0.274), et l'information partagée exerce une influence causale minimale (1.5–5.5% flip rate).

Papers Raisonnement Évaluations

SIG

78

HYP

15

arXiv cs.CL·25 mai

A Fine-Tuned BERT Classifier for Personal-Letter Titles in Late-Ming and Early-Qing Collected Works

Lepton, un classificateur BERT fine-tuné sur bert-base-chinese, prédit si un titre dans une table des matières de wenji (recueils classiques chinois) correspond à une lettre personnelle ou à une préface. Entraîné sur 5438 titres annotés manuellement de littérateurs Ming-Qing, le modèle a identifié ~55 000 lettres pour la Ming Letter Platform.

Fine-tuning Benchmarks

SIG

72

HYP

15

arXiv cs.AI·25 mai

One Policy, Infinite NPCs: Persona-Traceable Shared RL Policies for Scalable Game Agents

PCSP, une politique RL unique conditionnée par embeddings LLM gelés, contrôle 300 NPCs avec identités distinctes. Atteint 17x la chance en identification zero-shot, ρ=0.73 d'alignement sémantique-comportemental, 22x plus rapide qu'un baseline LLM. Déployé en UE5 sur 64 agents avec faible taux d'erreur.

Reinforcement learning Agents IA Multi-agents

SIG

78

HYP

25

arXiv cs.AI·25 mai

RMA: an Agentic System for Research-Level Mathematical Problems

RMA est un système multi-agent pour résoudre des problèmes mathématiques de niveau recherche. Il décompose la preuve en modules spécialisés (analyse, recherche bibliographique, vérification) coordonnés par des agents initializer, proposer et verifier. Sur le benchmark First Proof (10 problèmes), RMA résout 8/10 problèmes et surpasse GPT-5.2R et Aletheia.

Agents IA Multi-agents Raisonnement

SIG

78

HYP

25

arXiv cs.LG·25 mai

ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention

ThriftAttention combine précision mixte (FP16/FP4) pour l'attention long-contexte sur GPU Blackwell. En sélectionnant 5% des blocs query-key critiques en FP16 et le reste en FP4, la méthode récupère 89,1% de la performance FP16 tout en maintenant l'efficacité FP4. Code disponible.

Benchmarks Infrastructure Raisonnement

SIG

78

HYP

15

arXiv cs.CL·25 mai

Brain-LLM Alignment Tracks Training Data, Not Typology

L'alignement cerveau-LLM dépend de la langue d'entraînement, non de propriétés inhérentes à l'anglais. Test sur 112 participants (anglais, chinois, français) avec 7 LLMs : un modèle dominé par le chinois (Baichuan2-7B) inverse le gradient d'alignement. La distance typologique et la fertilité de tokenization expliquent les variations restantes.

Benchmarks Alignement Papers

SIG

82

HYP

15

arXiv cs.LG·25 mai

Dreaming Smoothly and Sample Efficiently with Gradient Penalized Latent Dynamics

GPLD ajoute une régularisation par pénalité de gradient au modèle DreamerV3 pour encourager l'apprentissage de dynamiques de transition lisses dans l'espace latent. Testé sur DeepMind Control, GPLD améliore l'efficacité échantillon, particulièrement sur les tâches de locomotion complexes et quadrupèdes.

Reinforcement learning Papers Benchmarks

SIG

72

HYP

15

Reddit r/LocalLLaMA·25 mai

I shipped a windows desktop app for running local LLMs with a button that turns your "no thats wrong" into actual LoRA training data

SEELS, une app desktop Windows pour LLMs locaux, permet de corriger les réponses du modèle via un bouton « Teach » qui accumule les corrections en corpus JSONL, puis lance un fine-tuning LoRA sans terminal. Inclut STT/TTS locaux (Whisper/Piper), dashboard matériel, modèle 0.6B pré-entraîné sur 110 exemples. Version gratuite stable ; tiers pro (génération image/vidéo, MCP) et max (workflows, multi-GPU) en roadmap.

Fine-tuning Open source Outils

SIG

72

HYP

35

Reddit r/LocalLLaMA·25 mai

llama.cpp has a clever trick for speeding up KV cache decode

llama.cpp propose une option de cache KV qui réenvoie les tokens générés au cache plutôt que d'attendre la prochaine requête, améliorant la réactivité. L'utilisateur rapporte une réduction du temps de traitement de 5-30s à quasi-instantané sur Qwen 3.6-35B avec RX 7900 XTX (~100 tps).

Llama Génération de code Infrastructure

SIG

65

HYP

25

Reddit r/MachineLearning·25 mai

Sponsio: Deterministic Contract Layer for LLM Agents [P]

Sponsio introduit une couche de contrats déterministes pour les agents LLM en production. Les opérateurs déclarent des invariants en YAML compilés en AST évalué à chaque appel d'outil. Benchmark ODCV-Bench (12 modèles × 80 trajectoires) : sans Sponsio, 11.5%-66.7% de violations ; avec Sponsio, 95.6% d'alignement retrouvé en moyenne.

Agents IA Sécurité IA Outils

SIG

78

HYP

25

Hugging Face Blog·25 mai

Harness, Scaffold, and the AI Agent Terms Worth Getting Right

Hugging Face clarifie la terminologie des agents IA : distinction entre harness (infrastructure d'exécution), scaffold (structure de coordination) et agent (système autonome). Définitions essentielles pour éviter la confusion dans l'écosystème.

SIG

45

HYP

25

OpenAI Blog·25 mai

OpenAI, Grupo Folha and Grupo UOL announce strategic content partnership

OpenAI s'associe à Grupo Folha et Grupo UOL pour intégrer le journalisme brésilien de confiance dans ChatGPT. Les contenus seront attribués avec transparence.

OpenAI Business

SIG

65

HYP

25

Simon Willison·24 mai

datasette 1.0a30

Datasette 1.0a30 introduit un menu « Jump to... » personnalisable accessible via la touche `/`. Le nouveau hook plugin `jump_items_sql()` permet aux extensions d'ajouter leurs propres éléments au menu de recherche.

Outils Open source

SIG

75

HYP

15

Simon Willison·24 mai

datasette-agent 0.1a4

Datasette-agent 0.1a4 intègre une interface de chat agent dans le menu Jump (touche /) via le nouveau hook JavaScript makeJumpSections() de Datasette 1.0a30. Permet d'interroger des bases de données en langage naturel directement depuis l'interface.

Agents IA Outils Open source

SIG

75

HYP

20

Reddit r/LocalLLaMA·24 mai

hipEngine: Fast Native Qwen 3.6 Inference for RDNA3 (Strix Halo, 7900 XTX)

hipEngine est un moteur d'inférence LLM open source (AGPLv3) optimisé pour RDNA3 (RX 7900 XTX, W7900). Écrit en Python avec kernels HIP/C++, il exécute Qwen 3.6 MoE plus vite que llama.cpp en prefill (2718 tok/s à 512 tokens vs 2436 pour GGUF Q4_K_S). Support INT8 KVCache quasi sans perte permet 256K contexte en <24GB.

Qwen Open source Infrastructure

SIG

82

HYP

15

Reddit r/MachineLearning·24 mai

MergeNB: An intuitive merge conflict resolver built for Jupyter notebooks in VS Code [P]

MergeNB est une extension VS Code pour résoudre les conflits de fusion dans les notebooks Jupyter. Développée comme alternative à nbdime, elle offre une interface web intuitive et sera étendue en outil git mergetool cet été.

Outils Open source

SIG

45

HYP

25

Reddit r/MachineLearning·24 mai

How do ML practitioners select hyperparameters, architectures, etc for self-supervised representation learning when the loss is non-monotonic? [D]

Un chercheur interroge les pratiques de sélection d'hyperparamètres pour l'apprentissage auto-supervisé non-contrastif (BYOL, JEPA, data2vec). Il soulève le problème que les pertes non-monotones rendent difficile l'évaluation réelle de ce qui est appris, et que des critères comme RankMe (basés sur le rang effectif des embeddings) deviennent inefficaces une fois intégrés à la fonction de perte.

RAG Fine-tuning Évaluations

SIG

35

HYP

15

Simon Willison·24 mai

datasette-fixtures 0.1a0

Sortie de datasette-fixtures 0.1a0, un plugin qui exploite la nouvelle API datasette.fixtures.populate_fixture_database() introduite dans Datasette 1.0a30. Permet de créer des bases de données de test pour les suites de tests de plugins.

Outils Open source

SIG

72

HYP

15

Reddit r/LocalLLaMA·24 mai

Generative Recursive Education: Creating Custom Interactive Textbooks on the Fly.

Méthode pour générer dynamiquement des manuels scolaires interactifs personnalisés via LLM. Approche récursive qui adapte le contenu pédagogique en temps réel selon les besoins de l'apprenant.

Prompt engineering RAG

SIG

35

HYP

55

Reddit r/LocalLLaMA·24 mai

Generative Recursive Education: Creating Custom Interactive Textbooks on the Fly.

Méthode pour générer dynamiquement des manuels scolaires interactifs personnalisés via LLM. Approche récursive qui adapte le contenu pédagogique en temps réel selon les besoins de l'apprenant.

Prompt engineering RAG

SIG

35

HYP

55

Reddit r/LocalLLaMA·24 mai

qwen3.6-35b-a3b-mtp running on GTX 1060 6GB

Utilisateur fait tourner Qwen 3.6-35B-A3B-MTP sur une GTX 1060 6GB via LMStudio. Configuration : quantization Q4_K_XL, context 131k, 41 couches offloadées GPU, prefill 130-150 tps, decode 16 tps. Résultat utilisable pour le chat sur matériel ancien.

Qwen Génération de code Open source

SIG

65

HYP

15

Simon Willison·24 mai

Quoting Armin Ronacher

Armin Ronacher (créateur de Pi) dénonce l'afflux de rapports de bugs générés par LLM mal promptés sur son projet open-source. Ces rapports contiennent des conclusions inexactes mais confiantes, des reproductions fictives et des diagnostics erronés. Il demande aux contributeurs de limiter les issues aux faits observés : commande exécutée, résultat attendu, résultat obtenu, logs exacts.

Open source Agents IA Prompt engineering

SIG

65

HYP

45

Hacker News (AI)·24 mai

Claude Is Not Your Architect. Stop Letting It Pretend

Critique de l'utilisation de Claude pour l'architecture logicielle. L'article remet en question la tendance à déléguer les décisions architecturales à un LLM, soulignant que Claude ne peut pas remplacer l'expertise humaine en conception système.

Claude Génération de code Prompt engineering

SIG

35

HYP

65

Reddit r/LocalLLaMA·24 mai

OCR, granite-docling-258m vs granite-docling-2stage-258m: has anyone actually noticed any improvements?

Comparaison entre deux modèles IBM Granite Docling pour l'OCR : granite-docling-258m vs granite-docling-2stage-258m. La version 2stage introduit des prompts dynamiques qui précomputent les objets de mise en page, améliorant la robustesse sur données hors distribution.

Vision Open source

SIG

35

HYP

25

Simon Willison·24 mai

Mad House — Usborne Creepy Computer Games

Simon Willison a utilisé Claude pour recréer Mad House, un jeu des années 1980 du livre Usborne « Creepy Computer Games » (1983), en version interactive JavaScript/HTML avec interface rétro. L'éditeur britannique Usborne a publié gratuitement les PDFs de ses livres informatiques des années 1980.

Claude Génération de code Outils

SIG

45

HYP

25

Hacker News (AI)·24 mai

Memory has grown to nearly two-thirds of AI chip component costs

La mémoire représente désormais près de deux tiers des coûts des composants des puces IA. Cette tendance reflète l'augmentation des besoins en bande passante et capacité de stockage pour les modèles de plus en plus volumineux.

SIG

45

HYP

25

Reddit r/LocalLLaMA·24 mai

BitCPM-CANN: Native 1.58-Bit Large Language Model Training on Ascend NPU

BitCPM-CANN présente une quantification ternaire (1.58-bit) native sur NPU Ascend. Quatre modèles (0.5B à 8B) conservent 95.7–97.2% des performances full-precision sur 11 benchmarks (raisonnement, GSM8K, BBH). Surcoût d'entraînement : 4.5%. Réduction mémoire : 8× poids, 6× end-to-end. Premier système 1.58-bit à 8B sur NPU domestique.

Fine-tuning Benchmarks Open source

SIG

82

HYP

15

Hacker News (AI)·24 mai

'AI washing': firms are scrambling to rebrand themselves as tech-focused

Des entreprises rebaptisent leurs divisions ou services existants avec le terme « IA » pour capitaliser sur le buzz technologique, sans innovation substantielle. Phénomène d'« AI washing » similaire au greenwashing, où le marketing prime sur la substance.

SIG

35

HYP

75

Hacker News (AI)·24 mai

DeepSeek to Make Permanent 75% Discount on Flagship AI Model

DeepSeek rend permanent une réduction de 75% sur son modèle phare. La baisse de prix vise à augmenter l'adoption et la compétitivité face aux autres fournisseurs d'IA.

DeepSeek Business

SIG

35

HYP

45

Hacker News (AI)·24 mai

Official Kotlin Support for Visual Studio Code Is Now Available in Alpha

JetBrains et Microsoft lancent le support officiel de Kotlin pour Visual Studio Code en version alpha. L'extension offre l'autocomplétion, la navigation de code et le débogage pour le langage Kotlin.

SIG

45

HYP

15

The Decoder·24 mai

ByteDance study finds that asking LMMs questions beats making it transcribe text for long document training

ByteDance Seed montre qu'un modèle 7B répond mieux aux questions sur documents longs et visuels que des modèles bien plus grands, même sur documents 4× plus longs que ceux vus en entraînement. L'approche clé : apprentissage par questions plutôt que transcription textuelle.

Vision Benchmarks Fine-tuning

SIG

72

HYP

28

Hacker News (AI)·24 mai

DeepSeek reasonix, DeepSeek native coding agent with high caching and low cost

DeepSeek lance Reasonix, un agent de codage natif optimisé pour le cache et les coûts réduits. Le modèle exploite les capacités de raisonnement de DeepSeek avec une architecture spécialisée pour les tâches de génération de code.

DeepSeek Génération de code Agents IA

SIG

45

HYP

35

Hacker News (AI)·24 mai

Constraint Decay: The Fragility of LLM Agents in Back End Code Generation

Étude sur la fragilité des agents LLM en génération de code backend. Les contraintes imposées aux modèles se dégradent progressivement, réduisant leur capacité à respecter les spécifications techniques. Problème critique pour les systèmes de production.

Agents IA Génération de code Évaluations

SIG

45

HYP

15

The Decoder·24 mai

Deepmind's Hassabis sees humanity "in the foothills of the singularity" while LeCun says current AI isn't intelligent

Demis Hassabis (DeepMind) estime que l'humanité est « aux portes de la singularité », tandis que Yann LeCun affirme que les systèmes IA actuels ne sont pas véritablement intelligents. Oriol Vinyals (co-lead Gemini) propose une position intermédiaire : les modèles actuels auraient semblé être de l'AGI il y a sept ans, mais ils ne peuvent pas apprendre de l'expérience ni produire de véritables percées.

DeepMind Gemini Raisonnement

SIG

35

HYP

72

Reddit r/MachineLearning·24 mai

Working on a cgo-free CUDA binding in Go for ML stuff Week 3 - open source [P]

Développeur crée une liaison CUDA pour Go sans cgo, chargeant libcuda.so à l'exécution via purego. Résout les problèmes de thread affinity avec runtime.LockOSThread. Projet précoce, développé les weekends, avec support GPU multi-GPU et Graphs en cours. Repo: github.com/eitamring/gocudrv.

Génération de code Infrastructure Open source

SIG

45

HYP

25

Reddit r/MachineLearning·24 mai

PapersWithCode new features - week 1 [P]

Niels (Hugging Face) annonce la première semaine de paperswithcode.co, revival du site de suivi SOTA. Nouvelles fonctionnalités : métriques multiples par benchmark (WER/RTFx pour ASR, mAP/FPS pour détection), support papers externes (GitHub, blog, BioRxiv), lignée papiers (prédécesseurs/successeurs), nouvelles méthodes (Gated DeltaNet, Kimi Delta Attention, Mamba-2).

Benchmarks Papers Open source

SIG

72

HYP

25

Reddit r/LocalLLaMA·24 mai

Qwen Plays ̶p̶̶o̶̶k̶̶e̶̶m̶̶o̶̶n̶ ? / QWEN PLAYS DCSS! - qwen3.6-35b-a3b@q4_k_xl plays open source roguelike adventure DCSS (and does a decent job)

Qwen 3.6-35B en version non-MTP joue correctement à DCSS (roguelike open-source). Test pratique sur LM Studio avec RTX 5090 : personnage Minotaure niveau 5, 47 HP, plusieurs ennemis vaincus. Version MTP produit des appels d'outils mal formés. Benchmark alternatif aux scores officiels.

Qwen Benchmarks Open source

SIG

45

HYP

35

Reddit r/LocalLLaMA·24 mai

gemma 4 e2b quality degrades after ~30-40 continuous inferences on 4gb vram?

Utilisateur rapporte une dégradation de la qualité des sorties de Gemma 2B après 30-40 inférences continues sur GPU 4GB (RTX 1650). Les réponses deviennent plus courtes, les champs JSON manquent, parfois vides. Redémarrage du serveur llama résout le problème. Possible problème de cache KV ou fragmentation mémoire.

Open source Infrastructure

SIG

35

HYP

15

Reddit r/LocalLLaMA·24 mai

How I do use the recent llama.cpp native tools to do web rag a.k.a. web_fetch (or anything else for the matter) directly from inside the llama-server's webui

Un utilisateur de llama.cpp implémente un workflow de RAG web sécurisé en activant les outils natifs du serveur (exec_shell_command) avec multi-sandboxing : firejail + utilisateur Linux dédié + conteneur OCI Alpine. Permet au modèle Qwen 3.6-35B d'exécuter des commandes wget directement depuis l'interface web pour récupérer et analyser du contenu.

Llama RAG Outils

SIG

65

HYP

25

GitHub Trending·24 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> manaflow-ai /</span> cmux

cmux est un terminal macOS basé sur Ghostty avec onglets verticaux et notifications, conçu pour les agents de codage IA.

Agents IA Génération de code Outils

SIG

35

HYP

45

GitHub Trending·24 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> earendil-works /</span> pi

Pi est un toolkit d'agents IA offrant une CLI d'agent de codage, une API LLM unifiée, des bibliothèques TUI/web UI, un bot Slack et support vLLM pods.

Agents IA Génération de code Outils

SIG

45

HYP

35

GitHub Trending·24 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> anthropics /</span> knowledge-work-plugins

Anthropic publie un dépôt open-source de plugins pour Claude destinés aux travailleurs du savoir. Les plugins facilitent l'intégration de Claude dans des workflows professionnels.

Claude Outils Open source

SIG

65

HYP

20

GitHub Trending·24 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> farion1231 /</span> cc-switch

cc-switch est un assistant de bureau multiplateforme intégrant Claude Code, Codex, OpenCode, OpenClaw, Gemini CLI et Hermes Agent. Outil d'agrégation d'interfaces pour plusieurs modèles et agents IA.

Claude Code Agents IA Outils

SIG

35

HYP

55

GitHub Trending·24 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> modrinth /</span> code

Modrinth publie son monorepo complet sur GitHub. Le dépôt contient l'intégralité du code source de la plateforme de distribution de mods.

Open source Infrastructure

SIG

45

HYP

15

GitHub Trending·24 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> lakehq /</span> sail

Sail est un remplaçant Apache Spark écrit en Rust, unifiant le traitement batch, le streaming et les workloads IA intensifs en calcul.

Infrastructure Open source

SIG

45

HYP

35

GitHub Trending·24 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> katanemo /</span> plano

Plano est un proxy et data plane natif IA pour applications multi-agents, intégrant orchestration, sécurité, observabilité et routage LLM intelligent.

Agents IA Multi-agents Infrastructure

SIG

45

HYP

55

GitHub Trending·24 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> BloopAI /</span> vibe-kanban

Vibe-Kanban est un outil open-source qui amplifie la productivité des agents de code comme Claude Code et Codex via une interface Kanban. Permet de gérer les tâches de développement avec des agents IA.

Claude Code Agents IA Génération de code

SIG

45

HYP

65

GitHub Trending·24 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> virattt /</span> dexter

Dexter est un agent autonome pour la recherche financière approfondie. Le projet, publié sur GitHub Trending, propose une automatisation des analyses financières via un système multi-agent.

Agents IA Multi-agents

SIG

35

HYP

45

GitHub Trending·24 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> twentyhq /</span> twenty

Twenty est une alternative open-source à Salesforce conçue pour l'IA. Le projet gagne en popularité sur GitHub Trending, positionnant les CRM open-source comme concurrent viable aux solutions propriétaires.

Open source Outils Business

SIG

45

HYP

55

GitHub Trending·24 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> presenton /</span> presenton

Presenton est un générateur de présentations IA open-source avec API, positionnée comme alternative à Gamma, Beautiful AI et Decktopus. Le projet GitHub propose une solution automatisée pour créer des diaporamas.

Open source Outils

SIG

45

HYP

55

GitHub Trending·24 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> superset-sh /</span> superset

Superset est un éditeur de code conçu pour l'ère des agents IA. Il permet d'exécuter plusieurs instances de Claude Code et autres modèles de codage sur sa machine locale.

Agents IA Génération de code Claude Code

SIG

35

HYP

65

GitHub Trending·24 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> triggerdotdev /</span> trigger.dev

Trigger.dev est une plateforme pour construire et déployer des agents IA et workflows entièrement gérés. Le projet GitHub trending propose une infrastructure complète pour orchestrer des agents autonomes en production.

Agents IA Infrastructure Open source

SIG

45

HYP

35

GitHub Trending·24 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> gitroomhq /</span> postiz-app

Postiz est un outil de planification de contenu social media basé sur des agents IA. Le projet GitHub trending propose une solution automatisée pour gérer la publication sur plusieurs plateformes.

Agents IA Outils

SIG

35

HYP

65