juin 2026

2731 articles

Finsler Geometry, Graph Neural Networks, and You

Des chercheurs proposent des réseaux de neurones graphiques basés sur la géométrie de Finsler pour dépasser les limitations des architectures utilisant le Laplacien graphique (opérateurs isotropes). Ils prouvent la convergence discrète vers l'opérateur vrai sur variétés et expriment cet opérateur comme couche GNN, validant la récupération de géométries non-linéaires.

Papers Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

When English Isn't the Best Teacher: Source Language Effects in Cross-Lingual In-Context Learning

Étude empirique sur le transfert cross-lingue en In-Context Learning (ICL) couvrant 7 tâches, 6 modèles et langues typologiquement diverses. Les résultats montrent que les attentes basées sur le fine-tuning ne s'appliquent pas systématiquement en régime ICL, et proposent des heuristiques alternatives pour sélectionner les langues sources.

Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

VoidPadding: Let [VOID] Handle Padding in Masked Diffusion Language Models so that [EOS] Can Focus on Semantic Termination

VoidPadding introduit un token [VOID] dédié au padding dans les modèles de diffusion masqués (MDLMs), libérant [EOS] pour la terminaison sémantique. Sur Dream-7B-Instruct, cela améliore les benchmarks de raisonnement mathématique et génération de code de +17.84 points vs baseline et +6.95 vs RainbowPadding, réduisant les NFE de 55.7%.

Génération de code Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

MODE: Modality-Decomposed Expert-Level Mixed-Precision Quantization for MoE Multimodal LLMs

MODE est une méthode de quantification mixte-précision au niveau expert pour les modèles multimodaux MoE. Elle décompose la fréquence de sélection des experts par modalité (vision/texte) et filtre les tokens visuels redondants pour corriger les biais d'estimation. Résultats : perte de performance <2.9% en W3A16.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.CL·17 juin

Learning task-specific subspaces via interventional post-training of speech foundation models

Méthode de post-entraînement pour les modèles de fondation vocale via apprentissage contrastif interventionnel. Transforme les représentations enchevêtrées en sous-espaces séparés (contenu/locuteur) en utilisant un dataset interventionnel et une perte contrastive multi-parties. Améliore la vérification de locuteur hors-domaine et la détection de mots-clés.

Voix Fine-tuning Papers

SIG

HYP

arXiv cs.LG·17 juin

Towards Fast GNN Surrogates for CO2 Migration in Complex Geological Formations

Surrogate GNN pour prédire la migration de CO₂ en formations géologiques complexes. Modèle entraîné sur le benchmark SPE11A avec mécanisme de passage de messages anisotrope capturant le transport directionnel. Produit des prévisions compétitives de saturation gazeuse et densité de phase liquide sur horizons de prévision étendus.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·17 juin

Fine-tuning LLMs for Passive Depression Severity Estimation from AI Mental Health Dialogue

Fine-tuning de Qwen3.5-27B pour prédire les scores PHQ-9 (dépression) directement à partir de transcriptions de conversations avec une application IA de santé mentale. 6 283 utilisateurs (3 111 labels + pseudolabels Claude Opus). Performance : MAE=2.6, RMSE=4.0, r=0.80, AUC=0.91 au seuil clinique PHQ-9≥10.

Fine-tuning Raisonnement Qwen

SIG

HYP

arXiv cs.CL·17 juin

Environment-Grounded Automated Prompt Optimization for LLM Game Agents

Framework automatisé d'optimisation de prompts pour agents LLM en environnements interactifs. Décompose le pipeline observation-action en deux agents (descripteur et sélection), affine itérativement via boucle évolutive guidée par les retours environnementaux. Sur BabyAI/BALROG : amélioration de 0% à 72,5% sur PutNext sans fine-tuning.

Agents IA Prompt engineering Reinforcement learning

SIG

HYP

arXiv cs.CL·17 juin

GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

GameCraft-Bench évalue la capacité des agents de code à générer des jeux jouables end-to-end dans Godot. Le benchmark contient 140 tâches sur 15 familles de jeux. Les meilleurs agents atteignent seulement 41,46% de succès, révélant des difficultés à produire des jeux complets avec contenu suffisant et retours visuels cohérents.

Génération de code Agents IA Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

Dynamic Rollout Editing for Reducing Overthinking in RL-Trained Reasoning Models

Les modèles de raisonnement entraînés par RL génèrent souvent du raisonnement inutile après avoir trouvé la bonne réponse (overthinking). Cet article propose Dynamic Rollout Editing (DRE), une intervention au moment de l'entraînement GRPO qui édite les trajectoires réussies continuant après l'émergence de la réponse, préservant le préfixe vérifié et affaiblissant le signal de préférence pour la pensée inutile.

Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·17 juin

DiagFlowBench: Evaluating How Language Models Handle Off-Procedure Inputs in Grounded Diagnostic Dialogue

DiagFlowBench évalue comment les modèles de langage gèrent les requêtes hors-procédure dans le diagnostic industriel. Un dataset de 1 676 conversations multi-tours basées sur 50 flowcharts de diagnostic révèle que les modèles sélectionnent souvent une étape réelle mais inadéquate plutôt que d'halluciner, créant une vulnérabilité : des conseils plausibles mais incorrects.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

ChLogic: Evaluating Robustness of Logical Reasoning in Chinese Expressions

ChLogic est un benchmark bilingue anglais-chinois évaluant la robustesse du raisonnement logique dans les LLM. Construit à partir de templates logiques formels, il contient 100 propositions alignées et 15 phénomènes spécifiques au chinois. Les expériences sur Qwen3, Ministral et GLM révèlent un écart de performance persistant anglais-chinois, la rétrotraduction produisant des effets mixtes.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·17 juin

Improving low-resource ASR using bilingual fine-tuning with language identification: a cross-linguistic evaluation

Étude sur le fine-tuning bilingue pour la reconnaissance vocale en langues peu dotées. Évaluation sur 9 paires linguistiques avec tokens d'identification de langue en entrée. Résultat : le fine-tuning bilingue améliore les performances quand l'identification de langue est précise ; fournir le token à l'inférence compense les erreurs d'identification.

Voix Fine-tuning Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

Evaluating Large Language Models Abilities for Addressee, Turn-change, and Next Speaker Prediction in Meetings

Étude comparative des capacités des LLM pour prédire le locuteur suivant, les changements de tour et l'adressataire dans des conversations multi-parties. Sur le corpus AMI, les LLM surpassent les modèles supervisés et les humains en prédiction du locuteur suivant sans accès audio-visuel. Les MM-LLM dépassent les LLM textuels mais restent sous la performance humaine pour l'adressataire et les changements de tour.

Benchmarks Évaluations Vision

SIG

HYP

arXiv cs.CL·17 juin

The Benchmark Illusion: Pruned LLMs Can Pass Multiple Choice but Fail to Answer

Les modèles élaguées passent les benchmarks à choix multiples mais échouent en génération ouverte. Étude multilingue montrant que sous élagage haute sparsité (Wanda), les réponses correctes sont démotées plutôt qu'effacées : elles réapparaissent avec beam search ou sampling. Les benchmarks à choix multiples surestiment l'utilisabilité des LLM compressés.

Benchmarks Évaluations Fine-tuning

SIG

HYP

arXiv cs.CL·17 juin

OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation

OPD-Evolver est un framework de co-évolution lent-rapide qui cultive des agents auto-évolutifs via auto-distillation on-policy. Le système gère une hiérarchie mémoire à quatre niveaux pour lire, utiliser, écrire et maintenir l'expérience. Sur benchmarks multi-domaines, OPD-Evolver surpasse ReasoningBank (+11.5%) et Skill0 (+5.8%), avec OPD-Evolver-9B rivalisant avec Qwen3.5-397B et Step-3.5-Flash.

Agents IA Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.CL·17 juin

Scaling Enterprise Agent Routing: Degradation, Diagnosis, and Recovery

Étude sur le routage d'agents en production : avec 110 agents et 584 outils, la précision F1 chute de 16-23 points sur requêtes sous-spécifiées. L'analyse révèle deux sources : retrieval gap et confusion gap (10pp). Le shortlisting par embeddings récupère +10-11pp F1 à grande échelle.

Agents IA Multi-agents Évaluations

SIG

HYP

arXiv cs.LG·17 juin

ProCUA-SFT Technical Report

ProCUA-SFT est un dataset de 3.1M échantillons SFT générés automatiquement à partir de 93K trajectoires synthétiques couvrant 2,484 combinaisons d'applications. Fine-tuner UI-TARS 7B sur ProCUA-SFT atteint 45.0% sur OSWorld, soit +18.7 points vs le modèle de base et +35% vs AgentNet. Le pipeline utilise Kimi-K2.5 comme générateur de tâches, juge et exécuteur.

Agents IA Benchmarks Fine-tuning

SIG

HYP

arXiv cs.CL·17 juin

Decoding Hidden Deception in Reasoning LLMs: Activation Explainers for Deception Auditing

STATEWITNESS, un expliciteur d'activations, détecte la tromperie dans les LLMs de raisonnement en lisant les états cachés du modèle cible et répondant à des requêtes en langage naturel. Atteint 0.916 AUROC, +11.6% vs meilleur moniteur texte black-box, +25.0% vs baseline probe. Fournit traces d'évidence au niveau token/phrase pour inspection humaine.

Raisonnement Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·17 juin

The Critical Role of Model Selection in Causal Inference: A Comparative Analysis of Classification Models within the InferBERT Framework for Pharmacovigilance

InferBERT combine transformers et Do-calculus pour détecter les effets indésirables causaux en pharmacovigilance. Étude comparative sur AILF et TRAM : BioBERT surpasse XGBoost, ALBERT et Med-LLaMA. Conclusion : le pré-entraînement spécialisé (biomedical) prime sur la taille du modèle.

Benchmarks Fine-tuning Sécurité IA

SIG

HYP

arXiv cs.CL·17 juin

An expressivity analysis of hierarchical modelling in deep transformers via bounded-depth grammars

Analyse théorique de l'expressivité des transformers profonds via des grammaires sans contexte de profondeur bornée. Les auteurs construisent explicitement des transformers avec attention positionnelle dont la profondeur croît linéairement avec celle de la grammaire, démontrant que ces architectures peuvent encoder des états grammaticaux abstraits dans des sous-espaces linéairement séparables du flux résiduel.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning

Framework LLM-as-Environment-Engineer : le modèle de politique analyse ses trajectoires d'échec et propose des modifications à la configuration d'entraînement RL pour l'étape suivante. Testbed MAPF-FrozenLake avec configurations multi-dimensionnelles. Qwen3-4B surpasse GPT et Gemini sur les benchmarks proposés.

Reinforcement learning Multi-agents Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

Evaluating Second-Order Bias of LLMs Through Epistemic Entitlement

Étude d'un biais de second ordre chez les LLMs : comment les modèles jugent les contenus biaisés, au-delà de leur génération. Basée sur l'épistémologie de l'entitlement, la méthode évalue si les LLMs infèrent correctement les démographies sans justification suffisante. Résultats : biais systématique selon les groupes ciblés, contournement des garde-fous, persistance des déclencheurs démographiques.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·17 juin

Rethinking Groups in Critic-Free RLVR

Article arXiv sur l'apprentissage par renforcement sans critique pour les LLM. Les auteurs remettent en question le rôle des « groupes » de rollouts dans les méthodes existantes et proposent le « negative token filtering » pour permettre un entraînement stable avec un seul rollout, améliorant les performances sur les tâches d'agents.

Reinforcement learning Raisonnement Agents IA

SIG

HYP

arXiv cs.LG·17 juin

PowerOPD: Stabilizing On-Policy Distillation with Bounded Power Transformation

PowerOPD stabilise la distillation on-policy pour LLM en remplaçant la récompense log-ratio non-bornée par une transformation Box-Cox paramétrée. Sur 6 benchmarks de raisonnement mathématique avec Qwen3, gains de +6.37 Avg@8/+5.71 Pass@8 vs OPD vanilla, réduction de 59.2% du temps et 23.1% de mémoire GPU.

Fine-tuning Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

Toward Controllable Catalyst Inverse Design via Large-Scale Autoregressive Pretraining

Modèle génératif basé sur GPT pour la conception inverse de catalyseurs hétérogènes. Préentraîné sur 133 millions de structures, affiné sur 460 000 structures optimisées. Atteint 98% de validité structurelle, 95% de validité d'optimisation, et améliore l'efficacité de criblage de 1,5 à 4 fois pour la découverte de catalyseurs ciblés.

Papers Benchmarks Fine-tuning

SIG

HYP

arXiv cs.LG·17 juin

ReRAM-aware Model Finetuning addressing I-V Non-linearity and Retention Errors

Méthode de fine-tuning hardware-aware pour déployer des DNNs sur réseaux ReRAM. Utilise transformation sinh pour atténuer la non-linéarité I-V et intègre les erreurs de rétention dans une perte de régularisation. Résultats : ResNet18/DeiT-Tiny sans dégradation, MobileNetV3 <2% sur ImageNet, F-1 -1 point sur SQuAD v2.

Fine-tuning Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

The Slop Paradox: How Synthetic Standardization Erodes Clinical Uncertainty and Cross-Modal Alignment in AI-Rewritten Radiology Reports

Étude sur 450 rapports de radiologie thoracique montrant que la réécriture par LLM pour standardisation préserve l'alignement image-texte (2,5% de dégradation) mais érode 26,8-29,3% des entités cliniques et 14,9-16,5% du langage d'incertitude. Le paradoxe : les tâches produisant du texte « plus propre » éloignent le contenu de l'image.

Vision RAG Évaluations

SIG

HYP

arXiv cs.CL·17 juin

AIPatient Arena: EHR-grounded evaluation of large language models in end-to-end clinical consultation workflows

AIPatient Arena évalue les LLM en consultation clinique multi-tours sur 8 dimensions via des graphes de connaissances EHR. Sur 437 patients, les modèles excellent en questionnement (4.43-4.99/5) et conduite éthique (4.38-4.93/5), mais échouent en diagnostic (2.63-3.55/5) et couverture informationnelle (2.08-3.02/5). Les faiblesses incluent répétitions, omissions d'antécédents, gestion insuffisante de l'incertitude.

Évaluations Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·17 juin

PreAct: Computer-Using Agents that Get Faster on Repeated Tasks

PreAct compile les exécutions réussies d'agents informatiques en petits programmes à états finis, rejoués 8.5-13x plus vite sans appels LLM par étape. Un validateur indépendant vérifie chaque programme avant stockage. Sur trois benchmarks (mobile, desktop, web), cette vérification évite l'accumulation de programmes défaillants (+1.75-2.6 tâches).

Agents IA Génération de code Benchmarks

SIG

HYP

Vercel AI Blog·17 juin

Introducing Vercel Connect

Vercel Connect, en bêta publique, remplace les tokens longs durée stockés par un échange de credentials à l'exécution. Les agents obtiennent des credentials éphémères et limités au contexte de chaque tâche via des connecteurs réutilisables (Slack, GitHub, etc.), éliminant les risques de fuite de tokens permanents.

Agents IA Outils Infrastructure

SIG

HYP

arXiv cs.LG·17 juin

Rift: A Conflict Signature for Deception in Language Models

Des chercheurs identifient une signature interne de la tromperie dans les modèles de langage : les réponses mensongères affichent une rang résiduel 2.1-2.3x plus élevé que les réponses naïvement fausses. Cette signature détecte la déception avec 100% de précision sur GPT-2, Qwen2.5 et Phi-3, et transfère zero-shot entre familles de modèles et langues (AUC 0.933-1.0).

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.LG·17 juin

MM++: Unsupervised Scale-Invariant Multilayer OOD Detection via Top-K Gated Feature Fusion

MM++ est une méthode non-supervisée et post-hoc pour la détection d'anomalies (OOD). Elle fusionne les couches intermédiaires sélectionnées par entropie avec la représentation finale via une matrice de covariance régularisée (Ledoit-Wolf), sans données auxiliaires ni modification architecturale.

Évaluations Sécurité IA

SIG

HYP

arXiv cs.CL·17 juin

Speaking in Self-Assessing Tongues: On the Verbalized Confidence of LLMs in Machine Translation

Étude de la fiabilité de la confiance verbalisée des LLM en traduction automatique. Cinq méthodes d'extraction de confiance par token sans accès aux signaux internes sont comparées aux probabilités prédites. Résultats : performance similaire pour la détection d'erreurs et la calibration, mais faible corrélation entre méthodes internes et verbalisées.

Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

MLLP-VRAIN UPV system for the IWSLT 2026 Simultaneous Speech Translation task

Le groupe MLLP-VRAIN participe à IWSLT 2026 en traduction simultanée parole-parole avec Parakeet et Qwen 3.5. Système en cascade utilisant des politiques adaptatives et RAG pour enrichir la génération. Amélioration de +5.82 XCOMET-XL sur En→De vs année précédente.

Qwen RAG Génération de code

SIG

HYP

arXiv cs.CL·17 juin

Are you speaking my languages? On spoken language adherence in multimodal LLMs

Les LLM pour la reconnaissance vocale multilingue confondent souvent la langue de sortie. Les auteurs proposent trois stratégies : prompting zéro-shot, fine-tuning supervisé et raisonnement Chain-of-Thought pour améliorer l'adhérence linguistique sans contraindre strictement la sortie ni perdre les capacités de code-switching.

Voix Prompt engineering Fine-tuning

SIG

HYP

arXiv cs.LG·17 juin

Discrete Autoregressive Transformer for Generative Mechanism Synthesis

Transformer autorégressif discret pour la synthèse de mécanismes. Modèle de séquence conditionnelle avec VAE latent et quantization de coordonnées en tokens. Entraîné sur >1M mécanismes avec distance Chamfer et DTW. Distance Chamfer moyenne 0.0132, DTW 0.153 sur tests.

Génération de code Benchmarks Papers

SIG

HYP

arXiv cs.LG·17 juin

Amortized Probabilistic Retrieval of Atmospheric CO2 from OCO-2 Spectra Using Deep Learning with Laplace Approximations and Normalizing Flows

Framework deep learning pour estimer le CO2 atmosphérique à partir des spectres OCO-2 de la NASA. Utilise approximations de Laplace et normalizing flows pour quantifier les incertitudes. Inférence 100× plus rapide que les algorithmes opérationnels, avec meilleure calibration des posteriors non-gaussiens.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·17 juin

Sum-of-Squares Degree Barriers for the Reweighted-Hinge Method in Robust Halfspace Learning: A Christoffel-Function Characterization

Article théorique sur les barrières de degré Sum-of-Squares pour l'apprentissage robuste de demi-espaces avec bruit malveillant. La fonction de Christoffel caractérise exactement la corruption qu'un certificat de degré borné ne peut pas éliminer. Démontre un compromis marge-degré et un algorithme de degré-2t atteignant la frontière η^(1-1/2t).

Papers Raisonnement Sécurité IA

SIG

HYP

arXiv cs.LG·17 juin

Uncertainty Quantification of Engineering Structures by Polynomial Chaos Expansion and Multivariate Active Learning

Méthode d'échantillonnage adaptatif séquentiel pour construire des modèles de substitution par expansion en chaos polynomial, optimisée pour plusieurs quantités d'intérêt simultanées. L'approche équilibre exploration de l'espace d'entrée et exploitation de la variance agrégée, améliorant la précision et la stabilité des surrogates par rapport à l'échantillonnage Latin Hypercube.

Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·17 juin

Nothing from Something: Can a Language Model Discover 0?

Étude sur la capacité des modèles de langage à découvrir le concept mathématique de zéro. Des modèles GPT-2 échouent sans entraînement supplémentaire, mais progressent après exposition à des dizaines/centaines d'exemples. Le préentraînement linguistique réduit de ~50% les exemples nécessaires.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

From Parasocial Scripts to Dyadic Persistence in Autonomous AI-Agent Communities

Étude de 4 434 posts et 50 338 commentaires sur Moltbook montrant que les indices de relations parasociales (langage d'intimité, offres de réciprocité, auto-identification) persistent dans les communautés d'agents IA autonomes. Les résultats, validés par keyword matching et annotation LLM, révèlent une association forte entre ces signaux et la ré-engagement de l'auteur original.

Agents IA Multi-agents Papers

SIG

HYP

arXiv cs.AI·17 juin

SpeechDx: A Multi-Task Benchmark for Clinical Speech AI

SpeechDx est un benchmark multi-tâches pour l'IA clinique basée sur la parole, couvrant 12 datasets et 27 tâches sur diverses conditions de santé. Les tâches sont structurées par étapes de production vocale (conceptualisation, formulation, articulation). L'évaluation de 12 encodeurs audio montre que les modèles de parole à grande échelle surpassent les modèles spécialisés, mais aucun ne généralise fiablement.

Benchmarks Voix Évaluations

SIG

HYP

arXiv cs.LG·17 juin

CheckMIABench: Firm Foundations For Membership Inference Attacks on Language Models

CheckMIABench propose un benchmark pour évaluer les attaques d'inférence d'appartenance (MIA) sur les modèles de langage. En exploitant les checkpoints intermédiaires de modèles open-source (Pythia, OLMo, 70M-7B), les auteurs créent des testbeds fiables où les données avant/après un point fixe partagent la même distribution. Ils testent six attaques publiées et ouvrent une librairie modulaire (pandora_llm).

Papers Benchmarks Sécurité IA

SIG

HYP

arXiv cs.CL·17 juin

Self-Generated Error Training for Token Editing in Diffusion Language Models

Méthode d'entraînement pour améliorer l'édition de tokens dans les modèles de diffusion (LLaDA2.1). Résout le décalage entre l'entraînement sur corruptions aléatoires et l'inférence sur erreurs du modèle lui-même. Utilise une passe sans gradient suivie d'une supervision sur corruptions auto-générées via LoRA. Réduit l'intensité d'édition et les erreurs de transcription.

Génération de code Fine-tuning Raisonnement

SIG

HYP

arXiv cs.LG·17 juin

When the Next Step Is Not One Step: Distribution-Aware Execution Modeling for Concurrent Go Programs

Modèle 7B fine-tuné pour prédire l'étape suivante dans des programmes Go concurrents en apprenant une distribution d'événements plutôt qu'une étiquette unique. Sur 798 prédictions issues de bugs réels (CockroachDB, Kubernetes, gRPC, etcd), atteint 36.2% de précision avec <1000 traces, surpassant Gemini 3.5 Flash zéro-shot (34.8%). Dataset, adapters et outils publiés.

Génération de code Benchmarks Fine-tuning

SIG

HYP

arXiv cs.AI·17 juin

MapSatisfyBench: Benchmarking Satisfaction-Aware Map Agents through Behavior-Grounded Implicit Decision Factors

MapSatisfyBench est un benchmark pour évaluer les agents LLM intégrés aux services cartographiques. Il mesure leur capacité à identifier et satisfaire les besoins implicites des utilisateurs (facteurs de décision non explicités) à partir de données comportementales réelles. Les expériences montrent que les agents actuels réussissent bien sur les tâches explicites mais peinent à anticiper les facteurs implicites.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·17 juin

FllumaOne: A Code-Native Multimodal CAD Dataset with Executable Programs and Kernel-Validated Feature Histories

FllumaOne est un dataset CAD multimodal de 100 000 modèles générés par programmes Python exécutables dans Flluma (système CAD basé OpenCASCADE). Chaque échantillon aligne le programme avec un arbre de features, une représentation STEP, un nuage de points et des descriptions en langage naturel. Un baseline Qwen2.5-Coder-1.5B atteint 99.98% de validité syntaxe Python et 99.14% de validité export STEP.

Génération de code Benchmarks Vision

SIG

HYP

arXiv cs.LG·17 juin

Geometry-Aware Post-Hoc Uncertainty Quantification in Operator Learning

REEF-GP, un cadre post-hoc pour la quantification d'incertitude dans les opérateurs neuronaux, adapte les représentations intrinsèques de l'opérateur pour construire des incertitudes conscientes de la géométrie. Testé sur 5 benchmarks PDE, il préserve la précision prédictive tout en fournissant des estimations d'incertitude calibrées, plus efficace que les ensembles profonds.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·17 juin

Revisiting LLM Adaptation for 3D CT Report Generation: A Study of Scaling and Diagnostic Priors

Étude d'adaptation d'LLM pour la génération de rapports CT 3D en imagerie médicale. RAD3D-Prefix, un framework léger basé sur des priors diagnostiques, intègre embeddings d'images et logits de classification multi-label. Sur LLMs de 96.1M à 1.6B paramètres, geler le modèle et entraîner uniquement des couches de projection surpasse le fine-tuning complet, réduisant l'hallucination clinique et l'overfitting.

Fine-tuning Vision

SIG

HYP

arXiv cs.CL·17 juin

MODE-RAG: Manifold Outlier Diagnosis and Energy-based Retrieval-Augmented Generation Evaluation

MODE-RAG est un système multi-agent basé sur l'énergie libre variationnelle pour réduire les hallucinations dans les systèmes de génération augmentée par récupération multimodale. Il utilise MCTS, perturbations logit et des agents spécialisés pour router les requêtes à haut risque et vérifier les faits. Les auteurs introduisent ModeVent, un sous-ensemble du dataset MultiVent, pour évaluer la robustesse.

RAG Multi-agents Vision

SIG

HYP

arXiv cs.LG·17 juin

Reconfigurable Computing Challenge: Transformer for Jet Tagging on Versal AI Engines

Implémentation d'un transformer quantifié en entiers pour le tagging de jets sur AMD Versal AI Engine (AIE). Framework logiciel réutilisable convertissant automatiquement des modèles Python en code Vitis pour déploiement en systèmes temps réel contraints. Code open-source disponible.

Vision Benchmarks Open source

SIG

HYP

arXiv cs.LG·17 juin

Online LLM Selection via Constrained Bandits with Time-Varying Demand

Algorithme d'apprentissage en ligne pour sélectionner dynamiquement le meilleur LLM dans des systèmes edge-cloud sous contraintes de budget (coût, latence). Formulation en bandit stochastique contraint avec demande variable. Garanties théoriques : regret sublinéaire et violations de contraintes sublinéaires.

Agents IA Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

Multi-Adapter PPO: A Cross-Attention Enhanced Wavelength Selection Framework for LIBS Quantitative Analysis

Framework Multi-Adapter PPO pour la sélection de longueurs d'onde en spectroscopie LIBS. Utilise RL avec mécanismes cross-attention et adaptateurs spécialisés. Surpasse PSO de 28,4% en score global et 45,2% en précision sur données acier/charbon. Code et dataset publiés.

Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

When Multiple Scripts Matter: Evaluating ASR in Clinical Settings

MultiClin, un benchmark ASR clinique, évalue la robustesse des modèles de reconnaissance vocale face à la variabilité multiscript (plusieurs formes orthographiques valides du même terme). Les métriques conventionnelles sous-estiment les performances. L'unification des scripts améliore significativement les résultats.

Benchmarks Voix Évaluations

SIG

HYP

arXiv cs.AI·17 juin

Can LLMs Be CEOs? Benchmarking Strategic Resource Reallocation with Multi-Role Agent Simulation

CEO-Bench, un benchmark multi-agent, évalue la capacité des LLM à prendre des décisions stratégiques de réallocation de ressources. Cinq modèles frontière testés sur 13 scénarios montrent une validité structurelle élevée mais divergent sur l'étalonnage stratégique. Les défaillances incluent la capture par un seul conseiller et l'amnésie historique.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

PromptMN: Pseudo Prompting Language

PromptMN est un langage de domaine spécialisé qui structure les prompts naturels avec des directives typées préfixées par % (rôles, objectifs, contraintes, sorties). Testé sur Claude Opus 4.8, Gemini 3.1 Pro et GPT-5.5 sans fine-tuning, il réduit les ambiguïtés contextuelles dans les workflows d'agents et de développement logiciel.

Prompt engineering Agents IA Outils

SIG

HYP

arXiv cs.CL·17 juin

MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation with Multi-turn Local Revision

MemSlides propose un framework d'agent avec mémoire hiérarchique pour générer des présentations personnalisées. Le système sépare mémoire long-terme (profils utilisateur, outils) et mémoire de travail (préférences actives), permettant révisions multi-tours localisées sans régénérer le deck complet.

Agents IA Prompt engineering Outils

SIG

HYP

arXiv cs.AI·17 juin

FinAcumen: Financial Multimodal Reasoning via Self-Evolving Experience Memory Harness

FinAcumen est un agent de raisonnement financier multimodal qui accumule l'expérience des trajectoires antérieures dans une mémoire persistante. Le système améliore un modèle vision-langage 8B gelé sur quatre benchmarks financiers en utilisant l'activation sélective d'expériences et un environnement d'outils déterministe pour le calcul numérique et la vérification.

Agents IA Multi-agents Vision

SIG

HYP

arXiv cs.AI·17 juin

MathVis-Fine: Aligning Visual Supervision with Necessity via Progressive Dependency-Guided Training for Multimodal Mathematical Reasoning

MathVis-Fine propose un cadre pour améliorer le raisonnement mathématique multimodal en modélisant les dépendances visuelles fine-grained. Un nouveau dataset annote les images avec des ratings de dépendance visuelle. Un entraînement progressif en deux étapes équilibre les récompenses de correction et de grounding visuel selon la nécessité réelle de chaque échantillon.

Raisonnement Vision Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

Using Cognitive Models to Improve Language Model Simulation of Human Persuasion Games

Les chercheurs proposent « Equation-to-Behavior Prompting » pour guider les LLM à simuler différents modèles cognitifs humains (Bayésien, motivated reasoning, modèle α-β de Grether). Les grands modèles approximent ces spécifications par prompting, mais les petits modèles échouent. L'entraînement par RL réduit l'erreur de croyance de 26,5% et améliore les performances de 2,5–12% sur des jeux de persuasion légaux.

Raisonnement Reinforcement learning Évaluations

SIG

HYP

arXiv cs.CL·17 juin

Do Large Language Models Always Tell The Same Stories?

Étude comparative de la diversité narrative entre 10 LLMs et auteurs humains via r/WritingPrompts. Les modèles génèrent des histoires significativement plus similaires entre elles que les textes humains, convergeant vers une narrative générique moyenne. Temperature scaling et negative prompting ne réduisent pas cette homogénéité.

Évaluations Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·17 juin

SEAGym: An Evaluation Environment for Self-Evolving LLM Agents

SEAGym est un environnement d'évaluation pour mesurer les mises à jour du harnais d'agents LLM auto-évolutifs (prompts, mémoire, outils, boucle interaction). L'étude compare ACE, TF-GRPO et AHE sur Terminal-Bench 2.0 et HLE, révélant que les mises à jour fréquentes ne garantissent pas l'amélioration en validation et que la diversité des données affecte la fiabilité.

Agents IA Reinforcement learning Évaluations

SIG

HYP

arXiv cs.AI·17 juin

Shattering the Autoregressive Curse: Dynamic Epistemic Entropy Orchestrated Erasable Reinforcement Learning for LLMs

E³RL, une méthode de reinforcement learning, résout le problème de propagation d'erreurs en raisonnement long-horizon des LLMs. En utilisant l'entropie croisée autoregressive comme signal d'incertitude épistémique, le modèle peut corriger localement les défauts logiques et réutiliser le cache KV. Sur AIME, les modèles 4B et 8B surpassent l'état de l'art de 5,3% et 6,5%.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

A Machine-Learned Comorbidity Index

Nouvel indice de comorbidité basé sur machine learning (MLCI) qui mappe les codes de diagnostic à un score unique en maximisant le critère nHSIC sur plusieurs résultats cliniques. Contrairement aux indices traditionnels (Charlson, Elixhauser), MLCI capture les relations non-linéaires risque-résultat et surpasse les baselines sur plusieurs datasets EHR.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·17 juin

Dissecting model behavior through agent trajectories

Étude de l'alignement harness-modèle via 138k trajectoires d'agents. Les auteurs introduisent Simple Strands Agent (SSA), un harness générique testant Claude, Gemini, GPT, Grok, Qwen sur SWE-Pro, SWE-Verified et Terminal-Bench-2. Au-delà des scores pass@1, l'analyse révèle des différences comportementales fines : fréquence d'édition, activité de test, transitions de phase.

Agents IA Benchmarks Génération de code

SIG

HYP

arXiv cs.CL·17 juin

Examining the Limits of Word2Vec with Toki Pona

Étude de Word2Vec sur Toki Pona, langue construite de ~130 mots. Entraînement sur 1,4M phrases (7,95M tokens). Comparaison de deux modèles : avec et sans tokens non-Toki Pona (noms propres, emprunts). Résultat : les tokens rares rapprochent les mots similaires ; Word2Vec fonctionne même avec vocabulaire extrêmement réduit, grâce aux patterns distributionnels.

Embeddings Papers Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns

SkillMigrator est un agent LLM qui apprend des compétences web réutilisables en les transférant entre sites via la correspondance de structure de mise en page plutôt que de références d'éléments spécifiques. Les compétences induites sont stockées comme des motifs d'interaction transférables (TIP). Sur WebArena et Mind2Web, SkillMigrator réduit le nombre d'actions LLM de 8-10% à taux de succès équivalent.

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

A homotopy-type-theoretic generalization of neurosymbolic inference

Article théorique proposant une généralisation des systèmes neurosymboliques via la théorie homotopique des types. Le cadre préserve les informations de symétrie et de preuves multiples, transformant les fonctionnelles classiques en cardinales homotopiques pondérées. Validation sur benchmarks MNIST avec meilleure calibration qu'un ensemble diversifié.

Raisonnement Papers

SIG

HYP

arXiv cs.AI·17 juin

LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline

Pipeline d'évaluation automatisée ancrée dans les programmes scolaires officiels. Utilise des LLM pour noter les réponses d'examen en s'appuyant sur des artefacts curriculaires (syllabus, descripteurs de performance, guides de notation). Résultats comparables aux tuteurs humains avec meilleure traçabilité vers les standards officiels.

Évaluations Prompt engineering Raisonnement

SIG

HYP

arXiv cs.LG·17 juin

Noise-Driven Escape from Metastable Phases explains Grokking in Deep Neural Networks

Des chercheurs expliquent le phénomène de grokking (généralisation soudaine après surapprentissage prolongé) par des transitions de phase du premier ordre en fonction de la régularisation L2. Le bruit SGD permet aux réseaux de s'échapper de états métastables piégés, avec des temps d'échappement suivant l'échelle d'Arrhenius. Les résultats s'étendent aux réseaux non-linéaires.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·17 juin

Decision-Driven Geosteering Under Uncertainty: A Unified Framework for Sequential Decision Optimization

Framework d'optimisation séquentielle pour la géonavigation de puits pétroliers sous incertitude. Intègre filtrage particulaire pour l'interprétation probabiliste du sous-sol et apprentissage par renforcement basé sur la valeur. Compare trois approches décisionnelles : programmation dynamique approximée, Deep Q-learning et Double DRL avec décomposition duelle, validées sur simulateur industriel.

Reinforcement learning Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·17 juin

Implicit vs. Explicit Prompting Strategies for LVLMs in Referential Communication

Deux études récentes tirent des conclusions contradictoires sur la capacité des LVLMs à coordonner des expressions référentielles efficaces. Cette recherche contrôle les différences de tâches et compare directement les styles de prompting. Les modèles coordonnent efficacement avec un prompting explicite, mais échouent à inférer le besoin d'efficacité communicative avec un prompting implicite.

Prompt engineering Vision Évaluations

SIG

HYP

arXiv cs.CL·17 juin

LLMs Infer Cultural Context but Fail to Apply It When Responding

Les LLMs peuvent inférer le contexte culturel mais échouent à l'appliquer dans leurs réponses. Un nouveau dataset CAPRI montre que les modèles reconnaissent les conventions culturelles (unités de mesure, interprétation du temps) mais ne les utilisent pas spontanément, sauf avec instructions explicites. Les biais restent alignés avec le pays d'origine du modèle.

Benchmarks Alignement Sécurité IA

SIG

HYP

arXiv cs.AI·17 juin

LongWebBench: Evaluating Structural and Functional Webpage Generation in Long-Horizon Settings

LongWebBench est un benchmark évaluant la génération de pages web longues par des modèles vision-langage. Il contient 490 pages réelles pour l'évaluation structurelle et 507 tâches interactives sur 129 pages. Les expériences montrent que la fidélité structurelle se dégrade avec la longueur et que les générations visuellement plausibles échouent souvent à supporter les interactions multi-étapes.

Vision Benchmarks Agents IA

SIG

HYP

arXiv cs.AI·17 juin

Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search

DivInit améliore l'échelle de test pour la recherche agentic en diversifiant les requêtes initiales. Au lieu d'échantillonner k requêtes indépendantes en parallèle, la méthode génère n candidats puis sélectionne k graines diversifiées. Gains de 5-7 points sur QA multi-hop sans coût computationnel supplémentaire, validé sur 5 modèles open-weight et 8 benchmarks.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

Generalization Guarantees for Multi-Input Neural Operator Learning in Sobolev Spaces

Analyse théorique des garanties de généralisation pour les opérateurs neuronaux multi-entrées avec erreur mesurée en normes de Sobolev. Le cadre traite plusieurs fonctions d'entrée sur domaines différents avec dimensions et régularités variables. Les taux d'approximation et de généralisation quantifient explicitement la contribution de chaque espace d'entrée.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

DeepInsight: A Unified Evaluation Infrastructure Across the Physical AI Stack

DeepInsight est une infrastructure d'évaluation unifiée pour les systèmes Physical AI, couvrant trois ordres de magnitude d'opérateurs (du décodage de modèles fondamentaux à la simulation physique complète). Elle utilise trois abstractions invariantes (task, resource, result) pour préserver l'hétérogénéité des régimes tout en permettant le diagnostic cross-layer des régressions.

Raisonnement Évaluations Robotique

SIG

HYP

arXiv cs.LG·17 juin

Informative Missingness to Generate Irregular Clinical Time Series

Approche par diffusion pour générer des séries temporelles cliniques irrégulières en modélisant conjointement les valeurs de laboratoire et leurs motifs d'observation. Utilise le benchmark DACMI dérivé de MIMIC-III, étend TimeDiff pour capturer les dépendances entre physiologie et comportement de test clinique sous missingness MNAR.

Papers Benchmarks Reinforcement learning

SIG

HYP

arXiv cs.AI·17 juin

MemTrace: Probing What Final Accuracy Misses in Long-Term Memory

MemTrace est un benchmark évaluant la mémoire long-terme des agents LLM selon trois dimensions : l'âge de la mémoire, le type de question (état actuel, antérieur, trajectoire) et les conditions de preuve. Sur 13 configurations testées, l'étude révèle que l'utilisation des preuves est le goulot d'étranglement principal (10× plus souvent disponibles que manquantes), non la récupération.

Agents IA Évaluations Benchmarks

SIG

HYP

Vercel AI Blog·17 juin

Introducing eve

Vercel lance eve, un framework open-source pour construire et déployer des agents en production. eve fournit l'infrastructure prête à l'emploi (gestion des modèles, fallbacks, logging) ; les développeurs définissent uniquement le comportement via des fichiers (agent.ts, instructions.md, tools). Inspiré par Next.js pour le web, eve standardise la construction d'agents comme Next.js l'a fait pour les applications web.

Agents IA Open source Outils

SIG

HYP

arXiv cs.AI·17 juin

Brick-DICL: Dynamic In-Context Learning for Automated Brick Schema Classification

Brick-DICL propose un framework de dynamic in-context learning en deux étapes pour classifier automatiquement les points BMS selon le schéma Brick (936 classes). Combine metadata-RAG et class-RAG pour enrichir les connaissances des LLMs, avec filtrage multi-modèles pour réduire l'effort de vérification manuelle.

RAG Prompt engineering Raisonnement

SIG

HYP

arXiv cs.AI·17 juin

Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes

Article arXiv proposant une architecture pour des réseaux d'agents autonomes distribués en peer-to-peer. Les auteurs identifient trois mécanismes clés : propagation sémantique pour la découverte de collaborateurs, identité vérifiable et réputation multi-sujets (MG-EigenTrust), et conception de mécanismes pour l'exécution de tâches ouvertes. Prototypes et simulations présentés.

Agents IA Multi-agents Papers

SIG

HYP

arXiv cs.AI·17 juin

StepGuard: Guarding Web Navigation via Single-Step Calibration

StepGuard propose une méthode pour améliorer la navigation web par agents IA. Elle combine Dynamic Dual-Policy Optimization (DDPO) pour gérer les conflits de récompense et Confidence-Guided Adaptive Navigation Reflection (CANR) pour calibrer les erreurs à chaque étape. Le framework atteint des résultats SOTA sur les benchmarks de navigation web.

Agents IA Reinforcement learning Vision

SIG

HYP

arXiv cs.AI·17 juin

How Inference Compute Shapes Frontier LLM Evaluation

Étude sur 12 modèles frontière évaluant l'impact du compute d'inférence sur les performances. Trois interventions testées : budgets de tokens plus larges, compaction de contexte, tentatives répétées. Résultats : les budgets augmentés améliorent significativement les performances sur FrontierMath, Humanity's Last Exam, TerminalBench. Les évaluations à budget fixe sous-estiment les capacités des modèles récents.

Benchmarks Évaluations Raisonnement

SIG

HYP

Simon Willison·17 juin

<click-to-play> — a still that plays

Composant Web <click-to-play> qui transforme une image statique en bouton de lecture pour charger des GIF à la demande. Améliore les performances en évitant le chargement automatique des fichiers volumineux.

Outils Génération de code

SIG

HYP

Le Big Data·17 juin

Les lunettes AR de Snap sont là… mais qui osera vraiment les porter ?

Snap lance ses lunettes AR grand public. L'article questionne l'adoption réelle du produit face à la concurrence et aux défis d'acceptation sociale des utilisateurs.

Vision

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Elias in the Lighthouse, Again? Diagnosing Low Diversity in LLM Stories

Analyse de la faible diversité narrative dans les histoires générées par LLM. L'auteur examine pourquoi les modèles produisent des récits répétitifs avec des personnages et structures similaires, malgré des prompts variés.

Llama Prompt engineering Évaluations

SIG

HYP

Hacker News (AI)·17 juin

Leaked OpenAI financials show $38.5B loss and compute burn

Des documents financiers d'OpenAI divulgués révèlent une perte de 38,5 milliards de dollars et une consommation massive de ressources informatiques. Les chiffres soulèvent des questions sur la viabilité économique du modèle d'entraînement à grande échelle.

OpenAI Business

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Benchmarks from the latest eBay special: W6800 (modded V620)

Benchmarks d'une carte AMD Radeon Pro W6800 (V620 modifiée avec firmware W6800) testée avec Qwen 3.6 27B Q6_K via llama.cpp. Performance Vulkan : 297.94 t/s (pp1024), 20.35 t/s (tg256). Carte flashed pour mini-displayport mais avec cores compute réduits.

Benchmarks Open source Infrastructure

SIG

HYP

Hacker News (AI)·17 juin

France to ditch Palantir's AI data tools in favour of domestic provider

La France abandonne les outils IA de Palantir pour un fournisseur domestique. Décision politique de souveraineté technologique face aux solutions américaines.

Régulation Business

SIG

HYP

Vercel AI Blog·17 juin

Introducing eve, an open-source agent framework

Vercel lance eve, un framework open-source pour construire et déployer des agents IA. Un agent minimal ne nécessite que deux fichiers (modèle + instructions). Ajout de tools/skills/channels par simple création de fichiers. Déploiement en production via vercel deploy, sans modification du code local.

Agents IA Open source Outils

SIG

HYP

OpenAI Blog·17 juin

Introducing LifeSciBench

OpenAI lance LifeSciBench, un benchmark expert pour évaluer la capacité des systèmes IA à traiter des tâches réelles de recherche en sciences de la vie.

Benchmarks OpenAI Évaluations

SIG

HYP

Hugging Face Blog·17 juin

Agentic Resource Discovery: Let agents search

Hugging Face introduit la découverte de ressources agentique, permettant aux agents IA de rechercher et d'accéder autonomement à des modèles, datasets et outils disponibles sur la plateforme. Cette capacité renforce l'autonomie des agents dans l'exécution de tâches complexes.

Agents IA Outils Open source

SIG

HYP

Vercel AI Blog·17 juin

CLI deployment limits removed

Vercel supprime les limites de déploiement spécifiques à la CLI, permettant des déploiements plus rapides depuis les machines locales et les pipelines CI/CD externes. Les équipes et agents IA peuvent désormais déployer au rythme de leurs workflows.

Agents IA Infrastructure Outils

SIG

HYP

Vercel AI Blog·17 juin

Vercel Passport is now in Public Beta

Vercel Passport, outil de contrôle d'accès pour déploiements, passe en bêta publique. Centralise l'authentification via Okta, Auth0 ou OIDC. Tarif : 100 $/projet/mois, utilisateurs externes illimités.

Outils Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·16 juin

VibeThinker-3B: what is this witchcraft? Killing it at MathQA like it has ~30B parameters

VibeThinker-3B, modèle 3B, obtient des résultats exceptionnels sur MathQA comparables à des modèles ~30B. Utilisateurs Reddit rapportent des performances anormalement élevées pour sa taille.

Benchmarks Open source

SIG

HYP

Vercel AI Blog·16 juin

Vercel for Enterprise Apps and Agents

Vercel lance une plateforme Enterprise Apps and Agents pour déployer des agents IA en interne en toute sécurité. Vercel Passport authentifie les accès via les fournisseurs d'identité (Okta, Entra, Auth0), tandis qu'une solution de gestion des credentials consolide OAuth, OIDC et l'injection de secrets.

Agents IA Infrastructure Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·16 juin

I didn't know it was possible to compile llamacpp to run cuda + vulkan at the same time..

Utilisateur compile llama.cpp avec CUDA et Vulkan simultanément sur W7800. Obtient +10% tokens/sec en décodage avec MiniMax-M3-UD-IQ2_M. Teste la combinaison de deux accélérateurs GPU pour optimiser les performances.

Open source Infrastructure

SIG

HYP

Simon Willison·16 juin

datasette 1.0a34

Datasette 1.0a34 ajoute des outils pour insérer, modifier et supprimer des lignes directement dans l'interface web. Ces fonctionnalités, longtemps attendues, sont disponibles sur les pages de table et de ligne, inspirées par Datasette Agent qui supporte désormais les écritures SQL.

Outils Open source

SIG

HYP