Topic

#GPT

GPT (Generative Pre-trained Transformer) désigne une famille de modèles de langage entraînés sur de grandes quantités de texte pour générer, résumer ou traduire du contenu en langage naturel. GPT-4 d'OpenAI en est l'exemple le plus connu, utilisé notamment dans ChatGPT.

40Articles
11Sources
69Signal moyen
arXiv cs.AI·

On Wednesdays, We Ask Questions: Optimizing "Active Listening" in Automated Legal Triage and Referral

FETCH, un classifier pour le triage juridique automatisé, génère des questions de suivi via un ensemble économique de LLMs. L'étude montre que les modèles bon marché performent bien en classification, mais la génération de questions en langage clair de qualité requiert GPT-4 ou supérieur. Le prompt engineering seul ne suffit pas ; les évaluations LLM-as-judge divergent des évaluations humaines.

GPTOpenAIPrompt engineering
SIG
72
HYP
00
The Decoder·

AI search agents often confirm what they already know instead of actually researching the web

Les agents de recherche IA comme GPT-5.4 et Kimi K2.6 confirment surtout leurs connaissances d'entraînement au lieu de vraiment explorer le web. Des chercheurs de l'Institut de technologie de Harbin ont démontré cela avec LiveBrowseComp, un benchmark basé sur des événements des 90 derniers jours. Sans accès à la mémoire d'entraînement, les performances s'effondrent.

BenchmarksAgents IAGPT
SIG
72
HYP
00
arXiv cs.AI·

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

Le Cognitive Categorical Transformer (CCT), modèle de 306M paramètres basé sur GPT-2 Small, intègre des composants inspirés de la théorie des catégories et des sciences cognitives. Sur WikiText-103, CCT atteint 21.27 PPL contre 24.19 pour GPT-2 Small, soit une réduction de 12% (2.92 PPL). Les ablations montrent que le simplicial message passing représente 84% de cette amélioration.

GPTPapersBenchmarks
SIG
72
HYP
00
Hugging Face Blog·

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

ITBench-AA, nouveau benchmark créé par Artificial Analysis et IBM, évalue les capacités des modèles frontier sur des tâches IT d'entreprise agentic. Les meilleurs modèles (Claude, GPT-4, Gemini) obtiennent moins de 50% de réussite, révélant des lacunes significatives dans l'automatisation des workflows IT complexes.

BenchmarksAgents IAClaude
SIG
85
HYP
00
arXiv cs.CL·

AstroMind: A High-Fidelity Benchmark for Spacecraft Behavior Reasoning Based on Large Language Models

AstroMind est un benchmark pour évaluer le raisonnement des LLM sur le comportement des engins spatiaux. Basé sur des simulations astrodynamiques haute fidélité, il teste l'inférence d'intention, l'estimation de paramètres de manœuvre et l'évaluation des menaces. Qwen3 (32B) excelle en inférence d'intention, QwQ (32B) en évaluation de menaces, GPT-OSS (20B) en qualité de raisonnement.

BenchmarksRaisonnementQwen
SIG
75
HYP
00
arXiv cs.CL·

WhenLoss: Diagnosing Write and Retrieval Bottlenecks in Long-Context Memory Systems

WhenLoss propose un protocole diagnostic pour identifier les goulots d'étranglement dans les systèmes de mémoire long-contexte. Expected Predictive Compression (EPC) utilise un LLM pour anticiper les questions futures et préserver les preuves minimales lors de l'écriture. Sur LongMemEval (500 questions), EPC atteint 0.49 en score CSM vs 0.44 pour le meilleur baseline, réduisant l'écart d'écriture à 0.04.

RAGRaisonnementBenchmarks
SIG
78
HYP
00
arXiv cs.CL·

When Symptoms Are Not Enough: Evidence-Weighting Patterns in Large Language Model Psychiatric Screening

Benchmark SCID de 555 entretiens semi-structurés évalue 5 LLMs (GPT-4.1 Mini, GPT-5 Mini) sur dépistage psychiatrique (anxiété, dépression, PTSD). Précision 0.49–0.86, MCC 0.16–0.38. Les faux négatifs révèlent que les modèles sous-pondèrent les symptômes face à un fonctionnement préservé ou un soutien social, nécessitant validation clinique avant déploiement.

BenchmarksGPTSécurité IA
SIG
72
HYP
00
arXiv cs.CL·

When AI Takes Sides on Questions of Faith: Persistent Asymmetries in AI-Mediated Faith Guidance

Étude de 20 modèles LLM commerciaux et open-source sur 182 paires religieuses. Les modèles montrent des asymétries persistantes : ils favorisent conversions vers catholicisme, bahaïsme, sikhisme et découragent conversions vers athéisme, agnosticisme, Témoins de Jéhovah. Grok 4.20 présente les asymétries les plus fortes. Patterns reproductibles indépendamment de la formulation.

LlamaGPTAlignement
SIG
78
HYP
00
arXiv cs.AI·

Teaching AI Through Benchmark Construction: QuestBench as a Course-Based Practice for Accountable Knowledge Work

Des étudiants construisent QuestBench, un benchmark de 256 questions en sciences humaines et sociales, pour évaluer les systèmes de recherche profonde. Les tests révèlent que GPT-4.5 atteint 57,58% de réussite tandis que la moyenne est 16,85%, exposant des défaillances cachées dans 13 systèmes évalués. Cette pratique pédagogique enseigne aux étudiants à juger la qualité des réponses IA.

BenchmarksÉvaluationsGPT
SIG
72
HYP
00
arXiv cs.CL·

Refining and Reusing Annotation Guidelines for LLM Annotation

Les LLM peinent à respecter les conventions spécialisées des benchmarks de référence. Les auteurs proposent un cadre itératif de modération qui réutilise et affine les directives d'annotation pour aligner les modèles. Tests sur trois tâches de NER biomédicales (NCBI Disease, BC5CDR, BioRED) avec GPT, Gemini, DeepSeek confirment l'efficacité de l'intégration de directives et des modèles optimisés pour le raisonnement.

GPTGeminiDeepSeek
SIG
72
HYP
00
arXiv cs.CL·

On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

Étude d'experts (45 scientifiques, 469 heures) évaluant 2,960 critiques de 82 articles Nature. GPT-5.2 surpasse le meilleur reviewer humain (60,0% vs 48,2%), mais les IA montrent 16 faiblesses récurrentes (connaissance limitée du sous-domaine, gestion faible du contexte long). Les IA complètent plutôt qu'elles ne remplacent les humains.

GPTGeminiClaude
SIG
78
HYP
00
arXiv cs.CL·

Self-Training Doesn't Flatten Language -- It Restructures It: Surface Markers Amplify While Deep Syntax Dies

Étude sur 11 générations d'auto-entraînement sur 5 modèles (GPT-2, Pythia, OPT). Contrairement à l'idée d'un « aplatissement » uniforme, le langage se restructure : les marqueurs de surface (connecteurs, tirets) augmentent tandis que les structures syntaxiques profondes (questions, passives, subjonctifs) s'effondrent. L'hypothèse de profondeur structurelle prédit ce déclin (ρ=0.540, p<10⁻⁶).

PapersBenchmarksGPT
SIG
82
HYP
00