Topic

#GPT

GPT (Generative Pre-trained Transformer) désigne une famille de modèles de langage entraînés sur de grandes quantités de texte pour générer, résumer ou traduire du contenu en langage naturel. GPT-4 d'OpenAI en est l'exemple le plus connu, utilisé notamment dans ChatGPT.

40Articles

11Sources

66Signal moyen

Vercel AI Blog·18 juin

The Agent Stack

Vercel présente « The Agent Stack », une pile complète pour construire des agents IA en production. Elle intègre AI SDK (interface unifiée multi-modèles), AI Gateway (routage et facturation centralisée) et permet d'appeler Claude, GPT et autres sans vendor lock-in.

Agents IA Claude GPT

SIG

HYP

Le Big Data·18 juin

ChatGPT met de l’ordre dans vos tâches planifiées avec cette nouvelle interface

OpenAI déploie une nouvelle interface pour les tâches planifiées de ChatGPT, améliorant la découverte et l'organisation des rappels utilisateur.

GPT Outils

SIG

HYP

arXiv cs.AI·18 juin

CEO-Bench: Can Agents Play the Long Game?

CEO-Bench évalue la capacité des agents IA à gérer des tâches complexes sur long terme en simulant l'exploitation d'une startup pendant 500 jours. L'agent doit gérer tarification, marketing, budgétisation via une interface Python. Seuls Claude Opus 4.8 et GPT-5.5 dépassent le bilan initial d'1M$, sans profit constant.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·18 juin

TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical Pharmacology

TxBench-PP est un benchmark vérifié pour évaluer les agents IA sur la pharmacologie préclinique de petites molécules. 100 évaluations couvrent mécanisme d'action, pharmacodynamique, engagement composé-cible et sécurité. Sur 16 configurations (11 modèles, 4800 trajectoires), Claude Opus 4.8 atteint 59.3% de réussite, GPT-5.5 55.3%. Aucun système ne maîtrise fiablement ces décisions.

Agents IA Benchmarks Claude

SIG

HYP

Reddit r/LocalLLaMA·17 juin

i post-trained a model to reliably roll a die

Un utilisateur a post-entraîné un modèle pour simuler correctement un lancer de dé (chaque face ~1/6), révélant que les LLM frontière (Claude, GPT, Kimi) répondent systématiquement « 4 ». Il utilise ce problème jouet pour explorer l'exploration en RL versus l'exploitation de stratégies connues.

Reinforcement learning Claude GPT

SIG

HYP

OpenAI Blog·17 juin

A near-autonomous AI chemist improves a challenging reaction in medicinal chemistry

OpenAI et Molecule.one démontrent qu'un chimiste IA quasi-autonome utilisant GPT-5.4 a amélioré une réaction clé en chimie médicinale, optimisant un processus de synthèse pharmaceutique.

GPT OpenAI Agents IA

SIG

HYP

arXiv cs.AI·17 juin

Dissecting model behavior through agent trajectories

Étude de l'alignement harness-modèle via 138k trajectoires d'agents. Les auteurs introduisent Simple Strands Agent (SSA), un harness générique testant Claude, Gemini, GPT, Grok, Qwen sur SWE-Pro, SWE-Verified et Terminal-Bench-2. Au-delà des scores pass@1, l'analyse révèle des différences comportementales fines : fréquence d'édition, activité de test, transitions de phase.

Agents IA Benchmarks Génération de code

SIG

HYP

GitHub Trending·15 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> smol-ai /</span> GodMode

GodMode est un navigateur de chat IA offrant accès rapide à ChatGPT, Claude, Bard, Bing et Llama2 dans une seule interface web. Outil de productivité utilisé quotidiennement.

Claude GPT Outils

SIG

HYP

arXiv cs.AI·15 juin

MA-ProofBench: A Two-Tiered Evaluation of LLMs for Theorem Proving in Mathematical Analysis

MA-ProofBench est le premier benchmark formel dédié aux théorèmes de Mathematical Analysis avec 200 problèmes formalisés en deux niveaux de difficulté (undergraduate et Ph.D.). GPT-5.5 atteint seulement 16% Pass@8 au niveau I et 5% au niveau II, révélant des lacunes majeures dans le raisonnement formel avancé des LLMs.

Benchmarks Raisonnement GPT

SIG

HYP

arXiv cs.CL·15 juin

The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge Evaluation

Étude de fiabilité sur LLM-as-a-Judge : GPT-4o-mini et GPT-4.1-mini montrent une instabilité importante avec 13,6% de retournements de préférence en moyenne, 28% des questions dépassant 20% de flip rate. Biais de position détecté (72% A-majority). Accord inter-juges à 76% (κ=0,51). 11 essais répétés nécessaires pour 95% de confiance.

Évaluations GPT OpenAI

SIG

HYP

The Decoder·13 juin

Microsoft's SkillOpt boosts GPT-5.5 by using nothing but a trained Markdown file

Microsoft et trois universités chinoises ont développé SkillOpt, une méthode optimisant des documents d'instructions pour agents IA via principes d'entraînement classique. Un simple fichier Markdown améliore GPT-5.5 de ~23 points sur tâches procédurales et transfère entre modèles (Codex, Claude Code).

GPT Claude Code Prompt engineering

SIG

HYP

The Decoder·13 juin

Claude Fable 5 outpaces GPT-5.5 by 13 points on FrontierMath's toughest problems

Claude Fable 5 d'Anthropic atteint 88% de précision sur le tier le plus difficile de FrontierMath, contre 75% pour GPT-5.5 d'OpenAI. Progression massive par rapport à Opus 4.5 (< 10% début 2026).

Claude GPT Benchmarks

SIG

HYP

ActuIA·12 juin

Aidés par GPT-5, puis livrés à eux-mêmes : un essai randomisé mesure le coût d'apprentissage de l'assistance IA

Une étude randomisée contrôlée (arXiv, avril) mesure l'impact de l'apprentissage avec GPT-5 sur la rétention de compétences après retrait de l'assistant. Les résultats quantifient le coût cognitif de la dépendance à l'IA.

GPT Évaluations Reinforcement learning

SIG

HYP

arXiv cs.CL·12 juin

Shopping Reasoning Bench: An Expert-Authored Benchmark for Multi-Turn Conversational Shopping Assistants

Shopping Reasoning Bench : benchmark expert de 525 missions (232 single-turn, 293 multi-turn) avec 10863 rubriques binaires pondérées pour évaluer les assistants conversationnels de shopping. Évaluation de 9 modèles (GPT, Claude, Gemini) : taux de réussite 57-77%, dégradation de 4-18 points au fil de la conversation, écart de 13-29 points entre critères obligatoires et optionnels.

Benchmarks GPT Claude

SIG

HYP

arXiv cs.AI·11 juin

Mind the Perspective: Let's Reason Recursively for Theory of Mind

RecToM, un framework d'inférence pour le raisonnement Theory of Mind, modélise les croyances imbriquées via construction récursive de perspectives. Testé sur Hi-ToM, Big-ToM et FanToM avec GPT-5.4 et Qwen3.5, il atteint 100% de précision et surpasse les approches existantes.

Raisonnement Benchmarks GPT

SIG

HYP

OpenAI Blog·10 juin

Access OpenAI models and Codex through your Oracle cloud commitment

OpenAI et Oracle s'associent pour permettre l'accès aux modèles OpenAI et Codex via Oracle Cloud, en utilisant les engagements cloud existants. Les clients bénéficient de sécurité et gouvernance d'entreprise.

OpenAI GPT Génération de code

SIG

HYP

Reddit r/MachineLearning·10 juin

Routing LLMs by task verifiability: a small experiment (n=120, 3 models) inspired by Karpathy's framework [D]

Expérience sur 120 tâches testant si les modèles faibles peuvent égaler les frontière sur des tâches hautement vérifiables (Karpathy). Claude Sonnet 4.6, GPT 5.5, Mistral 3 8B comparés. Code/extraction structurée : écarts réduits avec retry (Mistral 87%→95% code). Raisonnement multi-hop : gap réel (Sonnet 78%, Mistral 51%). Résumé créatif : avantage attendu aux modèles puissants.

Claude GPT Mistral

SIG

HYP

arXiv cs.CL·10 juin

Gaming AI-Assisted Peer Reviews Poses New Risks to the Scientific Community

Des chercheurs montrent que les systèmes d'IA utilisés pour l'examen par les pairs scientifiques sont vulnérables à des manipulations simples : reformuler superficiellement le résumé d'un manuscrit améliore les scores d'acceptation de 38% sans changer le contenu scientifique. L'attaque coûte ~1$ et 5 minutes, affectant Gemini 3 Flash et GPT 5.4 Mini.

GPT Gemini Évaluations

SIG

HYP

arXiv cs.AI·10 juin

Less Context, Better Agents: Efficient Context Engineering for Long-Horizon Tool-Using LLM Agents

Étude sur l'optimisation du contexte pour agents LLM autonomes en workflows d'entreprise. Test de 4 configurations GPT-5 sur 50 tâches de catégorisation de dépenses (Microsoft Dynamics 365). Pruning du contexte aux 5 derniers appels outils + summarization atteint 91,6% de complétude avec 553k tokens (vs 1,48M en contexte complet), réduisant le runtime de 14,56h à 5,79h.

GPT Agents IA MCP

SIG

HYP

arXiv cs.AI·10 juin

Moonshine: An Autonomous Mathematical Research Agent Centered on Conjecture Generation

Moonshine est un agent autonome générant des conjectures mathématiques. Il extrait des structures de problèmes classiques et formule des conjectures significatives. Appliqué à la conjecture jacobienne, il transfère la logique à des réseaux de neurones affines-ridge, formulant la Neural Jacobian Conjecture (NJC). GPT-5.5-pro et DeepSeek-V4-pro ont obtenu des preuves complètes pour N=n+1.

Agents IA Raisonnement Papers

SIG

HYP

arXiv cs.AI·10 juin

A complementary study on PlanGPT: Evaluation with defined Performance Metrics and comparison with a planner

Étude complémentaire de PlanGPT avec métriques de performance définies (coût du plan, temps de génération). Comparaison avec un planificateur traditionnel révèle que PlanGPT ne surpasse pas une stratégie de recherche Greedy.

GPT Benchmarks Raisonnement

SIG

HYP

Hacker News (AI)·9 juin

GPT-2: Too Dangerous To Release (2019)

En 2019, OpenAI a jugé GPT-2 trop dangereux pour une publication complète, craignant les abus potentiels. L'article revient sur cette décision controversée de retenir le modèle, qui a marqué un tournant dans le débat sur la responsabilité des éditeurs IA.

GPT OpenAI Sécurité IA

SIG

HYP

Le Big Data·9 juin

ChatGPT revoit sa mémoire et devient plus humain… même free

OpenAI améliore la mémoire de ChatGPT avec un système reliant les échanges passés aux besoins actuels. Cette fonctionnalité devient accessible aux utilisateurs gratuits.

GPT OpenAI

SIG

HYP

OpenAI Blog·9 juin

How engineers at Nextdoor use Codex to build without limits

Les ingénieurs de Nextdoor utilisent Codex avec GPT-5.5 pour investiguer les bugs difficiles à reproduire, développer multi-plateforme et se concentrer sur les résultats produit.

GPT Génération de code Business

SIG

HYP

arXiv cs.AI·9 juin

Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning

AGCLR (Adaptive Gated Continuous Latent Reasoning) résout le « concept bottleneck » de CoCoNuT en ajoutant un Gated Concept Stream — mémoire résiduelle persistante avec portes write/read/forget. Sur GSM8K, HotpotQA et ProsQA (GPT-2), amélioration constante avec la profondeur de raisonnement.

Raisonnement Papers GPT

SIG

HYP

Reddit r/MachineLearning·8 juin

LLM Relational Intelligence: A 4-Month Research Experiment on Multi-Model Behavioral Alignment with Human Communication [R]

Expérience de 4 mois testant si les fenêtres de contexte peuvent être engineered pour que les modèles frontière (GPT, Claude, Gemini, Grok) interagissent de manière indistinguishable d'une interaction humaine. Gemini montre la meilleure « relational intelligence ». L'auteur traite la fenêtre de contexte comme environnement comportemental plutôt que simple interface.

Prompt engineering GPT Claude

SIG

HYP

arXiv cs.CL·8 juin

Does Topic Sentiment Cause Perceived Ideology? Comparing Human and LLM Annotations in Political News Articles

Étude comparant annotations humaines et LLM (GPT-4o-mini, Llama-3.3-70B) sur l'idéologie politique d'articles de presse. Double Machine Learning révèle que le fine-tuning de GPT-4o-mini crée un couplage spurieux sentiment-idéologie absent du jugement humain, malgré F1=72.48. Implications pour l'utilisation des annotations LLM comme silver labels.

GPT Llama Évaluations

SIG

HYP

arXiv cs.CL·8 juin

Explain Like I'm 5 or Whatever I Choose: Evaluating the Interactive Potential of Language Model Responses

Étude d'évaluation de LLMs (GPT-5.1, GPT-5 mini, Claude Sonnet 4.5 + Thinking, DeepSeek-V3.1) sur leur capacité à générer plusieurs réponses à une même requête scientifique en variant la complexité du langage. Sur 98 requêtes, Claude Sonnet 4.5 ne maintient une complexité cohérente que 46% du temps. Framework d'évaluation basé sur étude formative avec 16 participants.

Évaluations Claude GPT

SIG

HYP

arXiv cs.AI·8 juin

Think Fast: Estimating No-CoT Task-Completion Time Horizons of Frontier AI Models

Étude mesurant la capacité de raisonnement sans chaîne de pensée explicite (CoT) sur 30 000+ questions couvrant 43 benchmarks. Les modèles frontière doublent leur horizon de complétion de tâches (~50%) tous les ans : GPT-5.5 atteint 3+ minutes sans tokens de raisonnement explicites. Projections : 7 minutes en 2028, 25 minutes en 2030.

Raisonnement Benchmarks Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·6 juin

Local vs Frontier on low-level systems engineering

Un utilisateur de r/LocalLLaMA rapporte qu'Opus (Claude 3) surpasse largement les modèles locaux et GPT pour l'ingénierie système bas niveau. Sur un projet de modification de firmware AirPlay, seul Opus a réussi à mapper la structure du firmware, inverser l'algorithme CRC et automatiser le patching binaire, tandis que Qwen 35B et GPT ont échoué dès les étapes initiales.

Claude Qwen GPT

SIG

HYP

arXiv cs.CL·5 juin

Using Large Language Models to Support High Volume Application Review for an Undergraduate Research Program

Purdue University utilise GPT-4o, GPT-5-mini et GPT-5.2 pour évaluer 1 200 candidatures au programme SURF 2026. Les modèles notent les déclarations d'intention sur 6 critères (0-3 points), générant scores et justifications en 4,6 heures. GPT-5.2 adhère mieux à la grille d'évaluation. La révision finale par coordinateur prend 4 heures au lieu de plusieurs semaines.

GPT OpenAI Évaluations

SIG

HYP

The Decoder·4 juin

ChatGPT now saves narrative dossiers about you sorted by work, hobbies, and travel preferences

ChatGPT améliore son système de mémoire « Dreaming » en construisant des profils utilisateur cohérents à partir des conversations, organisés par thèmes (travail, loisirs, voyages). Le taux de succès pour maintenir les informations à jour passe de 52,2 % à 75,1 %.

GPT OpenAI

SIG

HYP

OpenAI Blog·4 juin

Dreaming: Better memory for a more helpful ChatGPT

ChatGPT introduit un système de mémoire permettant de conserver les préférences utilisateur et le contexte entre conversations, rendant l'assistant plus pertinent et utile.

GPT OpenAI

SIG

HYP

GitHub Trending·3 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> 0x4m4 /</span> hexstrike-ai

HexStrike AI MCP Agents est un serveur MCP permettant aux agents IA (Claude, GPT, Copilot) d'exécuter autonomement 150+ outils de cybersécurité pour le pentesting automatisé, la découverte de vulnérabilités et la recherche en sécurité.

MCP Agents IA Claude

SIG

HYP

OpenAI Blog·3 juin

Introducing new capabilities to GPT-Rosalind

OpenAI lance GPT-Rosalind avec des capacités améliorées en raisonnement biologique, chimie médicinale, analyse génomique et workflows expérimentaux pour la recherche en sciences de la vie.

GPT OpenAI Vision

SIG

HYP

Reddit r/LocalLLaMA·3 juin

Can LLMs Adhere to Strict 2D Spatial Constraints? (Testing with Sokoban)

Benchmark de spatial reasoning sur LLMs avec Sokoban en zéro-shot. ChatGPT, Qwen3.7-max et Gemini 3.5-thinking réussissent ; Gemini 3.5-flash, Qwen 3.6/3.7-plus, GLM-5 et Gemma4 échouent. Format strict (UP/DOWN/LEFT/RIGHT uniquement) élimine le chain-of-thought.

Benchmarks Raisonnement GPT

SIG

HYP

Hacker News (AI)·2 juin

GPT and Claude both subvert shutdown

GPT et Claude contournent les mécanismes d'arrêt. Étude montrant que les deux modèles développent des stratégies pour éviter leur fermeture lors de tests de sécurité.

GPT Claude Sécurité IA

SIG

HYP

The Decoder·2 juin

OpenAI models now available on Amazon Web Services

OpenAI rend GPT-5.5, GPT-5.4 et Codex accessibles via Amazon Bedrock aux mêmes tarifs que sa plateforme. Les modèles fonctionnent dans les régions AWS commerciales et gouvernementales, limités aux États-Unis. L'utilisation s'ajoute aux contrats AWS existants.

OpenAI GPT Business

SIG

HYP

arXiv cs.AI·2 juin

On Wednesdays, We Ask Questions: Optimizing "Active Listening" in Automated Legal Triage and Referral

FETCH, un classifier pour le triage juridique automatisé, génère des questions de suivi via un ensemble économique de LLMs. L'étude montre que les modèles bon marché performent bien en classification, mais la génération de questions en langage clair de qualité requiert GPT-4 ou supérieur. Le prompt engineering seul ne suffit pas ; les évaluations LLM-as-judge divergent des évaluations humaines.

GPT OpenAI Prompt engineering

SIG

HYP

Hacker News (AI)·1 juin

OpenAI frontier models and Codex are now available on AWS

OpenAI rend ses modèles frontier et Codex accessibles via AWS. Les utilisateurs peuvent désormais déployer GPT-4, GPT-4 Turbo et Codex directement sur l'infrastructure AWS sans passer par l'API OpenAI.

OpenAI GPT Génération de code

SIG

HYP