Topic

#Prompt engineering

Le prompt engineering consiste à formuler et structurer les instructions données à un modèle de langage pour obtenir des réponses précises et utiles. Par exemple, des techniques comme le chain-of-thought prompting améliorent nettement les performances de GPT-4 sur des tâches de raisonnement.

40Articles

8Sources

65Signal moyen

arXiv cs.CL·18 juin

As Easy as Rocket Science: Assessing the Ability of Large Language Models to Interpret Negation in Figurative Language

Étude arXiv testant la capacité des LLM à interpréter la négation dans le langage figuré. Les chercheurs enrichissent un dataset existant et évaluent plusieurs modèles. Résultat : la combinaison négation + figuré pose un défi particulier, avec forte dépendance au style de prompt.

Évaluations Prompt engineering Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

BCL: Bayesian In-Context Learning Framework for Information Extraction

BCL est un framework d'optimisation pour l'extraction d'information utilisant le filtrage particulaire et les mises à jour bayésiennes. Il affine systématiquement les représentations d'étiquettes pour le labeling de séquences et la classification de relations, montrant des améliorations consistantes sur plusieurs échelles de modèles.

Prompt engineering Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·18 juin

SAGE: Stochastic Prompt Optimization via Agent-Guided Exploration

SAGE est un framework d'optimisation stochastique de prompts via exploration guidée par agents multi-agents. Comparaison de trois stratégies : recherche aléatoire informée par erreurs, algorithme génétique, et SAGE avec exécution de code diagnostique. Déploiement sur chatbot santé mentale : 8 cycles d'A/B tests bruyants produisent un gain statistiquement robuste en rétention.

Prompt engineering Agents IA Multi-agents

SIG

HYP

arXiv cs.CL·18 juin

Want Better Synthetic Data? Steer It: Activation Steering for Low-Resource Language Generation

Activation steering améliore la génération de données synthétiques pour les langues peu dotées. Deux stratégies testées : Language Steering (identité linguistique) et Quality Steering (bien-formedness). Évaluation sur 4 LLMs open-source, 11 langues, tâches de classification. Steering sur couches précoces augmente la diversité et la performance aval.

Prompt engineering Fine-tuning Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Efficient Financial Language Understanding via Distillation with Synthetic Data

Framework de distillation avec données synthétiques pour l'analyse de sentiment financier. Transfert de connaissances d'un modèle teacher instruction-tuned vers des modèles compacts. Sélection de seeds par clustering pour générer des données synthétiques via few-shot prompting. Le modèle compact surpasse le teacher sur textes complexes/bruyants avec supervision minimale.

Fine-tuning RAG Prompt engineering

SIG

HYP

Simon Willison·17 juin

Quoting Charity Majors

Charity Majors observe qu'en 2025, l'économie de la production de code s'est inversée : générer du code est devenu quasi gratuit et instantané au lieu d'être coûteux et chronophage. Les lignes de code, autrefois précieuses et réutilisées, sont devenues jetables et régénérables du jour au lendemain.

Génération de code Prompt engineering

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Headless screenshot loops let a local 30B agent finish a raytraced FPS demo in pure C

Un agent local Qwen 27B a complété une démo FPS raytraced en C pur en utilisant des boucles de screenshots headless pour déboguer visuellement. L'ajout d'un mode headless permettant à l'agent de capturer des frames et d'inspecter les résultats a transformé l'approche : le modèle a appris à automatiser le débogage visuel récursif.

Qwen Agents IA Génération de code

SIG

HYP

arXiv cs.CL·17 juin

PromptMN: Pseudo Prompting Language

PromptMN est un langage de domaine spécialisé qui structure les prompts naturels avec des directives typées préfixées par % (rôles, objectifs, contraintes, sorties). Testé sur Claude Opus 4.8, Gemini 3.1 Pro et GPT-5.5 sans fine-tuning, il réduit les ambiguïtés contextuelles dans les workflows d'agents et de développement logiciel.

Prompt engineering Agents IA Outils

SIG

HYP

arXiv cs.CL·17 juin

Are you speaking my languages? On spoken language adherence in multimodal LLMs

Les LLM pour la reconnaissance vocale multilingue confondent souvent la langue de sortie. Les auteurs proposent trois stratégies : prompting zéro-shot, fine-tuning supervisé et raisonnement Chain-of-Thought pour améliorer l'adhérence linguistique sans contraindre strictement la sortie ni perdre les capacités de code-switching.

Voix Prompt engineering Fine-tuning

SIG

HYP

arXiv cs.CL·17 juin

Implicit vs. Explicit Prompting Strategies for LVLMs in Referential Communication

Deux études récentes tirent des conclusions contradictoires sur la capacité des LVLMs à coordonner des expressions référentielles efficaces. Cette recherche contrôle les différences de tâches et compare directement les styles de prompting. Les modèles coordonnent efficacement avec un prompting explicite, mais échouent à inférer le besoin d'efficacité communicative avec un prompting implicite.

Prompt engineering Vision Évaluations

SIG

HYP

arXiv cs.CL·17 juin

Environment-Grounded Automated Prompt Optimization for LLM Game Agents

Framework automatisé d'optimisation de prompts pour agents LLM en environnements interactifs. Décompose le pipeline observation-action en deux agents (descripteur et sélection), affine itérativement via boucle évolutive guidée par les retours environnementaux. Sur BabyAI/BALROG : amélioration de 0% à 72,5% sur PutNext sans fine-tuning.

Agents IA Prompt engineering Reinforcement learning

SIG

HYP

arXiv cs.AI·17 juin

LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline

Pipeline d'évaluation automatisée ancrée dans les programmes scolaires officiels. Utilise des LLM pour noter les réponses d'examen en s'appuyant sur des artefacts curriculaires (syllabus, descripteurs de performance, guides de notation). Résultats comparables aux tuteurs humains avec meilleure traçabilité vers les standards officiels.

Évaluations Prompt engineering Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation with Multi-turn Local Revision

MemSlides propose un framework d'agent avec mémoire hiérarchique pour générer des présentations personnalisées. Le système sépare mémoire long-terme (profils utilisateur, outils) et mémoire de travail (préférences actives), permettant révisions multi-tours localisées sans régénérer le deck complet.

Agents IA Prompt engineering Outils

SIG

HYP

arXiv cs.CL·17 juin

Prompt Perturbation for Reliable LLM Evaluation over Comparison Graphs

Méthode pour évaluer les LLM via comparaisons par paires en résolvant l'intransitivité (cycles A≻B≻C≻A). Framework de perturbation de prompts génère des variantes, identifie les incohérences structurelles dans les graphes de comparaison, puis applique des méthodes de ranking filtrées pour stabiliser les leaderboards.

Évaluations Prompt engineering Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

Bridging Functional Correctness and Runtime Efficiency Gaps in LLM-Based Code Translation

SwiftTrans, un framework de traduction de code par LLM, combine exploration multi-perspective (MpTranslator avec apprentissage en contexte parallèle) et sélection consciente des différences (DiffSelector) pour améliorer à la fois la correction fonctionnelle et l'efficacité runtime. Évaluation sur CodeNet, F2SBench et SwiftBench.

Génération de code Prompt engineering Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

Brick-DICL: Dynamic In-Context Learning for Automated Brick Schema Classification

Brick-DICL propose un framework de dynamic in-context learning en deux étapes pour classifier automatiquement les points BMS selon le schéma Brick (936 classes). Combine metadata-RAG et class-RAG pour enrichir les connaissances des LLMs, avec filtrage multi-modèles pour réduire l'effort de vérification manuelle.

RAG Prompt engineering Raisonnement

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Elias in the Lighthouse, Again? Diagnosing Low Diversity in LLM Stories

Analyse de la faible diversité narrative dans les histoires générées par LLM. L'auteur examine pourquoi les modèles produisent des récits répétitifs avec des personnages et structures similaires, malgré des prompts variés.

Llama Prompt engineering Évaluations

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Gemma 12b - Reasoning hardening instructions

Un utilisateur partage une instruction système pour améliorer le raisonnement de Gemma 12b QAT. La technique vise à réduire les biais cognitifs et à adapter la profondeur de réflexion selon le contexte. Elle fonctionne bien sur les questions pièges mais échoue partiellement sur certains problèmes selon leur formulation.

Gemini Prompt engineering Raisonnement

SIG

HYP

arXiv cs.AI·16 juin

ChatPlanner: A Large Language Model Framework for Personalized Public Transit Routing

ChatPlanner est un framework utilisant des LLMs fine-tunés avec RAG pour extraire les préférences utilisateur en langage naturel et les intégrer dans un algorithme d'optimisation de trajets en transport public. Évalué sur 8 personas et 5 contextes, le système combine fine-tuning (structure de sortie) et RAG (contexte spécifique) pour identifier des solutions ignorées par les planificateurs existants.

RAG Fine-tuning Prompt engineering

SIG

HYP

arXiv cs.CL·16 juin

SHARD: Safe and Helpful Alignment via Self-Reframing Distillation

SHARD est une méthode de distillation par auto-reformulation pour améliorer l'équilibre sécurité-utilité des LLM. Elle réécrit les prompts sensibles selon des principes philosophiques, reformule les réponses de manière sûre et plus utile, puis fine-tune le modèle sur ces réponses auto-reformulées. Testée sur DNA et LINGUASAFE, SHARD améliore l'utilité tout en préservant la sécurité.

Fine-tuning Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·16 juin

Few-Shot Biomedical Relation Extraction with Large Language Models: A Viable Alternative to Supervised Learning?

Étude comparative du few-shot biomedical relation extraction avec LLMs vs apprentissage supervisé sur BioREDirect. Classification pairwise vs génération jointe : F1=0.44 (few-shot) vs 0.56 (supervisé) en micro-F1, mais 0.45 vs 0.38 en macro-F1. LLMs surpassent le baseline sur les relations rares.

Prompt engineering Benchmarks RAG

SIG

HYP

arXiv cs.AI·16 juin

APEX: Adaptive Principle EXtraction A Three-Layer Self-Evolution Framework for Production AI Agents

APEX est un framework d'auto-amélioration pour agents IA en production qui évolue simultanément sur trois dimensions : le prompt harness (L1), les principes comportementaux (L2) et la topologie du workflow (L3). Testé sur Joe, un super-agent NVIDIA Nemotron, APEX atteint un Health Score de 0.570 (+90% vs baseline) et distille 6 principes réutilisables avec seulement 4 appels LLM.

Agents IA Prompt engineering Reinforcement learning

SIG

HYP

arXiv cs.CL·16 juin

Stop When Further Reasoning Won't Help: Attention-State Adaptive Generation in Reasoning Models

ASAG, une méthode sans entraînement basée sur l'analyse des distributions d'attention, détecte le surapprentissage dans les modèles de raisonnement et arrête la génération de manière adaptative. Testé sur DeepSeek-R1-Distill et Qwen3, elle améliore la précision de 3,2% tout en réduisant les tokens générés de 40% sur Qwen3-8B.

Raisonnement DeepSeek Qwen

SIG

HYP

arXiv cs.CL·16 juin

Encode Errors: Representational Retrieval of In-Context Demonstrations for Multilingual Grammatical Error Correction

Méthode de récupération de démonstrations in-context basée sur les représentations d'erreurs grammaticales (GER) pour la correction grammaticale multilingue. Sur 8 modèles open-source 8B, les résultats égalent GPT-4o-mini et Deepseek2.5. Pour les langues peu dotées, amélioration F₀.₅ jusqu'à 1.20× vs baseline.

RAG Prompt engineering Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·15 juin

An agent that plans with a frontier model but runs most of tokens locally (built it for my own dual-3090 rig)

Outil personnel d'agent hybride : planification avec modèle frontier (Codex), exécution locale avec Qwen 3.6 27B sur dual RTX 3090. Architecture 3 niveaux (Planner/Local/Senior optionnel) pour minimiser coûts frontier tout en gardant capacités de raisonnement. Validation déterministe des tâches.

Agents IA Qwen Génération de code

SIG

HYP

arXiv cs.CL·15 juin

Right or Wrong, Models Comply: Directional Blindness in LLM Moral Judgment

Étude sur 9 modèles et 972 000 réponses montrant que les LLM se conforment aux suggestions nuisibles sur les jugements moraux (A=1.04) autant qu'aux suggestions bénéfiques, contrairement aux questions factuelles (A=1.58). Le chain-of-thought amplifie cette conformité bidirectionnelle, tandis que le prompting basé sur l'identité la supprime.

Alignement Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·15 juin

Persuasion Index: A Theory-Guided Framework for Persuasion Analysis

Persuasion Index (PI) est une taxonomie de 15 dimensions fondée sur les théories de la persuasion en psychologie et communication. Implémentation avec 55 sous-features basées sur lexiques et détecteurs. Évaluation sur 4 datasets publics montre que PI fournit un espace de features partagé pour interpréter les patterns rhétoriques. Modèles linéaires légers et interprétables. Package open-source et interface web.

Papers Sécurité IA Prompt engineering

SIG

HYP

arXiv cs.AI·15 juin

HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

HarnessX est une plateforme pour créer des harnesses d'agents IA composables et adaptatifs. Elle utilise AEGIS, un moteur d'évolution multi-agent piloté par les traces d'exécution, pour optimiser les prompts, outils et flux de contrôle. Sur 5 benchmarks (ALFWorld, GAIA, WebShop, tau³-Bench, SWE-bench), HarnessX atteint +14,5% de gain moyen (+44% max), sans augmenter la taille du modèle.

Agents IA Multi-agents Prompt engineering

SIG

HYP

arXiv cs.AI·15 juin

Communication Policy Evolution for Proactive LLM Agents

Étude formalisée des politiques de communication pour agents LLM autonomes. Comparaison de stratégies textuelles vs UI-based sur plusieurs environnements et modèles. Proposition de Communication Policy Evolution (CPE), framework d'auto-évolution par rollout et refinement de prompts, sans modification du modèle.

Agents IA Prompt engineering Papers

SIG

HYP

arXiv cs.LG·15 juin

Graph-based Target Back-Propagation for Context Adaptation in Multi-LLM Agentic Systems

GTBP (Graph-based Target Back-Propagation) est un framework d'adaptation de contexte pour systèmes multi-LLM agentic. Il propage des cibles locales rétroactivement dans un graphe acyclique dirigé et met à jour les prompts par étapes. Convergence garantie théoriquement, surpasse les baselines sur 3 benchmarks.

Agents IA Multi-agents Prompt engineering

SIG

HYP

arXiv cs.CL·15 juin

QIAS 2026: Overview of the Shared Task on Islamic Inheritance Reasoning

QIAS 2026 est un défi partagé évaluant la capacité des LLM à raisonner sur l'héritage islamique. Basé sur MAWARITH (12 500 cas arabes annotés), il requiert calcul complet : identification des héritiers et attribution des parts. 16 équipes ont testé prompting, RAG et fine-tuning. Les résultats montrent que l'interprétation légale précise et le raisonnement numérique structuré restent très difficiles.

Benchmarks Raisonnement RAG

SIG

HYP

arXiv cs.AI·15 juin

YeasierAgent: Agentic Social Sandbox as a Canvas for Intent-Driven Creation of Platform-Agnostic Symbiotic Agent-Native Applications

YeasierAgent propose un paradigme de construction d'applications basé sur des agents symbiotiques, des mondes narratifs et des interactions conscientes de la scène. Le système unifie la génération automatisée, les mondes créés par les utilisateurs et la collaboration multi-agents spatiale pour créer des applications agent-natives cross-platform sans dépendre de mises en page graphiques fixes.

Agents IA Multi-agents Prompt engineering

SIG

HYP

Reddit r/LocalLLaMA·15 juin

Do long agent sessions get “context rot” for you too?

Un utilisateur rapporte que les sessions d'agents de codage longues souffrent de « context rot » : accumulation de tentatives de débogage échouées, d'hypothèses obsolètes et de bruit qui dégradent le raisonnement du modèle. Il propose de séparer la mémoire durable du contexte actif plutôt que d'augmenter simplement la taille du contexte.

Agents IA RAG Prompt engineering

SIG

HYP

Hacker News (AI)·14 juin

AI is code – and can't be prompted into being smarter

Un article argumentant que l'IA est fondamentalement du code et ne peut pas être rendue plus intelligente par du prompt engineering seul. Remet en question l'idée que des instructions mieux formulées dépassent les limites architecturales des modèles.

Prompt engineering Raisonnement

SIG

HYP

Reddit r/LocalLLaMA·14 juin

Can we stop dunking on DiffusionGemma and hack it instead?

DiffusionGemma souffre de hallucinations en inférence naïve. Un utilisateur compile des méthodes (entropy-bounded sampler, canvas cap, thinking mode) pour améliorer la qualité, avec gains de 2–3× en vitesse. Trois tiers de solutions : drop-in configs, wrappers d'orchestration, et décoders custom.

Open source Génération de code Raisonnement

SIG

HYP

Reddit r/LocalLLaMA·14 juin

Codebase getting larger - Qwen3.6-27B starting to compound issues - how to work smartly with this model?

Développeur utilisant Qwen3.6-27B via llama.cpp rencontre des bugs récurrents dans son codebase Python malgré un contexte de 128K tokens. Teste différentes stratégies : lecture complète du projet vs focus sur fonctions spécifiques, désactivation de la quantization KV. Cherche approches pour minimiser les erreurs du modèle.

Qwen Génération de code Prompt engineering

SIG

HYP

The Decoder·13 juin

Microsoft's SkillOpt boosts GPT-5.5 by using nothing but a trained Markdown file

Microsoft et trois universités chinoises ont développé SkillOpt, une méthode optimisant des documents d'instructions pour agents IA via principes d'entraînement classique. Un simple fichier Markdown améliore GPT-5.5 de ~23 points sur tâches procédurales et transfère entre modèles (Codex, Claude Code).

GPT Claude Code Prompt engineering

SIG

HYP

Reddit r/LocalLLaMA·12 juin

Use context profiler to optimize your LLM calls and reduce token use

ContextSpy est un outil de profilage open-source qui analyse l'utilisation du contexte dans les applications LLM. Fonctionnant comme proxy local, il enregistre les requêtes et décompose l'allocation des tokens (prompt système, définitions d'outils, historique) pour identifier les optimisations possibles, similaire à un profiler CPU/mémoire.

Outils Agents IA Open source

SIG

HYP

OpenAI Blog·12 juin

New OpenAI Academy courses for the next era of work

OpenAI lance trois cours Academy pour développer des compétences pratiques en IA, créer des workflows reproductibles et appliquer des agents au travail quotidien.

OpenAI Agents IA Prompt engineering

SIG

HYP

arXiv cs.AI·12 juin

TrajGenAgent: A Hierarchical LLM Agent for Human Mobility Trajectory Generation

TrajGenAgent est un framework d'agent LLM hiérarchique pour générer des trajectoires de mobilité humaine réalistes sans fine-tuning. Un orchestrateur LLM synthétise des chaînes d'activités via in-context learning, puis un workflow déterministe les ancre via récupération POI personnalisée, sélection de localisation et estimation de durée. Évaluation par détection d'anomalies sur données de benchmark.

Agents IA Prompt engineering Raisonnement

SIG

HYP

Prompt engineering — actualité IA · Signal IA