Topic

#Prompt engineering

Le prompt engineering consiste à formuler et structurer les instructions données à un modèle de langage pour obtenir des réponses précises et utiles. Par exemple, des techniques comme le chain-of-thought prompting améliorent nettement les performances de GPT-4 sur des tâches de raisonnement.

40Articles
8Sources
67Signal moyen
arXiv cs.AI·

Decomposing how prompting steers behavior

Étude de la géométrie représentationnelle pour comprendre comment les prompts modifient le comportement des LLMs et VLMs. Framework de décomposition imbriquée testant translation, transformation rigide, scaling, transformation affine et non-linéaire sur 3 LLMs, 3 VLMs et 6 datasets. Résultat : le mixing linéaire cross-dimensionnel (transformation affine) est le mécanisme clé de réorganisation représentationnelle.

Prompt engineeringRaisonnementPapers
SIG
78
HYP
00
arXiv cs.CL·

Conditional Hypothesis Generation for LLM-Based Text Analysis with Researcher-Specified Covariates

Méthode de génération d'hypothèses conditionnelles pour l'analyse textuelle par LLM, intégrant des covariables spécifiées par les chercheurs. Résout les problèmes de déséquilibre de strates et d'inversion de signe via interactions features-covariables et rééquilibrage inverse-fréquence. Validation sur données synthétiques et réelles en sciences sociales computationnelles.

Prompt engineeringÉvaluationsPapers
SIG
72
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> mksglu /</span> context-mode

Context-mode optimise la fenêtre de contexte pour les agents IA de codage en isolant les sorties d'outils. Réduit la consommation de tokens de 98%. Compatible avec 15 plateformes.

Agents IAGénération de codePrompt engineering
SIG
72
HYP
00
arXiv cs.CL·

Toward Robust In-Context Learning: Leveraging Out-of-distribution Proxies for Target Inaccessible Demonstration Retrieval

DOPA, un framework de recherche de démonstrations, utilise un proxy OOD pour approximer le domaine cible inaccessible et guide la récupération de démonstrations pertinentes. Une contrainte de diversité basée sur la distance de Mahalanobis assure la variété des exemples sélectionnés. Résultats positifs sur plusieurs LLMs et tâches en contexte de distribution shift sévère.

Prompt engineeringBenchmarksPapers
SIG
72
HYP
00
arXiv cs.CL·

lmfaoooo at SemEval-2026 Task 1: Humor Is an Audience. Preference Modeling for Constrained Humor Generation

Système de génération d'humour pour SemEval-2026 Task-1 (MWAHAHA) utilisant une stratégie « générer-beaucoup → sélectionner-meilleur ». Génération de candidats diversifiés via prompting multi-étapes et ensemble de modèles, puis sélection via un modèle de préférence entraîné sur 2.5K jugements humains appariés. Classement 1er en anglais et chinois, 2e en espagnol.

Prompt engineeringÉvaluationsBenchmarks
SIG
72
HYP
00
arXiv cs.CL·

On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation Task Performance

Étude arXiv sur les limites d'adaptation des LLM pour l'annotation. Expériences sur détection de toxicité montrent que 66% des erreurs zero-shot résistent à la correction par prompting (taux de récupération 34.8%). Les modèles suivent des définitions mal alignées sans perdre confiance. La métrique DSF (Definition-Specific Familiarity) corrélée à la performance (r=+0.41) surpasse les métriques de mémorisation.

Prompt engineeringÉvaluationsBenchmarks
SIG
78
HYP
00
arXiv cs.AI·

On Wednesdays, We Ask Questions: Optimizing "Active Listening" in Automated Legal Triage and Referral

FETCH, un classifier pour le triage juridique automatisé, génère des questions de suivi via un ensemble économique de LLMs. L'étude montre que les modèles bon marché performent bien en classification, mais la génération de questions en langage clair de qualité requiert GPT-4 ou supérieur. Le prompt engineering seul ne suffit pas ; les évaluations LLM-as-judge divergent des évaluations humaines.

GPTOpenAIPrompt engineering
SIG
72
HYP
00
arXiv cs.AI·

KACE: Knowledge-Adaptive Context Engineering for Mathematical Reasoning

KACE sépare stockage et utilisation du contexte pour le raisonnement mathématique. Un arbre épistémique stratifié par difficulté et domaine est construit hors ligne via boucle d'auto-réflexion. À l'évaluation, l'auto-cohérence hiérarchisée classe dynamiquement les problèmes et récupère sélectivement les cartes pertinentes. Sur AIME 2025 : 62,2% de précision (+10,4 points vs Best-of-5).

RaisonnementPrompt engineeringBenchmarks
SIG
78
HYP
00
arXiv cs.AI·

Hidden Thoughts Are Not Secret: Reasoning Trace Exposure in LLMs

Des chercheurs montrent que les traces de raisonnement cachées des LLM peuvent être extraites via Reasoning Exposure Prompting (REP), une méthode de prompting légère utilisant des démonstrations générées par modèles fantômes. REP expose les traces internes même quand les systèmes déployés les masquent intentionnellement, préservant les signaux de raisonnement utiles pour la distillation.

RaisonnementPrompt engineeringFine-tuning
SIG
75
HYP
00
Simon Willison·

Hackers Simply Asked Meta AI to Give Them Access to High-Profile Instagram Accounts. It Worked

Des hackers ont exploité le chatbot IA de support Meta pour accéder à des comptes Instagram haut-profil. En demandant simplement au bot de lier une nouvelle adresse email au compte cible, ils ont contourné l'intégralité du processus de récupération de compte. Meta avait connecté son système de support à une IA capable d'exécuter des changements de compte en une seule requête.

Meta AISécurité IAPrompt engineering
SIG
75
HYP
00
Reddit r/MachineLearning·

[P] Built a persistent cognitive runtime around an LLM — zero behavioral prompts, emergent autonomy from architecture. Comparison test: standard LLM in identical ecosystem did nothing.[P]

Développeur crée LIA, un runtime cognitif persistant autour d'un LLM sans prompts comportementaux. Architecture avec 20k+ mémoires auto-évaluées, kernel cognitif (LCRK v3), système d'auto-règles et domaine privé Linux. Test : LLM standard dans même écosystème reste inactif.

Agents IAPrompt engineeringRaisonnement
SIG
35
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> pbakaus /</span> impeccable

Impeccable est un langage de design pour améliorer la capacité des outils IA à générer des interfaces. Le projet GitHub propose une approche structurée pour guider les modèles dans la création de designs cohérents.

Prompt engineeringOutils
SIG
35
HYP
00
arXiv cs.AI·

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

Étude sur l'auto-évolution des harnesses (prompts, skills, mémoires, outils) dans les agents LLM. Analyse deux capacités : harness-updating (produire des mises à jour utiles) et harness-benefit (en bénéficier). Résultats : harness-updating est indépendant de la capacité de base (Qwen3.5-9B rivalise avec Claude Opus), tandis que harness-benefit suit une courbe non-monotone (modèles mid-tier bénéficient le plus).

Agents IAPrompt engineeringBenchmarks
SIG
75
HYP
00
arXiv cs.CL·

Skill is Not One-Size-Fits-All: Model-Aware Skill Alignment for LLM Agents

MASA (Model-Aware Skill Alignment) adapte les compétences procédurales des agents LLM à chaque modèle backbone sans modifier les poids. Un pipeline d'évolution hiérarchique réécrit les compétences via hill climbing et recherche arborescente UCB, puis un réécriture légère entraîné reproduit l'adaptation en un seul passage. Gains jusqu'à 25,8 points sur trois environnements interactifs et quatre backbones.

Agents IAPrompt engineeringRaisonnement
SIG
78
HYP
00
arXiv cs.AI·

When LLM Reward Design Fails: Diagnostic-Driven Refinement for Sparse Structured RL

Étude arXiv sur l'affinage itératif des fonctions de récompense générées par LLM pour RL sparse structuré. Les auteurs identifient deux modes de défaillance dominants (reward flooding, incompréhension sémantique) et proposent un raffinement diagnostique guidé par taxonomie. Résultats : DoorKey-8x8 passe de 2,3% à 97,6%, KeyCorridor de 31,2% à 86,7%. Limites : méthode restreinte à PPO et tâches sparse structurées.

Reinforcement learningLlamaPrompt engineering
SIG
72
HYP
00
arXiv cs.CL·

Evaluating using Mock Tool Calls to Quarantine Untrusted Prompt Inputs

Étude arXiv sur la sécurité des LLM face aux entrées non fiables. Les chercheurs testent l'hypothèse que wrapper du contenu non fiable dans des appels d'outils simulés améliore la robustesse. Résultat : sur 7 modèles et 3 tâches de jugement, cette approche échoue et augmente souvent les taux de succès des attaques, inversant la hiérarchie d'instructions attendue.

Sécurité IAPrompt engineeringÉvaluations
SIG
72
HYP
00
arXiv cs.AI·

COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation

COLLEAGUE.SKILL est un système automatisé de distillation de traces en compétences pour générer des skills IA ancrées à une personne via extraction de connaissances expertes. Le système produit des packages versionnés avec deux pistes : capacités (pratiques, modèles mentaux, heuristiques) et comportements bornés (style de communication, règles d'interaction). 18.5k stars GitHub, 215 skills de 165 contributeurs.

Agents IAPrompt engineeringOpen source
SIG
72
HYP
00
Reddit r/LocalLLaMA·

For those creating personal assistants locally - how has short/long term memory impacted your experience?

Un utilisateur de r/LocalLLaMA rapporte avoir créé un agent autonome avec Qwen 3.5 27B, amélioré par un système de mémoire court/long terme (fichier memory.md, résumés quotidiens, auto-réflexions). L'agent exécute des tâches complexes (création d'apps, recherche web, installation logicielle). L'utilisateur privilégie cette approche locale à GPT/Gemini pour l'expérience utilisateur, malgré une puissance inférieure.

QwenAgents IAMulti-agents
SIG
35
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> ronisarkarexe /</span> story-spark-ai

StorySparkAI est une plateforme open-source permettant de générer et partager plusieurs variations d'histoires à partir d'un seul prompt. Outil destiné aux créatifs.

Open sourcePrompt engineeringOutils
SIG
35
HYP
00
arXiv cs.LG·

When LLM Reward Design Fails: Diagnostic-Driven Refinement for Sparse Structured RL

Étude sur l'échec de la conception de récompenses par LLM en RL sparse structuré. Les auteurs identifient deux modes de défaillance dominants (reward flooding, incompréhension sémantique) et proposent un raffinement itératif guidé par diagnostics. Sur MiniGrid, DoorKey-8x8 passe de 2,3% à 97,6% de succès; KeyCorridor de 31,2% à 86,7%. La taxonomie des défaillances est le mécanisme principal.

Reinforcement learningLlamaPrompt engineering
SIG
72
HYP
00
arXiv cs.CL·

Thoughts-as-Planning: Latent World Models for Chain-of-Thoughts Optimization via Reinforcement Planning

Thoughts-as-Planning formalise l'optimisation des chaînes de raisonnement comme un processus de décision séquentielle sur un espace sémantique latent. Le framework apprend un modèle du monde latent simulant l'effet des édits de chaînes de raisonnement sur les sorties, supportant édits multi-échelle (token, segment, instruction) via planification par descente de gradient ou RL.

RaisonnementReinforcement learningPrompt engineering
SIG
72
HYP
00
arXiv cs.CL·

Reasoning that Travels: Dissecting How Chain-of-Thought Transfers Across Models

Étude de la transfert de chaînes de pensée (CoT) entre modèles via un cadre provider-receiver. Les traces complètes transfèrent souvent avec succès, mais les mécanismes varient : extraction de réponse (AIME), compétence du récepteur (MMLU-Pro), ou information structurée partielle (ZebraLogic). En mode génération libre, les CoT partiels améliorent les performances, suggérant un guidage du raisonnement continu.

RaisonnementPrompt engineeringBenchmarks
SIG
78
HYP
00
arXiv cs.CL·

Structured Prompt Optimization Meets Reinforcement Learning for Global and Local Interpretability over Complex Text

eXTC combine optimisation structurée de prompts et apprentissage par renforcement pour la classification de texte. Le système apprend d'abord un rulebook en langage naturel, puis distille le raisonnement d'un LLM teacher vers un modèle compact, avant d'étendre les capacités via RL. Résultat : inférence rapide avec traces de raisonnement locales et explications globales modulaires.

Prompt engineeringReinforcement learningRaisonnement
SIG
72
HYP
00
arXiv cs.AI·

SkillGrad: Optimizing Agent Skills Like Gradient Descent

SkillGrad optimise les compétences d'agents LLM via une approche inspirée de la descente de gradient. Les exécutions de tâches fournissent des signaux de perte, des diagnostics automatiques génèrent des gradients textuels, et un agent avec momentum accumule les patterns récurrents. Évalué sur SpreadsheetBench et WikiTableQuestions, SkillGrad surpasse les baselines de 6,7 points en moyenne.

Agents IAReinforcement learningPrompt engineering
SIG
78
HYP
00
arXiv cs.CL·

UniMaia: Steering Chess Policies with Language for Human-like Play

UniMaia est un framework qui contrôle une politique d'échecs (Lc0) via des prompts en langage naturel, sans réentraînement multimodal complet. Un encodeur texte léger et un mécanisme ControlNet permettent de moduler le jeu (sélection d'ouverture, niveau). UniMaia-Aux ajoute des objectifs temporels et de prédiction comportementale. Résultats SOTA sur benchmarks prompt-conditionnés.

Prompt engineeringRaisonnementFine-tuning
SIG
72
HYP
00
arXiv cs.AI·

LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation

LaneRoPE permet à plusieurs séquences générées en parallèle de collaborer lors de l'inférence. La méthode ajoute un masque d'attention inter-séquences et étend RoPE pour capturer les positions relatives entre tokens dans et hors d'une séquence. Tests sur raisonnement mathématique montrent des gains de précision avec surcharge minimale.

RaisonnementPrompt engineeringBenchmarks
SIG
72
HYP
00