Édition du2026-05-24

Claude Code trouve un algorithme de raisonnement à 40$ — et bat la self-consistency de 70% sur le compute

Le signal le plus fort du jour vient d'UMD/Google/Meta : en laissant Claude Code tourner librement via AutoTTS, les chercheurs ont obtenu un algorithme de contrôle du raisonnement que personne n'aurait probablement conçu à la main. Résultat : -70% de consommation compute par rapport à la self-consistency standard, précision préservée, coût total de l'expérience 40$ en 160 minutes. Ce n'est pas un benchmark de plus — c'est une démonstration que les agents de codage peuvent maintenant produire des contributions de recherche non triviales sur des budgets de prototypage. La question qui suit immédiatement : combien d'algorithmes "sous-optimaux" dans la littérature actuelle survivraient à un audit AutoTTS systématique ?

Pendant ce temps, un benchmark indépendant sur 30 PDFs longs (171 questions, MMLongBench-Doc) remet à plat les hypothèses sur vision vs OCR pour le RAG documentaire. Claude Sonnet 4.5 en mode vision native plafonne à 52% d'accuracy pour 0,2552$/query — plus cher et moins précis que LlamaCloud premium + OCR qui atteint 59,6% à 0,1885$/query. Le taux d'échec intrinsèque de la vision (7% vs 0% pour OCR après retry) est le chiffre à retenir : sur des pipelines de production avec SLA, ce delta n'est pas absorbable. Vision LLM reste fragile sur graphiques et tableaux — exactement les éléments qui concentrent la valeur dans les documents financiers, réglementaires ou techniques.

Côté tooling local, llampart 1.0.0 sort en MIT comme frontend autonome pour llama-server (llama.cpp), avec intégration MCP, support 6 langues et déploiement Caddy documenté. Dans la même veine, une GUI web pour TradingAgents (Apache 2.0) ajoute Ollama au stack multi-agent d'analyse boursière avec réduction tokens de ~50% en mode concis. Ces deux releases confirment une tendance structurelle : l'écosystème local se professionnalise autour de llama.cpp comme runtime de référence, avec des couches UI de plus en plus complètes qui réduisent le delta d'expérience avec les APIs cloud.

Les 5 picks du jour
01
02
03
04
05