Le signal le plus fort du jour vient d'UMD/Google/Meta : en laissant Claude Code tourner librement via AutoTTS, les chercheurs ont obtenu un algorithme de contrôle du raisonnement que personne n'aurait probablement conçu à la main. Résultat : -70% de consommation compute par rapport à la self-consistency standard, précision préservée, coût total de l'expérience 40$ en 160 minutes. Ce n'est pas un benchmark de plus — c'est une démonstration que les agents de codage peuvent maintenant produire des contributions de recherche non triviales sur des budgets de prototypage. La question qui suit immédiatement : combien d'algorithmes "sous-optimaux" dans la littérature actuelle survivraient à un audit AutoTTS systématique ?
Pendant ce temps, un benchmark indépendant sur 30 PDFs longs (171 questions, MMLongBench-Doc) remet à plat les hypothèses sur vision vs OCR pour le RAG documentaire. Claude Sonnet 4.5 en mode vision native plafonne à 52% d'accuracy pour 0,2552$/query — plus cher et moins précis que LlamaCloud premium + OCR qui atteint 59,6% à 0,1885$/query. Le taux d'échec intrinsèque de la vision (7% vs 0% pour OCR après retry) est le chiffre à retenir : sur des pipelines de production avec SLA, ce delta n'est pas absorbable. Vision LLM reste fragile sur graphiques et tableaux — exactement les éléments qui concentrent la valeur dans les documents financiers, réglementaires ou techniques.
Côté tooling local, llampart 1.0.0 sort en MIT comme frontend autonome pour llama-server (llama.cpp), avec intégration MCP, support 6 langues et déploiement Caddy documenté. Dans la même veine, une GUI web pour TradingAgents (Apache 2.0) ajoute Ollama au stack multi-agent d'analyse boursière avec réduction tokens de ~50% en mode concis. Ces deux releases confirment une tendance structurelle : l'écosystème local se professionnalise autour de llama.cpp comme runtime de référence, avec des couches UI de plus en plus complètes qui réduisent le delta d'expérience avec les APIs cloud.
Des chercheurs de UMD, Google et Meta utilisent AutoTTS pour laisser Claude Code découvrir indépendamment des algorithmes de contrôle pour le raisonnement IA. L'algorithme trouvé réduit la consommation de calcul de 70% comparé à la self-consistency standard tout en conservant la précision. La recherche a coûté 40$ et pris 160 minutes.
Benchmark sur 30 PDFs longs (171 questions) comparant vision LLMs vs OCR pour QA documentaire. Claude Sonnet 4.5 natif sur PDF: 52% accuracy, $0.2552/query (5e/6). LlamaCloud premium + OCR: 59.6%, $0.1885/query. Vision échoue sur graphiques/tableaux; OCR premium plus robuste. Vision LLM a 7% taux d'échec intrinsèque vs 0% pour OCR après retry.
llampart 1.0.0, interface web locale autonome pour llama-server, lancée en open-source MIT. Offre paramètres étendus, support multilingue (6 langues), barre latérale conversationnelle à deux colonnes, intégration MCP, modes d'interface (sombre/clair/Frosted Glass), import/export local et guide déploiement Caddy.
Benchmark sur 30 PDFs longs (171 questions) comparant vision-LLMs natifs vs pipelines OCR pour QA documentaire. Claude Sonnet 4.5 utilisé. LlamaCloud premium atteint 59.6% accuracy ($0.1885/query), vision native 52% ($0.2552/query, plus cher). Vision échoue sur graphiques/tableaux; OCR premium plus robuste. Vision-LLM a 7% taux d'échec intrinsèque vs 0% pour OCR après retries.
Développeur crée une interface GUI web pour TradingAgents, framework multi-agent d'analyse boursière. Remplace la CLI par une interface locale supportant Ollama, OpenAI, Anthropic, Google, DeepSeek et autres. Ajoute visualisation en direct, lecteur de rapports, réduction tokens (~50% en mode concis), chat multi-session. Apache 2.0.