La startup IA sans employés Polsia boucle une levée de fonds de 30 M$
Polsia, startup IA sans employés, lève 30 M$ avec un chiffre d'affaires annuel proche de 10 M$. Le modèle économique basé sur l'automatisation IA attire les investisseurs.
Polsia, startup IA sans employés, lève 30 M$ avec un chiffre d'affaires annuel proche de 10 M$. Le modèle économique basé sur l'automatisation IA attire les investisseurs.
Analyse coûts réels : self-hosting sur dual 3090 (~$0.50-0.80/token avec amortissement) vs RunPod H100 (~$1.49-1.99/h, 2-3x plus rapide). Pour usage léger (2-3h/jour), le cloud est moins cher. Les vrais motifs du self-hosting : confidentialité, autonomie, apprentissage, pas de cold-start, souveraineté—non économiques.
Talkie-1930-13b-it, modèle 13B entraîné sur 260B tokens de texte anglais pré-1931, est ajouté à llama.cpp. Instruction-tuné via DPO avec LLM-as-judge sur des manuels d'étiquette et encyclopédies historiques. Simule conversations avec des personnages du passé.
Article théorique sur l'optimisation de l'interaction utilisateur-système de recommandation IA. Modélise le coût de communication (précision du message utilisateur) et le coût de recherche (taille de l'ensemble de recommandations). Pour d grand, caractérise comment la précision optimale et la taille de l'ensemble dépendent des paramètres de coût sous deux schémas d'échantillonnage.
Intégration d'une machine Ising cohérente (CIM) pompée par laser femtoseconde avec un système multi-agent LLM via LangGraph/LangChain. Les modèles de langage calibrent automatiquement les modèles QUBO/Ising, itèrent les poids de contrainte et valident les schémas. Implémentation entièrement sur modèles et hardware domestiques chinois.
MiniCPM5-1B, modèle de 1 milliard de paramètres pesant 0,5 Go, surpasse des modèles significativement plus volumineux. Démontre qu'efficacité et performance ne nécessitent pas une taille massive.
Vercel déploie un update sur le routage des Microfrontends. Les alias créés avec `vc alias` héritent désormais de la config de routage complète. Les domaines assignés à une branche routent maintenant vers cette branche dans tous les projets du Microfrontend, pas seulement le projet propriétaire.
ThriftAttention propose une technique de précision mixte sélective pour optimiser l'attention FP4 sur contextes longs. La méthode réduit la consommation mémoire et accélère l'inférence en appliquant différentes précisions selon les zones d'attention critiques.
Le Japon a réussi un essai de moteur statoréacteur conçu pour des aéronefs volant à Mach 5. Ce test valide une technologie de propulsion hypersonique, étape clé vers les avions supersoniques de nouvelle génération.
Le Financial Times rapporte que Heretic, un outil GitHub, permet de retirer les garde-fous de Llama 3.3 en moins de 10 minutes. Son créateur Philipp Emanuel Weidmann confirme 3 500 modèles « décensurés » créés et 13 millions de téléchargements depuis le lancement.
Anthropic publie claude-cookbooks, une collection de notebooks et recettes montrant des usages pratiques et créatifs de Claude.
llmfit : outil CLI pour tester des centaines de modèles LLM et providers sur son matériel. Une commande pour identifier ce qui fonctionne localement.
Meetily est un assistant de réunion open-source, auto-hébergé, basé sur Rust. Transcription 4x plus rapide que Whisper/Parakeet, diarisation des locuteurs, résumé via Ollama. Traitement 100% local, zéro cloud.
Un dépôt pédagogique « MCP from Scratch » enseigne le Model Context Protocol en Node.js pur, du JSON-RPC brut jusqu'à une boucle agent locale (plan → agir → observer) avec node-llama-cpp et modèles GGUF. Conçu pour comprendre les mécaniques sous-jacentes sans abstractions.
Article présentant le problème d'ordonnancement du démantèlement d'aéronefs en fin de vie. Propose deux approches : un modèle de programmation par contraintes et un modèle de programmation linéaire mixte. Testé sur instances réelles jusqu'à 1450 tâches avec données d'un partenaire industriel.
Article académique proposant une hybridation de la Programmation Dynamique (DP) et de la Programmation par Contraintes (CP) pour résoudre le Partial Shop Scheduling Problem. La DP sert de cadre de recherche principal tandis que la CP assure la propagation globale des contraintes. L'approche intègre des stratégies anytime et un schéma Large Neighborhood Search.
llama.cpp propose une option de cache KV qui réenvoie les tokens générés au cache plutôt que d'attendre la prochaine requête, améliorant la réactivité. L'utilisateur rapporte une réduction du temps de traitement de 5-30s à quasi-instantané sur Qwen 3.6-35B avec RX 7900 XTX (~100 tps).
OpenAI s'associe à Grupo Folha et Grupo UOL pour intégrer le journalisme brésilien de confiance dans ChatGPT. Les contenus seront attribués avec transparence.
Utilisateur fait tourner Qwen 3.6-35B-A3B-MTP sur une GTX 1060 6GB via LMStudio. Configuration : quantization Q4_K_XL, context 131k, 41 couches offloadées GPU, prefill 130-150 tps, decode 16 tps. Résultat utilisable pour le chat sur matériel ancien.
Armin Ronacher (créateur de Pi) dénonce l'afflux de rapports de bugs générés par LLM mal promptés sur son projet open-source. Ces rapports contiennent des conclusions inexactes mais confiantes, des reproductions fictives et des diagnostics erronés. Il demande aux contributeurs de limiter les issues aux faits observés : commande exécutée, résultat attendu, résultat obtenu, logs exacts.
Un utilisateur de llama.cpp implémente un workflow de RAG web sécurisé en activant les outils natifs du serveur (exec_shell_command) avec multi-sandboxing : firejail + utilisateur Linux dédié + conteneur OCI Alpine. Permet au modèle Qwen 3.6-35B d'exécuter des commandes wget directement depuis l'interface web pour récupérer et analyser du contenu.
Anthropic publie un dépôt open-source de plugins pour Claude destinés aux travailleurs du savoir. Les plugins facilitent l'intégration de Claude dans des workflows professionnels.
Aider est un outil de pair programming IA en ligne de commande. Il permet aux développeurs de collaborer avec une IA directement dans le terminal pour écrire et modifier du code.
Anthropic publie un dépôt open-source de plugins pour Claude destinés aux travailleurs du savoir. Les plugins facilitent l'intégration de Claude dans des workflows de productivité.
Adam Kucharski démontre que Microsoft Copilot génère des stéréotypes fictifs lors d'analyses de données identiques étiquetées différemment par pays. Les modèles de raisonnement détectent cette manipulation, mais seulement si l'utilisateur les sélectionne explicitement au lieu de rester sur les paramètres par défaut.
Anthropic continuerait de fournir Claude à la NSA malgré un classement comme risque de chaîne d'approvisionnement par le Pentagone. Les agences de renseignement manquent de puces Nvidia Grace Blackwell récentes ; le modèle « Mythos » d'Anthropic fonctionne sur du matériel plus ancien. La clause controversée « any lawful use » n'est pas incluse.
Développeur crée une interface GUI web pour TradingAgents, framework multi-agent d'analyse boursière. Remplace la CLI par une interface locale supportant Ollama, OpenAI, Anthropic, Google, DeepSeek et autres. Ajoute visualisation en direct, lecteur de rapports, réduction tokens (~50% en mode concis), chat multi-session. Apache 2.0.
Benchmark TTS comparatif couvrant tous les modèles connus jusqu'à mai 2026. Résultats Windows et Mac disponibles, Linux en cours. Repo GitHub avec page HTML des résultats.
Un utilisateur a généré des embeddings pour le dataset Nemotron-Personas d'NVIDIA (millions de personas synthétiques) en utilisant Qwen 0.6B. Les vecteurs précomputés permettent la recherche sémantique et le clustering de personas. Ressource disponible sur Hugging Face avec démo web.
NVFP4 et MTP sont maintenant disponibles simultanément dans llama.cpp (release b9297). Cette combinaison de quantification et d'optimisation permet une meilleure performance sur GPU NVIDIA.
Extension Chrome permettant d'exécuter Gemini Nano (Gemma) localement sur PC sans GPU. Nécessite 16 GB RAM, ~20 tokens/s sur laptop, 9216 tokens par session. Extension one-click disponible sur Chrome Web Store ou repo GitHub.
Paquet Python pour installer des binaires précompilés de llama.cpp server. Résout le problème de portabilité : permet de déployer llama.cpp comme sous-processus local sans documenter les étapes de build. Disponible sur PyPI et GitHub avec support des flags llama.cpp standards et des builds personnalisés.
Comparaison llama.cpp vs LiteRT (Google) sur serveur 24/7 custom basé Xiaomi 12 Pro (Snapdragon 8 Gen 1). Llama.cpp : 30.6 t/s prompt, 5.7 t/s génération, charge CPU modérée. LiteRT : génération légèrement plus rapide mais saturation CPU et consommation électrique supérieure. Setup inclut refroidissement cuivre/aluminium, alimentation custom sécurisée, boîtier 3D-imprimé.
AgentLantern est un outil open-source pour les projets d'agents IA. Il offre trois fonctionnalités : génération de documentation, vérification statique de configuration (Lantern Lint), et visualiseur runtime en pixel-art. Support initial pour CrewAI, extensible à d'autres frameworks.
Databricks publie ai-dev-kit, une boîte à outils pour développer des agents de codage. Le projet, maintenu par Field Engineering, fournit des composants et patterns pour construire des agents IA capables de générer et manipuler du code.
Pydantic-AI est un framework pour construire des agents IA utilisant la philosophie Pydantic. Disponible en open-source sur GitHub, il offre une approche structurée pour développer des systèmes multi-agents avec validation de données intégrée.
CrewAI est un framework open-source pour orchestrer des agents IA autonomes en rôles collaboratifs. Il permet aux agents de travailler ensemble sur des tâches complexes via une intelligence collective.
UC Berkeley Law interdit l'IA dans presque tous les travaux notés à partir de l'été 2026 (rédaction, relecture, structuration). Seule la recherche reste autorisée. Justification : les futurs avocats doivent d'abord apprendre à penser par eux-mêmes avant d'utiliser l'IA.
Le PDG de Google Sundar Pichai redéfinit les liens comme une « partie » de la recherche plutôt que sa fondation. Google pivote d'un distributeur de trafic vers un éditeur IA, gardant les utilisateurs dans son écosystème et exerçant un pouvoir éditorial sur la sélection des sources.
Utilisateur teste la quantification APEX de Gemma 4 26B sur GPU AMD RX 9060 XT. Obtient 38 tokens/sec à 90k contexte sans dégradation de qualité avec llama.cpp Vulkan. Modèle APEX-I-Compact (15GB) surpasse précédente quant Q5 (21.2GB) qui loopait à 50k contexte.