Topic

#Gemini

Gemini est la famille de modèles d'IA multimodaux développés par Google DeepMind, capables de traiter texte, images, audio et vidéo. Par exemple, Gemini 1.5 Pro peut analyser de longs documents et des vidéos dans une même requête.

40Articles

9Sources

60Signal moyen

Le Big Data·18 juin

Noam Shazeer : le cerveau de Gemini lâche Google pour OpenAI

Noam Shazeer, chercheur clé du développement de Gemini chez Google, quitte l'entreprise pour rejoindre OpenAI. Ce départ marque un changement significatif dans la compétition entre les deux géants de l'IA.

Gemini OpenAI Business

SIG

HYP

Reddit r/LocalLLaMA·17 juin

GLM 5.2 Release Video [Made with GLM 5.2]

GLM 5.2 génère des vidéos via Remotion, comparable à Fable mais inférieur à Gemini 3.1 Pro. Surcharge serveurs observée sur OpenRouter avec timeouts sur sorties longues.

Génération de vidéos Gemini Qwen

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Gemma 4 E2B running in-browser at 255 tok/s using WebGPU kernels written by Fable 5

Gemma 4 E2B tourne en navigateur à 255 tokens/sec via kernels WebGPU optimisés par Fable 5. Demo et kernels disponibles sur Hugging Face.

Gemini Génération de code Open source

SIG

HYP

arXiv cs.LG·17 juin

When the Next Step Is Not One Step: Distribution-Aware Execution Modeling for Concurrent Go Programs

Modèle 7B fine-tuné pour prédire l'étape suivante dans des programmes Go concurrents en apprenant une distribution d'événements plutôt qu'une étiquette unique. Sur 798 prédictions issues de bugs réels (CockroachDB, Kubernetes, gRPC, etcd), atteint 36.2% de précision avec <1000 traces, surpassant Gemini 3.5 Flash zéro-shot (34.8%). Dataset, adapters et outils publiés.

Génération de code Benchmarks Fine-tuning

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Why might DiffusionGemma be better at tool calls than its benchmark quality suggests

DiffusionGemma génère 256 tokens en parallèle avec attention bidirectionnelle, permettant l'auto-correction avant finalisation. Contrairement aux modèles autorégressifs figés après chaque token, cette architecture pourrait améliorer les appels d'outils structurés malgré une qualité de base inférieure à Gemma 4. Reste à tester si la correction bidirectionnelle compense la qualité plus faible.

Gemini Génération de code Raisonnement

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Gemma 12b - Reasoning hardening instructions

Un utilisateur partage une instruction système pour améliorer le raisonnement de Gemma 12b QAT. La technique vise à réduire les biais cognitifs et à adapter la profondeur de réflexion selon le contexte. Elle fonctionne bien sur les questions pièges mais échoue partiellement sur certains problèmes selon leur formulation.

Gemini Prompt engineering Raisonnement

SIG

HYP

Le Big Data·16 juin

Ces hackers chinois utilisent Gemini pour piéger des tas de gens : Google riposte !

Le FBI et Google ont démantelé un réseau de cybercriminels chinois utilisant Gemini pour des attaques. Google a riposté contre ces abus de sa plateforme.

Gemini Sécurité IA Régulation

SIG

HYP

Le Big Data·15 juin

Oups… Amazon a dévoilé le Pixel Drop de Google avant l’heure

Amazon a accidentellement révélé le Pixel Drop de Google avant son annonce officielle. Trois nouvelles fonctionnalités IA pour les smartphones Pixel ont été exposées prématurément.

Gemini

SIG

HYP

Reddit r/LocalLLaMA·15 juin

React Native ExecuTorch now runs Gemma 4 (Vulkan and MLX accelerated)

ExecuTorch intègre Gemma 4 dans React Native avec accélération GPU : Vulkan sur Android, MLX sur Apple Silicon. Exécution entièrement hors ligne.

Gemini Génération de code Outils

SIG

HYP

arXiv cs.CL·15 juin

LoSoNA: A Benchmark for Local Social Norm Adaptation in Group Conversations

LoSoNA est un benchmark évaluant la capacité des LLM à reconnaître et adapter les normes sociales locales dans les conversations de groupe. Huit modèles testés sous quatre conditions de prompting : Gemini 3.1 Pro atteint 84,2%, Claude Fable 5 81,6%. Le prompting explicite aide inégalement.

Benchmarks Claude Gemini

SIG

HYP

arXiv cs.AI·15 juin

Dense Coordinate-List Fine-Tuning Induces a Controllable Interference Surface in Vision-Language Models

Fine-tuner des modèles vision-langage sur des listes de coordonnées denses améliore le grounding visuel mais induit des répétitions parasites. Sur Gemma 4 12B, une LoRA haute capacité élève F1@0.3 de 0.007 à 0.448 mais crée un taux de doublons de 0.080. Un contrôle au niveau objet élimine les répétitions (taux 0.000) tout en préservant la performance (F1 0.490).

Fine-tuning Vision Benchmarks

SIG

HYP

arXiv cs.LG·15 juin

Can Editing 1 Neuron Fix Repetition Loops in LLMs?

Les modèles Gemma 4 présentent des boucles de répétition sur les énumérations longues (taux jusqu'à 95%). Une ablation par neurone identifie quelques neurones MLP responsables : les supprimer par édition de poids élimine les boucles simples mais pas les « doom loops » (auto-correction infinie), limité par manque de connaissance plutôt que circuit supprimable.

Gemini Papers Évaluations

SIG

HYP

arXiv cs.CL·15 juin

Which Models Perform Better in Inheritance Reasoning?

Évaluation de modèles LLM commerciaux vs open-source sur le raisonnement juridique en droit successoral islamique (tâche QIAS 2026). Gemini 2.5 Flash obtient les meilleurs résultats (MRE 0.989), tandis que les modèles open-source montrent une instabilité accrue dans les décisions dépendantes et ajustements fractionnaires.

Benchmarks Raisonnement Gemini

SIG

HYP

Reddit r/LocalLLaMA·14 juin

Gemma 12b less than 10 watts 6.5pp 1.3tg

Gemma 12B exécuté sur Google Pixel 10 Pro via Termux et llama.cpp (v9639) consomme moins de 10W. Performance : 6.5 tokens/s en prompt, 1.3 tokens/s en génération avec contexte 32k et quantification Q3_K_XL.

Gemini Open source Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·14 juin

Gemma 4 models benchmarked on with Triple GPU

Benchmark de Gemma 4 sur triple GPU (3× GTX-1070, 24 GiB VRAM total). Gemma-4-26B-A4B-qat atteint 123.5 t/s en prompt processing et 53.08 t/s en génération. Gemma-4-E4B-BF16 affiche 302.16 t/s mais génération limitée à 11.54 t/s. Tests sur llama.cpp build 9204 avec quantifications GGUF.

Gemini Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·13 juin

Yay got Gemma 12B QAT working on old 1080ti (maybe with speculative decoding?)

Utilisateur fait tourner Gemma 12B QAT sur une GTX 1080 Ti (9 ans) avec 50 tok/sec. Configuration avec décodage spéculatif (modèle draft MTP) et quantification Q4_K_XL. Cherche optimisations supplémentaires.

Gemini Génération de code Open source

SIG

HYP

The Decoder·13 juin

Google Research's Gemini-SQL2 tops text-to-SQL benchmarks by a wide margin

Gemini-SQL2 de Google Research, basé sur Gemini 3.1 Pro, atteint 80,04% de précision sur le benchmark BIRD pour la conversion langage naturel vers SQL, devançant largement OpenAI et Anthropic. Google envisage d'intégrer cette technologie dans ses services de données.

Gemini Benchmarks Génération de code

SIG

HYP

Reddit r/LocalLLaMA·12 juin

Diffusion Gemma is 4x faster, but makes 6x more mistakes!

Benchmark sur H100 (FP8) : DiffusionGemma 26B génère 763 tok/s (3.7s) vs Gemma4 218 tok/s (15.1s), mais produit 28 erreurs factuelles sur 61 faits testés contre 5 pour Gemma4. DiffusionGemma invente noms, dates et chiffres (Clara Clley comme mère de Jobs, BeBox à $9,999 au lieu de $1,600). Le modèle diffusion génère 256 tokens simultanément et polit le texte sans vérifier la factualité.

Gemini Benchmarks Évaluations

SIG

HYP

Le Big Data·12 juin

Gemini peut maintenant régler l’image sur Google TV… mais il y a un hic

Google intègre Gemini dans Google TV pour ajuster les paramètres d'image. La fonctionnalité permet à l'IA de contrôler les réglages visuels, mais des limitations subsistent selon l'article.

Gemini Outils

SIG

HYP

ActuIA·12 juin

Siri AI : Gemini comme professeur, pas comme moteur - ce que la WWDC n'a pas dit

Apple intègre Gemini de Google à Siri lors de la WWDC du 8 juin, mais pas comme moteur principal. L'article remet en question l'interprétation dominante de ce partenariat et explore le rôle réel de Gemini dans l'architecture de Siri AI.

Gemini Business

SIG

HYP

Reddit r/LocalLLaMA·12 juin

Open Dungeon: local roleplay with Gemma 4 QAT + inline Uncen-FLUX images, running at full 256K context under 8GB RAM (OS)

Open Dungeon est un jeu de rôle local utilisant Gemma 4 QAT (12B) via Ollama pour la narration et FLUX pour générer les images. Fonctionne en 7.7GB RAM avec contexte 256K complet, sans API ni cloud. Interface avec modes Do/Say/Story, édition de lignes, sélection de modèle. MIT, source disponible.

Gemini Open source Génération d'images

SIG

HYP

arXiv cs.CL·12 juin

Shopping Reasoning Bench: An Expert-Authored Benchmark for Multi-Turn Conversational Shopping Assistants

Shopping Reasoning Bench : benchmark expert de 525 missions (232 single-turn, 293 multi-turn) avec 10863 rubriques binaires pondérées pour évaluer les assistants conversationnels de shopping. Évaluation de 9 modèles (GPT, Claude, Gemini) : taux de réussite 57-77%, dégradation de 4-18 points au fil de la conversation, écart de 13-29 points entre critères obligatoires et optionnels.

Benchmarks GPT Claude

SIG

HYP

Reddit r/LocalLLaMA·12 juin

Some contrived tests comparing the accuracy of different Gemma and Qwen quantizations

Comparaison empirique de quantifications Gemma et Qwen sur trois tâches (arithmétique, dates présidentielles, attention). Gemma-4-31B-Q4_K_S atteint 83,8% en arithmétique et 87% en attention. Qwen3.6-27B-Q4_K_S obtient 95,5% en arithmétique et 100% en présidents. Les résultats montrent l'impact majeur du modèle et du schéma de quantification sur la précision.

Gemini Qwen Évaluations

SIG

HYP

Reddit r/LocalLLaMA·11 juin

Gemma 4 Quadruple Release, 12B, 12B QAT, 26B-A4B QAT and 31B QAT Uncensored Heretics!

Quatre variantes de Gemma 4 quantifiées et déverrouillées publiées : 12B, 12B QAT, 26B-A4B QAT et 31B QAT. Multiples formats disponibles (Safetensors, GGUF, NVFP4, GPTQ-Int4) sur Hugging Face. Versions non censurées « heretic ».

Gemini Open source

SIG

HYP

Reddit r/LocalLLaMA·11 juin

DiffusionGemma 26B A4B results on my 5090

Benchmarks de DiffusionGemma 26B A4B quantifié (Q6_K 22GB, Q4_K_M 16GB) sur RTX 5090. Contexte stable : 6,144 tokens (Q6_K) et 10,240 tokens (Q4_K_M) limités par l'absence de Flash Attention sur SM120. Paramètres optimaux et invocations llama.cpp documentés.

Gemini Génération de code Benchmarks

SIG

HYP

Le Big Data·11 juin

DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte

Google présente DiffusionGemma, un modèle expérimental de génération de texte 4 fois plus rapide que les approches standard. Le modèle repense l'architecture de la génération textuelle.

Gemini Génération de code

SIG

HYP

Le Big Data·11 juin

Gemini 3.5 Translate va faire tomber la barrière des langues

Google lance Gemini 3.5 Translate pour traduire les conversations en temps réel dans plus de 70 langues sans altération du contenu original.

Gemini

SIG

HYP

arXiv cs.CL·11 juin

APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection

APEX optimise automatiquement les prompts en sélectionnant dynamiquement les données d'entraînement. Le framework stratifie le dataset en tiers (Easy, Hard, Mixed) et priorise la frontière Mixed pour générer des mutations informatives. Sur 5 000 appels d'évaluation, APEX améliore les performances de 11,2% sur Gemini 2.5 Flash et 6,8% sur Gemma 3 27B.

Prompt engineering Benchmarks Gemini

SIG

HYP

Simon Willison·10 juin

DiffusionGemma

Google publie DiffusionGemma-26B, un modèle Gemma open-weight (Apache 2) basé sur sa recherche Gemini Diffusion de mai 2024. Le modèle génère du texte à 500+ tokens/seconde. NVIDIA l'héberge gratuitement via NIM cloud API.

Gemini Open source Génération de code

SIG

HYP

The Decoder·10 juin

Google's new open model DiffusionGemma generates text from noise instead of word by word

Google publie DiffusionGemma, modèle de 26B paramètres générant du texte par diffusion (bruit → texte) plutôt que token par token. Atteint ~1000 tokens/s sur H100 (4× plus rapide que modèles autorégressifs comparables), mais qualité inférieure. Positionné comme outil expérimental.

Gemini Open source Génération de code

SIG

HYP

Reddit r/LocalLLaMA·10 juin

Google Drops Diffusion Version of Gemma

Google lance DiffusionGemma, une version diffusion de Gemma avec 26B paramètres et 4B actifs. Annonce de 700+ tokens/sec sur GPU RTX 5090.

Gemini Open source Génération de code

SIG

HYP

Reddit r/LocalLLaMA·10 juin

DiffusionGemma: 4x faster text generation

DiffusionGemma accélère la génération de texte par 4x en utilisant la diffusion au lieu du décodage autorégressif. Basé sur Gemma, ce modèle applique des techniques de diffusion pour paralléliser la génération et réduire la latence.

Gemini Génération de code Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·10 juin

DiffusionGemma: The Developer Guide- Google Developers Blog

Google publie un guide développeur pour DiffusionGemma, son modèle de génération d'images basé sur la diffusion. Le guide couvre l'intégration, l'optimisation et les cas d'usage pratiques pour les développeurs.

Gemini Génération d'images Outils

SIG

HYP

Le Big Data·10 juin

Google Gemini rencontre de gros problèmes, que se passe-t-il vraiment ?

Gemini subit une panne affectant de nombreux utilisateurs avec messages d'erreur et bugs mobiles. Google maintient un silence officiel sur l'incident.

Gemini

SIG

HYP

The Decoder·10 juin

Google's NotebookLM now runs its own cloud computer with code execution and agent-based research

Google améliore NotebookLM avec Gemini 3.5 Flash, exécution de code en cloud et recherche autonome via Google Search. En tests internes, la nouvelle version surpasse l'ancienne dans 78,2% des cas.

Gemini Agents IA Génération de code

SIG

HYP

Reddit r/LocalLLaMA·10 juin

Anyone gotten Gemma 4 12B (unified audio) to actually attend to speech with a large system prompt?

Utilisateur rapporte que Gemma 4 12B (modèle unifié audio/vision/texte) ignore l'audio quand le system prompt dépasse ~21k tokens. Le modèle fonctionne bien avec prompt minimal mais génère des réponses génériques/halluccinées avec contexte dense. Comportement reproductible sur vLLM, llama.cpp et LiteRT-LM. Semble être une limite d'attention inhérente.

Gemini Voix Multi-agents

SIG

HYP

arXiv cs.CL·10 juin

Gaming AI-Assisted Peer Reviews Poses New Risks to the Scientific Community

Des chercheurs montrent que les systèmes d'IA utilisés pour l'examen par les pairs scientifiques sont vulnérables à des manipulations simples : reformuler superficiellement le résumé d'un manuscrit améliore les scores d'acceptation de 38% sans changer le contenu scientifique. L'attaque coûte ~1$ et 5 minutes, affectant Gemini 3 Flash et GPT 5.4 Mini.

GPT Gemini Évaluations

SIG

HYP

Hacker News (AI)·10 juin

German ruling declares Google liable for false answers in AI Overviews

Un tribunal allemand a jugé Google responsable des réponses inexactes générées par son système AI Overviews. La décision établit que Google doit vérifier la fiabilité des contenus générés par l'IA avant leur affichage aux utilisateurs.

Régulation Sécurité IA Gemini

SIG

HYP

Reddit r/LocalLLaMA·9 juin

Watch agents fight: a live challenge to speed up Gemma 4 E4B inference on a single A10G

Défi communautaire pour optimiser l'inférence de Gemma 4 E4B sur GPU A10G. Les participants testent des techniques d'accélération en temps réel pour réduire la latence et augmenter le débit sur une seule carte.

Gemini Benchmarks

SIG

HYP

The Decoder·9 juin

Google's Gemini 3.5 Live Translate delivers real-time voice translation across 70+ languages

Google lance Gemini 3.5 Live Translate, un modèle audio pour la traduction vocale en temps réel dans plus de 70 langues. Le système traduit en continu sans attendre la fin des phrases et préserve le ton, le rythme et la hauteur du locuteur. Google Meet passe de 5 à plus de 70 langues supportées.

Gemini Voix

SIG

HYP