Topic

#Gemini

Gemini est la famille de modèles d'IA multimodaux développés par Google DeepMind, capables de traiter texte, images, audio et vidéo. Par exemple, Gemini 1.5 Pro peut analyser de longs documents et des vidéos dans une même requête.

40Articles
12Sources
60Signal moyen
arXiv cs.CL·

ProtStructQA: A Denotation Threshold in Protein Structural Reasoning

ProtStructQA est un benchmark exécutable pour la réponse à des questions sur les structures protéiques. 382.2K questions générées depuis un langage spécialisé caché, évaluées sur Qwen3 (0.6B–8B) et Gemma-3. Découverte clé : seuil de capacité entre Qwen3-1.7B et 4B où les modèles passent de l'incapacité à produire des dénotations exécutables à la maîtrise du raisonnement chaîné.

BenchmarksRaisonnementQwen
SIG
78
HYP
00
arXiv cs.AI·

OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories

OpenClawBench est un dataset de 31,264 trajectoires annotées pour détecter les anomalies de processus dans l'exécution d'agents IA, au-delà du simple succès de tâche. Parmi 31,135 exécutions réussies, 2,904 contiennent des anomalies (ambiguïté non résolue, écritures non sûres, erreurs ignorées). Un détecteur Gemma 3 12B fine-tuné atteint F1=0.729.

Agents IABenchmarksÉvaluations
SIG
78
HYP
00
arXiv cs.AI·

Soro: A Lightweight Foundation Model and Chatbot for Tajik

Soro est une famille de modèles de langage spécialisés en tadjik, basée sur Gemma 3, entraînée sur 1,9 milliard de tokens tadjiks (web, PDF, matériel éducatif). Après fine-tuning supervisé sur 40K exemples, Soro surpasse Gemma 3 sur des benchmarks tadjiks créés par les auteurs et conserve les performances en anglais. Quantification FP8/INT4 validée pour déploiement edge en milieu scolaire.

GeminiFine-tuningBenchmarks
SIG
72
HYP
00
Reddit r/LocalLLaMA·

Gemma-4-Harmonia-31B-Uncensored-Heretic Is Out Now, a Merge of Multiple gemma-4-31B-it Finetunes Designed for a Targeted Approach to Deep Neural Consolidation, Minimizing Regression While Amplifying Unique Capability Boundaries. With KLD 0.0047 and 9/100 Refusals!

Gemma-4-Harmonia-31B-Uncensored-Heretic, fusion de plusieurs finetunes Gemma-4-31B, est disponible en Safetensors et GGUF. Le modèle affiche KLD 0.0047 et 9/100 refusals, utilisant une consolidation neuronale profonde pour minimiser la régression.

GeminiFine-tuningOpen source
SIG
45
HYP
00
Hugging Face Blog·

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

ITBench-AA, nouveau benchmark créé par Artificial Analysis et IBM, évalue les capacités des modèles frontier sur des tâches IT d'entreprise agentic. Les meilleurs modèles (Claude, GPT-4, Gemini) obtiennent moins de 50% de réussite, révélant des lacunes significatives dans l'automatisation des workflows IT complexes.

BenchmarksAgents IAClaude
SIG
85
HYP
00
arXiv cs.LG·

Transcoders Trace Visual Grounding and Hallucinations in Vision-Language Models

Des chercheurs utilisent les Transcoders pour interpréter comment les modèles vision-langage transforment les images en texte. Appliqué à Gemma 3-4B-IT, le framework décompose le modèle en chemins computationnels reliant les patches d'image à la génération de tokens. Les attributions des Transcoders surpassent les SAE pour identifier les hallucinations (AUC 0.68).

VisionÉvaluationsGemini
SIG
75
HYP
00
The Decoder·

Deepmind's Hassabis sees humanity "in the foothills of the singularity" while LeCun says current AI isn't intelligent

Demis Hassabis (DeepMind) estime que l'humanité est « aux portes de la singularité », tandis que Yann LeCun affirme que les systèmes IA actuels ne sont pas véritablement intelligents. Oriol Vinyals (co-lead Gemini) propose une position intermédiaire : les modèles actuels auraient semblé être de l'AGI il y a sept ans, mais ils ne peuvent pas apprendre de l'expérience ni produire de véritables percées.

DeepMindGeminiRaisonnement
SIG
35
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> google-labs-code /</span> stitch-skills

Stitch-Skills est une bibliothèque de compétences d'agent compatible avec le serveur MCP Stitch. Les skills suivent le standard Agent Skills ouvert, compatibles avec Claude Code, Gemini CLI, Cursor et Antigravity.

Agents IAMCPClaude Code
SIG
65
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> google-gemini /</span> gemini-cli

Outil open-source intégrant Gemini directement dans le terminal. Agent IA permettant l'interaction avec le modèle Google via CLI.

GeminiAgents IAOutils
SIG
45
HYP
00
arXiv cs.CL·

Refining and Reusing Annotation Guidelines for LLM Annotation

Les LLM peinent à respecter les conventions spécialisées des benchmarks de référence. Les auteurs proposent un cadre itératif de modération qui réutilise et affine les directives d'annotation pour aligner les modèles. Tests sur trois tâches de NER biomédicales (NCBI Disease, BC5CDR, BioRED) avec GPT, Gemini, DeepSeek confirment l'efficacité de l'intégration de directives et des modèles optimisés pour le raisonnement.

GPTGeminiDeepSeek
SIG
72
HYP
00
arXiv cs.CL·

Retrieval-Augmented Long-Context Translation for Cultural Image Captioning: Gators submission for AmericasNLP 2026 shared task

Pipeline deux étapes pour captionner des images culturelles en langues autochtones : Qwen2.5-VL génère une caption intermédiaire en espagnol, puis Gemini 2.5 Flash produit la caption cible via retrieval-augmented prompting. Amélioration de 164,1% (Bribri), 131,7% (Guaraní), 122,6% (Nahuatl Orizaba) sur la baseline. Gagnant du shared task AmericasNLP 2026.

VisionRAGGemini
SIG
78
HYP
00
arXiv cs.CL·

On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

Étude d'experts (45 scientifiques, 469 heures) évaluant 2,960 critiques de 82 articles Nature. GPT-5.2 surpasse le meilleur reviewer humain (60,0% vs 48,2%), mais les IA montrent 16 faiblesses récurrentes (connaissance limitée du sous-domaine, gestion faible du contexte long). Les IA complètent plutôt qu'elles ne remplacent les humains.

GPTGeminiClaude
SIG
78
HYP
00
Gemini — actualité IA · Signal IA