Mots-clés:Gemma 3n, modèle multimodal, MatFormer, appareils edge, Transformer, intégration couche par couche (PLE), partage de cache clé-valeur (KV Cache Sharing), évaluation LMArena
🔥 À la une
Google dévoile le modèle multimodal Gemma 3n : Google a officiellement lancé Gemma 3n, un modèle multimodal open source conçu pour les appareils en périphérie (on-device). Basé sur l’architecture innovante MatFormer (Transformer de type Matriochka), le modèle est proposé en deux tailles, E2B (2 milliards de paramètres effectifs) et E4B (4 milliards de paramètres effectifs), et ne nécessite qu’un minimum de 2 Go de mémoire pour fonctionner. Gemma 3n prend nativement en charge les entrées d’image, d’audio, de vidéo et de texte. La version E4B a dépassé le score de 1300 dans l’évaluation LMArena, devenant ainsi le premier modèle de moins de 10 milliards de paramètres à atteindre ce score. Ses points forts techniques incluent le Per-Layer Embedding (PLE) pour une efficacité mémoire considérablement accrue et le mécanisme de Key-Value Cache Sharing (KV Cache Sharing) pour accélérer le traitement des textes longs, l’objectif étant d’apporter de puissantes capacités d’IA multimodale sur des appareils en périphérie tels que les smartphones (Sources: GoogleDeepMind, madiator, reach_vb, 36氪)