Palabras clave:Gemma 3n, Multimodal en el dispositivo, MatFormer, Incrustación capa por capa, Bajo consumo de recursos, Modelo Gemma 3n E2B, Modelo Gemma 3n E4B, Puntuación en la arena LMArena, Funcionamiento con 2GB de RAM, Disponible en Hugging Face
🔥 En Foco
Google lanza Gemma 3n, iniciando una nueva era de multimodalidad en el dispositivo: Google ha lanzado oficialmente la serie de modelos Gemma 3n, diseñada específicamente para su uso en dispositivos, con soporte nativo para entradas de texto, imagen, audio y video. La serie incluye los modelos E2B y E4B que, aunque sus recuentos de parámetros reales son de 5B y 8B, su consumo de VRAM es equivalente al de modelos de 2B y 4B gracias a la innovadora arquitectura MatFormer “Matryoshka” y la tecnología de Progressive Layer Embedding (PLE), lo que les permite funcionar con un mínimo de 2 GB de RAM. Gemma 3n ha superado los 1300 puntos en la arena de LMArena, convirtiéndose en el primer modelo con menos de 10B de parámetros en alcanzar esta puntuación y demostrando su rendimiento excepcional con un bajo consumo de recursos. Actualmente, el modelo ya está disponible en las principales plataformas de código abierto como Hugging Face, Ollama y MLX, impulsando el desarrollo de aplicaciones de AI en el dispositivo (Fuente: HuggingFace Blog, karminski3, demishassabis, Reddit r/LocalLLaMA)