Palabras clave:Gemma 3n, modelo multimodal, MatFormer, dispositivos de borde, Transformer, incrustación por capas (PLE), compartición de caché clave-valor (KV Cache Sharing), evaluación LMArena

🔥 Foco

Google lanza el modelo multimodal Gemma 3n: Google ha lanzado oficialmente Gemma 3n, un modelo multimodal de código abierto diseñado específicamente para dispositivos en el borde (on-device). El modelo se basa en la innovadora arquitectura MatFormer (un Transformer anidado), se ofrece en dos tamaños, E2B (2 mil millones de parámetros efectivos) y E4B (4 mil millones de parámetros efectivos), y requiere un mínimo de solo 2 GB de memoria para funcionar. Gemma 3n soporta de forma nativa entradas de imagen, audio, video y texto, y la versión E4B ha superado los 1300 puntos en la evaluación de LMArena, convirtiéndose en el primer modelo por debajo de los 10B parámetros en alcanzar esta puntuación. Sus aspectos técnicos más destacados incluyen el mecanismo de Per-Layer Embedding (PLE), que mejora significativamente la eficiencia de la memoria, y el de Key-Value Cache Sharing, que acelera el procesamiento de textos largos, con el objetivo de llevar potentes capacidades de IA multimodal a dispositivos de borde como los teléfonos móviles (Fuente: GoogleDeepMind, madiator, reach_vb, 36氪)

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *