Palavras-chave:Gemma 3n, modelo multimodal, MatFormer, dispositivos edge, Transformer, incorporação por camadas (PLE), compartilhamento de cache de chave-valor (KV Cache Sharing), avaliação LMArena
🔥 Em Destaque
Google lança o modelo multimodal Gemma 3n: A Google lançou oficialmente o Gemma 3n, um modelo multimodal de código aberto projetado especificamente para dispositivos on-device. O modelo é baseado na inovadora arquitetura MatFormer (Matryoshka Transformer) e está disponível em dois tamanhos: E2B (2 bilhões de parâmetros efetivos) e E4B (4 bilhões de parâmetros efetivos), exigindo apenas 2 GB de memória para funcionar. O Gemma 3n suporta nativamente entradas de imagem, áudio, vídeo e texto. A versão E4B ultrapassou a pontuação de 1300 na avaliação LMArena, tornando-se o primeiro modelo com menos de 10B de parâmetros a atingir essa pontuação. Seus destaques técnicos incluem o Per-Layer Embeddings (PLE), que melhora significativamente a eficiência da memória, e o mecanismo de KV Cache Sharing, que acelera o processamento de textos longos. O objetivo é levar poderosas capacidades de IA multimodal para dispositivos de borda, como smartphones (Fonte: GoogleDeepMind, madiator, reach_vb, 36氪)