Ключевые слова:Gemma 3n, Многомодальная модель, MatFormer, Устройства на стороне клиента, Transformer, Послойное внедрение (PLE), Совместное использование кэша ключ-значение (KV Cache Sharing), Оценка LMArena
🔥 В центре внимания
Google выпустила мультимодальную модель Gemma 3n: Google официально выпустила Gemma 3n — мультимодальную модель с открытым исходным кодом, разработанную специально для периферийных устройств. Эта модель основана на инновационной архитектуре MatFormer (вложенный Transformer) и доступна в двух размерах: E2B (2 миллиарда эффективных параметров) и E4B (4 миллиарда эффективных параметров). Для её запуска требуется всего 2 ГБ оперативной памяти. Gemma 3n нативно поддерживает ввод изображений, аудио, видео и текста. Версия E4B в бенчмарке LMArena набрала более 1300 баллов, став первой моделью с менее чем 10 миллиардами параметров, достигшей такого результата. Её технические особенности включают механизм послойного встраивания (Per-Layer Embedding, PLE), который значительно повышает эффективность использования памяти, и механизм совместного использования кэша ключ-значение (KV Cache Sharing), ускоряющий обработку длинных текстов. Цель состоит в том, чтобы перенести мощные мультимодальные возможности ИИ на периферийные устройства, такие как мобильные телефоны (источник: GoogleDeepMind, madiator, reach_vb, 36氪)