Schlüsselwörter:Gemma 3n, Multimodales Modell, MatFormer, Edge-Geräte, Transformer, Schichtweise Einbettung (PLE), Schlüssel-Wert-Cache-Freigabe (KV Cache Sharing), LMArena-Bewertung

🔥 Fokus

Google veröffentlicht multimodales Modell Gemma 3n: Google hat offiziell Gemma 3n veröffentlicht, ein Open-Source multimodales Modell, das speziell für On-Device-Anwendungen entwickelt wurde. Das Modell basiert auf der innovativen MatFormer-Architektur (Matryoshka-style Transformer) und ist in zwei Größen verfügbar: E2B (2 Milliarden effektive Parameter) und E4B (4 Milliarden effektive Parameter), wobei es mit nur 2 GB Arbeitsspeicher lauffähig ist. Gemma 3n unterstützt nativ Bild-, Audio-, Video- und Texteingaben. Die E4B-Version erreichte im LMArena-Benchmark eine Punktzahl von über 1300 und ist damit das erste Modell mit weniger als 10 Milliarden Parametern, das diesen Wert erreicht. Zu den technischen Highlights gehören das Per-Layer Embedding (PLE) zur deutlichen Steigerung der Speichereffizienz und der Key-Value Cache Sharing (KV Cache Sharing) Mechanismus zur Beschleunigung der Verarbeitung langer Texte. Ziel ist es, leistungsstarke multimodale KI-Fähigkeiten auf Edge-Geräte wie Mobiltelefone zu bringen (Quelle: GoogleDeepMind, madiator, reach_vb, 36氪)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert