Kata Kunci:Gemma 3n, Model multimodal, MatFormer, Perangkat edge, Transformer, Embedding lapis demi lapis (PLE), Berbagi cache KV (KV Cache Sharing), Evaluasi LMArena
🔥 FOKUS
Google merilis model multimodal Gemma 3n: Google secara resmi merilis Gemma 3n, sebuah model multimodal open-source yang dirancang khusus untuk perangkat on-device. Model ini didasarkan pada arsitektur inovatif MatFormer (Matryoshka Transformer), tersedia dalam dua ukuran, E2B (2 miliar parameter efektif) dan E4B (4 miliar parameter efektif), dan dapat berjalan dengan memori minimal hanya 2GB. Gemma 3n secara native mendukung input gambar, audio, video, dan teks. Versi E4B berhasil menembus skor 1300 dalam evaluasi LMArena, menjadi model pertama di bawah 10B parameter yang mencapai skor ini. Keunggulan teknisnya termasuk Per-Layer Embedding (PLE) yang secara signifikan meningkatkan efisiensi memori dan mekanisme Key-Value Cache Sharing (KV Cache Sharing) yang mempercepat pemrosesan teks panjang, bertujuan untuk membawa kemampuan AI multimodal yang kuat ke perangkat edge seperti ponsel (Sumber: GoogleDeepMind, madiator, reach_vb, 36Kr)