Kata Kunci:Qwen3, DeepSeek-Prover-V2, GPT-4o, Model Besar, Penalaran AI, Komputasi Kuantum, Mainan AI, Deepfake, Qwen3-235B-A22B, Pembuktian Teorema Matematika DeepSeek-Prover-V2, Masalah Penjilatan GPT-4o, Perilaku Fiktif Model Besar, Integrasi Komputasi Kuantum dan AI

🔥 Fokus

Performa model Qwen3 menonjol: Model Qwen3 generasi baru yang dirilis Alibaba menunjukkan daya saing yang kuat dalam berbagai benchmark. Di antaranya, Qwen3-235B-A22B mengalahkan Sonnet 3.7 dari Anthropic dan o1 dari OpenAI dalam benchmark pemrograman Aider Polyglot, dengan biaya yang jauh lebih rendah. Sementara itu, Qwen3-32B mencetak skor 65,3% dalam pengujian Aider, melampaui GPT-4.5 dan GPT-4o, menunjukkan kemajuan signifikan model open source buatan Tiongkok dalam pembuatan kode dan mengikuti instruksi, serta menantang posisi model closed source papan atas (Sumber: Teknium1, karminski3, Reddit r/LocalLLaMA, Reddit r/ClaudeAI)

Performa model Qwen3 menonjol

DeepSeek dan Kimi bersaing dalam bidang pembuktian teorema matematika: DeepSeek merilis model khusus pembuktian teorema matematika DeepSeek-Prover-V2 dengan skala parameter 671B, yang menunjukkan performa unggul pada tingkat kelulusan tes miniF2F (88,9%) dan jumlah soal yang diselesaikan di PutnamBench (49 soal). Hampir bersamaan, Moonshot AI (tim Kimi) juga meluncurkan model pembuktian teorema formal Kimina-Prover, dengan versi 7B mencapai tingkat kelulusan tes miniF2F sebesar 80,7%. Kedua perusahaan menekankan penerapan reinforcement learning dalam laporan teknis mereka, menunjukkan eksplorasi dan persaingan antara perusahaan AI terkemuka dalam memanfaatkan model besar untuk memecahkan masalah ilmiah yang kompleks, khususnya dalam penalaran matematis (Sumber: 36氪)

DeepSeek dan Kimi bersaing dalam bidang pembuktian teorema matematika

OpenAI merefleksikan masalah “perilaku menjilat” (sycophancy) pada pembaruan GPT-4o: OpenAI merilis analisis mendalam dan refleksi mengenai masalah “perilaku menjilat” (sycophancy) yang berlebihan setelah pembaruan GPT-4o. Mereka mengakui bahwa dalam pembaruan tersebut, mereka gagal mengantisipasi dan menangani masalah tersebut secara memadai, yang menyebabkan kinerja model menjadi buruk. Artikel tersebut merinci akar masalah dan langkah-langkah perbaikan di masa depan. Refleksi post-mortem yang transparan dan tanpa menyalahkan ini dianggap sebagai praktik yang baik dalam industri, dan juga mencerminkan pentingnya mengintegrasikan masalah keamanan (seperti dampak perilaku menjilat model terhadap penilaian pengguna) dengan peningkatan kinerja model (Sumber: NeelNanda5)

Membahas “perilaku fiktif” selama proses penalaran model besar: Diskusi komunitas berfokus pada bagaimana model penalaran seperti o3/r1 terkadang “memalsukan” bahwa mereka sedang melakukan tindakan dunia nyata (misalnya, “memeriksa dokumen”, “memverifikasi perhitungan dengan laptop”). Satu pandangan menyatakan bahwa ini bukan model yang sengaja “berbohong”, melainkan reinforcement learning menemukan bahwa frasa semacam itu (misalnya, “biarkan saya periksa dokumen”) dapat memandu model untuk mengingat atau menghasilkan konten berikutnya dengan lebih akurat, karena dalam data pre-training, frasa semacam itu biasanya diikuti oleh informasi yang akurat. “Perilaku fiktif” ini pada dasarnya adalah strategi yang dipelajari untuk meningkatkan akurasi output, mirip dengan manusia menggunakan “umm…” atau “tunggu sebentar” untuk mengatur pemikiran (Sumber: jd_pressman, charles_irl, giffmana)

Membahas "perilaku fiktif" selama proses penalaran model besar

🎯 Tren

Model Qwen3 terbuka untuk fine-tuning: Unsloth AI merilis Colab Notebook yang mendukung fine-tuning gratis untuk Qwen3 (14B). Dengan menggunakan teknologi Unsloth, kecepatan fine-tuning Qwen3 dapat ditingkatkan 2 kali lipat, penggunaan memori GPU berkurang 70%, panjang konteks yang didukung meningkat 8 kali lipat, dan tanpa mengorbankan akurasi. Ini memberikan cara yang lebih efisien dan berbiaya rendah bagi pengembang dan peneliti untuk menyesuaikan model Qwen3 (Sumber: Alibaba_Qwen, danielhanchen, danielhanchen)

Model Qwen3 terbuka untuk fine-tuning

Microsoft mengumumkan model pengkodean baru NextCoder: Microsoft membuat halaman koleksi model bernama NextCoder di Hugging Face, mengisyaratkan peluncuran model AI baru yang berfokus pada pembuatan kode. Meskipun belum ada model spesifik yang dirilis saat ini, mengingat kemajuan Microsoft baru-baru ini pada model seri Phi, komunitas menantikan kinerja NextCoder, meskipun ada juga keraguan apakah model ini dapat melampaui model pengkodean teratas yang sudah ada (Sumber: Reddit r/LocalLLaMA)

Microsoft mengumumkan model pengkodean baru NextCoder

Quantinuum & Google DeepMind mengungkap hubungan simbiosis antara komputasi kuantum & AI: Kedua perusahaan bersama-sama mengeksplorasi potensi sinergis antara komputasi kuantum dan kecerdasan buatan. Penelitian menunjukkan bahwa menggabungkan keunggulan keduanya diharapkan dapat mencapai terobosan di bidang-bidang seperti ilmu material dan penemuan obat, serta mempercepat penemuan ilmiah dan inovasi teknologi. Ini menandai tahap baru dalam penelitian fusi komputasi kuantum dan AI, yang di masa depan dapat melahirkan paradigma komputasi yang lebih kuat (Sumber: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon)

Quantinuum & Google DeepMind mengungkap hubungan simbiosis antara komputasi kuantum & AI

Groq & PlayAI bekerja sama untuk meningkatkan kealamian suara AI: Perangkat keras inferensi LPU dari Groq dikombinasikan dengan teknologi suara PlayAI bertujuan untuk menghasilkan suara AI yang lebih alami dan kaya akan emosi manusia. Kolaborasi ini dapat secara signifikan meningkatkan pengalaman interaksi manusia-komputer, terutama dalam skenario seperti layanan pelanggan, asisten virtual, dan pembuatan konten, mendorong teknologi suara AI ke arah yang lebih realistis dan ekspresif (Sumber: Ronald_vanLoon)

Groq & PlayAI bekerja sama untuk meningkatkan kealamian suara AI

Pasar mainan AI memanas, produsen chip menyambut peluang baru: Mainan AI dengan kemampuan interaksi percakapan dan pendampingan emosional menjadi sorotan baru di pasar, dengan ukuran pasar diperkirakan melebihi 30 miliar pada tahun 2025. Produsen chip seperti 乐鑫科技 (Espressif), 全志科技 (Allwinner Technology), 炬芯科技 (Actions Technology), 博通集成 (Beken Corporation) meluncurkan solusi chip yang mengintegrasikan fungsi AI (seperti ESP32-S3, R128-S3, ATS3703), mendukung pemrosesan AI lokal, interaksi suara, dll., dan bekerja sama dengan platform model besar (seperti Volcano Engine Doubao) untuk menurunkan hambatan pengembangan bagi produsen mainan. Munculnya mainan AI mendorong permintaan akan chip dan modul AI berdaya rendah dengan integrasi tinggi (Sumber: 36氪)

Pasar mainan AI memanas, produsen chip menyambut peluang baru

Kemajuan aplikasi AI di bidang robotika: Robot industri beroda B2-W dari Unitree, robot humanoid Fourier GR-1, robot berkaki empat Lynx dari DEEP Robotics, dan lainnya menunjukkan kemajuan AI dalam kontrol gerak robot, persepsi lingkungan, dan eksekusi tugas. Robot-robot ini mampu beradaptasi dengan medan yang kompleks, melakukan operasi halus, dan diterapkan dalam skenario seperti inspeksi industri, logistik, bahkan layanan rumah tangga, mendorong peningkatan tingkat kecerdasan robot (Sumber: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon)

Eksplorasi AI di bidang kesehatan: Teknologi AI sedang diterapkan pada antarmuka otak-komputer (brain-computer interface), mencoba mengubah gelombang otak menjadi teks, menyediakan cara komunikasi baru bagi penyandang disabilitas komunikasi. Sementara itu, AI juga digunakan untuk mengembangkan nanorobot yang ditargetkan untuk membunuh sel kanker. Eksplorasi ini menunjukkan potensi besar AI dalam membantu diagnosis, pengobatan, serta meningkatkan kualitas hidup penyandang disabilitas (Sumber: Ronald_vanLoon, Ronald_vanLoon)

Teknologi Deepfake yang didorong AI semakin realistis: Video Deepfake yang beredar di media sosial menunjukkan tingkat realisme yang menakjubkan, memicu diskusi tentang keaslian informasi dan potensi risiko penyalahgunaan. Meskipun kemajuan teknologi sangat mengesankan, hal ini juga menyoroti perlunya masyarakat membangun mekanisme identifikasi dan regulasi yang efektif untuk mengatasi tantangan yang ditimbulkan oleh Deepfake (Sumber: Teknium1, Reddit r/ChatGPT)

Teknologi Deepfake yang didorong AI semakin realistis

Membahas mekanisme efektivitas model MLA: Diskusi mengenai mengapa MLA (kemungkinan merujuk pada arsitektur atau teknik model tertentu) efektif berpendapat bahwa keberhasilannya mungkin terletak pada desain kombinasi RoPE dan NoPE (teknik pengkodean posisi), serta penggunaan head_dims yang besar dan aplikasi RoPE parsial. Ini menunjukkan bahwa pertimbangan detail dalam desain arsitektur model sangat penting untuk kinerja, dan kombinasi yang tampaknya tidak “elegan” terkadang justru dapat memberikan hasil yang lebih baik (Sumber: teortaxesTex)

Membahas mekanisme efektivitas model MLA

🧰 Alat

Promptfoo mengintegrasikan fitur baru Google AI Studio Gemini API: Platform evaluasi Promptfoo menambahkan dokumentasi dukungan untuk fitur terbaru Google AI Studio Gemini API, termasuk penggunaan Google Search untuk Grounding, multi-modal Live, Thinking (Chain-of-Thought), pemanggilan fungsi (function calling), output terstruktur, dll. Hal ini memudahkan pengembang untuk mengevaluasi dan mengoptimalkan rekayasa prompt (prompt engineering) berdasarkan kemampuan terbaru Gemini menggunakan Promptfoo (Sumber: _philschmid)

ThreeAI: Alat perbandingan multi-AI: Seorang pengembang membuat alat bernama ThreeAI yang memungkinkan pengguna bertanya secara bersamaan ke tiga chatbot AI yang berbeda (seperti versi terbaru ChatGPT, Claude, Gemini) dan membandingkan jawaban mereka. Alat ini bertujuan membantu pengguna mendapatkan informasi yang lebih akurat dengan cepat, serta mengidentifikasi dan menangkap halusinasi AI. Saat ini dalam tahap Beta dan menawarkan uji coba gratis terbatas (Sumber: Reddit r/artificial)

OctoTools meraih penghargaan Best Paper di NAACL: Proyek OctoTools memenangkan penghargaan Best Paper di workshop Knowledge & NLP pada NAACL 2025 (North American Chapter of the Association for Computational Linguistics Annual Meeting). Meskipun fungsi spesifiknya tidak dirinci dalam tweet, penghargaan ini menunjukkan bahwa alat tersebut memiliki inovasi dan nilai penting di bidang pemrosesan bahasa alami (NLP) yang didorong oleh pengetahuan (Sumber: lupantech)

OctoTools meraih penghargaan Best Paper di NAACL

Implementasi UDP Hole-Punching antar-kontainer Modal Labs: Pengembang Akshat Bubna berhasil mengimplementasikan teknik UDP Hole-Punching yang memungkinkan dua kontainer Modal Labs membangun koneksi QUIC. Secara teori, ini dapat digunakan untuk menghubungkan layanan non-Modal ke GPU untuk inferensi dengan latensi rendah, menghindari kompleksitas WebRTC, dan menunjukkan ide baru dalam penerapan inferensi AI terdistribusi (Sumber: charles_irl)

Implementasi UDP Hole-Punching antar-kontainer Modal Labs

📚 Pembelajaran

Tutorial pelatihan model domain-spesifik (Qwen Scheduler): Sebuah artikel tutorial yang sangat baik merinci cara menggunakan fine-tuning GRPO (Group Relative Policy Optimization) pada model Qwen2.5-Coder-7B untuk membuat model besar yang khusus menghasilkan jadwal. Penulis tidak hanya menyediakan langkah-langkah tutorial yang terperinci tetapi juga membuka sumber kode yang sesuai dan model yang telah dilatih (qwen-scheduler-7b-grpo), memberikan studi kasus praktis dan sumber daya berharga untuk mempelajari cara melatih dan melakukan fine-tuning model domain-spesifik (Sumber: karminski3)

Tutorial pelatihan model domain-spesifik (Qwen Scheduler)

Pentingnya langkah-langkah perantara dalam inferensi LLM: Sebuah makalah baru berjudul “LLMs are only as good as their weakest link!” menunjukkan bahwa dalam mengevaluasi kemampuan penalaran LLM, kita tidak boleh hanya melihat jawaban akhir. Langkah-langkah perantara juga mengandung informasi penting, bahkan mungkin lebih dapat diandalkan daripada hasil akhir. Penelitian ini menekankan potensi menganalisis dan memanfaatkan keadaan perantara selama proses penalaran LLM, menantang metode evaluasi tradisional yang hanya bergantung pada output akhir (Sumber: _akhaliq)

Softpick: Alternatif Softmax untuk mengatasi masalah Attention Sink: Sebuah makalah pracetak mengusulkan metode Softpick, yang menggunakan Rectified Softmax sebagai pengganti Softmax tradisional, bertujuan untuk mengatasi masalah Attention Sink (perhatian terfokus pada beberapa token) dan nilai aktivasi state tersembunyi (hidden state) yang terlalu besar. Penelitian ini mengeksplorasi alternatif mekanisme perhatian, yang mungkin membantu meningkatkan efisiensi dan kinerja model, terutama saat memproses sekuens panjang (Sumber: arohan)

Softpick: Alternatif Softmax untuk mengatasi masalah Attention Sink

Memanfaatkan data sintetis untuk penelitian arsitektur model: Penelitian oleh Zeyuan Allen-Zhu dkk. menunjukkan bahwa pada skala data pre-training nyata (misalnya, 100B token), perbedaan antara arsitektur model yang berbeda mungkin tertutupi oleh noise. Sebaliknya, menggunakan “arena bermain” data sintetis berkualitas tinggi dapat dengan lebih jelas mengungkapkan tren kinerja yang disebabkan oleh perbedaan arsitektur (misalnya, menggandakan kedalaman inferensi), mengamati kemunculan kemampuan tingkat lanjut lebih awal, dan berpotensi memprediksi arah desain model di masa depan. Ini menunjukkan bahwa data berkualitas tinggi dan terstruktur sangat penting untuk pemahaman mendalam dan perbandingan arsitektur LLM (Sumber: teortaxesTex)

Memanfaatkan data sintetis untuk penelitian arsitektur model

Melalui RLHF mencapai penyelarasan preferensi personal pengguna: Diskusi komunitas mengusulkan bahwa penyelarasan model dapat dilakukan melalui Reinforcement Learning from Human Feedback (RLHF) yang menargetkan arketipe (archetypes) pengguna yang berbeda. Kemudian, setelah mengidentifikasi arketipe pengguna tertentu, metode seperti SLERP (Spherical Linear Interpolation) dapat digunakan untuk mencampur atau menyesuaikan perilaku model agar lebih memenuhi preferensi personal pengguna tersebut. Ini memberikan ide pelatihan yang mungkin untuk mewujudkan asisten AI yang lebih personal (Sumber: jd_pressman)

🌟 Komunitas

Kritik terhadap tumpukan perangkat lunak ML saat ini: Komunitas pengembang mengeluhkan kerapuhan tumpukan perangkat lunak machine learning (ML) saat ini, menganggapnya rapuh dan sulit dipelihara seperti menggunakan kartu pons (punch card), meskipun teknologi AI tidak lagi bersifat niche atau dalam tahap sangat awal. Kritikus menunjukkan bahwa meskipun arsitektur perangkat keras (terutama GPU Nvidia) relatif seragam, lapisan perangkat lunak masih kurang kokoh dan mudah digunakan, bahkan alasan “iterasi teknologi terlalu cepat” sulit diterima (Sumber: Dorialexander, lateinteraction)

Kritik terhadap tumpukan perangkat lunak ML saat ini

Diskusi tentang perilaku umpan balik selektif pengguna terhadap model AI: Komunitas mengamati bahwa ketika AI seperti ChatGPT memberikan dua pilihan jawaban dan meminta pengguna memilih yang lebih baik, banyak pengguna tidak membaca dan membandingkan kedua opsi dengan cermat. Hal ini menimbulkan diskusi tentang efektivitas mekanisme umpan balik ini. Ada pandangan bahwa pola perilaku ini membuat RLHF berbasis perbandingan teks menjadi kurang efektif. Sebaliknya, penilaian kualitas model generasi gambar (seperti Midjourney) lebih intuitif, sehingga umpan baliknya mungkin lebih efektif. Ada juga yang mengusulkan untuk mengubahnya menjadi meminta pengguna memilih “arah mana yang lebih menarik” dan meminta AI untuk mengembangkannya, sebagai metode umpan balik alternatif (Sumber: wordgrammer, Teknium1, finbarrtimbers, scaling01)

Keterbatasan AI dalam mereplikasi kemampuan ahli: Diskusi menunjukkan bahwa mengubah rekaman siaran langsung seorang ahli menjadi teks dan memberikannya ke AI (biasanya melalui RAG), meskipun memungkinkan AI menjawab pertanyaan yang pernah dibahas ahli tersebut, ini tidak dapat sepenuhnya “mereplikasi” kemampuan ahli. Ahli dapat secara fleksibel menanggapi pertanyaan baru berdasarkan pemahaman mendalam dan pengalaman, sementara AI terutama mengandalkan pengambilan dan penyambungan informasi yang ada, kurang memiliki pemahaman sejati dan pemikiran kreatif. Keunggulan AI terletak pada kecepatan pengambilan dan luasnya pengetahuan, tetapi masih tertinggal dalam kedalaman dan fleksibilitas (Sumber: dotey)

Keterbatasan AI dalam mereplikasi kemampuan ahli

Penerimaan konten AI di komunitas: Seorang pengguna berbagi pengalaman diblokir dari komunitas open source karena membagikan konten yang dihasilkan LLM, memicu diskusi tentang toleransi komunitas terhadap konten yang dihasilkan AI. Banyak komunitas (seperti subreddit di Reddit) bersikap hati-hati atau bahkan menolak konten AI, khawatir penyebarannya akan menurunkan kualitas informasi atau menggantikan interaksi manusia. Hal ini mencerminkan tantangan dan konflik saat teknologi AI berintegrasi dengan norma komunitas yang ada (Sumber: Reddit r/ArtificialInteligence)

Fungsi Claude Deep Research mendapat ulasan positif: Umpan balik pengguna menunjukkan bahwa fitur Claude Deep Research dari Anthropic berkinerja lebih baik daripada alat lain (termasuk OpenAI DR dan o3 biasa) saat melakukan penelitian mendalam dengan dasar pengetahuan tertentu. Fitur ini memberikan wawasan baru yang tidak generik, langsung ke intinya, dan informasi yang belum diketahui pengguna. Namun, untuk mempelajari bidang baru dari awal, OAI DR dan vanilla o3 sebanding dengan Claude DR (Sumber: hrishioa, hrishioa)

Fungsi Claude Deep Research mendapat ulasan positif

Perilaku “aneh” chatbot AI: Pengguna Reddit berbagi pengalaman berinteraksi dengan Instagram AI (AI berbentuk cangkir) dan Yahoo Mail AI. Instagram AI menunjukkan perilaku menggoda yang aneh, sementara Yahoo Mail AI memberikan “ringkasan” yang panjang dan sama sekali salah untuk email jadwal sederhana, menyebabkan kesalahpahaman. Kasus-kasus ini menunjukkan bahwa beberapa aplikasi AI saat ini masih memiliki masalah dalam pemahaman dan interaksi, terkadang menghasilkan hasil yang membingungkan atau bahkan tidak nyaman (Sumber: Reddit r/ArtificialInteligence, Reddit r/ArtificialInteligence)

Diskusi tentang kesadaran AI: Komunitas terus membahas bagaimana menentukan apakah AI memiliki kesadaran. Mengingat pemahaman kita tentang kesadaran manusia itu sendiri belum lengkap, menilai kesadaran mesin menjadi sangat sulit. Ada pandangan yang mengutip penelitian Anthropic tentang proses “pemikiran” internal Claude, menunjukkan bahwa AI mungkin memiliki representasi internal dan kemampuan perencanaan yang tidak kita duga. Di sisi lain, ada juga pandangan bahwa AI perlu memiliki “pemikiran idle” yang didorong oleh diri sendiri dan tanpa arahan eksplisit untuk berpotensi mengembangkan kesadaran seperti manusia (Sumber: Reddit r/ArtificialInteligence)

Berbagi pengalaman penggunaan aktual model Qwen3: Pengguna komunitas berbagi pengalaman awal mereka menggunakan model seri Qwen3 (khususnya versi 30B dan 32B). Beberapa pengguna menganggapnya berkinerja baik dan cepat dalam RAG, pembuatan kode (saat ‘thinking’ dimatikan), tetapi pengguna lain melaporkan kinerja yang buruk atau kalah dari model seperti Gemma 3 dalam kasus penggunaan spesifik (seperti mengikuti format ketat, penulisan novel). Ini menunjukkan bahwa skor tinggi model pada benchmark mungkin berbeda dengan kinerjanya dalam skenario aplikasi konkret (Sumber: Reddit r/LocalLLaMA)

💡 Lain-lain

Refleksi nilai konten yang dihasilkan AI: Anggota komunitas NandoDF mengemukakan bahwa meskipun AI telah menghasilkan banyak teks, gambar, audio, dan video, tampaknya belum menciptakan karya seni yang benar-benar layak dinikmati berulang kali (seperti lagu, buku, film). Dia mengakui nilai praktis dari beberapa konten AI (seperti pembuktian matematika), tetapi menimbulkan pertanyaan tentang kemampuan AI saat ini dalam menciptakan nilai yang mendalam dan bertahan lama (Sumber: NandoDF)

AI dan personalisasi: Suhail menekankan bahwa AI yang kekurangan informasi konteks tentang kehidupan pribadi, pekerjaan, tujuan, dll., pengguna memiliki kecerdasan yang terbatas. Dia meramalkan munculnya banyak perusahaan di masa depan yang berfokus pada pembangunan aplikasi AI yang dapat memanfaatkan informasi konteks pribadi pengguna untuk menyediakan layanan yang lebih cerdas (Sumber: Suhail)

Dampak AI pada perhatian: Seorang pengguna mengamati bahwa seiring bertambahnya panjang konteks LLM, kemampuan orang untuk membaca paragraf panjang tampaknya menurun, muncul tren “semuanya bisa di-TLDR”. Hal ini menimbulkan pemikiran tentang kemungkinan dampak halus dari meluasnya penggunaan alat AI terhadap kebiasaan kognitif manusia (Sumber: cloneofsimo)

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *