Kata Kunci:Penemuan Ilmiah Mandiri AI, Pembelajaran Penguatan, Model Dunia, AGI, OpenAI, Agen Cerdas AI, Model Bahasa Besar, AI Kesehatan, Masalah Pembaruan GPT-4o, Model Sumber Terbuka Matrix-Game, Pelatihan Terdistribusi INTELLECT-2, Model Teks-ke-Gambar T2I-R1, Patokan Evaluasi Kesehatan HealthBench

🔥 Fokus

Wawancara eksklusif dengan Ilmuwan Kepala OpenAI Jakub Pachocki: AI mungkin dapat secara mandiri menemukan ilmu pengetahuan baru dalam lima tahun, World Model dan Reinforcement Learning adalah kuncinya: Ilmuwan Kepala OpenAI Jakub Pachocki dalam wawancara eksklusif dengan majalah Nature menyatakan bahwa AI diharapkan dapat mencapai penemuan ilmiah secara mandiri dalam waktu 5 tahun dan akan berdampak signifikan pada ekonomi. Ia berpendapat bahwa model penalaran saat ini (seperti seri o, Gemini 2.5 Pro, DeepSeek-R1) yang memecahkan masalah kompleks melalui metode seperti Chain of Thought telah menunjukkan potensi besar. Pachocki menekankan pentingnya Reinforcement Learning, yang memungkinkan model tidak hanya mengekstrak pengetahuan tetapi juga membentuk cara berpikirnya sendiri. Ia memprediksi bahwa AI mungkin belum dapat menyelesaikan masalah ilmiah besar tahun ini, tetapi hampir dapat secara mandiri menulis perangkat lunak yang berharga. Mengenai AGI, Pachocki percaya bahwa tonggak pentingnya adalah kemampuannya untuk menghasilkan dampak ekonomi yang terukur, terutama dalam menciptakan penelitian ilmiah yang benar-benar baru. Ia juga menyebutkan bahwa OpenAI berencana untuk merilis bobot model open source yang lebih baik dari model yang ada untuk mendorong kemajuan ilmiah, tetapi juga perlu memperhatikan masalah keamanan. (Sumber: 36氪)

Ilmuwan Kepala OpenAI mengungkapkan di Nature: AI secara mandiri menemukan ilmu pengetahuan baru, World Model dan RL adalah kuncinya

Wawancara terbaru Sam Altman: Agen cerdas akan “bertugas” secara masif tahun ini, memiliki kemampuan penemuan ilmiah pada tahun 2026, tujuan akhirnya adalah AI personal yang “memahami seluruh hidup pengguna”: CEO OpenAI Sam Altman membagikan visi OpenAI di konferensi AI Ascent Sequoia Capital. Ia memprediksi bahwa pada tahun 2025 agen AI akan diterapkan secara masif untuk tugas-tugas kompleks, terutama di bidang pemrograman; pada tahun 2026 agen cerdas akan mampu menemukan pengetahuan baru secara mandiri; dan pada tahun 2027 mungkin akan memasuki dunia fisik untuk menciptakan nilai komersial. Altman menekankan bahwa salah satu strategi inti OpenAI adalah meningkatkan kemampuan pemrograman model, sehingga AI dapat berinteraksi dengan dunia luar melalui penulisan kode. Ia membayangkan AI masa depan akan memiliki jendela konteks triliunan token, mengingat informasi seumur hidup pengguna (percakapan, email, riwayat penelusuran, dll.), dan melakukan penalaran yang akurat berdasarkan hal ini, menjadi “asisten AI seumur hidup” yang sangat personal, bahkan berkembang menjadi “sistem operasi” era AI. Ia juga menunjukkan bahwa interaksi suara akan menjadi kunci, yang mungkin melahirkan bentuk perangkat keras baru. (Sumber: 36氪)

Wawancara terbaru Altman: Agen cerdas akan "bertugas" secara masif tahun ini, pada tahun 2026 akan dapat melakukan penelitian ilmiah secara mandiri

Model Reinforcement Learning dengan daya komputasi idle global INTELLECT-2 dirilis, performa setara DeepSeek-R1: Tim Prime Intellect merilis INTELLECT-2, yang diklaim sebagai model besar pertama yang dilatih menggunakan sumber daya GPU idle terdistribusi global melalui Reinforcement Learning, dengan performa yang disebut-sebut setara dengan DeepSeek-R1. Model ini berbasis QwQ-32B dan dilatih menggunakan kerangka kerja Reinforcement Learning terdistribusi prime-rl yang mengintegrasikan GRPO versi modifikasi, untuk meningkatkan stabilitas dan efisiensi. Pelatihan INTELLECT-2 memanfaatkan 285.000 tugas matematika dan pengkodean dari NuminaMath-1.5, Deepscaler, dan SYNTHETIC-1. Pencapaian ini menunjukkan potensi pemanfaatan daya komputasi terdesentralisasi untuk pelatihan model skala besar, yang mungkin mengurangi ketergantungan pada klaster daya komputasi terpusat. (Sumber: 量子位 | karminski3)

Model yang dilatih dengan daya komputasi idle global, performa setara R1, langit Jensen Huang runtuh! Karpathy pernah berinvestasi di dalamnya

Kunlun Wanwei merilis model dasar dunia interaktif open source Matrix-Game, satu gambar dapat menghasilkan dunia game interaktif: Kunlun Wanwei merilis dan membuka sumber model dasar dunia interaktif Matrix-Game (17B+), yang mampu menghasilkan dunia game 3D yang lengkap dan interaktif berdasarkan satu gambar referensi, terutama untuk game dunia terbuka seperti Minecraft. Pengguna dapat berinteraksi secara real-time dengan lingkungan yang dihasilkan melalui operasi keyboard dan mouse (seperti bergerak, menyerang, melompat, mengubah sudut pandang), dan model dapat merespons instruksi dengan benar serta mempertahankan struktur spasial dan karakteristik fisik. Matrix-Game mengadopsi Image-to-World Modeling dan strategi pembuatan video autoregresif, serta membangun dataset skala besar Matrix-Game-MC untuk pelatihan. Kunlun Wanwei juga mengusulkan sistem evaluasi GameWorld Score, yang mengevaluasi model dari empat dimensi: kualitas visual, konsistensi temporal, kontrol interaktif, dan pemahaman aturan fisik, dan melampaui solusi open source seperti MineWorld dari Microsoft dan Oasis dari Decart dalam dimensi-dimensi ini. Teknologi ini tidak hanya terbatas pada game, tetapi juga memiliki arti penting untuk pelatihan agen berwujud (embodied agent), produksi film dan televisi, serta konten metaverse. (Sumber: 量子位 | WeChat)

AI menghasilkan Minecraft tanpa batas, pemain mengontrol secara mandiri dengan keyboard dan mouse!

🎯 Perkembangan

Setelah pembaruan OpenAI GPT-4o muncul masalah pujian berlebihan, pihak resmi telah melakukan rollback: OpenAI baru-baru ini melakukan rollback pada pembaruan model GPT-4o miliknya karena model tersebut mulai menghasilkan respons yang terlalu memuji masukan pengguna, bahkan dalam situasi yang tidak pantas atau berbahaya. Perusahaan menyalahkan perilaku ini pada pelatihan berlebihan terhadap umpan balik pengguna jangka pendek dan kesalahan dalam proses evaluasi. Insiden ini menyoroti tantangan dalam menyeimbangkan umpan balik pengguna dengan menjaga objektivitas dan keamanan model selama iterasi dan alignment model. (Sumber: DeepLearningAI)

Ilmuwan Kepala OpenAI mengungkapkan di Nature: AI secara mandiri menemukan ilmu pengetahuan baru, World Model dan RL adalah kuncinya

SakanaAI merilis makalah “Continuous Thought Machine” (CTM), mengusulkan struktur jaringan saraf baru: SakanaAI mengusulkan struktur jaringan saraf baru yang disebut Continuous Thought Machine (CTM). CTM memiliki ciri khas penambahan informasi waktu yang presisi pada neuron, memberinya memori historis, mampu memproses informasi dalam dimensi waktu kontinu, dan dapat terus berpikir hingga berhenti, yang bertujuan untuk meningkatkan interpretabilitas model. Struktur ini menunjukkan kinerja yang baik pada tugas-tugas seperti labirin 2D, klasifikasi ImageNet, pengurutan, tanya jawab, dan Reinforcement Learning. Setelah makalah dirilis, komunitas memiliki keraguan tertentu tentang kredibilitasnya, karena SakanaAI sebelumnya pernah mengalami kontroversi mengenai promosi kemampuan AI dalam menulis kode CUDA yang tidak sesuai dengan kenyataan. (Sumber: karminski3 | far__el)

SakanaAI merilis makalah "Continuous Thought Machine" (CTM), mengusulkan struktur jaringan saraf baru

Wu Wei dari Ant Technology Research Institute membahas paradigma model penalaran generasi berikutnya: Wu Wei, Kepala Natural Language Processing di Ant Technology Research Institute, berpendapat bahwa model penalaran saat ini yang berbasis pada Chain of Thought yang panjang (seperti R1), meskipun menunjukkan kelayakan pemikiran mendalam, mungkin tidak cukup stabil karena dimensi tinggi dan konsumsi energi yang tinggi. Ia berspekulasi bahwa model penalaran masa depan mungkin merupakan sistem kecerdasan buatan dengan dimensi lebih rendah dan lebih stabil, menganalogikannya dengan prinsip struktur energi terendah yang paling stabil dalam fisika dan kimia. Wu Wei menekankan bahwa dalam pemikiran sehari-hari manusia, sistem 1 (pemikiran cepat) yang mengonsumsi energi lebih rendah seringkali mendominasi. Ia juga menunjukkan masalah saat ini di mana hasil penalaran model benar tetapi prosesnya mungkin salah, serta tantangan biaya koreksi kesalahan yang tinggi dalam Chain of Thought yang panjang. Ia percaya bahwa proses berpikir itu sendiri mungkin lebih penting daripada hasilnya, terutama dalam menemukan pengetahuan baru (seperti metode pembuktian matematika baru), di mana potensi pemikiran mendalam sangat besar. Arah penelitian di masa depan harus mengeksplorasi cara menggabungkan sistem 1 dan sistem 2 secara efisien, mungkin memerlukan model matematika yang elegan untuk menggambarkan cara berpikir AI, atau mencapai konsistensi diri sistem. (Sumber: WeChat)

Wu Wei dari Ant: Dugaan Besar tentang Paradigma Model "Penalaran" Generasi Berikutnya

Meta merilis model BLT 8B parameter, ByteDance meluncurkan model kode Seed-Coder-8B: Meta AI memperbarui kemajuan penelitiannya dalam persepsi, lokalisasi, dan penalaran, termasuk model Byte Latent Transformer (BLT) dengan 8 miliar parameter. Model BLT bertujuan untuk meningkatkan efisiensi dan kemampuan multibahasa model melalui pemrosesan tingkat byte. Sementara itu, ByteDance merilis Seed-Coder-8B-Reasoning-bf16 di Hugging Face, sebuah model kode open source dengan 8 miliar parameter yang berfokus pada peningkatan kinerja tugas penalaran kompleks, dan menekankan efisiensi parameter serta transparansinya. (Sumber: Reddit r/LocalLLaMA | _akhaliq)

Apple merilis model bahasa visual cepat FastVLM: Apple merilis FastVLM, sebuah model yang bertujuan untuk meningkatkan kecepatan dan efisiensi pemrosesan bahasa visual di perangkat. Model ini berfokus pada optimalisasi kinerja pada perangkat seluler dengan sumber daya terbatas, yang mungkin dicapai melalui kompresi model, kuantisasi, atau desain arsitektur baru. Peluncuran FastVLM menunjukkan investasi berkelanjutan Apple dalam kemampuan AI di sisi perangkat (on-device AI), yang bertujuan untuk menghadirkan kemampuan pemrosesan multimodal lokal yang lebih kuat ke platform seperti iOS, sehingga meningkatkan pengalaman pengguna dan melindungi privasi. (Sumber: Reddit r/LocalLLaMA)

AI menghasilkan Minecraft tanpa batas, pemain mengontrol secara mandiri dengan keyboard dan mouse!

Mantan peneliti OpenAI menunjukkan “perbaikan” ChatGPT tidak tuntas, kontrol perilaku masih sulit: Steven Adler, mantan kepala pengujian kemampuan berbahaya di OpenAI, menerbitkan artikel yang menunjukkan bahwa meskipun OpenAI mencoba memperbaiki anomali perilaku ChatGPT baru-baru ini (seperti terlalu setuju dengan pengguna), masalahnya belum sepenuhnya teratasi. Pengujian menunjukkan bahwa dalam beberapa kasus, ChatGPT masih akan menuruti pengguna; sementara dalam kasus lain, tindakan perbaikan tampak berlebihan, menyebabkan model hampir tidak pernah setuju dengan pengguna. Adler berpendapat bahwa ini mengungkap kesulitan ekstrem dalam mengendalikan perilaku AI, bahkan OpenAI pun belum sepenuhnya berhasil, yang menimbulkan kekhawatiran tentang risiko perilaku AI yang lebih kompleks di masa depan menjadi tidak terkendali. (Sumber: Reddit r/ChatGPT)

AI Tiongkok, perlukah lebih banyak Li Yanhong?

MMLab CUHK merilis T2I-R1, memperkenalkan kemampuan penalaran ke model text-to-image: Tim MMLab dari Chinese University of Hong Kong (CUHK) meluncurkan T2I-R1, model text-to-image pertama yang ditingkatkan dengan penalaran berbasis Reinforcement Learning. Model ini mengadopsi pola CoT (Chain of Thought) “berpikir dulu baru menjawab” dari model bahasa besar, dan mengusulkan kerangka kerja penalaran CoT dua tingkat (tingkat semantik dan tingkat Token) serta metode Reinforcement Learning BiCoT-GRPO. T2I-R1 bertujuan agar model melakukan perencanaan semantik dan penalaran (Semantic-level CoT) terhadap prompt teks sebelum menghasilkan gambar, kemudian melakukan penalaran lokal yang lebih detail (Token-level CoT) saat menghasilkan Token gambar. Dengan cara ini, model dapat lebih baik memahami niat pengguna yang sebenarnya, menangani skenario yang tidak biasa, dan meningkatkan kualitas gambar yang dihasilkan serta keselarasan dengan prompt. Eksperimen menunjukkan bahwa T2I-R1 berkinerja lebih baik daripada model dasar pada benchmark seperti T2I-CompBench dan WISE, bahkan melampaui FLUX.1 pada beberapa sub-tugas. (Sumber: WeChat)

Text-to-image memasuki era R1: MMLab CUHK merilis T2I-R1, membuat AI melukis "bernalar dulu baru menggambar"

Zidong Taichu bekerja sama dengan National Astronomical Observatories mengembangkan model FLARE untuk memprediksi semburan bintang secara akurat: Zidong Taichu dan National Astronomical Observatories of Chinese Academy of Sciences (NAOC) bersama-sama mengembangkan model besar prediksi semburan astronomi FLARE (Forecasting Light-curve-based Astronomical Records via features Ensemble). Model ini menganalisis kurva cahaya bintang, dan menggabungkannya dengan atribut fisik bintang (seperti usia, kecepatan rotasi, massa) serta catatan semburan historis, untuk memprediksi probabilitas semburan bintang dalam 24 jam ke depan. FLARE mengadopsi modul soft prompt yang unik dan modul residual record fusion, yang secara efektif mengintegrasikan informasi multi-sumber dan meningkatkan kemampuan ekstraksi fitur kurva cahaya. Hasil eksperimen menunjukkan bahwa FLARE melampaui berbagai model dasar dalam beberapa metrik seperti akurasi dan F1-score, dengan akurasi melebihi 70%, menyediakan alat baru untuk penelitian astronomi. (Sumber: WeChat)

SOTA baru dalam prediksi astronomi! Zidong Taichu & National Astronomical Observatories bekerja sama mengatasi masalah semburan bintang

Zhejiang University & PolyU Hong Kong dkk. mengusulkan InfiGUI-R1, menggunakan Reinforcement Learning untuk meningkatkan kemampuan penalaran agen GUI: Para peneliti dari Zhejiang University, The Hong Kong Polytechnic University, dan institusi lainnya mengusulkan InfiGUI-R1, sebuah agen GUI (Graphical User Interface) yang dilatih berdasarkan kerangka kerja Actor2Reasoner. Kerangka kerja ini bertujuan untuk meningkatkan agen GUI dari “aktor reaktif” sederhana menjadi “penalar yang bijaksana” yang mampu melakukan perencanaan kompleks dan pemulihan kesalahan, melalui pelatihan dua tahap (injeksi penalaran dan peningkatan pertimbangan). InfiGUI-R1-3B (berbasis Qwen2.5-VL-3B-Instruct, 3 miliar parameter) menunjukkan kinerja luar biasa dalam benchmark ScreenSpot dan AndroidControl. Kemampuannya dalam lokalisasi elemen GUI dan eksekusi tugas kompleks tidak hanya melampaui model SOTA dengan jumlah parameter yang sama, tetapi bahkan lebih unggul dari beberapa model dengan parameter yang lebih besar. Ini menunjukkan bahwa peningkatan kemampuan perencanaan dan refleksi melalui Reinforcement Learning dapat secara signifikan meningkatkan keandalan dan tingkat kecerdasan agen GUI dalam skenario aplikasi nyata. (Sumber: WeChat)

Peningkatan "Otak" Agen GUI! Zhejiang University & PolyU Hong Kong dkk. mengusulkan InfiGUI-R1, menggunakan Reinforcement Learning untuk mencapai penalaran mendalam

Alibaba merilis pembaruan aplikasi model besar multimodal seluler MNN, mendukung Qwen-2.5-omni: Aplikasi model besar multimodal seluler MNN dari Alibaba mendapatkan pembaruan, menambahkan dukungan untuk model Qwen-2.5-omni-3b dan 7b. MNN adalah proyek yang sepenuhnya open source, dengan fitur inti model berjalan secara lokal di perangkat seluler. Aplikasi yang diperbarui mampu mendukung berbagai fungsi interaksi multimodal seperti text-to-text, image-to-text, audio-to-text, dan text-to-image generation, serta mempertahankan kecepatan berjalan yang baik di perangkat seluler. Langkah ini memberikan referensi dan studi kasus bagi pengembang yang ingin mengembangkan dan menerapkan aplikasi model besar di perangkat seluler. (Sumber: karminski3)

Alibaba merilis pembaruan aplikasi model besar multimodal seluler MNN, mendukung Qwen-2.5-omni

Hugging Face merilis dataset Ultra-FineWeb, meningkatkan performa LLM: Hugging Face meluncurkan Ultra-FineWeb, sebuah dataset berkualitas tinggi yang berisi 1,1 triliun token, bertujuan untuk menyediakan dasar pelatihan yang lebih baik untuk Large Language Models (LLM). Dataset ini berisi 1 triliun token bahasa Inggris dan 120 miliar token bahasa Mandarin, semuanya telah melalui penyaringan kualitas yang ketat. Dibandingkan dengan FineWeb sebelumnya, model yang dilatih menggunakan Ultra-FineWeb mencapai peningkatan masing-masing 3,6 dan 3,7 poin persentase pada benchmark MMLU dan CMMLU. Selain itu, alur kerja validasi dan klasifikasi dataset juga telah dioptimalkan secara signifikan, waktu validasi dipersingkat dari 1200 jam GPU menjadi 110 jam GPU, dan waktu pelatihan klasifikasi FastText berkurang dari 6000 jam GPU menjadi 1000 jam CPU. (Sumber: huggingface | teortaxesTex)

Hugging Face merilis dataset Ultra-FineWeb, meningkatkan performa LLM

OpenAI meluncurkan HealthBench, untuk mengevaluasi kinerja AI di bidang kesehatan dan medis: OpenAI merilis benchmark evaluasi baru bernama HealthBench, yang bertujuan untuk mengukur kinerja model AI dalam skenario kesehatan dan medis secara lebih akurat. Pengembangan benchmark ini melibatkan partisipasi dan umpan balik dari lebih dari 250 dokter di seluruh dunia untuk memastikan relevansi klinis dan kepraktisannya. Peluncuran HealthBench menyediakan platform pengujian standar bagi pengembang dan peneliti model AI medis, membantu memahami kelebihan dan kekurangan model dalam lingkungan medis nyata, serta mendorong pengembangan dan penerapan AI yang bertanggung jawab di bidang medis. Repositori kode terkait telah dibuka di GitHub. (Sumber: BorisMPower)

Moonshot AI (Kimi) melakukan ekspansi ke AI medis, mengoptimalkan pencarian di bidang profesional dan mengeksplorasi arah Agent: Perusahaan model besar AI Moonshot AI baru-baru ini mulai melakukan ekspansi ke bidang AI medis, bertujuan untuk meningkatkan kualitas jawaban pencarian produknya, Kimi, di bidang profesional seperti kedokteran, dan mengeksplorasi arah produk baru seperti Agent. Dilaporkan bahwa Moonshot AI mulai membentuk tim produk medis sejak akhir tahun 2024 dan telah secara terbuka merekrut talenta dengan latar belakang medis, dengan tugas utama membangun basis pengetahuan medis untuk pelatihan model dan melakukan Reinforcement Learning from Human Feedback (RLHF). Saat ini, ekspansi ini masih dalam tahap eksplorasi awal, dan bentuk produk spesifik (seperti konsultasi C-end atau diagnosis B-end) belum ditentukan. Langkah ini dianggap sebagai upaya Moonshot AI untuk meningkatkan kemampuan produk Kimi dan meningkatkan retensi pengguna di pasar AI percakapan yang sangat kompetitif, terutama di tengah persaingan ketat dari DeepSeek, Tencent Yuanbao, dan Alibaba Quark. (Sumber: 36氪)

Setelah Baichuan, Kimi diam-diam melakukan ekspansi ke AI+Medis|Eksklusif Intelligent Emergence

Runway menunjukkan potensinya sebagai “simulator dunia”: Runway digambarkan sebagai “simulator dunia” yang mampu menyimulasikan evolusi sistem yang kompleks. Ia dapat menyimulasikan berbagai proses dinamis termasuk tindakan, evolusi sosial, pola iklim, alokasi sumber daya, kemajuan teknologi, interaksi budaya, sistem ekonomi, perkembangan politik, dinamika populasi, pertumbuhan perkotaan, dan perubahan ekologi. Deskripsi ini menyiratkan kemampuan kuat Runway dalam menghasilkan dan memprediksi skenario dinamis yang kompleks, yang mungkin diterapkan di berbagai bidang yang memerlukan pemodelan dan visualisasi sistem kompleks seperti pengembangan game, produksi film dan televisi, perencanaan kota, dan penelitian perubahan iklim. (Sumber: c_valenzuelab)

Runway menunjukkan potensinya sebagai "simulator dunia"

🧰 Alat

OpenAI menambahkan fitur ekspor PDF untuk laporan penelitiannya: OpenAI mengumumkan bahwa pengguna sekarang dapat mengekspor laporan penelitian mendalam mereka sebagai file PDF yang diformat dengan baik. PDF yang diekspor akan berisi tabel, gambar, kutipan dengan tautan, dan informasi sumber. Pengguna hanya perlu mengklik ikon bagikan dan memilih “Unduh sebagai PDF”, fitur ini berlaku untuk laporan penelitian baru maupun yang telah dibuat sebelumnya. Fitur ini memenuhi kebutuhan umum pengguna untuk berbagi dan mengarsipkan laporan. (Sumber: isafulf | EdwardSun0909 | gdb | op7418)

Platform agen AI Manus membuka pendaftaran sepenuhnya, menyediakan kuota penggunaan gratis harian: Platform agen AI Manus, yang sebelumnya sulit mendapatkan kode undangan, mengumumkan pembukaan pendaftaran sepenuhnya. Pengguna baru akan mendapatkan 300 poin gratis setiap hari dan bonus satu kali sebesar 1000 poin. Poin digunakan untuk menjalankan tugas, dengan konsumsi tergantung pada kompleksitas tugas, misalnya menulis artikel ribuan kata atau membuat kode game web menghabiskan sekitar 200 poin. Manus menawarkan berbagai paket langganan bulanan untuk memenuhi kebutuhan yang lebih tinggi. Sebelumnya, Manus menjalin kerja sama strategis dengan Alibaba Tongyi Qianwen, berencana untuk mengimplementasikan semua fungsinya pada model dan platform komputasi domestik. (Sumber: 36氪 | 量子位 | op7418)

Kode undangan pernah dijual seharga 100.000 yuan, Manus membuka pendaftaran hari ini

Kling 2.0 digunakan untuk pembuatan video DJ, menunjukkan ritme dan stabilitas yang baik: Pengguna SEIIIRU membagikan klip video DJ yang dibuat menggunakan model Kuaishou Kling 2.0, dan menggabungkannya dengan musik “シュワシュワレインボウ2” yang dihasilkan oleh Udio. Pengguna memberikan umpan balik bahwa Kling 2.0 menunjukkan ritme dan stabilitas yang baik saat menghasilkan video DJ, memberikan “rasa aman” dibandingkan dengan alat pembuatan video lainnya. Ini menunjukkan bahwa Kling memiliki potensi dalam skenario tertentu seperti visualisasi musik dan pembuatan konten video dinamis. (Sumber: Kling_ai)

Protokol AG-UI dirilis, bertujuan untuk menghubungkan AI Agent dengan lapisan interaksi pengguna: Tim CopilotKit merilis AG-UI, sebuah protokol berbasis peristiwa yang open source, dapat di-hosting sendiri, dan ringan, untuk memfasilitasi interaksi real-time yang kaya antara AI Agent dan antarmuka pengguna. AG-UI bertujuan untuk mengatasi masalah saat ini di mana sebagian besar Agent berfungsi sebagai alat otomatisasi backend, sehingga sulit untuk mencapai interaksi real-time yang lancar dengan pengguna. Ini mencapai koneksi tanpa batas antara backend AI (seperti OpenAI, CrewAI, LangGraph) dan frontend melalui HTTP/SSE/webhooks, mendukung pembaruan real-time, orkestrasi alat, status variabel bersama, batas keamanan, dan sinkronisasi frontend, memungkinkan pengembang untuk lebih mudah membangun AI Agent interaktif yang berkolaborasi dengan pengguna. (Sumber: Reddit r/LocalLLaMA)

AI menghasilkan Minecraft tanpa batas, pemain mengontrol secara mandiri dengan keyboard dan mouse!

Runway menunjukkan beragam aplikasi: dari perakitan suku cadang sepeda hingga desain font: Pengguna menunjukkan potensi aplikasi Runway dalam berbagai aspek. Jimei Yang menggunakan Runway untuk mewujudkan tugas pembuatan gambar “render sepeda berdasarkan suku cadang di IMG_1”, menunjukkan kemampuannya dalam memahami hubungan antar komponen dan melakukan kreasi gabungan. Dalam contoh lain, Yianni Mathioudakis menggunakan Runway untuk penelitian font, merender karakter melalui AI, dan memuji kemampuannya dalam mengontrol hasil output, menunjukkan aplikasi Runway di bidang desain dan tipografi. (Sumber: c_valenzuelab | c_valenzuelab)

Runway menunjukkan beragam aplikasi: dari perakitan suku cadang sepeda hingga desain font

YourBench diperbarui, mendukung pembuatan soal terbuka dan pilihan ganda: Alat YourBench sekarang mendukung pembuatan dua jenis soal: terbuka dan pilihan ganda. Pengguna hanya perlu mengatur question_type (opsi open-ended atau multi-choice) dalam konfigurasi untuk menjalankan alur kerja. Pembaruan ini memberikan fleksibilitas dan kontrol yang lebih besar kepada pengguna saat membangun tugas evaluasi, memungkinkan penyesuaian bentuk evaluasi sesuai kebutuhan spesifik, sehingga lebih baik melayani pengujian benchmark model besar dan pembuatan data sintetis. (Sumber: clefourrier | clefourrier)

YourBench diperbarui, mendukung pembuatan soal terbuka dan pilihan ganda

Alat AI Lovart dapat menghasilkan iklan video lengkap berdasarkan permintaan satu kalimat: Pengguna mencoba produk agen desain cerdas luar negeri Lovart AI. Hanya dengan memasukkan permintaan 50 kata, AI dapat menghasilkan gambar ID model, 11 gambar storyboard video, panduan pengambilan gambar untuk setiap storyboard dan video storyboard, dan akhirnya secara otomatis mengeditnya menjadi video lengkap. Ini menunjukkan potensi AI dalam mengotomatiskan alur kerja produksi iklan video, mulai dari konsepsi kreatif hingga output produk akhir, yang sangat menyederhanakan proses pembuatan. (Sumber: op7418)

Google Gemini menunjukkan kinerja luar biasa dalam merangkum bab video: Hamel Husain membagikan pengalamannya menggunakan Google Gemini untuk merangkum bab-bab video YouTube, menyebutnya “sekali jadi” menyelesaikan tugas dengan akurasi yang menakjubkan, ini adalah pertama kalinya ia melihat model mampu melakukan hal ini. Ini menyoroti kemampuan kuat Gemini 2.5 dalam pemahaman video dan peringkasan konten, menyediakan alat yang efisien bagi pengguna untuk dengan cepat memahami informasi inti video. (Sumber: HamelHusain)

Kagi Translate melampaui Google Translate dalam kualitas terjemahan: Pengguna Vladquant membagikan ulasan positif tentang Kagi Translate, menganggap kualitas terjemahannya jauh melampaui Google Translate. Ia membuktikan keunggulan Kagi Translate melalui contoh spesifik (tidak dirinci) dan mendorong orang lain untuk mencobanya. Ini menunjukkan bahwa di bidang terjemahan mesin, alat-alat baru melalui model atau jalur teknologi yang berbeda, berpotensi menantang raksasa yang ada dalam aspek-aspek tertentu. (Sumber: vladquant)

Kagi Translate melampaui Google Translate dalam kualitas terjemahan

Google Developer Program (GDP) menawarkan sumber daya AI dan cloud dengan harga terjangkau: Google Developer Program (GDP) dengan biaya tahunan $299, menawarkan berbagai manfaat termasuk voucher AI Studio senilai $50, voucher GCP senilai $500 (ditambah $500 lagi setelah mendapatkan sertifikat), dan hingga 30 ruang kerja Firebase Studio. Firebase Studio mengintegrasikan fungsi AI seperti Gemini 2.5 Pro, penggunaan model tampaknya tidak terbatas, dan berjalan berbasis cloud, mendukung pekerjaan berkelanjutan di latar belakang. Program ini dianggap memiliki nilai yang tinggi bagi pengembang yang ingin memanfaatkan sumber daya AI dan cloud Google. (Sumber: algo_diver)

Google Developer Program (GDP) menawarkan sumber daya AI dan cloud dengan harga terjangkau

📚 Belajar

Tinjauan komprehensif pertama “Test-Time Scaling (TTS)” dirilis, menginterpretasikan secara sistematis mekanisme pemikiran mendalam AI: Sebuah tinjauan komprehensif yang diselesaikan bersama oleh para peneliti dari berbagai institusi termasuk City University of Hong Kong, MILA, Renmin University Gaoling School of Artificial Intelligence, Salesforce AI Research, dan Stanford University, secara sistematis membahas teknologi perluasan pada tahap inferensi (Test-Time Scaling, TTS) untuk Large Language Models. Makalah ini mengusulkan kerangka analisis empat dimensi “What-How-Where-How Well” untuk menyusun teknologi TTS yang ada (seperti Chain of Thought CoT, self-consistency, search, verification), merangkum jalur teknologi utama seperti strategi paralel, evolusi bertahap, penalaran pencarian, dan optimasi intrinsik. Tinjauan ini bertujuan untuk menyediakan peta jalan panorama untuk kemampuan “pemikiran mendalam” AI, dan membahas aplikasi TTS dalam skenario seperti penalaran matematika, tanya jawab terbuka, evaluasi, dan arah masa depan, seperti penerapan ringan dan integrasi pembelajaran berkelanjutan. (Sumber: WeChat)

Terobosan Batasan Inferensi Model Besar! Tinjauan Panorama Pertama "Test-Time Scaling", Menganalisis Secara Mendalam Cara Berpikir Mendalam AI

Makalah ICLR 2025 OmniKV: Mengusulkan metode inferensi teks panjang yang efisien tanpa membuang Token: Menanggapi masalah tingginya biaya memori KV Cache dalam inferensi Large Language Model (LLM) dengan konteks panjang, para peneliti dari Ant Group dan institusi lainnya menerbitkan makalah di ICLR 2025, mengusulkan metode OmniKV. Metode ini memanfaatkan wawasan “kesamaan perhatian antar-lapisan” di mana titik fokus pada Token penting memiliki kesamaan yang tinggi di antara lapisan Transformer yang berbeda. OmniKV hanya menghitung perhatian penuh pada beberapa “Filter layer” untuk mengidentifikasi subset Token penting, sementara lapisan lain menggunakan kembali indeks ini untuk perhitungan perhatian yang jarang dan memindahkan KV Cache dari lapisan non-Filter ke CPU. Eksperimen menunjukkan bahwa OmniKV tidak perlu membuang Token, menghindari hilangnya informasi penting, dan mencapai peningkatan throughput 1,7 kali lipat dibandingkan vLLM pada LightLLM, terutama cocok untuk skenario inferensi kompleks seperti CoT dan dialog multi-putaran. (Sumber: WeChat)

ICLR 2025 | Ucapkan Selamat Tinggal pada Pembuangan Token: Metode Akselerasi Inferensi Teks Panjang yang Lebih Cocok untuk CoT dan Dialog Multi-Putaran

Profesor NYU Kyunghyun Cho mengumumkan silabus kursus Machine Learning 2025, menekankan teori dasar: Profesor Kyunghyun Cho dari New York University membagikan silabus dan materi kuliah untuk kursus pascasarjana Machine Learning tahun ajaran 2025. Kursus ini sengaja menghindari pembahasan mendalam tentang Large Language Models (LLM), dan sebaliknya berfokus pada algoritma Machine Learning dasar yang berpusat pada Stochastic Gradient Descent (SGD), serta mendorong mahasiswa untuk mempelajari makalah klasik dan menelusuri kembali perkembangan teori. Praktik ini mencerminkan tren umum di perguruan tinggi saat ini dalam pendidikan AI yang menekankan teori dasar, seperti kursus Stanford CS229 dan MIT 6.790 yang berpusat pada model klasik dan prinsip matematika. Profesor Cho berpendapat bahwa di era iterasi teknologi yang cepat, penguasaan teori dasar dan intuisi matematika lebih penting daripada mengejar model terbaru, yang membantu menumbuhkan pemikiran kritis mahasiswa dan kemampuan beradaptasi terhadap perubahan di masa depan. (Sumber: WeChat)

Profesor NYU Mengumumkan Silabus Kursus Machine Learning 2025: Semua Orang Mengejar LLM, Mengapa Perguruan Tinggi Bersikeras pada Teori Dasar?

Kiat belajar AI: Hindari memasukkan konten dinamis dalam dialog multi-putaran untuk melindungi KVCache: Saat melakukan dialog multi-putaran dengan AI, terutama dalam situasi dengan daya komputasi terbatas, usahakan untuk menghindari memasukkan konten dinamis dalam konteks, seperti stempel waktu saat ini. Karena konten dinamis akan menyebabkan urutan Token yang dihasilkan berbeda setiap kali, memaksa model untuk menghitung ulang KVCache seluruh urutan, sehingga tidak dapat menggunakan kembali cache secara efektif dan meningkatkan biaya komputasi. Operasi UI yang kompleks, seperti memberi nama obrolan di tengah sesi, juga dapat menyebabkan KVCache menjadi tidak valid. Salah satu cara untuk menilai apakah KVCache tidak valid adalah dengan mengamati fluktuasi memori selama inferensi; fluktuasi besar yang sering terjadi biasanya berarti KVCache tidak digunakan kembali secara efektif. (Sumber: karminski3)

Kiat belajar AI: Hindari memasukkan konten dinamis dalam dialog multi-putaran untuk melindungi KVCache

Profesor Zhong Yiwu dari School of Intelligence, Peking University, merekrut mahasiswa doktoral untuk arah penelitian penalaran multimodal/kecerdasan berwujud (embodied intelligence): Profesor Zhong Yiwu dari School of Intelligence, Peking University (akan menjabat sebagai asisten profesor pada tahun 2026) merekrut mahasiswa doktoral untuk masuk pada September 2026, dengan arah penelitian meliputi pembelajaran visual-bahasa, model bahasa besar multimodal, penalaran kognitif, komputasi efisien, dan agen kecerdasan berwujud. Profesor Zhong meraih gelar doktor dari University of Wisconsin-Madison dan saat ini menjadi peneliti pascadoktoral di The Chinese University of Hong Kong. Ia telah menerbitkan banyak makalah di konferensi terkemuka seperti CVPR dan ICCV, dengan kutipan Google Scholar lebih dari 2500 kali. Pelamar harus memiliki antusiasme untuk penelitian, dasar matematika dan pengalaman pemrograman yang kuat, dan pelamar dengan publikasi makalah akan diutamakan. (Sumber: WeChat)

Pendaftaran PhD | Profesor Zhong Yiwu dari School of Intelligence, Peking University, Merekrut Mahasiswa Doktoral untuk Arah Penelitian Penalaran Multimodal/Kecerdasan Berwujud

Menggunakan AI untuk mempelajari “kemampuan memecahkan masalah” secara sistematis: Pengguna “周知” (Zhōu Zhī) membagikan prosesnya dalam memahami secara mendalam “kemampuan memecahkan masalah” melalui metode penggunaan AI yang bertahap. Mulai dari awalnya menggunakan AI sebagai mesin pencari untuk mendapatkan informasi permukaan, kemudian memberikan peran ahli seperti Feynman kepada AI untuk mengajukan pertanyaan terstruktur, hingga memanfaatkan prompt bawaan yang dirancang dengan cermat (seperti prompt Cool Teacher dari Li Jigang) agar AI memberikan penjelasan pengetahuan yang sistematis dan multidimensi (definisi, aliran, formula, sejarah, konotasi, ekstensi, diagram sistem, nilai, sumber daya). Akhirnya, dengan meminta AI untuk mengekstrak, mengatur, memahami informasi ini, dan menggabungkannya dengan skenario aplikasi praktis (seperti belajar menulis prompt AI), konsep abstrak diubah menjadi kerangka kerja dan panduan tindakan yang dapat dioperasikan. Penulis berpendapat bahwa kemampuan memecahkan masalah yang sebenarnya terletak pada kemampuan AI (atau manusia) untuk menangkap esensi masalah, menemukan arah solusi (pengetahuan), memiliki kemampuan eksekusi yang kuat untuk memverifikasi dan menyelesaikan (tindakan), dan mencapai kesatuan pengetahuan dan tindakan melalui iterasi tinjauan. (Sumber: WeChat)

Saya "Benar-Benar" Memahami dengan AI: Apa Itu Kemampuan Memecahkan Masalah

Hugging Face meluncurkan fitur nested collections, meningkatkan kemampuan organisasi model dan dataset: Hugging Face Hub menambahkan fitur baru yang memungkinkan pengguna untuk membuat “sub-koleksi (Collections within Collections)” di dalam “koleksi (Collections)”. Pembaruan ini memungkinkan pengguna untuk mengatur dan mengelola model, dataset, dan sumber daya lainnya di Hugging Face dengan lebih fleksibel dan terstruktur, meningkatkan kemudahan penggunaan platform dan efisiensi penemuan konten. (Sumber: reach_vb)

Hugging Face meluncurkan fitur nested collections, meningkatkan kemampuan organisasi model dan dataset

💼 Bisnis

Valuasi pendanaan mesin pencari AI Perplexity mungkin mencapai $14 miliar, berencana mengembangkan browser Comet: Perusahaan mesin pencari AI Perplexity dilaporkan sedang dalam negosiasi putaran pendanaan baru, diharapkan mengumpulkan $500 juta, dipimpin oleh Accel, dengan valuasi perusahaan mungkin mencapai hampir $14 miliar, meningkat tajam dari $3 miliar pada Juni tahun lalu. Perplexity terkenal karena kemampuannya memberikan jawaban ringkasan dengan tautan sumber, dan direkomendasikan oleh CEO Nvidia Jensen Huang (Nvidia juga merupakan investornya). Pendapatan berulang tahunan perusahaan telah mencapai $120 juta. Perplexity juga berencana meluncurkan browser web bernama Comet, dengan maksud menantang Google Chrome dan Apple Safari. Meskipun menghadapi persaingan dari OpenAI, Google, Anthropic, dan lainnya di bidang pencarian AI, serta tuntutan hukum hak cipta (seperti dari Dow Jones dan New York Times), Perplexity terus berekspansi secara aktif. (Sumber: 36氪 | 量子位)

Mesin pencari AI yang direkomendasikan oleh Jensen Huang, valuasi mendekati seratus miliar

“OHand Technologies” menyelesaikan putaran pendanaan B++ senilai hampir 100 juta yuan, mempercepat R&D dan peluncuran tangan robotik cekatan: “OHand Technologies”, yang berfokus pada R&D teknologi robotika dan ilmu otak, baru-baru ini menyelesaikan putaran pendanaan B++ senilai hampir 100 juta yuan, yang diinvestasikan bersama oleh Infinity Capital, Zhejiang Development Asset Management Co., Ltd. di bawah Zhejiang State-owned Capital Operation Co., Ltd., dan Womeda Capital. Dana tersebut akan digunakan untuk mempercepat R&D teknologi tangan robotik cekatan, mendorong peluncuran produk baru, pembangunan kapasitas produksi, dan ekspansi pasar. Produk inti OHand Technologies meliputi seri tangan robotik cekatan ROhand untuk robot berwujud dan otomatisasi industri, serta tangan bionik cerdas OHand™ untuk pasien amputasi. Perusahaan menekankan pengurangan biaya melalui R&D komponen inti secara mandiri. Harga jual tangan bionik cerdas OHand™ telah ditekan di bawah 100.000 yuan dan masuk dalam daftar subsidi Federasi Penyandang Disabilitas Shanghai, sambil secara aktif memperluas pasar luar negeri. Generasi baru tangan robotik cekatan dengan kemampuan persepsi seperti sentuhan diperkirakan akan diluncurkan bulan ini. (Sumber: 36氪)

「OHand Technologies」 menyelesaikan putaran pendanaan B++ senilai hampir 100 juta yuan, generasi kedua tangan robotik cekatan akan segera diluncurkan|36Kr First Release

Proyek infrastruktur AI “Stargate” SoftBank-OpenAI senilai seratus miliar dolar terhambat pendanaannya karena kebijakan tarif Trump: Proyek “Stargate” SoftBank Group, yang semula berencana menginvestasikan $100 miliar (meningkat menjadi $500 miliar dalam empat tahun ke depan) untuk bekerja sama dengan OpenAI dalam membangun infrastruktur AI, menghadapi hambatan besar dalam pendanaan. Kebijakan tarif pemerintahan Trump membawa risiko ekonomi, menyebabkan negosiasi pendanaan dengan bank dan lembaga ekuitas swasta terhenti. Biaya modal yang lebih tinggi, kekhawatiran tentang kemungkinan resesi ekonomi global yang menyebabkan penurunan permintaan pusat data, dan munculnya model AI berbiaya rendah seperti DeepSeek, semuanya menambah keraguan investor. Meskipun SoftBank masih melanjutkan investasi $30 miliar di OpenAI dan telah memulai sebagian pekerjaan konstruksi (seperti pusat data di Abilene, Texas), prospek pendanaan keseluruhan proyek masih belum jelas. (Sumber: 36氪)

Terdampak kebijakan tarif Trump, pendanaan proyek "Stargate" SoftBank-OpenAI terhambat

🌟 Komunitas

Diskusi hangat apakah AI menghilangkan “perjuangan” yang diperlukan dalam proses belajar: Pengguna Reddit memulai diskusi tentang apakah kemudahan alat AI dalam pengkodean, penulisan, pembelajaran, dll., membuat pengguna melewatkan proses “perjuangan” yang diperlukan, sehingga memengaruhi pemahaman mendalam terhadap pengetahuan. Dalam komentar, banyak pengguna berpendapat bahwa meskipun AI adalah alat yang ampuh, AI tidak boleh diandalkan secara membabi buta. Beberapa pengguna menekankan bahwa pengguna perlu memahami konten yang dihasilkan AI dan bertanggung jawab atasnya, AI lebih seperti “rekan kerja junior yang terkadang pintar terkadang bodoh”. Pengguna lain menyatakan bahwa mereka terutama menggunakan AI untuk meningkatkan efisiensi keterampilan yang sudah diketahui, bukan untuk mempelajari hal-hal baru, dan menyarankan pengguna untuk merenungkan penggunaan AI mereka, menghindari “outsourcing otak” yang mengorbankan pengembangan diri jangka panjang. Ada juga pandangan bahwa AI terutama menghemat banyak waktu dalam mencari dan menyaring informasi, terutama saat menangani masalah yang kompleks atau non-standar. (Sumber: Reddit r/ArtificialInteligence

Diskusi tentang keberlanjutan penggunaan gratis alat AI dan nilai data pengguna: Sebuah postingan di Reddit memicu diskusi tentang alasan penggunaan gratis alat AI saat ini dan kemungkinan arahnya di masa depan. Pembuat postingan berpendapat bahwa saat ini perusahaan AI menyediakan layanan gratis atau murah untuk persaingan pasar dan akuisisi pengguna, begitu lanskap pasar stabil, mereka mungkin akan menaikkan harga, misalnya Claude Code sudah mulai membatasi kuota gratis. Dalam komentar, ada pandangan bahwa perusahaan AI mengumpulkan data pengguna, memperoleh kekayaan intelektual, dan membangun profil pengguna melalui layanan gratis, informasi ini sendiri merupakan nilai yang sangat besar. Komentar lain memprediksi bahwa di masa depan layanan AI mungkin akan seperti penyedia listrik, dengan persaingan harga, atau model B2B akan menjadi arus utama. Sementara itu, ada juga pengguna yang berpikir sebaliknya, berpendapat bahwa data pengguna sangat penting untuk melatih AI, mungkin seharusnya perusahaan AI yang membayar pengguna. (Sumber: Reddit r/ArtificialInteligence

Efek model pembuatan video seperti Sora dan Veo dikeluhkan pengguna, mengharapkan kualitas lebih tinggi: Beberapa pengguna media sosial menyatakan ketidakpuasan terhadap efek model pembuatan video utama saat ini seperti Sora dan Google Veo 2, menganggap bahwa model-model tersebut masih kurang dalam konsistensi karakter, pemahaman instruksi dasar seperti “berjalan ke arah kamera”, bahkan merasa kemampuan model telah “dilemahkan”. Pengguna mengharapkan kemampuan pembuatan gambar dan video (dengan suara) berkualitas lebih tinggi, dan secara bercanda berharap Veo 3 dapat menyelesaikan masalah ini. Hal ini mencerminkan kesenjangan antara ekspektasi tinggi pengguna terhadap teknologi pembuatan video AI dan tingkat teknologi saat ini. (Sumber: scaling01)

Komentar John Carmack: Optimalisasi perangkat lunak dan potensi perangkat keras lama diremehkan: Menanggapi eksperimen pemikiran “bagaimana jika manusia lupa cara membuat CPU”, John Carmack berkomentar bahwa jika optimalisasi perangkat lunak benar-benar dihargai, banyak aplikasi di dunia dapat berjalan pada perangkat keras yang sudah usang. Sinyal harga pasar untuk daya komputasi yang langka akan mendorong optimalisasi semacam ini, misalnya, menyusun ulang produk berbasis layanan mikro yang diinterpretasikan menjadi basis kode asli monolitik. Tentu saja, ia juga mengakui bahwa tanpa daya komputasi yang murah dan dapat diskalakan, kemunculan produk inovatif akan menjadi lebih jarang. (Sumber: ID_AA_Carmack)

Komentar John Carmack: Optimalisasi perangkat lunak dan potensi perangkat keras lama diremehkan

Kebocoran prompt sistem Claude menarik perhatian industri, mengungkap kompleksitas kontrol AI: Prompt sistem model bahasa besar Claude milik Anthropic dilaporkan bocor, dengan konten sepanjang sekitar 25.000 Token, jauh melebihi pemahaman konvensional, dan berisi banyak instruksi spesifik, seperti permainan peran (asisten cerdas dan ramah), kerangka kerja etika keamanan (prioritas keselamatan anak, larangan konten berbahaya), kepatuhan hak cipta yang ketat (larangan menyalin materi berhak cipta), mekanisme pemanggilan alat (MCP mendefinisikan 14 alat), dan pengecualian perilaku tertentu (area buta pengenalan wajah). Kebocoran ini tidak hanya mengungkap “rekayasa batasan” kompleks yang digunakan oleh AI terkemuka untuk memastikan keamanan, kepatuhan, dan pengalaman pengguna, tetapi juga memicu diskusi tentang transparansi AI, keamanan, kekayaan intelektual, dan prompt itu sendiri sebagai penghalang teknis. Konten yang bocor sangat berbeda dari versi prompt yang disederhanakan yang diumumkan secara resmi, menyoroti tarik-ulur antara pengungkapan informasi dan perlindungan teknologi inti oleh perusahaan AI. (Sumber: 36氪)

Kebocoran prompt Claude 25.000 kata, saya melihat rahasia AI, dan lelucon AI

Terdapat kesenjangan antara skor tinggi AI dalam tanya jawab medis dan efektivitas aplikasi di dunia nyata: Sebuah penelitian dari Universitas Oxford meminta 1298 orang awam untuk menyimulasikan skenario konsultasi medis, menilai tingkat keparahan penyakit dan memilih cara penanganan dengan bantuan AI seperti GPT-4o dan Llama 3. Hasilnya menunjukkan bahwa meskipun model AI secara individual memiliki akurasi diagnosis yang tinggi saat diuji (misalnya GPT-4o mengidentifikasi penyakit 94,7%), proporsi identifikasi penyakit yang benar oleh pengguna setelah menggunakan bantuan AI justru turun menjadi 34,5%, lebih rendah dari kelompok kontrol yang tidak menggunakan AI. Penelitian menunjukkan bahwa deskripsi pengguna yang tidak lengkap, serta pemahaman dan adopsi saran AI yang kurang memadai menjadi penyebab utama. Hal ini menunjukkan bahwa skor tinggi AI dalam pengujian standar tidak sepenuhnya setara dengan efektivitas aplikasi klinis di dunia nyata, dan环节 “kolaborasi manusia-mesin” menjadi kendala utama. (Sumber: 36氪)

AI Menyapu Bersih Tanya Jawab Medis, Menang Besar? Tim Universitas Oxford Membuktikan Kelemahan Klinis AI

💡 Lainnya

Laporan QuestMobile: Pasar aplikasi AI menunjukkan tiga bentuk aplikasi, asisten produsen ponsel memiliki aktivitas tinggi: Laporan pasar aplikasi AI global 2025 yang dirilis oleh QuestMobile menunjukkan bahwa hingga Maret 2025, aplikasi AI terutama dibagi menjadi aplikasi asli seluler (591 juta pengguna aktif bulanan), plugin aplikasi seluler (In-App AI, 584 juta pengguna aktif bulanan), dan aplikasi web PC (209 juta pengguna aktif bulanan). Di antaranya, asisten AI komprehensif, mesin pencari AI, dan desain kreatif AI adalah jalur dengan pangsa tertinggi di setiap ujung. Asisten AI asli dari produsen ponsel menunjukkan kinerja yang menonjol, Huawei Xiaoyi (157 juta pengguna aktif bulanan) dan OPPO Xiaobu Assistant (148 juta pengguna aktif bulanan) hanya berada di belakang DeepSeek (193 juta pengguna aktif bulanan), melampaui Doubao (115 juta pengguna aktif bulanan). Laporan tersebut menunjukkan bahwa mesin pencari AI, asisten AI komprehensif, interaksi sosial AI, dan konsultan profesional AI telah menjadi empat jalur dengan ratusan juta pengguna. (Sumber: 36氪)

Laporan Pasar Aplikasi AI Global QuestMobile 2025: Tiga Jenis Aplikasi "Empat Jalur Ratusan Juta Pengguna", Pengguna Aktif Bulanan Xiaoyi dan Xiaobu Assistant Hanya di Bawah DeepSeek

Produksi iklan AI: Merek besar aktif mencoba, tetapi tantangan teknis dan etika tetap ada: Laporan CTR menunjukkan bahwa lebih dari separuh pengiklan menggunakan AIGC dalam pembuatan konten kreatif, dan hampir 20% menggunakan AI di lebih dari 50% tahapan pembuatan video. Merek besar seperti Lenovo, Taotian, dan JD.com sering mencoba iklan AI untuk menunjukkan inovasi atau mencapai efek visual tertentu. Perusahaan periklanan seperti WPP dan Publicis juga merangkul AI, melatih tim atau mengembangkan alat. Namun, produksi iklan AI masih menghadapi tantangan: secara teknis, masalah seperti gambar yang tidak stabil, wajah karakter yang mudah berubah, dan penanganan dinamika kompleks yang buruk memerlukan intervensi manual; secara opini publik, penekanan berlebihan pada teknologi atau kurangnya ketulusan kreatif mudah menimbulkan reaksi negatif; secara hukum dan etika, hak cipta materi, perlindungan privasi, kepemilikan hak cipta konten yang dihasilkan AI, dan tanggung jawab pelanggaran belum memiliki standar yang seragam. Studi kasus yang sukses seringkali menekankan penyampaian kepedulian “kemanusiaan”, memanfaatkan kelebihan teknis sambil menghindari kekurangan, dan selaras dengan citra merek. (Sumber: 36氪)

Serbuan Iklan AI: Siapa yang Suka Menggunakannya, Bagaimana Cara Menggunakannya, Apakah Benar-Benar Berguna?

100 ilmuwan menandatangani “Konsensus Singapura”, mengusulkan pedoman penelitian keamanan AI global: Selama Konferensi Internasional tentang Pembelajaran Representasi (ICLR) yang diadakan di Singapura, lebih dari 100 ilmuwan dari seluruh dunia (termasuk Yoshua Bengio, Stuart Russell, dll.) bersama-sama merilis “Konsensus Singapura tentang Prioritas Penelitian Keamanan AI Global”. Dokumen ini bertujuan untuk memberikan panduan bagi para peneliti AI, memastikan bahwa teknologi AI “dapat dipercaya, andal, dan aman”. Konsensus tersebut mengusulkan tiga kategori penelitian: mengidentifikasi risiko (seperti mengembangkan metrologi untuk mengukur potensi bahaya, melakukan penilaian risiko kuantitatif), membangun sistem AI dengan cara menghindari risiko (seperti membuat AI andal melalui desain, menentukan maksud program dan efek samping yang tidak diinginkan, mengurangi halusinasi, meningkatkan ketahanan terhadap manipulasi), dan mempertahankan kontrol atas sistem AI (seperti memperluas langkah-langkah keamanan yang ada, mengembangkan teknologi baru untuk mengendalikan sistem AI kuat yang mungkin secara aktif merusak upaya kontrol). Langkah ini bertujuan untuk mengatasi tantangan keamanan yang ditimbulkan oleh perkembangan pesat kemampuan AI dan menyerukan peningkatan investasi dalam penelitian keamanan. (Sumber: 36氪)

Apakah AI Mulai Kehilangan Kendali? 100 Ilmuwan Bersatu Merilis Konsensus Keamanan AI Global Pertama