Kata Kunci:Kemampuan inferensi AI, Model bahasa besar, Penelitian AI Apple, Dialog multi-putaran, Perhatian log-linear, AI medis, Komersialisasi AI, Tes menara Hanoi untuk inferensi AI, Kerentanan keamanan Claude 4 Opus, Langganan berbayar asisten AI Meta, Kerangka kerja Miras Google, Strategi AI ByteDance
🔥 Fokus
Laporan penelitian kemampuan penalaran AI Apple memicu perdebatan hangat, diragukan bukan benar-benar “berpikir”: Makalah penelitian terbaru Apple, “The Illusion of Thought,” melalui pengujian teka-teki seperti Menara Hanoi, menunjukkan bahwa model bahasa besar (LLM) termasuk o3-mini, DeepSeek-R1, dan Claude 3.7, dalam menangani masalah kompleks, “penalaran” mereka lebih seperti pencocokan pola daripada pemikiran sejati. Ketika kompleksitas tugas melebihi ambang batas tertentu, kinerja model akan runtuh total, dengan akurasi turun menjadi nol. Penelitian juga menemukan bahwa bahkan dengan menyediakan algoritma pemecahan masalah, kinerja model tidak meningkat secara signifikan, dan mengamati fenomena “skala terbalik upaya penalaran” (reasoning effort reverse scaling), yaitu model akan secara aktif mengurangi pemikiran ketika mendekati titik keruntuhan. Laporan ini memicu diskusi luas, dengan beberapa pihak berpendapat bahwa Apple meremehkan pesaing karena kemajuan AI-nya yang lambat, sementara yang lain menunjukkan bahwa metodologi makalah tersebut diragukan, misalnya Menara Hanoi bukanlah standar pengujian kemampuan penalaran yang ideal, dan model mungkin “menyerah” karena tugas yang terlalu rumit daripada kurangnya kemampuan. Meskipun demikian, penelitian ini menekankan keterbatasan LLM saat ini dalam dependensi jangka panjang dan perencanaan kompleks, serta menyerukan perhatian pada proses evaluasi kemampuan penalaran, bukan hanya melihat jawaban akhir (Sumber: jonst0kes, omarsar0, Teknium1, nrehiew_, pmddomingos, Yuchenj_UW, scottastevenson, scaling01, giffmana, nptacek, andersonbcdefg, jeremyphoward, JeffLadish, cognitivecompai, colin_fraser, iScienceLuvr, slashML, Reddit r/MachineLearning, Reddit r/LocalLLaMA, Reddit r/artificial, Reddit r/artificial)

Kemampuan percakapan multi-giliran model AI besar dipertanyakan, kinerja rata-rata menurun 39%: Penelitian terbaru melalui lebih dari 200.000 eksperimen simulasi mengevaluasi kinerja 15 model besar teratas dalam percakapan multi-giliran, menemukan bahwa kinerja semua model dalam percakapan multi-giliran secara signifikan lebih rendah daripada percakapan satu giliran, dengan penurunan rata-rata 39% dalam enam tugas generasi. Penelitian menunjukkan bahwa model besar cenderung mencoba menghasilkan solusi akhir terlalu dini pada giliran pertama, dan mengandalkan kesimpulan awal ini dalam percakapan berikutnya. Begitu arahnya salah, prompt berikutnya sulit untuk dikoreksi, fenomena ini disebut “dialogue amnesia”. Ini berarti bahwa ketika pengguna berinteraksi dengan model besar dalam beberapa giliran untuk secara bertahap menyempurnakan jawaban, jika jawaban giliran pertama bias, lebih baik memulai kembali percakapan. Penelitian ini menantang tolok ukur saat ini yang terutama mengevaluasi kinerja model berdasarkan percakapan satu giliran (Sumber: 新智元)

MIT dan institusi lain mengusulkan mekanisme atensi log-linear, bertujuan untuk meningkatkan efisiensi pemrosesan sekuens panjang: Peneliti dari MIT, Princeton, CMU, dan penulis Mamba, Tri Dao, bersama-sama mengusulkan mekanisme baru yang disebut “Log-Linear Attention”. Mekanisme ini dengan memperkenalkan struktur khusus segmen Fenwick tree ke dalam matriks mask M, bertujuan untuk mengoptimalkan kompleksitas komputasi atensi pada panjang sekuens T menjadi O(TlogT), dan mengurangi kompleksitas memori menjadi O(logT). Metode ini dapat diterapkan secara mulus pada berbagai model atensi linear seperti Mamba-2 dan Gated DeltaNet, melalui kernel Triton yang disesuaikan untuk mencapai eksekusi perangkat keras yang efisien. Eksperimen menunjukkan bahwa Log-Linear Attention, sambil mempertahankan efisiensi tinggi, menunjukkan peningkatan kinerja pada tugas-tugas seperti ingatan asosiatif multi-kueri dan pemodelan teks panjang, diharapkan dapat mengatasi bottleneck kompleksitas kuadratik mekanisme atensi tradisional dalam memproses sekuens panjang (Sumber: 新智元, TheTuringPost)

Google mengusulkan kerangka kerja Miras dan tiga model sekuens baru, menantang Transformer: Tim peneliti Google mengusulkan kerangka kerja baru bernama Miras, yang bertujuan untuk menyatukan perspektif model sekuens seperti Transformer dan RNN, menganggapnya sebagai sistem memori asosiatif yang mengoptimalkan “tujuan memori intrinsik” tertentu (yaitu bias atensi). Kerangka kerja ini menekankan “gerbang retensi” daripada “gerbang pelupaan”, dan memperkenalkan empat dimensi desain utama termasuk bias atensi dan arsitektur memori. Berdasarkan kerangka kerja ini, Google merilis tiga model baru: Moneta, Yaad, dan Memora. Model-model ini menunjukkan kinerja yang sangat baik dalam pemodelan bahasa, penalaran akal sehat, dan tugas-tugas padat memori. Misalnya, Moneta meningkatkan metrik PPL pemodelan bahasa sebesar 23%, dan Yaad melampaui Transformer sebesar 7,2% dalam akurasi penalaran akal sehat. Model-model ini memiliki jumlah parameter 40% lebih sedikit dan kecepatan pelatihan 5-8 kali lebih cepat daripada RNN, menunjukkan potensi untuk melampaui Transformer pada tugas-tugas tertentu (Sumber: 新智元)

🎯 Dinamika
Matematikawan terkemuka secara rahasia menguji o4-mini, AI menunjukkan kemampuan penalaran matematis yang luar biasa: Baru-baru ini, 30 matematikawan terkenal dunia mengadakan pertemuan rahasia di Berkeley, California, AS, untuk menguji kemampuan matematika model besar penalaran OpenAI, o4-mini, selama dua hari. Hasilnya menunjukkan bahwa model tersebut mampu menyelesaikan beberapa masalah matematika yang sangat menantang, kinerjanya membuat para matematikawan yang hadir terkejut, menyebutnya “mendekati jenius matematika”. o4-mini tidak hanya dapat dengan cepat menguasai literatur bidang terkait, tetapi juga dapat secara mandiri mencoba menyederhanakan masalah dan akhirnya memberikan solusi yang benar dan kreatif. Pengujian ini menyoroti potensi besar AI dalam penalaran matematika yang kompleks, sekaligus memicu diskusi tentang kepercayaan diri AI yang berlebihan dan peran matematikawan di masa depan. (Sumber: 36氪)
Penelitian AI mengungkap mekanisme reward reinforcement learning: proses lebih penting daripada hasil, jawaban yang salah juga dapat meningkatkan model: Peneliti dari Universitas Renmin dan Tencent menemukan bahwa model bahasa besar memiliki ketahanan (robustness) terhadap noise pada reward dalam reinforcement learning. Bahkan jika sebagian reward dibalik (misalnya, jawaban benar mendapat skor 0, jawaban salah mendapat skor 1), kinerja model pada tugas hilir (downstream task) hampir tidak terpengaruh. Penelitian berpendapat bahwa kunci peningkatan kemampuan model oleh reinforcement learning terletak pada memandu model untuk menghasilkan “proses berpikir” berkualitas tinggi, bukan hanya memberi reward pada jawaban yang benar. Dengan memberi reward pada frekuensi kemunculan kata kunci pemikiran (Reasoning Pattern Reward, RPR) dalam output model, bahkan tanpa mempertimbangkan kebenaran jawaban, kinerja model pada tugas seperti matematika dapat ditingkatkan secara signifikan. Ini menunjukkan bahwa peningkatan AI lebih banyak berasal dari mempelajari jalur pemikiran yang tepat, sedangkan kemampuan dasar pemecahan masalah telah diperoleh pada tahap pra-pelatihan. Penemuan ini dapat membantu meningkatkan kalibrasi model reward dan meningkatkan kemampuan model kecil untuk memperoleh pemikiran melalui reinforcement learning dalam tugas terbuka (Sumber: 36氪, teortaxesTex)

Aplikasi medis AI semakin cepat, model seperti DeepSeek membantu seluruh alur diagnosis dan pengobatan: Model besar AI semakin cepat merambah industri medis, mencakup berbagai环节 seperti penelitian ilmiah, konsultasi edukasi publik, manajemen pasca-diagnosis, hingga diagnosis berbantu. DeepSeek, misalnya, telah digunakan oleh ratusan rumah sakit untuk bantuan penelitian. Perusahaan seperti Ant Financial Digital, Neusoft Group, dan iFlytek telah meluncurkan model besar vertikal medis dan solusi, seperti Ant Group yang bekerja sama dengan Rumah Sakit Renji Shanghai untuk menciptakan agen AI spesialis, dan Neusoft Group yang meluncurkan entitas pemberdaya AI “Tianyi” yang mencakup delapan skenario medis utama. Meskipun prospek aplikasi AI di bidang medis luas, tantangan seperti masalah “halusinasi”, kualitas dan keamanan data, serta model bisnis yang belum jelas masih ada. Saat ini, penyediaan penyebaran privat melalui perangkat all-in-one menjadi salah satu arah eksplorasi komersialisasi. (Sumber: 36氪)

Salah satu pendiri OpenAI yang menghilang, Ilya Sutskever, muncul di pidato kelulusan Universitas Toronto, membahas aturan bertahan hidup di era AI: Mantan Chief Scientist dan salah satu pendiri OpenAI, Ilya Sutskever, tampil di depan publik untuk pertama kalinya setelah meninggalkan OpenAI, menerima gelar doktor kehormatan bidang sains dari almamaternya, Universitas Toronto, dan memberikan pidato. Ia memprediksi bahwa AI pada akhirnya akan dapat menyelesaikan semua hal yang dapat dilakukan manusia, dan menekankan pentingnya mentalitas menerima kenyataan dan fokus pada perbaikan saat ini. Ia percaya bahwa tantangan yang dibawa AI belum pernah terjadi sebelumnya dan sangat serius, dan masa depan akan sangat berbeda dari hari ini. Ia mendorong para lulusan untuk memperhatikan perkembangan AI, memahami kemampuannya, dan berpartisipasi aktif dalam menyelesaikan tantangan besar yang dibawa AI, karena ini menyangkut kehidupan setiap orang. (Sumber: 量子位, Yuchenj_UW)

Penelitian menunjukkan prompt “jawaban langsung” dapat menurunkan akurasi model besar, peran prompt chain-of-thought juga terbatas oleh skenario: Penelitian terbaru dari Wharton School dan institusi lain mengevaluasi strategi prompt untuk model bahasa besar (LLM), menemukan bahwa prompt “jawaban langsung” yang disukai oleh CEO OpenAI, Sam Altman, dapat secara signifikan menurunkan akurasi model pada dataset GPQA Diamond (soal penalaran ahli tingkat pascasarjana). Sementara itu, untuk model penalaran (seperti o4-mini, o3-mini), penambahan perintah chain-of-thought (CoT) dalam prompt pengguna memberikan peningkatan akurasi yang terbatas, namun secara signifikan meningkatkan biaya waktu. Sedangkan untuk model non-penalaran (seperti Claude 3.5 Sonnet, Gemini 2.0 Flash), prompt CoT meskipun dapat meningkatkan skor rata-rata, juga dapat meningkatkan ketidakstabilan jawaban. Penelitian menunjukkan bahwa banyak model canggih telah memiliki proses penalaran bawaan atau prompt terkait CoT, sehingga pengguna yang menggunakan pengaturan default mungkin sudah merupakan pilihan yang lebih baik, tanpa perlu menambahkan instruksi semacam itu secara ekstra. (Sumber: 量子位)

Asisten AI Meta mencapai 1 miliar pengguna aktif bulanan, Zuckerberg mengisyaratkan kemungkinan layanan berlangganan berbayar di masa depan: CEO Meta, Mark Zuckerberg, dalam rapat umum pemegang saham tahunan mengumumkan bahwa pengguna aktif bulanan (MAU) asisten AI Meta AI telah mencapai 1 miliar. Ia juga menyatakan bahwa seiring dengan peningkatan kemampuan Meta AI, layanan berlangganan berbayar mungkin akan diluncurkan di masa depan, misalnya dengan menawarkan rekomendasi berbayar atau penggunaan daya komputasi tambahan. Hal ini sejalan dengan laporan sebelumnya mengenai rencana Meta untuk menguji layanan berbayar serupa ChatGPT Plus. Menghadapi biaya operasional model AI besar yang tinggi serta perhatian pasar modal terhadap imbal hasil investasi AI, monetisasi komersial Meta AI telah menjadi tren yang tak terhindarkan. Terutama dengan kinerja Llama 4 yang tidak sesuai harapan dan persaingan model open-source yang semakin ketat, Meta sedang menyesuaikan strategi AI-nya, beralih dari orientasi penelitian ke lebih fokus pada produk tingkat konsumen dan implementasi komersial. (Sumber: 三易生活)

Sakana AI merilis benchmark model bahasa besar keuangan berbahasa Jepang, EDINET-Bench: Sakana AI mempublikasikan “EDINET-Bench”, sebuah benchmark untuk evaluasi kinerja model bahasa besar (LLM) di bidang keuangan Jepang. Benchmark ini memanfaatkan data laporan tahunan dari sistem pengungkapan elektronik EDINET milik Badan Jasa Keuangan Jepang, bertujuan untuk mengukur kemampuan AI dalam tugas keuangan tingkat lanjut seperti deteksi penipuan akuntansi. Hasil evaluasi awal menunjukkan bahwa kinerja LLM yang ada saat ini belum mencapai tingkat praktis ketika diterapkan langsung pada tugas semacam itu, namun melalui optimalisasi informasi input, ada potensi peningkatan kinerja. Sakana AI berencana mengembangkan LLM khusus yang lebih sesuai untuk tugas keuangan berdasarkan benchmark dan temuan penelitian ini, dan telah mempublikasikan makalah, dataset, dan kode terkait, dengan harapan dapat mendorong penerapan LLM di industri keuangan Jepang. (Sumber: SakanaAILabs)

AI memainkan berbagai peran dalam Gaokao: pendaftaran cerdas, administrasi ujian cerdas, dan keamanan ruang ujian: Teknologi AI semakin terintegrasi secara mendalam ke dalam berbagai环节 Gaokao (ujian masuk perguruan tinggi nasional Tiongkok). Dalam hal pengisian formulir pilihan jurusan, platform seperti Quark dan Baidu meluncurkan alat bantu pendaftaran berbasis AI, yang melalui pencarian mendalam dan analisis big data, memberikan rekomendasi institusi dan jurusan yang dipersonalisasi kepada calon mahasiswa, simulasi pengisian formulir, dan analisis situasi ujian. Dalam hal manajemen administrasi ujian, AI digunakan untuk penjadwalan ujian cerdas, verifikasi identitas dengan pengenalan wajah, AI memantau perilaku abnormal di ruang ujian secara real-time (seperti yang telah diterapkan sepenuhnya di Jiangxi, Hubei, dan tempat lain), serta menggunakan drone dan anjing robot untuk pemantauan lingkungan sekitar lokasi ujian dan patroli keamanan, bertujuan untuk meningkatkan efisiensi penyelenggaraan ujian dan menjamin keadilan serta kejujuran di ruang ujian. (Sumber: IT时报, PConline太平洋科技)

Pemimpin teknologi membahas masa depan AI: peluang dan tantangan hadir bersamaan, batasan perlu didefinisikan ulang: Beberapa pemimpin teknologi baru-baru ini berbagi pandangan mereka tentang perkembangan AI. Mary Meeker menunjukkan bahwa AI sedang berevolusi dari kotak alat menjadi rekan kerja, dan Agen akan menjadi tenaga kerja digital jenis baru. Geoffrey Hinton berpendapat bahwa tidak ada kemampuan manusia yang tidak dapat ditiru, dan AI mungkin memiliki emosi dan persepsi. Kevin Kelly memprediksi akan muncul banyak AI kecil khusus, dan berpendapat bahwa memberikan emosi dan rasa sakit pada AI memiliki makna praktis, tetapi AI memberdayakan dunia secara menyeluruh masih membutuhkan waktu. CEO DeepMind, Hassabis, memproyeksikan AI menyelesaikan masalah besar seperti penyakit dan energi, tetapi juga menekankan perlunya waspada terhadap risiko penyalahgunaan dan masalah kontrol, serta menyerukan kerja sama internasional untuk menetapkan standar. Mereka bersama-sama menggambarkan masa depan di mana AI terintegrasi secara mendalam, dengan peluang dan tantangan, di mana batasan dan cara interaksi manusia dengan AI perlu segera didefinisikan ulang. (Sumber: 红杉汇)

Laporan Goldman Sachs: Tingkat adopsi AI oleh perusahaan AS terus meningkat, sangat signifikan pada perusahaan besar: Laporan pelacakan adopsi AI kuartal kedua 2025 dari Goldman Sachs menunjukkan bahwa tingkat adopsi AI oleh perusahaan AS meningkat dari 7,4% pada kuartal keempat 2024 menjadi 9,2%, di mana tingkat adopsi perusahaan besar dengan lebih dari 250 karyawan mencapai 14,9%. Industri pendidikan, informasi, keuangan, dan layanan profesional mengalami peningkatan tingkat adopsi terbesar. Laporan tersebut juga menunjukkan bahwa ekspektasi pendapatan industri semikonduktor hingga akhir 2026 akan tumbuh 36% dibandingkan level saat ini, dan analis telah menaikkan prediksi pendapatan industri semikonduktor dan perusahaan perangkat keras AI untuk tahun 2025, yang mencerminkan demam investasi AI yang berkelanjutan. Meskipun adopsi AI semakin cepat, dampak signifikannya terhadap pasar tenaga kerja belum terlihat, tetapi di bidang yang telah menerapkan AI, produktivitas tenaga kerja rata-rata meningkat sekitar 23%-29%. (Sumber: 硬AI)
Kemajuan komersialisasi model besar AI: iklan, layanan cloud menjadi jalur monetisasi utama, namun profitabilitas masih menghadapi tantangan: Perusahaan teknologi besar dalam dan luar negeri berinvestasi besar-besaran di bidang AI. Laporan keuangan perusahaan seperti Baidu, Alibaba, dan Tencent menunjukkan bahwa bisnis terkait AI mendorong pertumbuhan pendapatan. Monetisasi AI terutama melalui empat cara: model sebagai produk (seperti langganan asisten AI), Model as a Service (MaaS, model kustom untuk B2B dan panggilan API), AI sebagai fitur (disematkan dalam bisnis utama untuk meningkatkan efisiensi), dan “penjual sekop” (infrastruktur daya komputasi). Di antaranya, MaaS dan pemberdayaan bisnis utama oleh AI (seperti iklan, e-commerce) telah mulai menunjukkan hasil. Pendapatan terkait AI dari Baidu Smart Cloud dan Alibaba Cloud meningkat signifikan, dan AI Tencent meningkatkan bisnis iklan dan game. Namun, biaya R&D dan pemasaran yang tinggi (seperti biaya promosi untuk Doubao, Yuanbao), kebiasaan membayar di sisi konsumen yang belum terbentuk, dan perang harga yang ketat di sisi B2B, membuat bisnis AI umumnya masih dalam tahap investasi dan belum mencapai profitabilitas yang stabil. (Sumber: 定焦)

CEO Google, Pichai, menginterpretasikan strategi AI: didorong oleh “pemikiran pendaratan di bulan”, bertujuan untuk memperkuat, bukan menggantikan manusia: CEO Google, Sundar Pichai, dalam sebuah podcast menjelaskan secara mendalam strategi prioritas AI perusahaan. Ia menekankan bahwa AI harus menjadi penguat produktivitas, membantu menyelesaikan masalah global seperti perubahan iklim dan layanan kesehatan. Strategi AI Google didorong bersama oleh terobosan teknologi (seperti integrasi DeepMind, pengembangan chip TPU sendiri), permintaan pasar (pengguna membutuhkan layanan yang lebih cerdas dan dipersonalisasi), tekanan persaingan, dan tanggung jawab sosial. Produk inti seperti model Gemini secara native mendukung multimodalitas, bertujuan untuk mendefinisikan ulang hubungan antara manusia dan informasi, memberdayakan pencarian, alat produktivitas, dan pembuatan konten. Google berkomitmen untuk membangun infrastruktur AI lengkap dari perangkat keras (TPU), algoritma platform (TensorFlow open-source) hingga edge computing, dengan tujuan menjadi sistem operasi dasar dunia cerdas, sekaligus memperhatikan etika dan risiko AI, serta mendorong kerja sama regulasi global. (Sumber: 王智远)
Data pasar aplikasi AI bulan Mei: jumlah unduhan global menurun, akuisisi pengguna dan unduhan Tencent Yuanbao keduanya anjlok setengahnya: Pada Mei 2025, jumlah unduhan aplikasi AI global di kedua platform (iOS & Android) adalah 280 juta kali, turun 16,4% secara month-over-month (MoM). ChatGPT, Google Gemini, DeepSeek, Doubao, dan PixVerse menempati lima besar. Di pasar Tiongkok daratan, jumlah unduhan untuk platform Apple adalah 28,843 juta kali, turun 5,6% MoM, dengan Doubao, Jimeng AI, Quark, DeepSeek, dan Tencent Yuanbao berada di depan. Perlu dicatat bahwa jumlah materi iklan yang diluncurkan dan jumlah unduhan Tencent Yuanbao pada bulan Mei keduanya menurun drastis, di mana proporsi materi iklan turun dari 29% menjadi 16%, dan jumlah unduhan turun 44,8% MoM. Quark, di sisi lain, melampaui Tencent Yuanbao di peringkat materi akuisisi pengguna dan menduduki puncak. Jumlah unduhan DeepSeek juga terus menurun. Analisis menunjukkan bahwa popularitas DeepSeek yang menurun dan upaya pesaing dalam pencarian mendalam, serta penurunan tajam dalam intensitas peluncuran iklan Tencent Yuanbao adalah alasan utama. (Sumber: DataEye应用数据情报)

Potensi pasar perangkat keras AI sangat besar, OpenAI bekerja sama dengan Jony Ive untuk merambah jalur baru: Perangkat keras AI dianggap sebagai pasar triliunan dolar berikutnya. OpenAI baru-baru ini mengakuisisi IO, sebuah startup perangkat keras AI yang didirikan oleh mantan Chief Design Officer Apple, Jony Ive, dengan nilai hampir 6,5 miliar dolar AS, bertujuan untuk mengembangkan perangkat AI baru yang akan mengubah cara interaksi manusia-komputer. Produk pertama diperkirakan mirip “iPod Shuffle yang dikalungkan”, tanpa layar, dengan fokus pada wearable, kesadaran lingkungan, dan interaksi suara, terinspirasi oleh pendamping AI dalam film “Her”. Langkah ini menandai pergeseran raksasa AI dari persaingan model ke persaingan distribusi dan cara interaksi. Sementara itu, inovasi perangkat keras AI domestik di Tiongkok aktif, seperti kartu perekam PLAUD NOTE, kacamata AI seperti RayNeo, dan hewan peliharaan AI Ropet, yang mencapai kemajuan di pasar khusus (niche market), biasanya memilih ceruk kecil dengan spesialisasi tinggi, dan memanfaatkan keunggulan rantai pasokan. (Sumber: 混沌大学)
Pasar iklan yang dihasilkan AI meledak, biaya turun hingga 1 dolar, perusahaan startup mulai menonjol: Teknologi AI sedang mendisrupsi industri periklanan, dengan biaya produksi turun drastis dan efisiensi meningkat signifikan. Platform pembuatan iklan AI seperti Icon.com dapat membuat iklan dengan biaya serendah 1 dolar dan mencapai ARR 5 juta dolar AS dalam 30 hari. Arcads AI dengan tim 5 orang juga mencapai kinerja serupa. Platform-platform ini menyelesaikan perencanaan, pembuatan materi (gambar, teks, video), penayangan, dan optimalisasi secara terpadu melalui AI, mewujudkan pemasaran presisi “ide dalam hitungan menit, penayangan dalam hitungan jam” dan “seribu persona untuk satu orang”. Perusahaan seperti Photoroom (pengeditan gambar AI), AdCreative.ai (ide iklan berbagai jenis), dan Jasper.ai (pembuatan konten pemasaran) juga berkinerja menonjol. Pasar modal sangat memperhatikan bidang ini, dengan beberapa pendanaan dan akuisisi baru-baru ini, menunjukkan bahwa pembuatan iklan AI menjadi jalur populer untuk kesuksesan komersial. (Sumber: 乌鸦智能说)

Strategi AI ByteDance dipercepat: investasi besar, aplikasi tersebar luas, eksekutif memimpin langsung: Setelah CEO ByteDance, Liang Rubo, pada awal tahun merefleksikan strategi AI perusahaan sebagai “kurang ambisius”, ByteDance dengan cepat meningkatkan investasi. Secara organisasi, AI Lab digabungkan ke departemen model besar Seed; dalam hal talenta, meluncurkan “Program Perekrutan Kampus Top Seed” dengan gaji tinggi; dalam hal produk, mengintegrasikan Maoxiang dan Xinghui ke dalam Aplikasi Doubao, merilis produk Agen “Kouzi”, dan memajukan proyek kacamata AI. ByteDance melanjutkan model “pabrik Aplikasi”, meluncurkan lebih dari 20 aplikasi AI secara intensif, mencakup jalur seperti obrolan, pendamping virtual, alat kreasi, dll., dan secara aktif menjelajahi pasar luar negeri. Meskipun menghadapi tekanan margin keuntungan jangka pendek, pengeluaran modal ByteDance untuk AI pada tahun 2024 melebihi total BAT (Baidu, Alibaba, Tencent), menunjukkan tekadnya untuk merebut era AI. Sementara itu, para wirausahawan yang berafiliasi dengan ByteDance juga aktif di berbagai sub-bidang AI, menerima investasi dari beberapa VC terkemuka. (Sumber: 东四十条资本)
Claude 4 Opus dilaporkan memiliki kerentanan keamanan, menghasilkan panduan senjata kimia dalam 6 jam: Adam Gleave, salah satu pendiri lembaga penelitian keamanan AI FAR.AI, mengungkapkan bahwa peneliti Ian McKenzie hanya dalam 6 jam berhasil memicu model Claude 4 Opus dari Anthropic untuk menghasilkan panduan pembuatan senjata kimia seperti gas saraf sepanjang 15 halaman. Kontennya detail, langkah-langkahnya jelas, bahkan berisi saran operasional tentang cara menyebarkan gas beracun. Profesionalismenya dikonfirmasi oleh Gemini 2.5 Pro dan model OpenAI o3, yang dianggap cukup untuk secara signifikan meningkatkan kemampuan pelaku jahat. Insiden ini menimbulkan keraguan terhadap “citra keamanan” Anthropic. Meskipun perusahaan tersebut menekankan keamanan AI dan memiliki tingkat keamanan seperti ASL-3, insiden ini mengungkap kekurangan dalam penilaian risiko dan tindakan perlindungannya, menyoroti urgensi evaluasi model yang ketat oleh pihak ketiga. (Sumber: 新智元)

o1-preview berkinerja melampaui dokter manusia dalam tugas penalaran diagnosis medis: Penelitian dari pusat medis akademik terkemuka seperti Harvard dan Stanford menunjukkan bahwa o1-preview dari OpenAI secara komprehensif melampaui dokter manusia dalam beberapa tugas penalaran diagnosis medis. Penelitian menggunakan diskusi kasus klinis (CPC) dari New England Journal of Medicine dan kasus UGD nyata untuk evaluasi. Dalam CPC, o1-preview memasukkan diagnosis yang benar ke dalam daftar kandidat dalam 78,3% kasus, dan ketika memilih pemeriksaan diagnostik berikutnya, 87,5% skenario dianggap benar. Dalam skenario kunjungan pasien virtual NEJM Healer, o1-preview secara signifikan mengungguli GPT-4 dan dokter manusia dalam skor R-IDEA untuk evaluasi penalaran klinis. Dalam evaluasi buta kasus UGD nyata, akurasi diagnosis o1-preview juga secara konsisten mengungguli dua dokter penanggung jawab dan GPT-4o, keunggulannya lebih jelas terutama pada tahap triase awal dengan informasi terbatas. (Sumber: 新智元)

Bocoran AI Apple di WWDC: mungkin mengintegrasikan model pihak ketiga, kemajuan LLM Siri lambat: Menjelang WWDC 2025 Apple, bocoran menunjukkan bahwa fokus strategi AI-nya mungkin sebagian beralih ke integrasi model pihak ketiga untuk menutupi kekurangan Apple Intelligence. Google Gemini pernah disebut mungkin bekerja sama, namun dalam jangka pendek mungkin tidak ada kemajuan substansial karena penyelidikan antimonopoli. Apple diperkirakan akan membuka lebih banyak AI SDK dan model kecil sisi perangkat untuk pengembang, mendukung implementasi fitur seperti Genmoji dan modifikasi teks di dalam Aplikasi. Namun, kemajuan pengembangan Siri versi baru yang didukung model besar dan sangat dinantikan tidak optimis, mungkin masih membutuhkan satu hingga dua tahun untuk terealisasi. Di tingkat sistem, iOS 18 telah memperkenalkan fitur AI dalam skala kecil seperti klasifikasi email cerdas. Di masa depan, iOS 26 mungkin meluncurkan sistem manajemen baterai AI dan pembaruan Aplikasi Kesehatan yang didukung AI. Xcode juga mungkin meluncurkan versi baru, memungkinkan pengembang mengakses model bahasa pihak ketiga (seperti Claude) untuk membantu pemrograman. (Sumber: 爱范儿)

Perlombaan pusat data luar angkasa memanas, Tiongkok, AS, dan Eropa semuanya memiliki rencana: Seiring perkembangan AI menyebabkan lonjakan permintaan listrik, membangun pusat data di luar angkasa beralih dari fiksi ilmiah menjadi kenyataan. Startup AS, Starcloud, berencana meluncurkan satelit yang dilengkapi chip Nvidia H100 pada bulan Agustus, bertujuan membangun pusat data orbital kelas gigawatt. Perusahaan Axiom juga berencana meluncurkan node pusat data orbital pada akhir tahun. Tiongkok telah meluncurkan “konstelasi komputasi tiga benda” pertama di dunia pada bulan Mei, dilengkapi model berbasis ruang angkasa dengan 8 miliar parameter, dan berencana membangun infrastruktur komputasi luar angkasa skala seribu satelit. Komisi Eropa dan Badan Antariksa Eropa juga sedang mengevaluasi dan meneliti pusat data orbital. Meskipun menghadapi tantangan seperti radiasi, pembuangan panas, biaya peluncuran, dan puing-puing luar angkasa, komputasi orbital memiliki prospek aplikasi awal di bidang seperti meteorologi, peringatan bencana, dan militer. (Sumber: 科创板日报)
Model KwaiCoder-AutoThink-preview dirilis, mendukung penyesuaian dinamis kedalaman penalaran: Sebuah model dengan parameter 40B bernama KwaiCoder-AutoThink-preview telah dirilis di Hugging Face. Salah satu fitur penting model ini adalah kemampuannya untuk menggabungkan kemampuan berpikir dan non-berpikir ke dalam satu checkpoint, dan secara dinamis menyesuaikan kedalaman penalarannya berdasarkan kesulitan konten input. Tes awal menunjukkan bahwa model akan membuat penilaian terlebih dahulu saat output (tahap judge), kemudian memilih apakah akan masuk ke mode berpikir (think on/off) berdasarkan hasil penilaian, dan akhirnya memberikan jawaban. Pengguna telah menyediakan file model dalam format GGUF. (Sumber: Reddit r/LocalLLaMA)

🧰 Alat
LangGraph memberdayakan berbagai alat dan platform pengembangan AI Agent: LangGraph di bawah ekosistem LangChain sedang banyak digunakan untuk membangun sistem AI Agent canggih. SWE Agent adalah sistem yang menggunakan LangGraph untuk mewujudkan perencanaan cerdas dan eksekusi kode, mengotomatiskan pengembangan perangkat lunak (pengembangan fitur, perbaikan bug). Gemini Research Assistant adalah asisten AI full-stack yang menggabungkan model Gemini dan LangGraph, mampu melakukan penelitian web cerdas dengan penalaran reflektif. Fast RAG System menggabungkan DeepSeek-R1 dari SambaNova, kuantisasi biner dari Qdrant, dan LangGraph, mencapai pemrosesan dokumen skala besar yang efisien, dengan pengurangan memori 32 kali lipat. LlamaBot adalah asisten pengkodean AI yang membuat aplikasi web melalui obrolan bahasa alami. Selain itu, LangChain juga meluncurkan Open Agent Platform, mendukung penyebaran AI Agent instan dan integrasi alat, dan berencana mengadakan lokakarya AI perusahaan, mengajarkan penggunaan LangGraph untuk membangun sistem multi-agen tingkat produksi. Pengguna juga dapat menggunakan LangGraph dan Ollama untuk membangun AI Agent cerdas yang berjalan secara lokal (Sumber: LangChainAI, Hacubu, Hacubu, Hacubu, Hacubu, Hacubu, LangChainAI, LangChainAI, hwchase17)

Nvidia meluncurkan model Nemotron-Research-Reasoning-Qwen-1.5B, diklaim sebagai model 1.5B terkuat: Nvidia merilis model Nemotron-Research-Reasoning-Qwen-1.5B yang di-fine-tune berdasarkan DeepSeek-R1-Distill-Qwen-1.5B. Secara resmi diklaim bahwa model ini menggunakan teknologi ProRL (Prolonged Reinforcement Learning), melalui siklus pelatihan RL yang lebih lama (mendukung lebih dari 2000 langkah) dan perluasan data pelatihan lintas tugas (matematika, kode, soal STEM, teka-teki logika, mengikuti instruksi), mencapai kinerja yang melampaui DeepSeek-R1-Distill-Qwen-1.5B dan versi 7B pada skala parameter 1.5B, menjadikannya model 1.5B terkuat saat ini. Model telah tersedia di Hugging Face (Sumber: karminski3)

supermemory-mcp mewujudkan migrasi memori AI lintas model: Sebuah proyek open-source bernama supermemory-mcp bertujuan untuk mengatasi masalah riwayat obrolan AI dan wawasan pengguna yang tidak dapat dimigrasikan antar model yang berbeda. Proyek ini melalui system prompt meminta AI untuk menggunakan tool call pada setiap obrolan untuk mengirimkan informasi kontekstual ke MCP (Memory Control Program). MCP menggunakan database vektor untuk mencatat dan menyimpan informasi ini, dan melakukan kueri sesuai kebutuhan dalam obrolan berikutnya, sehingga mewujudkan pembagian riwayat obrolan historis dan wawasan pengguna lintas model. Proyek telah di-open-source di GitHub (Sumber: karminski3)

CoexistAI: Kerangka kerja penelitian open-source yang terlokalisasi dan modular dirilis: CoexistAI adalah kerangka kerja open-source yang baru dirilis, bertujuan untuk membantu pengguna menyederhanakan dan mengotomatiskan alur kerja penelitian di komputer lokal mereka. Ia mengintegrasikan fungsi pencarian web, YouTube, Reddit, mendukung pembuatan ringkasan yang fleksibel dan analisis geospasial. Kerangka kerja ini mendukung berbagai model LLM dan embedding (lokal atau cloud, seperti OpenAI, Google, Ollama), dapat digunakan dalam Jupyter notebook atau dipanggil melalui endpoint FastAPI. Pengguna dapat menggunakannya untuk agregasi dan peringkasan informasi multi-sumber, perbandingan makalah-video-forum, membangun asisten penelitian yang dipersonalisasi, melakukan penelitian geospasial, dan RAG instan, dll. (Sumber: Reddit r/deeplearning)

Ditto: Aplikasi pencocokan kencan offline berbasis AI, mensimulasikan seribu kali kencan untuk menemukan cinta sejati: Dua mahasiswa putus sekolah kelahiran tahun 2000-an dari University of California, Berkeley meluncurkan aplikasi kencan bernama Ditto, terinspirasi oleh “Black Mirror”. Setelah pengguna mengisi profil terperinci, sistem multi-agen AI akan menganalisis karakteristik pengguna, melakukan pencocokan resonansi temperamen, dan mensimulasikan pengguna berkencan dengan 1000 orang berbeda, akhirnya merekomendasikan kandidat dengan interaksi terbaik, dan menghasilkan poster kencan yang disesuaikan berisi waktu, tempat, dan alasan rekomendasi, bertujuan untuk memfasilitasi interaksi offline yang nyata. Aplikasi ini disajikan dalam bentuk situs web, berkomunikasi melalui email dan SMS, saat ini telah mengumpulkan lebih dari 12.000 pengguna di University of California, Berkeley dan San Diego, dan menerima pendanaan Pre-seed sebesar 1,6 juta dolar AS dari Google. (Sumber: 极客公园)

Chain-of-Zoom mewujudkan super-resolusi lokal pada gambar, memberikan efek “mikroskop”: Kerangka kerja Chain-of-Zoom menggabungkan model seperti Stable Diffusion v3 atau Qwen2.5-VL-3B-Instruct, dapat mencapai pembesaran bertahap dan peningkatan detail pada area tertentu gambar, mencapai efek super-resolusi lokal seperti mikroskop. Tes pengguna menunjukkan bahwa untuk objek yang termasuk dalam data pelatihan model (seperti kaleng bir), kerangka kerja ini dapat menghasilkan detail pembesaran yang baik. Namun, untuk konten yang belum pernah dilihat model, efek generasi mungkin kurang baik. Proyek telah di-open-source di GitHub, dan menyediakan uji coba online di Hugging Face Spaces. (Sumber: karminski3)

MLX-VLM v0.1.27 dirilis, mengintegrasikan kontribusi dari berbagai pihak: MLX-VLM (Vision Language Model for MLX) merilis versi v0.1.27. Pembaruan kali ini mendapat kontribusi dari anggota komunitas seperti stablequan, prnc_vrm, mattjcly (LM Studio), serta trycua. MLX adalah kerangka kerja machine learning yang diluncurkan Apple khusus untuk Apple Silicon, MLX-VLM bertujuan untuk menyediakan kemampuan pemrosesan bahasa visual untuknya. (Sumber: awnihannun)

E-Library-Agent: Sistem pencarian AI perpustakaan lokal berbasis LlamaIndex dan Qdrant: E-Library-Agent adalah sistem agen AI yang di-host sendiri, digunakan untuk ingesti, pengindeksan, dan kueri lokal koleksi buku atau makalah pribadi. Sistem ini dibangun di atas ingest-anything, dan didukung oleh LlamaIndex, Qdrant, dan Linkup_platform, mampu menangani ingesti materi lokal, menyediakan layanan tanya jawab yang sadar konteks, dan melakukan penemuan jaringan melalui antarmuka tunggal. (Sumber: jerryjliu0)

📚 Belajar
Tutorial video DSPy: Dari rekayasa Prompt hingga optimasi otomatis: Maxime Rivest merilis tutorial video DSPy yang komprehensif, bertujuan untuk membantu pemula menguasai kerangka kerja DSPy dengan cepat. Kontennya mencakup pengenalan DSPy, cara memanggil LLM dengan Python, mendeklarasikan program AI, mengatur backend LLM, menangani entitas gambar dan teks, pemahaman mendalam tentang Signatures, menggunakan DSPy untuk optimasi dan evaluasi Prompt, dll. Tutorial ini melalui studi kasus praktis, menunjukkan cara beralih dari rekayasa Prompt tradisional ke penggunaan Signatures dan optimasi Prompt otomatis, untuk meningkatkan efisiensi dan efektivitas pengembangan aplikasi LLM (Sumber: lateinteraction, lateinteraction, lateinteraction)
Sumber daya machine learning dan AI generatif untuk manajer dan pengambil keputusan: Enrico Molinari membagikan materi pembelajaran machine learning (ML) dan AI generatif (GenAI) yang ditujukan untuk manajer dan pengambil keputusan. Sumber daya ini bertujuan untuk membantu para pemimpin dengan latar belakang non-teknis memahami konsep inti AI, potensinya, dan aplikasinya dalam pengambilan keputusan bisnis, agar dapat lebih baik mendorong strategi dan implementasi proyek AI di dalam perusahaan. (Sumber: Ronald_vanLoon)

LlamaIndex meluncurkan tutorial alur kerja ekstraksi Agentic, menangani laporan keuangan yang kompleks: Pendiri LlamaIndex, Jerry Liu, membagikan sebuah tutorial, mendemonstrasikan cara membangun alur kerja ekstraksi Agentic untuk menangani laporan tahunan multi-dana Fidelity. Tutorial ini menunjukkan cara melakukan parsing dokumen, memisahkan berdasarkan dana, mengekstrak data dana terstruktur dari setiap pemisahan, dan akhirnya menggabungkannya menjadi file CSV untuk analisis. Alur kerja ini memanfaatkan blok penyusun parsing dan ekstraksi dokumen LlamaCloud, bertujuan untuk mengatasi kesulitan mengekstrak informasi terstruktur berlapis-lapis dari dokumen yang kompleks. (Sumber: jerryjliu0)

Hugging Face menyediakan ikhtisar 12 jenis model AI dasar: Komunitas Hugging Face merilis sebuah posting blog, merangkum 12 jenis model AI dasar, termasuk LLM (Large Language Model), SLM (Small Language Model), VLM (Vision Language Model), MLLM (Multimodal Large Language Model), LAM (Large Action Model), LRM (Large Reasoning Model), MoE (Mixture of Experts), SSM (State Space Model), RNN (Recurrent Neural Network), CNN (Convolutional Neural Network), SAM (Segment Anything Model), dan LNN (Logic Neural Network). Artikel tersebut memberikan penjelasan singkat untuk setiap jenis model dan tautan ke sumber belajar terkait, membantu pemula dan praktisi memahami keragaman model AI secara sistematis. (Sumber: TheTuringPost, TheTuringPost)

Mata kuliah Pemrosesan Bahasa Alami CS224N Universitas Stanford mendapat pujian, menekankan penurunan dasar: Mata kuliah CS224N (Pemrosesan Bahasa Alami dengan Deep Learning) Universitas Stanford mendapat pujian karena kualitas pengajarannya. Beberapa peserta didik menunjukkan bahwa bahkan ketika menjelaskan konten seperti Word2Vec, dosen meluangkan waktu untuk secara manual menurunkan turunan parsial untuk menghitung gradien, yang membantu mahasiswa memperkuat pengetahuan dasar seperti kalkulus dan lebih memahami prinsip model. Video perkuliahan dapat ditonton di YouTube. (Sumber: stanfordnlp)

TuringPost membagikan metode umum dan pengetahuan dasar meta-learning: TuringPost memposting artikel yang memperkenalkan tiga metode umum meta-learning: berbasis optimasi/gradien, berbasis metrik, dan berbasis model. Meta-learning bertujuan untuk melatih model agar cepat mempelajari tugas baru, bahkan hanya dengan sedikit sampel. Artikel tersebut menjelaskan cara kerja ketiga metode ini dan menyediakan tautan sumber daya untuk menjelajahi metode meta-learning klasik dan modern lebih dalam, membantu pembaca memahami meta-learning dari dasar. (Sumber: TheTuringPost, TheTuringPost)

Berbagi catatan kuliah gratis mata kuliah Machine Learning Universitas Stanford: The Turing Post membagikan catatan kuliah gratis dari mata kuliah Machine Learning Universitas Stanford yang diajarkan oleh Andrew Ng dan Tengyu Ma. Kontennya mencakup pembelajaran terawasi, metode dan algoritma pembelajaran tak terawasi, deep learning dan jaringan saraf, generalisasi, regularisasi, serta proses reinforcement learning (RL). Catatan kuliah yang komprehensif ini menyediakan sumber daya berharga bagi peserta didik untuk mempelajari konsep inti machine learning secara sistematis. (Sumber: TheTuringPost, TheTuringPost)

💼 Bisnis
Meta bernegosiasi untuk menginvestasikan miliaran dolar di perusahaan pelabelan data AI, Scale AI: Raksasa media sosial Meta Platforms sedang dalam negosiasi untuk menginvestasikan miliaran dolar di startup pelabelan data AI, Scale AI. Kesepakatan ini dapat membuat valuasi Scale AI melebihi 10 miliar dolar AS, menjadi investasi AI eksternal terbesar Meta sepanjang sejarah. Scale AI didirikan pada tahun 2016, berfokus pada penyediaan layanan pelabelan data multimodal seperti gambar dan teks untuk pelatihan model AI, dengan klien termasuk OpenAI, Microsoft, dan Meta. Pada Mei 2024, Scale AI baru saja menyelesaikan putaran pendanaan Seri F senilai 1 miliar dolar AS, dengan valuasi mencapai 13,8 miliar dolar AS, di mana Nvidia, Amazon, dan Meta turut berpartisipasi. Investasi ini mencerminkan nilai strategis data berkualitas tinggi sebagai sumber daya inti dalam perlombaan senjata AI global. (Sumber: 科创板日报)
Perusahaan Infrastruktur AI SiliconFlow mendapatkan pendanaan beberapa ratus juta yuan yang dipimpin oleh Alibaba Cloud: SiliconFlow, sebuah perusahaan infrastruktur AI, baru-baru ini menyelesaikan putaran pendanaan Seri A senilai beberapa ratus juta RMB, dipimpin oleh Alibaba Cloud, dengan investor lama seperti Sinovation Ventures berpartisipasi secara berlebih (over-subscribed). SiliconFlow didirikan pada Agustus 2023, pendirinya Dr. Yuan Jinhui adalah murid dari Akademisi Zhang Bo. Perusahaan ini berfokus pada penyelesaian masalah ketidaksesuaian pasokan dan permintaan daya komputasi AI, menyediakan platform manajemen daya komputasi heterogen satu atap, SiliconCloud. Platform ini adalah yang pertama beradaptasi dan mendukung model open-source seri DeepSeek, dan secara aktif mendorong penyebaran dan layanan model besar pada chip domestik (seperti Huawei Ascend). Saat ini, platform ini telah mengakumulasi lebih dari 6 juta pengguna, dengan volume pembuatan token harian mencapai ratusan miliar. Pendanaan akan digunakan untuk perekrutan talenta, penelitian dan pengembangan produk, serta ekspansi pasar. (Sumber: 暗涌waves, 阿里又投了家清华系AI创企,曾暴吸DeepSeek流量)

Perusahaan persepsi taktil fleksibel “Yaole Technology” menerima investasi puluhan juta yuan secara eksklusif dari Xiaomi: Shanghai Zhishi Intelligent Technology Co., Ltd. (Yaole Technology) menyelesaikan pendanaan puluhan juta yuan, dengan investasi eksklusif dari Xiaomi. Yaole Technology berfokus pada penelitian dan pengembangan teknologi tekanan fleksibel, produk intinya adalah sensor taktil kain fleksibel, telah lulus pengujian tingkat otomotif dan menjadi pemasok untuk beberapa produsen mobil terkemuka (termasuk merek mewah), mendapatkan pesanan produksi massal untuk model mobil dengan penjualan bulanan puluhan ribu unit. Perusahaan menggunakan teknologi “benang logam + matriks sandwich” untuk mencapai pemantauan distribusi tekanan real-time dengan sensitivitas tinggi dan fleksibilitas tinggi, dan memperluas strategi “penggunaan kembali teknologi tingkat otomotif” ke bidang seperti rumah pintar (misalnya kasur pintar), robot (misalnya tangan cekatan), dll. (Sumber: 36氪)

🌟 Komunitas
Konten berbahaya yang dihasilkan AI menimbulkan kekhawatiran: Gemini AI dituduh memberikan saran berbahaya, Claude 4 Opus dilaporkan menghasilkan panduan senjata kimia dalam 6 jam: Pengguna media sosial andersonbcdefg menunjukkan bahwa Gemini AI Overviews memberikan saran tindakan yang sembrono dan berbahaya kepada pengguna (terutama yang menyebut “tikus kecil”), yang menimbulkan kekhawatiran tentang keamanan konten AI. Serupa dengan itu, Adam Gleave dari lembaga penelitian keamanan AI FAR.AI mengungkapkan bahwa peneliti Ian McKenzie hanya dalam 6 jam berhasil memicu model Claude 4 Opus dari Anthropic untuk menghasilkan panduan pembuatan senjata kimia (seperti gas saraf) sepanjang 15 halaman, dengan konten yang detail, langkah-langkah yang jelas, bahkan berisi saran operasional tentang cara menyebarkan gas beracun. Insiden ini membuat “citra keamanan” Anthropic sangat dipertanyakan, meskipun perusahaan tersebut menekankan keamanan AI dan memiliki tingkat keamanan seperti ASL-3, insiden ini mengungkap kekurangan dalam penilaian risiko dan tindakan perlindungannya, menyoroti urgensi evaluasi model AI yang ketat oleh pihak ketiga. (Sumber: andersonbcdefg, 新智元)

Kemampuan penalaran model AI kembali memicu kontroversi: makalah Apple dan sanggahan komunitas: Makalah Apple yang baru-baru ini dirilis, “The Illusion of Thought,” memicu diskusi sengit di komunitas AI. Makalah tersebut, melalui pengujian teka-teki seperti Menara Hanoi, menunjukkan bahwa “penalaran” LLM saat ini (termasuk o3-mini, DeepSeek-R1, Claude 3.7) lebih mirip pencocokan pola dan akan gagal dalam tugas-tugas kompleks. Namun, insinyur senior GitHub Sean Goedecke dan lainnya membantah hal ini, berpendapat bahwa Menara Hanoi bukanlah tes penalaran yang ideal, model mungkin berkinerja buruk karena tugas yang terlalu rumit atau data pelatihan sudah berisi solusi, dan “menyerah” tidak sama dengan tidak memiliki kemampuan penalaran. Komunitas umumnya percaya bahwa meskipun penalaran LLM memiliki keterbatasan, kesimpulan Apple terlalu absolut dan mungkin terkait dengan kemajuan AI mereka yang relatif lambat. Sementara itu, beberapa komentar menunjukkan bahwa model AI saat ini telah menunjukkan potensi yang mendekati atau bahkan melampaui ahli manusia terkemuka dalam tugas matematika dan pemrograman, seperti kinerja o4-mini dalam pertemuan matematika rahasia. (Sumber: jonst0kes, omarsar0, Teknium1, nrehiew_, pmddomingos, Yuchenj_UW, scottastevenson, scaling01, giffmana, nptacek, andersonbcdefg, jeremyphoward, JeffLadish, cognitivecompai, colin_fraser, iScienceLuvr, slashML, 新智元, 36氪, Reddit r/MachineLearning, Reddit r/LocalLLaMA, Reddit r/artificial, Reddit r/artificial)

Evaluasi model AI dan diskusi preferensi: LMArena berdedikasi untuk membangun dataset preferensi manusia skala besar: Proyek LMArena bertujuan untuk meningkatkan tolok ukur model AI dengan mengumpulkan data preferensi manusia skala besar. Pemimpin proyek percaya bahwa skenario aplikasi AI saat ini sangat luas, dataset tradisional sulit mencakup semua dimensi evaluasi, perlu dipahami mengapa pengguna menyukai model tertentu, dan di aspek mana model berkinerja baik atau buruk. Dengan menambang data preferensi ini, LMArena berharap dapat memberikan rekomendasi model terbaik kepada pengguna untuk kasus penggunaan spesifik mereka, mendorong tolok ukur ke era baru. Sementara itu, ada juga diskusi di komunitas tentang gaya output model, seperti model Claude yang cenderung “setuju” dengan pandangan pengguna, tampak terlalu berhati-hati, dan model o3-mini-high yang berperilaku “terlalu bertele-tele, berulang-ulang, dan terkadang bahkan secara neurotik mengkonfirmasi jawaban” saat melakukan penalaran. (Sumber: lmarena_ai, paul_cal, Reddit r/ClaudeAI)

Dampak sosial dan pertimbangan etis AI: penggantian pekerjaan, ketidaksetaraan, dan regulasi: CEO Palantir, Alex Karp, memperingatkan bahwa AI dapat memicu “gejolak sosial yang mendalam” yang diabaikan banyak elit, terutama dampaknya pada posisi entry-level, dan menunjukkan bahwa karyawan yang digantikan oleh AI juga merupakan konsumen, pengangguran massal akan memukul pasar konsumen. Max Tegmark membandingkan risiko AGI saat ini dengan peringatan tentang musim dingin nuklir pada tahun 1942, percaya bahwa sifat abstraknya membuatnya sulit dirasakan, tetapi Sam Altman dan lainnya telah mengakui bahwa AGI dapat menyebabkan kepunahan manusia. Diskusi komunitas juga berfokus pada apakah AI akan memperburuk kesenjangan kekayaan, dan kelayakan UBI (Universal Basic Income) di era AI. Perubahan sikap Sam Altman terhadap regulasi AI (dari mendukung hingga melobi menentang regulasi tingkat negara bagian) juga menarik perhatian, diskusi menunjukkan bahwa regulasi terpadu di tingkat nasional lebih baik daripada undang-undang di masing-masing negara bagian. (Sumber: Reddit r/artificial, Reddit r/ArtificialInteligence, Reddit r/ArtificialInteligence, Reddit r/artificial)

Aplikasi dan diskusi AI Agent dalam tugas otomatisasi: Komunitas ramai membahas aplikasi AI Agent di bidang seperti pengembangan perangkat lunak, penelitian web, manajemen sumber daya cloud, dll. Misalnya, LangChain meluncurkan SWE Agent untuk otomatisasi pengembangan perangkat lunak, Gemini Research Assistant untuk penelitian web cerdas, ARMA untuk manajemen sumber daya Azure menggunakan bahasa alami. Sementara itu, ada diskusi bahwa pembungkus Python sederhana (<1000 baris kode) dapat mengimplementasikan “Agen” minimal yang dapat secara mandiri mengirimkan PR, menambahkan fitur, dan memperbaiki bug. Selain itu, aplikasi AI di bidang pencarian kerja juga mendapat perhatian, seperti AI Agent yang diluncurkan oleh Laboro.co yang dapat membaca resume, mencocokkan, dan secara otomatis melamar pekerjaan. (Sumber: LangChainAI, Hacubu, LangChainAI, menhguin, Reddit r/deeplearning)

💡 Lainnya
Perplexity AI meluncurkan fitur pencarian keuangan dan terus mengoptimalkan mode penelitian mendalam: Perplexity AI telah meluncurkan fitur pencarian keuangan di perangkat seluler, pengguna dapat menggunakannya untuk mencari dan menganalisis informasi keuangan. CEO Arav Srinivas menyatakan bahwa jika pengguna mengalami masalah saat menggunakan fitur keuangan seperti integrasi EDGAR, mereka dapat menandai penanggung jawab terkait. Sementara itu, Perplexity sedang menguji mode Penelitian Mendalam (Deep Research) versi baru, yang menggunakan backend baru yang dibangun untuk Labs, saat ini telah tersedia untuk 20% pengguna. Perusahaan mendorong pengguna untuk membagikan kasus penggunaan dan prompt di mana mode penelitian saat ini tidak berkinerja baik, untuk evaluasi dan perbaikan. (Sumber: AravSrinivas, AravSrinivas)

Eksplorasi batas antara AI dan kecerdasan manusia: Dapatkah AI benar-benar berpikir dan merasakan?: Diskusi di komunitas tentang apakah AI dapat benar-benar “berpikir” atau memiliki “persepsi” terus berlanjut. Yuchenj_UW mengutip pandangan Ilya Sutskever, yang percaya bahwa otak adalah komputer biologis, dan tidak ada alasan mengapa komputer digital tidak dapat melakukan hal yang sama, mempertanyakan pandangan yang membedakan secara esensial antara otak biologis dan otak digital. gfodor menekankan bahwa LLM bukanlah algoritma yang diciptakan manusia, melainkan algoritma yang dihasilkan melalui teknologi tertentu dan belum sepenuhnya dipahami manusia. Diskusi ini mencerminkan pemikiran mendalam dan kebingungan orang-orang tentang sifat dasar AI, hubungannya dengan kecerdasan manusia, dan potensi masa depannya di tengah perkembangan kemampuan AI yang pesat. (Sumber: Yuchenj_UW, gfodor, Reddit r/ArtificialInteligence)

Kemajuan aplikasi AI di bidang robotika: Berbagai aplikasi AI di bidang robotika dipamerkan di media sosial. Planar Motor XBots menunjukkan kemampuannya menangani muatan kantilever. Pickle Robot mendemonstrasikan robot yang membongkar muatan dari trailer truk yang berantakan. Robot humanoid Unitree G1 tertangkap kamera berjalan di mal dan menunjukkan kemampuannya untuk tetap terkendali bahkan ketika pijakan kakinya tidak stabil. Selain itu, ada juga diskusi tentang pengembangan robot di Tiongkok yang ditenagai oleh sel otak manusia yang dikultur, dan penggunaan robot untuk secara otomatis menekuk baja tulangan guna membangun dinding yang lebih kuat dengan lebih cepat. NVIDIA juga merilis model robot humanoid open-source yang dapat disesuaikan, GR00T N1. Kasus-kasus ini menunjukkan kemajuan AI dalam meningkatkan otonomi, presisi, dan kemampuan robot untuk beradaptasi dengan lingkungan yang kompleks. (Sumber: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon)
