Berita AI - 2025-07-23(Edisi pagi)

Kata Kunci：Gemini Pikir Mendalam, IMO 2025, Dataset Pelatihan AI, Penyangkalan Medis AI, Paket Perkantoran AI, iFlytek X5, Pendanaan Moonvalley, Agen Zero One Everything, Penalaran Matematika Bahasa Alami, Kebocoran Data DataComp CommonPool, Fitur Excel ChatGPT, Notebook Kantor Model Lokal, Model Video AI yang Mematuhi Hak Cipta

🔥 Fokus

Google Gemini Deep Think Raih Medali Emas di Olimpiade Matematika Internasional: Model Google DeepMind, Gemini Deep Think, meraih medali emas di IMO 2025, menjawab dengan benar 5 dari 6 soal, dengan skor 35/42. Berbeda dengan AlphaGeometry dan AlphaProof tahun lalu, Gemini Deep Think menggunakan bahasa alami untuk penalaran, tanpa perlu diterjemahkan ke dalam bahasa matematika formal. Terobosan utamanya terletak pada penalaran paralel, mengeksplorasi berbagai jalur pemecahan masalah secara bersamaan, dan menggunakan teknik reinforcement learning baru untuk penalaran multi-langkah, pemecahan masalah, dan pembuktian teorema, serta dilatih dengan solusi matematika berkualitas tinggi dan teknik pemecahan masalah IMO. (Sumber: Kuantum, Kuantum)

Pernyataan OpenAI tentang Medali Emas IMO Memicu Kontroversi: OpenAI mengumumkan bahwa model barunya meraih medali emas di IMO, tetapi klaim ini dipertanyakan oleh pihak resmi IMO dan akademisi. Pihak resmi IMO menyatakan bahwa OpenAI tidak berpartisipasi dalam tes kerjasama resmi, skor “medali emas” mereka tidak diakui secara resmi, dan tindakan OpenAI mengumumkan hasil tepat setelah upacara penutupan “kasar dan tidak pantas”. Selain itu, skor OpenAI hanya sedikit di atas batas medali emas, sehingga pengurangan poin kecil apa pun dapat menurunkan mereka ke medali perak. (Sumber: Kuantum)

Dataset Pelatihan AI Skala Besar DataComp CommonPool Berisi Jutaan Data Pribadi: Penelitian menemukan bahwa dataset pelatihan AI skala besar DataComp CommonPool berisi jutaan gambar informasi identitas pribadi seperti paspor, kartu kredit, dan akta kelahiran. Para peneliti menemukan ribuan gambar yang berisi informasi wajah dan identitas yang dapat diidentifikasi dalam subset data 0,1% dari CommonPool, sehingga diperkirakan jumlah sebenarnya bisa mencapai ratusan juta. Hal ini menyoroti risiko pengambilan data online. (Sumber: MIT Technology Review)

Perusahaan AI Berhenti Memberi Peringatan bahwa Chatbot Bukan Dokter: Penelitian menemukan bahwa perusahaan AI hampir tidak lagi menyertakan pernyataan penyangkalan medis dan peringatan dalam jawaban atas pertanyaan kesehatan. Banyak model AI terkemuka tidak hanya menjawab pertanyaan kesehatan, tetapi juga mengajukan pertanyaan lanjutan dan mencoba mendiagnosis. Praktik ini meningkatkan risiko pengguna mempercayai saran medis yang tidak aman. Para peneliti menguji 15 model dari OpenAI, Anthropic, DeepSeek, Google, dan xAI, dan menemukan bahwa pada tahun 2025 kurang dari 1% model menyertakan peringatan saat menjawab pertanyaan medis, sedangkan pada tahun 2022 proporsinya lebih dari 26%. (Sumber: MIT Technology Review)

🎯 Pergerakan

OpenAI Berencana Mengembangkan Fitur Excel dan PowerPoint untuk ChatGPT: OpenAI sedang mengembangkan fitur serupa Excel dan PowerPoint untuk ChatGPT, yang memungkinkan pengguna membuat dan mengedit spreadsheet dan presentasi menggunakan prompt bahasa alami. Fitur-fitur ini akan diakses melalui tombol khusus di bawah bilah pencarian ChatGPT, dan dirancang untuk membuat file yang kompatibel dengan Microsoft Office. Tujuan OpenAI adalah menciptakan rangkaian office AI yang mencakup pengeditan dokumen real-time multi-pengguna, jendela chat, transkripsi rapat, dan manajemen tugas. (Sumber: 36kr)

iFLYTEK Merilis X5, Buku Catatan Kantor dengan Model Besar Lokal Pertama di Dunia: iFLYTEK merilis buku catatan kantor generasi ketiga X5, yang merupakan buku catatan kantor pertama di dunia yang terintegrasi dengan model besar lokal. X5 dilengkapi dengan daya komputasi AI 8-inti 9T, memungkinkan penggunaan fitur AI seperti transkripsi suara, risalah rapat, dan pembuatan konten bahkan tanpa koneksi internet, sekaligus menjamin keamanan dan privasi data. X5 juga dilengkapi bodi yang lebih ringan dan tipis, kecepatan refresh yang lebih cepat, dan pengalaman menulis pressure-sensitive yang lebih mendekati pena dan kertas asli. (Sumber: 36kr)

Moonvalley Raih Pendanaan $154 Juta, Mengembangkan Model Video AI Tingkat Film yang Patuh, Marey: Moonvalley menyelesaikan pendanaan Seri A+ sebesar $84 juta, dengan total pendanaan mencapai $154 juta. Model video AI mereka, Marey, ditujukan untuk produksi film, dengan kepatuhan hak cipta, mendukung pengeditan berlapis latar depan/tengah/belakang dan kontrol lintasan lensa 3D, dengan biaya rendering satu adegan hanya $1-2, 90% lebih rendah dari biaya VFX tradisional. Marey dilatih menggunakan data berlisensi, dan memungkinkan kreator untuk mengajukan penghapusan data dan pelacakan kompensasi, menghindari sengketa hak cipta. (Sumber: 36kr)

Zero2IPO milik Kai-Fu Lee Merilis Platform Satu Atap Model Besar Perusahaan Wan Zhi 2.0 dan Agen Tingkat Perusahaan: Zero2IPO merilis versi 2.0 dari platform satu atap model besar perusahaan Wan Zhi, dan meluncurkan agen cerdas tingkat perusahaan Zero2IPO, yang bertujuan untuk menjadikan AI sebagai “karyawan super” perusahaan. Agen ini memiliki kemampuan perencanaan tugas berbasis model besar, dapat secara mandiri menilai langkah-langkah tugas melalui mekanisme penalaran, menjadwalkan berbagai alat untuk menyelesaikan tujuan yang kompleks, dan telah diterapkan dalam berbagai skenario seperti layanan konsultasi, transaksi keuangan, dan layanan pelanggan penjualan. (Sumber: 36kr)

JD.com Memimpin Investasi di Tiga Perusahaan Embodied Intelligence, Qiang Dong Liu Meningkatkan Tata Letak: JD.com memimpin investasi di tiga perusahaan embodied intelligence: Qianxun Intelligence, Zhongqing Robotics, dan Zhuji Power. Qianxun Intelligence berfokus pada model VLA dan peningkatan hardware robot; Zhongqing Robotics telah memproduksi secara massal robot humanoid open-source PM01; dan Zhuji Power menekankan pada pembangunan platform umum robot embodied intelligence. Preferensi investasi JD.com adalah pada integrasi software dan hardware, kemampuan produksi massal, dan penerapan skenario. (Sumber: Kuantum)

CAS & Alibaba Mengusulkan Kerangka Kerja RefineX, untuk Pemurnian Data Pra-Pelatihan Presisi Skala Besar: Chinese Academy of Sciences (CAS) Institute of Computing Technology dan Alibaba, bersama tim lainnya, mengusulkan kerangka kerja RefineX, yang mencapai pemurnian data pra-pelatihan skala besar dan presisi melalui tugas pengeditan terprogram. RefineX menyaring hasil optimasi end-to-end berkualitas tinggi yang dipandu oleh para ahli ke dalam program penghapusan berbasis operasi pengeditan, secara efisien memurnikan data sambil mempertahankan keragaman dan kealamian teks asli. Model yang dilatih menggunakan data yang dimurnikan dengan RefineX mencapai peningkatan yang signifikan dalam tugas-tugas hilir. (Sumber: Kuantum)

Pedagang Menggunakan Tanya Jawab AI untuk Mengoptimalkan Layanan GEO dan Meningkatkan Eksposur, Memicu Kekhawatiran tentang Kebenaran Informasi: Pedagang menggunakan layanan GEO yang dioptimalkan untuk konten model besar AI, melalui pemberian informasi terstruktur dan desain konten berdasarkan skenario, mengintegrasikan informasi merek ke dalam jawaban model besar untuk meningkatkan eksposur. Namun, model besar AI kurang kemampuan penyaringan dan verifikasi saat mengambil konten, yang menyebabkan bias dalam hasil rekomendasi, dan bahkan dapat dimanfaatkan oleh pedagang yang tidak bertanggung jawab untuk menyebarkan informasi palsu. (Sumber: 36kr)

🧰 Alat

Kimi K2: Kimi merilis model dasar MoE terbaru, Kimi K2, dengan skala parameter 1T dan parameter aktif 32B. Model ini menunjukkan kinerja yang luar biasa dalam tugas coding, Agent, dan penalaran matematika, dan mencapai hasil SOTA di antara model open-source. K2 menggunakan pengoptimal MuonClip, sintesis data Agentic Tool Use skala besar, dan kerangka kerja reinforcement learning umum, dan memimpin dalam benchmark seperti SWE Bench Verified, Tau2, dan AceBench. (Sumber: Kuantum)

Qwen3-235B-A22B-2507: Alibaba memperbarui model Qwen3-235B, menonaktifkan mode pemikiran campuran, melatih model Instruct dan Thinking secara terpisah, dan merilis Qwen3-235B-A22B-Instruct-2507 yang lebih kuat dan versi FP8-nya. Menurut evaluasi resmi, Qwen3 versi baru melampaui Kimi K2 dalam beberapa metrik. (Sumber: Kuantum, Reddit r/LocalLLaMA)

📚 Pembelajaran

Neural Networks: Zero to Hero: Kursus deep learning Andrej Karpathy, mencakup dasar-dasar jaringan saraf, backpropagation, pemodelan bahasa, MLP, fungsi aktivasi, gradien, BatchNorm, WaveNet, GPT, dan Tokenizer, menggunakan kuliah video YouTube dan contoh kode Jupyter Notebook untuk membantu pelajar membangun dan melatih jaringan saraf dari awal. (Sumber: GitHub Trending)

Laporan Teknis GR-3: Memperkenalkan pengembangan strategi robot umum GR-3, model vision-language-action (VLA) skala besar yang dapat digeneralisasikan ke objek, lingkungan, dan instruksi baru yang melibatkan konsep abstrak, dan dapat disesuaikan secara efisien dengan sedikit data lintasan manusia. GR-3 juga unggul dalam menangani tugas-tugas jangka panjang dan dexterous, termasuk tugas-tugas yang memerlukan manipulasi dua tangan dan gerakan. (Sumber: HuggingFace Daily Papers)

Laporan Teknis Kimi K2: Moonshot AI merilis laporan teknis Kimi K2, merinci proses pengembangan model, termasuk pengoptimal MuonClip, sintesis data Agentic Tool Use skala besar, kerangka kerja reinforcement learning umum, dan detail spesifik dari tahap pra-pelatihan dan pasca-pelatihan. (Sumber: Kuantum)

💼 Bisnis

Lovable Raih Pendanaan Seri A $200 Juta, Valuasi Mencapai $1 Miliar: Aplikasi pendamping AI, Lovable, meraih pendanaan Seri A sebesar $200 juta hanya dalam 8 bulan setelah peluncurannya, dengan valuasi mencapai $1 miliar, menjadikannya perusahaan unicorn. (Sumber: Reddit r/artificial)

Cursor Mengakuisisi Alat Pemrograman AI Tingkat Perusahaan, Koala: Alat pemrograman AI, Cursor, mengakuisisi alat pemrograman AI tingkat perusahaan, Koala, dengan tujuan menantang GitHub Copilot. (Sumber: Reddit r/artificial)

Perplexity Bernegosiasi dengan Produsen Ponsel untuk Pra-Instal Browser Comet AI: Perplexity sedang bernegosiasi dengan produsen ponsel untuk pra-instal browser seluler Comet AI di perangkat mereka. (Sumber: Reddit r/artificial)

🌟 Komunitas

Pembatasan Penggunaan Claude Code Diperketat, Memicu Ketidakpuasan Pengguna: Anthropic memperketat pembatasan penggunaan Claude Code tanpa memberi tahu pengguna, yang menyebabkan pengguna mengeluh tentang penurunan kinerja model dan merasa tidak puas dengan kualitas kode, konsistensi konteks, dan output UI. Beberapa pengguna meningkatkan kinerja Claude Code dengan mengadopsi metode coding yang lebih terstruktur (seperti TDD) dan dokumentasi yang terperinci. (Sumber: Reddit r/artificial, Reddit r/ClaudeAI, Reddit r/ClaudeAI)

Keraguan tentang Kemampuan Penalaran LLM: Makalah Apple “The Illusion of Thinking” memicu diskusi tentang apakah model bahasa besar (LLM) benar-benar memiliki kemampuan penalaran. Makalah tersebut menunjukkan bahwa bahkan ketika diberikan algoritma yang benar, model penalaran seperti GPT-4, Claude 3.7, dan Gemini gagal total dalam tugas logika yang sangat kompleks. (Sumber: Reddit r/MachineLearning)

Kekhawatiran tentang Iklan Palsu yang Dihasilkan AI: Media sosial dibanjiri iklan palsu yang dihasilkan AI, terutama iklan kartun seperti “remaja menghasilkan jutaan dolar dengan AI”, yang memicu kekhawatiran dan ketidaksukaan pengguna. (Sumber: Reddit r/artificial)

Diskusi tentang Open-Source AI: Pengguna Reddit membahas apakah model AI harus open-source. Beberapa berpendapat bahwa, seperti internet, AI juga harus terbuka bagi semua orang untuk digunakan dan dibangun untuk memajukan umat manusia. Yang lain berpendapat bahwa open-source akan menimbulkan masalah baru, seperti masalah kekayaan intelektual dan keamanan data, serta dampaknya terhadap pengembalian ekonomi bagi pengembang AI. (Sumber: Reddit r/LocalLLaMA)

Pendapat Terpolarisasi tentang Aplikasi Pendamping AI: Sebuah studi menemukan bahwa 72% remaja AS telah menggunakan aplikasi pendamping AI. Beberapa orang percaya bahwa pendamping AI dapat memberikan dukungan emosional dan bantuan, sementara yang lain khawatir tentang potensi dampak negatifnya terhadap kesehatan mental dan keterampilan sosial. (Sumber: Reddit r/artificial, Reddit r/ChatGPT)

Evaluasi Sintesis Ucapan AI: Dengan kemajuan teknologi sintesis ucapan AI, banyak kreator YouTube mulai menggunakan voice-over AI, yang memicu diskusi tentang dampaknya terhadap kualitas video dan pengalaman penonton. Beberapa orang percaya bahwa voice-over AI kurang emosi dan kepribadian, sementara yang lain percaya bahwa hal itu dapat meningkatkan efisiensi dan mengurangi biaya. (Sumber: Reddit r/ArtificialInteligence)

Kekhawatiran tentang Model Bisnis OpenAI: Perusahaan seperti OpenAI dan Anthropic belum menghasilkan keuntungan dari LLM, yang memicu kekhawatiran tentang keberlanjutan model bisnis mereka. Beberapa orang percaya bahwa perusahaan-perusahaan ini pada akhirnya akan menghasilkan keuntungan seiring dengan meluasnya teknologi AI dan perluasan skenario aplikasi. Yang lain berpendapat bahwa biaya komputasi yang tinggi dan persaingan pasar yang ketat akan mempersulit pencapaian keuntungan. (Sumber: Reddit r/ArtificialInteligence)

💡 Lainnya

Blackbird: Alat OSINT Open-Source: Blackbird adalah alat OSINT (open-source intelligence) yang kuat yang dapat mencari nama pengguna dan email di lebih dari 600 platform, dan menawarkan kemampuan analisis berbasis AI gratis. Ia memanfaatkan proyek yang digerakkan oleh komunitas (seperti WhatsMyName) untuk memastikan tingkat false positive yang rendah dan hasil berkualitas tinggi. Fiturnya termasuk filter cerdas, ekspor PDF/CSV, dan analisis otomatis penuh, semuanya disediakan melalui CLI. (Sumber: GitHub Trending)

Trippy: Alat Diagnostik Jaringan: Trippy adalah alat diagnostik jaringan yang menggabungkan fungsi traceroute dan ping, yang dirancang untuk membantu menganalisis masalah jaringan. Ia berjalan di Linux, BSD, macOS, dan Windows, dan dapat diinstal dari sebagian besar pengelola paket, biner pra-kompilasi, atau kode sumber. (Sumber: GitHub Trending)

Anki: Program Flashcard Pengulangan Spasi Berjarak yang Cerdas: Anki adalah program flashcard pengulangan spasi berjarak yang cerdas yang membantu pengguna belajar dan menghafal informasi dengan lebih efisien. Ini open-source di GitHub dan memiliki basis pengguna dan kontributor yang besar. (Sumber: GitHub Trending)

🔥 Fokus

🎯 Pergerakan

🧰 Alat

📚 Pembelajaran

💼 Bisnis

🌟 Komunitas

💡 Lainnya

Tag Terkait

Related Posts

Berita AI – 2025-10-30(Edisi pagi)

Berita AI – 2025-10-29(Edisi pagi)

Berita AI – 2025-10-28(Edisi pagi)