Kata Kunci:DeepSomatic, PaddleOCR-VL, Chip Blackwell, RTFM, Hipotesis Kerusakan Otak LLM, Agen AI, AI Multimodal, Penelitian Kanker Google DeepSomatic, Analisis Dokumen Baidu PaddleOCR-VL, Pembuatan Chip NVIDIA Blackwell, Model Dunia RTFM Li Fei-Fei, Dampak Kualitas Data LLM pada Penalaran

🔥 FOKUS

Model Google DeepSomatic Mempercepat Penelitian Kanker: Google Research merilis model pembelajaran mesin DeepSomatic, bekerja sama dengan UCSC Genomics dan Children’s Mercy, yang mampu mengidentifikasi variasi gen kompleks dalam sel kanker secara akurat, secara signifikan meningkatkan efisiensi penelitian kanker, dan menyediakan langkah kunci untuk pengobatan yang lebih tepat. Model ini adalah salah satu hasil dari sepuluh tahun pengembangan AI genomik Google, menunjukkan dampak mendalam AI di bidang medis. (Sumber: Google Research, Reddit r/artificial)

Baidu PaddleOCR-VL Mendominasi Bidang OCR dengan SOTA: Baidu merilis model parsing dokumen multimodal ringan PaddleOCR-VL dengan hanya 0.9B parameter, menempati peringkat pertama secara global di daftar OmniDocBench V1.5 dengan skor 92.6, dan sepenuhnya memperbarui SOTA dalam empat kemampuan inti: pengenalan teks, pengenalan rumus, pemahaman tabel, dan urutan membaca. Model ini, melalui arsitektur dua tahap yang inovatif, mencapai pemahaman yang akurat tentang struktur dokumen yang kompleks, tulisan tangan, dan berbagai bahasa, dengan kecepatan inferensi yang cepat, membuktikan potensi model kecil untuk melampaui model umum besar dalam tugas-tugas tertentu. (Sumber: 量子位)

全球OCR最强模型仅0.9B!百度文心衍生模型刚刚横扫4项SOTA

NVIDIA dan TSMC Berkolaborasi, Wafer Chip Blackwell Buatan AS Pertama Dipamerkan: NVIDIA dan TSMC untuk pertama kalinya memamerkan wafer chip Blackwell buatan AS di pabrik Arizona. Peristiwa penting ini menandai langkah kunci dalam pergeseran manufaktur chip AI ke AS, bertujuan untuk mendorong kepemimpinan AS di bidang AI, dan meletakkan dasar bagi produksi arsitektur Blackwell dan versi selanjutnya (seperti Blackwell Ultra dan Rubin) untuk memenuhi kebutuhan pelatihan dan inferensi model besar di masa depan. (Sumber: nvidia, 36氪)

英伟达与台积电合作,首片美国本土制造Blackwell芯片晶圆亮相

Tim Fei-Fei Li Merilis Model Dunia Generatif Real-Time RTFM: Tim World Labs dari “Ibu AI” Fei-Fei Li merilis model dunia generatif real-time baru, RTFM (Real-Time Frame Model). Model ini dapat berjalan pada satu H100 GPU, menekankan efisiensi, skalabilitas, dan persistensi, mampu beroperasi secara berkelanjutan dan mempertahankan konsistensi 3D. Ini merupakan terobosan penting dalam model dunia 3D real-time dan permanen, yang diharapkan dapat mendorong aplikasi AI dalam pemahaman dan interaksi lingkungan yang kompleks. (Sumber: 9点1氪)

🎯 DINAMIKA

“Hipotesis Pembusukan Otak LLM” Mengungkap Dampak Kualitas Data pada Kognisi Model: Penelitian terbaru mengemukakan “hipotesis pembusukan otak LLM”, yang menunjukkan bahwa paparan terus-menerus LLM terhadap teks web berkualitas rendah dapat menyebabkan penurunan kemampuan kognitif, memengaruhi inferensi, pemahaman konteks panjang, dan keamanan, serta berpotensi memperburuk “sifat kepribadian gelap”. Penelitian menemukan bahwa “lompatan pikiran” adalah pola kesalahan utama, dan kerusakan sulit untuk sepenuhnya dibalik, menekankan bahwa kurasi data adalah masalah keamanan penting selama pelatihan. (Sumber: omarsar0, HuggingFace Daily Papers)

LLMs Can Get "Brain Rot"!

Kinerja Perangkat Keras AI dan Teknik Optimasi LLM Mencapai Kemajuan Signifikan: NVIDIA Blackwell RTX Pro 6000 menunjukkan kinerja inferensi model 120B yang luar biasa dalam benchmark vLLM, dan llama.cpp meningkatkan kecepatan pemrosesan model GLM 4.6 IQ4_XS sebanyak 4 kali melalui optimasi RPC. Cerebras merilis teknologi REAP untuk kompresi model MoE yang efisien, teknologi SuperOffload meningkatkan throughput pelatihan LLM sebanyak 4 kali, dan Elastic-Cache meningkatkan kecepatan decoding LLM difusi sebanyak 45 kali. Selain itu, optimizer Schedulefree AdamW dan model baru serta fungsi evaluasi terdistribusi dari pustaka mlx-lm, serta potensi SSM dalam generalisasi konteks panjang, semuanya menunjukkan jalur beragam untuk peningkatan efisiensi AI. (Sumber: Teknium1, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA, dl_weekly, omarsar0, aaron_defazio, awnihannun, gallabytes)

RTX Pro 6000 Blackwell vLLM Benchmark: 120B Model Performance Analysis

Inovasi Berkelanjutan dalam Teknologi Robotik, Menuju Persepsi dan Operasi yang Lebih Cerdas: Teknologi robotik berkembang menuju “pemahaman daripada sekadar kepatuhan” terhadap niat manusia, memunculkan pahat mekanis yang dapat membuat seni, robot humanoid yang menampilkan kaligrafi Tiongkok, robot swarm cerdas, robot polisi berbentuk bola, dan robot berkaki tiga. Universitas Jiao Tong Shanghai meluncurkan proyek open-source U-Arm, yang memungkinkan operasi jarak jauh universal untuk 95% lengan robot mainstream dengan biaya rendah 400 yuan. Robot industri meningkatkan pemahaman dan kemampuan operasinya terhadap dunia nyata melalui platform cerdas objek visual. Tangan robot humanoid MIT ORCA v1 juga menunjukkan desainnya yang canggih. (Sumber: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, teortaxesTex, janusch_patas, 量子位)

400元遥操95%机械臂!上海交大推出开源项目U-Arm,打造通用、低成本的人机遥操作接口

AI Mencapai Terobosan dalam Penelitian Ilmiah dan Pembuatan Konten: DeepMind bekerja sama dengan Commonwealth Fusion Systems, menggunakan simulator TORAX AI untuk mengontrol plasma, mempercepat proses fusi nuklir komersial. SR-Scientist mengubah LLM menjadi “ilmuwan AI” otonom, meningkatkan kemampuan penemuan persamaan melalui analisis data berbasis alat dan pengujian persamaan. Suno V5 mendorong kreasi musik AI ke titik kritis, dan LongCat-Audio-Codec mengoptimalkan LLM suara. RunwayML APPS memungkinkan pengeditan video perjalanan waktu, sementara Simulon dapat menghasilkan pencahayaan VFX yang realistis. (Sumber: ClementDelangue, Reddit r/artificial, TheTuringPost, op7418, huggingface, c_valenzuelab, timsoret)

AI 音乐从 Suno V5 开始已经走到了临界点,甚至可以说音乐行业在这一刻走到了临界点。

Paradigma Baru Kemampuan Inferensi LLM: Generalisasi Inferensi Tanpa RL/Pelatihan: Penelitian terbaru menemukan bahwa dengan meningkatkan strategi sampling saat pengujian, model bahasa dasar dapat mencapai kinerja inferensi yang setara atau bahkan lebih baik dari GRPO dalam satu inferensi, tanpa memerlukan reinforcement learning, pelatihan, atau validator, sekaligus menghindari hilangnya keragaman generatif. Selain itu, kerangka kerja Recursive Language Models (RLM) memungkinkan LLM memanggil dirinya sendiri secara rekursif untuk memproses konteks yang sangat panjang, memperluas kemampuan pemrosesan konteks hingga 10M+ token tanpa degradasi kinerja, dan meningkatkan akurasi model varian GPT-5-mini. (Sumber: dearmadisonblue, dilipkay, karminski3)

大模型无限上下文实现了?

Manajemen Konteks dan Peningkatan Efisiensi AI Agent: Teknologi Context-Folding memberikan Agent kemampuan untuk secara aktif mengelola konteks, dengan melakukan branching dan kompresi konteks, menunjukkan kinerja yang lebih baik daripada ReAct dalam tugas pencarian dan SWE, serta mengurangi penggunaan konteks sebanyak 10 kali. Kemajuan ini mengatasi hambatan efisiensi LLM dalam pemrosesan konteks panjang. (Sumber: ethanCaballero)

Google Gemini API Terintegrasi dengan Maps, Microsoft Windows 11 Mengintegrasikan AI Secara Mendalam: Google mengumumkan bahwa Gemini API kini terintegrasi dengan Google Maps, memungkinkan pengembang untuk memanfaatkan kemampuan inferensi model Gemini yang dikombinasikan dengan data dunia nyata Google Maps untuk membangun aplikasi AI yang sadar geospasial baru. Microsoft memposisikan Windows 11 sebagai perangkat yang mengutamakan AI, mengintegrasikan Copilot yang dikendalikan suara secara mendalam, bertujuan untuk mengelola tugas tanpa mouse dan keyboard, meningkatkan pengalaman pengguna. (Sumber: osanseviero, Reddit r/artificial, 9点1氪)

Top stories in tech today:

Pengembangan Aktif Model AI Multimodal dan Komunitas Open-Source: HuggingFace melaporkan penambahan jutaan repositori AI open-source dalam 90 hari, dengan NVIDIA menjadi kontributor model AI open-source terbesar. Laboratorium Tiongkok seperti Alibaba Qwen, DeepSeek, dll., berkembang pesat. LongCat-Audio-Codec di-open-source sebagai solusi pengkodean audio yang dioptimalkan untuk LLM suara. Dataset HoneyBee meningkatkan inferensi bahasa visual, dan peneliti MIT-IBM meningkatkan akurasi model bahasa visual untuk lokalisasi objek yang dipersonalisasi sebesar 12-21%. (Sumber: huggingface, huggingface, Teknium1, Reddit r/artificial)

Some interesting insights on open models/repos

Pendalaman Aplikasi AI di Industri: Medis, Keamanan Siber, Peninjauan Kontrak, dan Keuangan: Aplikasi AI semakin mendalam di berbagai industri. Sistem stetoskop berbasis AI dapat mengklasifikasikan suara jantung sehat dengan akurasi lebih dari 95% dan mendeteksi penyakit sejak dini. Microsoft meluncurkan suite benchmark open-source untuk mengevaluasi kemampuan AI Agent dalam dekomposisi tujuan, penggunaan alat, dan sintesis bukti dalam tugas keamanan siber. Diperkirakan dalam lima tahun ke depan, organisasi besar akan mengadopsi peninjauan kontrak AI secara luas. AI juga memainkan peran kunci dalam manajemen pertumbuhan pendapatan di sektor keuangan. (Sumber: Reddit r/artificial, Ronald_vanLoon, scottastevenson, Ronald_vanLoon)

AI Agent Mendefinisikan Ulang Observabilitas dan Aplikasi Perusahaan: Agentic AI tidak hanya mempercepat respons insiden, tetapi juga meningkatkan deteksi, pemantauan, dan perbaikan di seluruh siklus hidup observabilitas, mengubah pemecahan masalah tradisional menjadi transformasi siklus hidup. Kombinasi Cisco dan Splunk menyediakan visibilitas end-to-end, mendorong transformasi digital. Adopsi cepat AI Agent di perusahaan melebihi ekspektasi, menjadi infrastruktur untuk mengoordinasikan tugas, menyediakan pengalaman yang dipersonalisasi, dan menangani masalah kompleks. (Sumber: Ronald_vanLoon, Ronald_vanLoon)

🧰 ALAT

Pembaruan Claude Code Meningkatkan Pengalaman Pengembangan: Claude Code memperkenalkan model Haiku 4.5, sub-Agent Explore, dan fitur tanya jawab interaktif, meningkatkan efisiensi eksplorasi dan debugging kode. Pengguna kini dapat mengklarifikasi instruksi melalui mode tanya jawab dan memanfaatkan sub-Agent Explore untuk mencari codebase secara efisien, sekaligus mendukung Claude Skills, yang memungkinkan penyesuaian perilaku Agent melalui file markdown, meningkatkan personalisasi dan kemampuan otomatisasi alur kerja. (Sumber: tokenbender, Reddit r/ClaudeAI, Reddit r/ClaudeAI, omarsar0, jerryjliu0, skirano, QuixiAI)

Claude Code asking clarifying questions with a new UI

LlamaIndex Meluncurkan Pembangun Agent dan Debugger Alur Kerja: LlamaIndex merilis pembangun Agent yang mengutamakan kode, LlamaAgents, yang mendukung pengkodean dan deployment alur kerja Agent yang kompleks. Bersamaan dengan itu, diluncurkan debugger alur kerja visual yang memungkinkan pengguna untuk melihat, men-debug, dan membandingkan eksekusi Agent secara real-time, secara signifikan meningkatkan efisiensi pengembangan dan pemeliharaan Agent, terutama cocok untuk pekerjaan pengetahuan yang melibatkan dokumen kompleks. (Sumber: jerryjliu0, jerryjliu0)

Perplexity Memperluas Fitur Asisten AI, Meliputi Email dan Analisis Keuangan: Fitur asisten AI Perplexity terus berkembang, meluncurkan asisten email yang dapat secara otomatis menyusun email dan melakukan 500+ operasi aplikasi, serta modul keuangan yang dapat melacak insider trading dan transaksi politisi. Alat-alat ini bertujuan untuk mengotomatisasi tugas sehari-hari dan menyediakan informasi profesional melalui AI, secara signifikan meningkatkan produktivitas pengguna. (Sumber: AravSrinivas, AravSrinivas, AravSrinivas)

Perplexity Email Assistant is pretty sick.

LangChain Merilis LangGraph, Mendukung Pengembangan Agent Kelas Produksi: LangChain meluncurkan kerangka kerja LangGraph, yang bertujuan untuk menyediakan lapisan abstraksi yang tepat untuk AI Agent kelas produksi. Kerangka kerja ini berfokus pada kontrol dan persistensi, menyediakan fungsionalitas inti untuk mendukung deployment Agent berskala besar. Selain itu, kombinasi LangChain dengan Codex CLI memungkinkan pembangunan chatbot multi-sesi, sadar konteks, dan mendukung respons teks kaya dengan cepat, tanpa perlu menulis kode. (Sumber: hwchase17, hwchase17)

HuggingChat Omni Mengintegrasikan Ratusan Model, Mewujudkan Pemilihan Model Otomatis: HuggingFace meluncurkan HuggingChat Omni, yang secara otomatis memilih model terbaik untuk kueri pengguna melalui teknologi routing cerdas, mengintegrasikan lebih dari 100 model open-source termasuk gpt-oss, deepseek, qwen, dll. Platform ini bertujuan untuk memberikan jawaban yang paling optimal, ekonomis, dan cepat, serta berencana untuk memperluas ke berbagai modalitas seperti gambar, audio, dan video, secara signifikan meningkatkan efisiensi dan fleksibilitas interaksi AI. (Sumber: ClementDelangue, huggingface, yupp_ai)

The main breakthrough of GPT-5 was to route your messages between a couple of different models to give you the best, cheapest & fastest answer possible.

Moondream AI Menyediakan Layanan VLM Efisien, Mendukung Deployment Lokal: Moondream Cloud diluncurkan sebagai layanan AI visual terkelola, diklaim lebih cepat, lebih murah, dan lebih cerdas daripada Gemini 2.5 Flash dan GPT-5 Mini, serta menawarkan kredit bulanan gratis dan model bayar sesuai penggunaan. Model VLM ini menunjukkan kinerja luar biasa dalam captioning gambar, mendukung deployment lokal, dan menyediakan solusi pemrosesan bahasa visual yang hemat biaya bagi pengguna. (Sumber: vikhyatk, vikhyatk, vikhyatk)

Moondream Cloud is here.

LlamaBarn Menyederhanakan Deployment AI Lokal di Mac, Yupp.ai Menyediakan Platform Perbandingan AI: Proyek LlamaBarn menyediakan solusi satu klik, memungkinkan pengguna MacBook atau MacMini untuk dengan mudah mengunduh dan menjalankan model bahasa besar tanpa konfigurasi yang rumit, serta menyediakan obrolan web dan antarmuka API. Yupp.ai menyediakan platform perbandingan AI gratis, mengintegrasikan 800+ model AI, membantu pengguna memahami dan membandingkan kinerja AI yang berbeda secara mendalam, serta mendukung pembuatan video AI dan generasi PFP. (Sumber: karminski3, yupp_ai, yupp_ai)

想要把自己的 MacBook 或者 MacMini 变成 AI 服务器吗?

Scorecard Meningkatkan Keamanan AI Agent, Alat Manajemen Proyek Berbasis AI Bermunculan: Perusahaan Scorecard memperkenalkan logika keamanan kendaraan otonom ke bidang AI Agent, melalui pengujian dan evaluasi sandbox, untuk mencegah “halusinasi” dan perilaku tidak aman pada AI perusahaan, terutama memastikan keandalan di industri yang diatur. Pada saat yang sama, alat CLI manajemen proyek berbasis AI sedang dikembangkan, diharapkan dapat menyederhanakan pelacakan dan manajemen proyek melalui “vibe coding”. (Sumber: dariusemrani, TheEthanDing)

This is likely the best way this could have ended.

📚 BELAJAR

Sumber Daya Pendidikan dan Pembelajaran AI: Menyeimbangkan Teori Dasar dan Penelitian Terdepan: Bidang pendidikan AI menekankan pentingnya dasar yang kuat dalam teori probabilitas, aljabar linear, dan pembelajaran mesin klasik untuk memahami AI modern. Sumber daya pembelajaran mencakup panduan pemula AI Agent, laporan mingguan DSPy, prinsip kerja Transformer, tutorial pembelajaran robotik, dll. Dalam penelitian, makalah terdepan tentang generalisasi Transformer OOD, hukum skala sadar konteks, verifikasi diskriminatif, GroundedPRM, dan benchmark FML-bench dan LiveResearchBench untuk mengevaluasi ML research Agent telah dirilis. Pengalaman dokumentasi LangChain ditingkatkan, dan praktik hosting Claude Agent SDK dibagikan. (Sumber: dilipkay, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, jeremyphoward, ClementDelangue, bookwormengr, lateinteraction, charles_irl, SchmidhuberAI, TheTuringPost, Reddit r/deeplearning, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, sbmaruf, sbmaruf, gneubig)

18 months ago, @karpathy set a challenge: "Can you take my 2h13m tokenizer video and translate [into] a book chapter".

Kemajuan Terbaru dalam AI Agent dan Benchmark Penelitian ML: FML-bench, sebagai benchmark untuk mengevaluasi Agent penelitian pembelajaran mesin otomatis, menekankan pentingnya luasnya eksplorasi terhadap hasil penelitian. LiveResearchBench adalah benchmark penelitian mendalam yang berpusat pada pengguna, berisi 100 tugas ahli, bertujuan untuk secara ketat mengevaluasi kemampuan Agent dalam mencari dan mensintesis informasi dari ratusan sumber web real-time. Benchmark Hard2Verify berfokus pada pengukuran kemampuan validator untuk menyediakan label kebenaran tingkat langkah dalam masalah matematika terbuka dan terdepan. (Sumber: HuggingFace Daily Papers, HuggingFace Daily Papers, sbmaruf, sbmaruf)

LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild

Enam Pendekatan Baru dalam Pemikiran Model: Penelitian terbaru mengusulkan enam pendekatan baru yang mengubah pemikiran model, termasuk Tiny Recursive Models (TRM), LaDIR (Latent Diffusion for Iterative Reasoning), ETD (encode-think-decode), Thinking on the fly, The Markovian Thinker, dan ToTAL (Thought Template Augmented LCLMs). Metode-metode ini bertujuan untuk meningkatkan kemampuan inferensi, efisiensi, dan kemampuan model dalam menangani tugas-tugas kompleks, mendorong model AI menuju fungsi kognitif yang lebih tinggi. (Sumber: TheTuringPost)

6 new approaches transforming model thinking:

💼 BISNIS

AI Mempercepat Penetrasi di Sektor Bisnis, CFO Menjadi Juara Baru Adopsi AI: Aplikasi AI di perusahaan semakin cepat, dengan CFO menjadi peran kunci dalam mendorong adopsi AI. Kecepatan aplikasi AI Agent tingkat perusahaan melebihi ekspektasi, dan memainkan peran strategis dalam manajemen pertumbuhan pendapatan. Kapitalisasi pasar NVIDIA menembus 4 triliun USD, mencerminkan pertumbuhan kuat pasar perangkat keras AI. Pendiri HeyGen berbagi metodologi manajemen tim produk AI dan produk, menekankan kecepatan dan adaptasi terhadap iterasi model. (Sumber: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, SchmidhuberAI, dotey)

Why CFOs Are The New Champions Of #AI Adoption

Margin Laba Layanan Cloud AI Oracle Mengesankan, Akselerator AI Microsoft Menarik Perhatian: Oracle mengumumkan bahwa layanan cloud AI-nya dapat mencapai margin laba kotor 35%, dan telah menandatangani kontrak pasokan infrastruktur cloud baru senilai 65 miliar USD, menunjukkan momentum kuatnya di pasar cloud AI. Program akselerator AI Microsoft juga menarik perhatian, meskipun kemungkinan chip Maia-nya pada proses 18A telah berubah, Microsoft tetap berkomitmen pada pengembangan perangkat keras AI. (Sumber: 9点1氪, dylan522p)

Pendanaan Startup AI Aktif, Ekosistem Terbuka dan Prospek Komersialisasi MCP: General Intuition menyelesaikan putaran pendanaan awal sebesar 134 juta USD, bertujuan untuk melatih Agent yang memahami lingkungan 3D. HuggingFace menunjuk kepala aplikasi baru untuk mendorong ekosistem model open-source. Prospek komersialisasi protokol MCP sedang dieksplorasi, dengan Stripe berdiskusi dengan pengembang tentang cara mengenakan biaya untuk penggunaan MCP. LangChain akan mengadakan Launch Week, menampilkan kemajuan produk Agent. (Sumber: Reddit r/artificial, francoisfleuret, huggingface, fabianstelzer, LangChainAI, johannes_hage)

🌟 KOMUNITAS

Perkembangan AI Agent Memicu Diskusi Hangat: Dari Fantasi Menuju Implementasi, Utilitas dan Keterbatasan Berdampingan: Ekspektasi komunitas terhadap AI Agent bergeser dari “fantasi serba bisa” menjadi “pembangunan sistem”, menekankan perannya sebagai katalisator proses bisnis.