Kata Kunci:AI Agen Cerdas, Microsoft Build 2025, AlphaEvolve, GPT-4, Azure AI Foundry, NVIDIA Computex 2025, Alat Pemrograman AI, Kecerdasan Berwujud (Embodied Intelligence), Ekstensi GitHub Copilot untuk VSCode, Protokol Konteks Model (MCP), Jaringan Bahasa Alami (NLWeb), Meituan NoCode, Asisten Cerdas Tencent QBot
🔥 Fokus
Microsoft Build 2025 Membuka Era “Jaringan Agen Cerdas”, Sepenuhnya Merangkul Pengembangan AI-Native: Microsoft dalam konferensi pengembang Build 2025 mengumumkan visi “Open Agentic Web” (Jaringan Agen Terbuka), merilis lebih dari 50 pembaruan. Inti pembaruan mencakup ekstensi VSCode untuk GitHub Copilot yang dijadikan open source, peluncuran standar terbuka Model Context Protocol (MCP) dan Natural Language Web (NLWeb), serta pengenalan 1900+ model termasuk Grok dari xAI ke Azure AI Foundry. Langkah-langkah ini bertujuan untuk menghubungkan jalur pengembangan dari model ke agen cerdas, mewujudkan operasi otonom dan interoperabilitas AI Agent di berbagai skenario. CEO Microsoft Satya Nadella menekankan bahwa AI Agent akan mengubah cara penyelesaian masalah, dan bersama CEO OpenAI Sam Altman, CEO NVIDIA Jensen Huang, serta pendiri xAI Elon Musk, membahas masa depan agen AI dalam pengembangan perangkat lunak, infrastruktur, dan aplikasi di dunia fisik. (Sumber: 36氪 | GitHub Blog | VS Code Blog | The Verge)
Google DeepMind Merilis AlphaEvolve, Agen AI Memecahkan Rekor Efisiensi Perkalian Matriks Berusia 56 Tahun: Google DeepMind meluncurkan agen pemrogram AlphaEvolve yang didukung oleh Gemini. Melalui algoritma evolusioner dan sistem evaluasi otomatis, AlphaEvolve berhasil menemukan algoritma perkalian matriks kompleks 4×4 yang lebih efisien daripada algoritma Strassen yang telah digunakan selama 56 tahun, mengurangi jumlah perkalian skalar yang dibutuhkan dari 49 menjadi 48. Terobosan ini tidak hanya signifikan secara teoretis matematis, tetapi juga telah menunjukkan nilai dalam aplikasi internal Google, seperti mempercepat operasi perkalian matriks besar dalam arsitektur Gemini sebesar 23%, mengurangi waktu pelatihan Gemini sebesar 1%, dan meningkatkan kinerja FlashAttention sebesar 32,5%. AlphaEvolve menunjukkan potensi besar AI dalam penemuan ilmiah otomatis dan optimasi algoritma, mampu menangani berbagai masalah kompleks mulai dari teka-teki matematika hingga penjadwalan sumber daya pusat data dan percepatan pelatihan model AI. (Sumber: Google DeepMind Blog | 量子位)
Penelitian Menunjukkan GPT-4 Memiliki Daya Bujuk 64% Lebih Tinggi dari Manusia dalam Debat yang Dipersonalisasi: Sebuah penelitian yang diterbitkan di Nature Human Behaviour menunjukkan bahwa ketika GPT-4 dari OpenAI dapat memperoleh informasi pribadi lawan debat seperti jenis kelamin, usia, latar belakang pendidikan, dan menyesuaikan argumennya berdasarkan informasi tersebut, daya bujuknya 64% lebih tinggi daripada manusia. Penelitian yang dilakukan melalui kerja sama antara École Polytechnique Fédérale de Lausanne dan institusi lainnya ini melibatkan 900 partisipan, dan lebih lanjut mengonfirmasi kemampuan kuat model bahasa besar (LLM) dalam hal persuasi. Para peneliti memperingatkan bahwa hal ini mengungkapkan bagaimana alat AI, setelah menguasai sejumlah kecil informasi pengguna, dapat membangun argumen yang kompleks dan persuasif, yang merupakan ancaman potensial bagi penyebaran disinformasi yang dipersonalisasi. Mereka menyerukan kepada para pembuat kebijakan dan platform untuk memperhatikan risiko ini dan mengeksplorasi penggunaan LLM untuk menghasilkan konten kontra-narasi yang dipersonalisasi guna melawan disinformasi. (Sumber: Nature Human Behaviour | MIT Technology Review)
Microsoft dan Hugging Face Memperdalam Kemitraan, Azure AI Foundry Mengintegrasikan Lebih dari Sepuluh Ribu Model Open Source: Di konferensi Microsoft Build, Microsoft mengumumkan perluasan kemitraan dengan Hugging Face. Azure AI Foundry kini telah mengintegrasikan lebih dari 10.000 model open source dari Hugging Face, yang mencakup berbagai modalitas seperti teks, audio, gambar, dan berbagai tugas. Langkah ini bertujuan agar pengguna Azure dapat dengan lebih mudah dan aman menerapkan beragam model open source untuk membangun aplikasi AI dan agen cerdas. Semua model yang terintegrasi telah melalui pengujian keamanan, menggunakan format safetensors, dan tidak mengandung kode jarak jauh, memastikan keamanan aplikasi tingkat perusahaan. Kedua belah pihak berencana untuk terus memperkenalkan model terbaru dan populer di masa depan, mendukung lebih banyak modalitas (seperti video, 3D), dan memperkuat optimasi untuk agen AI dan alat bantu. (Sumber: HuggingFace Blog)

🎯 Dinamika
NVIDIA Merilis Beberapa Produk AI Baru di Computex 2025, Mempercepat Transformasi Pabrik AI: CEO Jensen Huang di Computex 2025 merilis GPU GeForce RTX 5060, platform superkomputer Grace Blackwell GB300, superkomputer AI pribadi DGX Spark (dilengkapi GB10, akan tersedia dalam beberapa minggu), dan DGX Station (memori 784GB, dapat menjalankan DeepSeek R1). Huang menekankan bahwa NVIDIA sedang bertransformasi dari pemasok GPU menjadi penyedia infrastruktur AI global, dengan tujuan menciptakan “pabrik AI siap pakai”. Sementara itu, mesin fisika Newton yang dikembangkan bersama oleh NVIDIA, DeepMind, dan Disney akan dijadikan open source pada bulan Juli, dan model dasar robot humanoid Isaac GR00T akan diluncurkan untuk mendorong pengembangan AI fisik. NVIDIA juga mengumumkan pembangunan kantor baru di Taiwan, Tiongkok, dan menekankan pentingnya talenta AI Tiongkok. (Sumber: 36氪 | 36氪)
Microsoft Berencana Izinkan Pengguna Uni Eropa Mengubah Asisten Suara Default di Perangkat seperti iPhone: Menurut laporan Bloomberg, Apple berencana mengizinkan pengguna di Uni Eropa untuk mengubah asisten suara default di perangkat seperti iPhone, iPad, dan Mac dari Siri ke opsi lain, seperti Google Assistant atau Amazon Alexa. Langkah ini kemungkinan diambil untuk menanggapi tekanan antimonopoli dari Undang-Undang Pasar Digital (DMA) Uni Eropa. Siri dalam beberapa tahun terakhir banyak dikritik karena fiturnya yang tertinggal dan kurang cerdas. Internal Apple terdapat perbedaan pendapat mengenai arah pengembangan Siri, dan arsitekturnya saat ini sulit diintegrasikan secara efektif dengan model bahasa besar (LLM). Meskipun Apple sedang mengembangkan Siri baru berbasis LLM dan telah meluncurkan Apple Intelligence, mengizinkan pengguna mengganti asisten default dapat berdampak pada ekosistemnya. (Sumber: 36氪)
Apple Menguji Chatbot AI Buatan Sendiri Secara Internal, Kemampuannya Mungkin Setara dengan ChatGPT: Reporter Bloomberg Mark Gurman mengungkapkan bahwa Apple sedang menguji proyek chatbot AI buatannya sendiri secara internal. Di bawah kepemimpinan kepala AI baru John Giannandrea, proyek ini telah mencapai kemajuan signifikan dalam enam bulan terakhir, dan beberapa eksekutif percaya bahwa versi saat ini kemampuannya sudah mendekati versi terbaru ChatGPT. Chatbot ini mungkin akan memiliki kemampuan pencarian web instan dan integrasi informasi. Langkah ini mungkin bertujuan untuk mengurangi ketergantungan pada layanan eksternal seperti OpenAI dan meningkatkan daya saing Siri. Meskipun WWDC 2025 mungkin tidak akan menyoroti pembaruan Siri, investasi Apple di bidang AI terus meningkat, dengan harapan dapat menghidupkan kembali asisten suaranya di era AI. (Sumber: 36氪)
Windows Akan Mendukung Model Context Protocol (MCP) Secara Native: Microsoft pada konferensi Build 2025 mengumumkan bahwa sistem operasi Windows akan mendukung Model Context Protocol (MCP) secara native, yang bertujuan untuk menyederhanakan pengembangan dan penerapan aplikasi AI di Windows. MCP diibaratkan sebagai “USB-C untuk aplikasi AI”, yang mencoba menyediakan cara interaksi standar untuk berbagai model dan aplikasi AI. Platform Windows AI Foundry akan mengintegrasikan dukungan ini, memungkinkan pengembang untuk lebih mudah menjalankan dan mengelola model AI lokal serta agen cerdas di perangkat Windows. (Sumber: op7418 | Reddit r/LocalLLaMA)

Microsoft Azure AI Foundry Memperkenalkan Model Besar Grok dari xAI: Microsoft pada konferensi pengembang Build 2025 mengumumkan bahwa model besar Grok 3 dan Grok 3 mini dari perusahaan xAI milik Elon Musk akan bergabung dengan platform Azure AI Foundry. Pengguna Azure akan dapat langsung menggunakan dan membayar model-model ini melalui platform cloud. Langkah ini semakin memperluas jumlah model AI yang tersedia di Azure (sudah lebih dari 1900 jenis), yang sebelumnya telah mencakup OpenAI, Meta, dan DeepSeek. Elon Musk melalui koneksi video menyatakan harapan agar pengembang memberikan umpan balik dan menantikan untuk menyediakan layanan Grok kepada lebih banyak perusahaan di masa depan. (Sumber: 36氪)
Tim Percy Liang Memprakarsai Proyek Marin, Mendorong Pengembangan Model AI Terbuka: Profesor Percy Liang dari Universitas Stanford memimpin prakarsa proyek Marin, yang bertujuan untuk membangun model terbuka dengan “cara partisipasi menyeluruh”. Proyek ini menekankan proses pengembangan terbuka, yang memungkinkan siapa saja untuk berkontribusi. Model Marin batch pertama telah dirilis, di antaranya model 8B telah tersedia di platform Together AI untuk diuji. Inisiatif ini menanggapi seruan untuk keterbukaan yang lebih dalam di bidang AI, tidak hanya membuka bobot, kode, dan data, tetapi juga seluruh ekosistem penelitian dan pengembangan. (Sumber: vipulved)

Intel Merilis Kartu Grafis Profesional Arc Pro B60, KTransformers Mengumumkan Dukungan untuk GPU Intel: Intel merilis kartu grafis kelas profesional baru, Arc Pro B60, yang memiliki memori 24GB dan bandwidth memori 456GB/s, dengan harga sekitar $500 per kartu, menyediakan pilihan perangkat keras baru untuk komputasi AI. Sementara itu, framework KTransformers mengumumkan dukungan untuk GPU Intel. Pengujian menunjukkan bahwa menjalankan model terkuantisasi DeepSeek-R1 Q4 pada platform Xeon 5 + DDR5 + Arc A770 dapat mencapai sekitar 7,5 token/s, memberikan lebih banyak kemungkinan perangkat keras untuk menjalankan model besar secara lokal. (Sumber: karminski3 | karminski3)

DeepMind Memberikan Teaser untuk Konferensi Google I/O: Akun resmi Google DeepMind memberikan teaser untuk konferensi Google I/O yang akan datang pada tanggal 20 Mei (pukul 10 pagi Waktu Pasifik), dan akan disiarkan langsung di platform X. Diperkirakan konferensi tersebut akan mengumumkan serangkaian pembaruan dan produk penting terkait AI, melanjutkan momentum kuat Google di bidang AI. (Sumber: GoogleDeepMind)
🧰 Alat
AgenticSeek: Agen AI yang Berjalan Sepenuhnya Lokal, Menyaingi Manus AI: AgenticSeek adalah proyek open source yang bertujuan untuk menyediakan asisten AI yang berjalan sepenuhnya secara lokal, dengan kemampuan untuk menjelajahi web secara mandiri, menulis kode, dan merencanakan tugas, di mana semua data tetap berada di perangkat pengguna untuk memastikan privasi. Alat ini dirancang khusus untuk model inferensi lokal, mendukung interaksi suara, dan berupaya mengurangi biaya penggunaan agen AI (hanya konsumsi listrik) serta risiko kebocoran data. (Sumber: GitHub Trending)

Meituan Menguji Alat Pemrograman AI NoCode Secara Internal, Diposisikan sebagai Vibe Coding: Laporan eksklusif 36Kr menyebutkan bahwa Meituan akan segera meluncurkan alat pemrograman AI “NoCode”, dengan domain nocode.cn telah terdaftar dan memasuki tahap pengujian skala abu-abu. Produk ini dikembangkan oleh tim Kualitas dan Efisiensi R&D Meituan, diposisikan mirip dengan “pemrograman suasana hati” Lovable, ditujukan untuk kalangan non-teknis. Melalui interaksi percakapan, alat ini secara otomatis menyelesaikan tugas pengkodean dan penerapan, seperti analisis data, prototipe produk, pembuatan alat operasional, dll. NoCode menggunakan arsitektur Code Agent, mampu melakukan penalaran logis multi-langkah, dan direncanakan akan dibuka untuk pedagang dan pengguna luas, guna menurunkan ambang batas IT bagi pedagang kecil dan menengah. (Sumber: 36氪)

Tencent QQ Browser Ditingkatkan Menjadi AI Browser, Mengintegrasikan Asisten Cerdas QBot: QQ Browser mengumumkan peningkatan menjadi AI Browser dan meluncurkan asisten AI bernama QBot, yang didasarkan pada model ganda Tencent Hunyuan dan DeepSeek. QBot mengintegrasikan fungsi-fungsi seperti pencarian AI, penjelajahan AI, perkantoran AI, pembelajaran AI, penulisan AI, dan memperkenalkan kemampuan AI Agent yang mirip dengan Manus, yang dapat menjalankan tugas-tugas kompleks. Batch pertama agen yang diuji secara skala abu-abu termasuk “AI高考通” (AI Lulus Ujian Masuk Perguruan Tinggi), yang dapat menghasilkan skema pengisian formulir pilihan jurusan perguruan tinggi yang dipersonalisasi untuk pengguna. Skala pengguna QQ Browser melebihi 400 juta, dan peningkatan ini bertujuan untuk meningkatkan efisiensi pengguna dalam memperoleh informasi dan menangani tugas melalui AI. (Sumber: 36氪)
OpenAI Codex Hadir di ChatGPT Versi iOS, Mendukung Tugas Pemrograman di Perangkat Seluler: OpenAI mengumumkan bahwa asisten pemrogramannya, Codex, kini telah terintegrasi ke dalam aplikasi ChatGPT untuk iOS. Pengguna dapat langsung memulai tugas pengkodean baru, melihat perbedaan kode, meminta modifikasi, bahkan melakukan push PR langsung dari ponsel mereka. Fitur ini juga mendukung pelacakan aktivitas langsung di layar kunci, memudahkan pengguna untuk memantau kemajuan kerja Codex kapan saja dan melanjutkan tugas yang belum selesai saat kembali ke komputer. Ini menandai langkah penting dalam pemrograman AI menuju kolaborasi multi-perangkat dan multi-skenario di perangkat seluler. (Sumber: karinanguyen_ | gdb)

Aplikasi Seluler NotebookLM Diluncurkan, Mendukung Android dan iOS: Alat pencatatan AI Google, NotebookLM, secara resmi meluncurkan aplikasi selulernya, yang telah tersedia secara bertahap di platform Android dan iOS. Versi seluler menyediakan fungsi inti seperti ringkasan audio dan percakapan, memudahkan pengguna untuk menganalisis dan mempelajari konten menggunakan AI kapan saja dan di mana saja. Salah satu fitur praktisnya adalah pengguna dapat langsung meneruskan konten yang sedang dijelajahi (kecuali akun publik WeChat) ke NotebookLM untuk diproses. (Sumber: op7418)

Public Meluncurkan Alat Investasi AI “Generated Assets”: Platform investasi Public merilis produk baru “Generated Assets”, yang memungkinkan pengguna untuk mengajukan ide investasi kepada AI. AI kemudian akan memberikan saran investasi, indeks investasi khusus, serta dapat membandingkan imbal hasil historis dan melacak kinerja secara real-time. Ini mirip dengan implementasi AI untuk “investasi suasana hati” atau “investasi tematik”, yang bertujuan untuk menurunkan ambang batas bagi pengguna dalam membangun dan mengelola portofolio investasi yang dipersonalisasi. (Sumber: op7418)

ClaraVerse: Aplikasi “Paket Lengkap” yang Mengintegrasikan Berbagai Alat AI: Sebuah suite alat AI bernama ClaraVerse dibagikan oleh komunitas. Suite ini mengintegrasikan antarmuka obrolan, komponen AI, Ollama (untuk menjalankan model besar lokal), n8n (untuk alur kerja/tugas terjadwal), templat AI Agent, ComfyUI (untuk pembuatan gambar), serta galeri gambar dengan indeks AI. Tujuannya adalah untuk menyediakan platform kerja AI satu atap bagi pengguna, menyederhanakan penggunaan dan peralihan antar alat AI yang berbeda. (Sumber: karminski3)

Database Vektor Qdrant Mengintegrasikan Protokol NLWeb Microsoft: Database vektor Qdrant mengumumkan menjadi salah satu mitra pertama untuk protokol terbuka NLWeb yang dirilis Microsoft pada konferensi Build. NLWeb bertujuan untuk mengubah kotak pencarian tradisional menjadi antarmuka semantik berbasis bahasa alami yang peka terhadap maksud. Dengan integrasi Qdrant, situs web dapat memanfaatkannya untuk pencarian vektor yang cepat dan terfilter, menyediakan hasil yang relevan secara semantik tanpa perlu banyak memodifikasi logika frontend atau backend. (Sumber: qdrant_engine)

📚 Pembelajaran
DeepMind Mengajukan Perencanaan Visual (Visual Planning): Paradigma Penalaran Urutan Gambar Murni: Yi Xu dan peneliti lainnya mengajukan paradigma penalaran baru yang disebut “Visual Planning”. Tujuannya adalah agar model dapat berpikir dan merencanakan sepenuhnya melalui urutan gambar, meniru cara manusia menyusun langkah-langkah dalam pikiran mereka, tanpa memerlukan pemikiran bahasa atau teks. Metode ini mengeksplorasi kemungkinan AI melakukan penalaran kompleks dalam sistem simbol non-linguistik, memberikan ide baru untuk pengembangan AI multimodal. (Sumber: madiator)

Stanford dan Institusi Lain Meluncurkan Terminal-Bench: Benchmark untuk Mengevaluasi Kemampuan Tugas Terminal Agen AI: Peneliti dari Universitas Stanford dan Laude meluncurkan Terminal-Bench, sebuah kerangka kerja dan benchmark untuk mengevaluasi kemampuan agen AI dalam menyelesaikan tugas-tugas kompleks di lingkungan terminal dunia nyata. Mengingat banyak agen AI (seperti Claude Code, Codex CLI) menjalankan tugas-tugas berharga melalui interaksi dengan terminal, benchmark ini bertujuan untuk mengukur efektivitas aktual mereka, mendorong peningkatan kemampuan agen yang berorientasi pada penerapan praktis. (Sumber: madiator | andersonbcdefg)

Interpretasi Teknis DeepSeek-V3: Desain Kolaboratif Perangkat Keras-Lunak untuk Model yang Efisien: Model DeepSeek-V3 menyelesaikan pelatihannya hanya dengan 2048 GPU NVIDIA H800 melalui desain kolaboratif perangkat keras-lunak. Inovasi utamanya meliputi Multi-head Latent Attention (MLA), Mixture of Experts (MoE), pelatihan presisi campuran FP8, dan topologi jaringan multi-planar. Teknologi-teknologi ini bekerja sama untuk mencapai kinerja model yang lebih baik dengan biaya yang lebih rendah, mewakili tren baru dalam desain model AI menuju rasio efisiensi biaya yang lebih tinggi. (Sumber: TheTuringPost)

Makalah Baru Membahas Optimisme Representasi dalam Deep Learning: Hipotesis Representasi Terjerat yang Terputus: Kenneth Stanley dkk. menerbitkan makalah posisi berjudul “Mempertanyakan Optimisme Representasi dalam Deep Learning: Hipotesis Representasi Terjerat yang Terputus”. Penelitian menunjukkan bahwa jaringan yang ditemukan melalui pencarian terbuka non-konvensional dan mampu menghasilkan satu gambar memiliki representasi yang elegan dan modular; sedangkan jaringan yang dipelajari oleh SGD untuk menghasilkan output yang sama memiliki representasi yang kacau dan terjerat. Ini menunjukkan bahwa perilaku output yang baik mungkin menyembunyikan representasi internal yang buruk, tetapi juga mengungkapkan kemungkinan bahwa representasi dapat menjadi lebih baik. Hal ini memiliki implikasi mendalam bagi generalisasi, kreativitas, dan kemampuan belajar model, serta memberikan ide baru untuk meningkatkan model dasar dan LLM. (Sumber: hardmaru | togelius | bengoertzel)

Tutorial RL Diperbarui, Fokus pada Bab LLM (DPO, GRPO, Chain of Thought, dll.): Sirbayes merilis versi baru tutorial Reinforcement Learning (RL) miliknya. Pembaruan kali ini terutama menargetkan bab Large Language Model (LLM), dengan menambahkan konten terbaru seperti DPO (Direct Preference Optimization), GRPO (Group Relative Policy Optimization), dan Chain of Thought (Thinking). Selain itu, bab-bab tentang Multi-Agent Reinforcement Learning (MARL), Model-Based Reinforcement Learning (MBRL), Offline Reinforcement Learning, dan DPG (Deep Deterministic Policy Gradient) juga mengalami sedikit pembaruan. (Sumber: sirbayes)

ByteDance Mengajukan Strategi Rata-Rata Model Pra-Terlatih (Pre-trained Model Averaging): Tim peneliti ByteDance menerbitkan makalah yang mengusulkan kerangka kerja baru untuk penggabungan model selama proses pra-pelatihan model bahasa besar—strategi Pre-trained Model Averaging (PMA). Penelitian menemukan bahwa menggabungkan checkpoint yang dilatih dengan laju pembelajaran konstan tidak hanya dapat mencapai kinerja yang sebanding atau bahkan lebih baik daripada pelatihan berkelanjutan, tetapi juga secara signifikan meningkatkan efisiensi pelatihan. Penelitian ini memberikan ide optimasi efisiensi baru untuk pra-pelatihan model besar dan memvalidasi potensi penggabungan model dalam meningkatkan kinerja dan efisiensi. (Sumber: teortaxesTex)

Penelitian Baru dari Tongyi Lab, ZeroSearch: LLM Berperan sebagai Mesin Pencari, Meningkatkan Kemampuan Penalaran Tanpa API: Tongyi Lab dari Alibaba mengusulkan kerangka kerja ZeroSearch, yang memungkinkan LLM meniru perilaku mesin pencari. Selama proses reinforcement learning, tidak perlu memanggil API mesin pencari secara aktual, sehingga mengurangi biaya dan meningkatkan stabilitas pelatihan. Metode ini menggunakan fine-tuning ringan agar LLM dapat menghasilkan hasil yang berguna dan gangguan noise, serta mengadopsi pelatihan anti-noise terkurikulum untuk secara bertahap meningkatkan kemampuan penalaran dan anti-interferensi model dalam skenario pencarian yang kompleks. Eksperimen menunjukkan bahwa LLM dengan hanya 3 miliar parameter sebagai modul pencarian dapat secara efektif meningkatkan kemampuan pencarian. (Sumber: 量子位)

Algoritma Baru RXTX dari Universitas Tionghoa Hong Kong Mengoptimalkan Perhitungan Perkalian Matriks XXt: Peneliti dari Universitas Tionghoa Hong Kong mengusulkan algoritma baru RXTX untuk mempercepat perhitungan perkalian matriks dengan transposnya (XXt). Algoritma ini didasarkan pada perkalian rekursif matriks blok 4×4, yang ditemukan melalui kombinasi teknik pencarian machine learning dan optimasi kombinatorial. Dibandingkan dengan algoritma yang ada berdasarkan rekursi Strassen, RXTX mengurangi konstanta perkalian asimtotik sekitar 5% dan menunjukkan keunggulan dalam jumlah total operasi untuk n≥256. Dalam pengujian matriks 6144×6144, RXTX 9% lebih cepat daripada implementasi default BLAS. Penelitian ini berpotensi berdampak pada bidang analisis data, desain chip, pelatihan LLM, dan lainnya. (Sumber: 量子位)

Makalah AdaptThink: Mengajarkan Model Penalaran Kapan Harus “Berpikir”: Penelitian ini mengusulkan AdaptThink, sebuah kerangka kerja yang melalui reinforcement learning mengajarkan model penalaran untuk secara adaptif memilih apakah akan melakukan pemikiran mendalam (seperti Chain-of-Thought) berdasarkan tingkat kesulitan pertanyaan. Intinya mencakup tujuan optimasi terbatas (mendorong pengurangan pemikiran sambil mempertahankan kinerja) dan strategi pengambilan sampel berdasarkan kepentingan (menyeimbangkan sampel yang berpikir dan tidak berpikir). Eksperimen menunjukkan bahwa AdaptThink dapat secara signifikan mengurangi biaya penalaran dan meningkatkan kinerja, misalnya pada dataset matematika, membuat panjang respons rata-rata DeepSeek-R1-Distill-Qwen-1.5B berkurang 53% dan akurasi meningkat 2,4%. (Sumber: HuggingFace Daily Papers)
Makalah VisionReasoner: Menyatukan Persepsi Visual dan Penalaran Melalui Reinforcement Learning: VisionReasoner adalah kerangka kerja terpadu yang bertujuan untuk menangani berbagai tugas persepsi visual menggunakan model bersama. Ini mengadopsi strategi pembelajaran kognitif multi-objek dan rekonstruksi tugas sistematis untuk meningkatkan kemampuan model dalam menganalisis input visual dan melakukan penalaran terstruktur guna mengatasi sepuluh tugas berbeda seperti deteksi, segmentasi, dan penghitungan. Hasil eksperimen menunjukkan bahwa VisionReasoner mengungguli model seperti Qwen2.5VL pada benchmark seperti COCO (deteksi), ReasonSeg (segmentasi), dan CountBench (penghitungan). (Sumber: HuggingFace Daily Papers)
Makalah AdaCoT: Mencapai Pemicu Chain-of-Thought Adaptif yang Optimal Pareto Melalui Reinforcement Learning: Untuk mengatasi overhead komputasi yang tidak perlu akibat Chain-of-Thought (CoT) saat model bahasa besar (LLM) memproses kueri sederhana, kerangka kerja AdaCoT diusulkan. Ini memanfaatkan reinforcement learning (PPO) agar LLM dapat secara adaptif memutuskan apakah akan memanggil CoT berdasarkan kompleksitas implisit kueri, dengan tujuan menyeimbangkan kinerja model dan biaya pemanggilan CoT. Melalui teknik selective loss masking (SLM) untuk mencegah keruntuhan batas keputusan, eksperimen menunjukkan bahwa AdaCoT dapat secara signifikan mengurangi tingkat pemicu CoT yang tidak perlu (serendah 3,18%) dan jumlah token respons (berkurang 69,06%), sambil mempertahankan kinerja tinggi pada tugas-tugas kompleks. (Sumber: HuggingFace Daily Papers)
Makalah GIE-Bench: Benchmark Evaluasi yang Membumi untuk Pengeditan Gambar Berpanduan Teks: Untuk mengevaluasi model pengeditan gambar berpanduan teks secara lebih akurat, GIE-Bench diusulkan. Benchmark ini melakukan evaluasi dari dua dimensi: kebenaran fungsional (memverifikasi keberhasilan pengeditan melalui soal pilihan ganda yang dibuat secara otomatis) dan pelestarian konten gambar (menggunakan teknik masking yang peka terhadap objek dan skor pelestarian untuk memastikan konsistensi area non-target). Berisi lebih dari 1000 contoh pengeditan berkualitas tinggi, mencakup 20 kategori. Evaluasi terhadap model seperti GPT-Image-1 menunjukkan keunggulannya dalam mengikuti instruksi, tetapi masih perlu perbaikan dalam mempertahankan area yang tidak relevan. (Sumber: HuggingFace Daily Papers)
Makalah InstanceGen: Pembuatan Gambar dengan Instruksi Tingkat Instans: Untuk mengatasi masalah model teks-ke-gambar pra-terlatih yang kesulitan menangkap semantik secara akurat saat memproses prompt kompleks yang berisi banyak objek dan atribut tingkat instans, InstanceGen mengusulkan teknik baru. Teknik ini menggabungkan inisialisasi terstruktur halus berbasis gambar (disediakan langsung oleh model pembuatan gambar kontemporer) dan instruksi tingkat instans berbasis LLM, memungkinkan gambar yang dihasilkan untuk lebih baik mengikuti semua bagian dari prompt teks, termasuk jumlah objek, atribut tingkat instans, dan hubungan spasial antar instans. (Sumber: HuggingFace Daily Papers)
💼 Bisnis
Perusahaan Embodied Intelligence dari Tsinghua, “Qianjue Technology”, Menyelesaikan Pendanaan Pra-A+ Senilai Ratusan Juta Yuan: Perusahaan “otak terwujud” (embodied brain) “Qianjue Technology” baru-baru ini menyelesaikan putaran pendanaan Pra-A+ baru, dengan investasi dari Junshan Investment, Xiangfeng Investment, dan Shixi Capital, dengan total pendanaan kumulatif mencapai ratusan juta yuan. Perusahaan ini diinkubasi oleh anggota inti dari Departemen Otomasi Universitas Tsinghua dan lembaga penelitian AI terkait, berfokus pada pengembangan sistem “otak terwujud” serbaguna, menekankan persepsi multimodal real-time, perencanaan tugas berkelanjutan, dan kemampuan eksekusi otonom. Produknya telah diterapkan di berbagai skenario seperti layanan rumah tangga dan pengiriman logistik, serta telah bekerja sama dengan beberapa produsen robot terkemuka dan perusahaan elektronik konsumen. (Sumber: 36氪)

AI Agent Mungkin Akan Mengubah Lanskap Pasar SaaS: CEO Microsoft Satya Nadella meramalkan bahwa aplikasi SaaS akan menghadapi disrupsi di era AI Agent, memicu diskusi luas di industri mengenai masa depan AI Agent dan SaaS. Dengan kemampuan persepsi, pengambilan keputusan, dan tindakan otonomnya, AI Agent diharapkan dapat mengatasi titik-titik lemah SaaS tradisional dalam hal kustomisasi, interoperabilitas data, dan pengalaman pengguna, seperti membuat alur kerja secara otomatis melalui interaksi bahasa alami, mengintegrasikan data lintas aplikasi, dan secara proaktif memberikan saran bisnis. Meskipun saat ini AI Agent dalam aplikasi tingkat perusahaan menghadapi tantangan seperti keterbatasan kemampuan LLM, biaya, dan keamanan data, vendor seperti Salesforce, Microsoft, dan Yonyou telah mulai mengintegrasikan AI Agent ke dalam produk SaaS mereka, menjelajahi model baru yang menggabungkan atau mendisrupsi SaaS. (Sumber: 36氪)

AI Mengubah Manajemen Kompensasi: Dari Analisis Data hingga Pengambilan Keputusan dan Komunikasi Cerdas: Kecerdasan buatan secara mendalam mengubah manajemen kompensasi. Laporan Korn Ferry menunjukkan bahwa penerapan AI dalam komunikasi kompensasi, benchmarking eksternal, dan arsitektur keterampilan jabatan semakin meningkat. Di masa depan, AI diharapkan dapat bertransformasi dari berbasis data menjadi pengambilan keputusan cerdas dengan memproses data yang lebih besar dan beragam (termasuk platform media sosial, survei pihak ketiga), seperti memprediksi risiko pergantian karyawan, mengevaluasi efektivitas insentif, menyesuaikan rentang gaji secara dinamis, dan mewujudkan insentif yang dipersonalisasi. Pada saat yang sama, AI juga menghadapi tantangan seperti privasi data, “kotak hitam” algoritma, dan kredibilitas hasil. Komunikasi kompensasi yang efektif menjadi lebih penting di era digital cerdas, dan alat AI dapat membantu manajer melakukan komunikasi yang sistematis dan dipersonalisasi, meningkatkan rasa keadilan dan kepuasan karyawan. (Sumber: 36氪)
🌟 Komunitas
Sundar Pichai Memposting Foto “Berpikir Keras”, Memberi Teaser untuk Google I/O: CEO Google Sundar Pichai memposting foto dirinya sedang “berpikir keras” di media sosial, memicu antisipasi luas dari komunitas terhadap konferensi Google I/O yang akan datang. Foto ini dibagikan ulang dan diinterpretasikan oleh banyak KOL di bidang AI, yang umumnya percaya bahwa ini menandakan Google akan membuat pengumuman besar di bidang AI, khususnya terkait model Gemini dan aplikasinya. Anggota komunitas ramai berspekulasi tentang kemungkinan fitur baru, model baru, atau strategi baru. (Sumber: demishassabis | YiTayML | zacharynado | lmthang | scaling01 | brickroad7 | jack_w_rae | TheTuringPost | shaneguML | op7418)

Kemampuan Pemrograman AI Agent Menjadi Perbincangan Hangat, Sama Optimis Dapat Menyelesaikan Proyek yang Belum Selesai Secara Otomatis: CEO OpenAI Sam Altman menyatakan antusiasmenya terhadap kemampuan agen pemrograman AI (seperti Codex) untuk menyelesaikan proyek-proyek yang sudah 80% selesai namun belum rampung, serta melakukan pemeliharaan otomatis. Komunitas membandingkan dan mendiskusikan kemampuan berbagai agen pemrograman AI (seperti Codex, Jules, Claude Code), dengan fokus pada kemampuan perencanaan tugas, lingkungan mesin virtual (misalnya apakah terhubung ke internet), dan kinerja dalam tugas-tugas jangka panjang yang kompleks. Secara umum diyakini bahwa potensi AI Agent di bidang pengembangan perangkat lunak sangat besar, tetapi berbagai model masih memiliki perbedaan dalam implementasi dan hasil spesifik. (Sumber: sama | mathemagic1an)
Penggunaan Deteksi Konten Buatan AI di Perguruan Tinggi Memicu Kontroversi, “Kata Pengantar Paviliun Pangeran Teng” Dinyatakan 100% Buatan AI: Beberapa perguruan tinggi di Tiongkok memasukkan “tingkat deteksi konten buatan AI” ke dalam penilaian tesis, menyebabkan mahasiswa menggunakan berbagai metode untuk menghindari deteksi, dan dosen berjuang antara keputusan AI dan penilaian manual. Alat deteksi AI, karena ketergantungan pada perbandingan database dan bias pola, sering salah mengidentifikasi karya klasik (seperti “Kata Pengantar Paviliun Pangeran Teng” dengan tingkat AI 100%, “Kolam Teratai di Bawah Sinar Bulan” karya Zhu Ziqing 62,88%) dan tulisan akademis standar sebagai buatan AI. Fenomena ini telah melahirkan industri abu-abu “penurunan tingkat AI”, memicu refleksi mendalam tentang keterbatasan teknologi deteksi AI, standar evaluasi akademis, dan esensi pendidikan. (Sumber: 36氪)

Cara Berpikir Generasi Berikutnya yang Tumbuh di Era AI Menjadi Topik Diskusi: Komunitas Reddit ramai membahas bagaimana cara berpikir generasi baru anak-anak yang tumbuh di lingkungan AI akan berbeda secara signifikan dari generasi sebelumnya. Mereka akan terbiasa berinteraksi dengan asisten AI, fokus belajar mungkin bergeser dari menghafal fakta ke mengajukan pertanyaan dan menavigasi sistem, dari belajar melalui coba-gagal ke iterasi cepat. Perpaduan awal dengan logika mesin ini dapat secara mendalam membentuk kembali rasa ingin tahu, memori, intuisi, bahkan definisi mereka tentang kecerdasan itu sendiri, memicu pemikiran tentang pembentukan keyakinan masa depan mereka, kemampuan membangun sistem, dan kepercayaan pada pemikiran mereka sendiri. (Sumber: Reddit r/ArtificialInteligence)
Perkembangan Pesat AI di Bidang Rekayasa Perangkat Lunak Memicu Rasa Krisis Posisi bagi Pengembang: Seorang insinyur perangkat lunak berusia 42 tahun, yang pernah berpenghasilan $150.000 per tahun, setelah tersingkir oleh tren terkait AI, mengirimkan lebih dari 800 lamaran kerja namun hanya mendapat sedikit kesempatan wawancara, dan saat ini bertahan hidup dengan menjadi kurir makanan. Pengalamannya memicu diskusi tentang apakah AI (seperti GitHub Copilot, Claude, ChatGPT) telah mulai menggantikan programmer secara besar-besaran. CEO Anthropic pernah memprediksi bahwa AI akan mampu menghasilkan sebagian besar kode. Meskipun data Biro Statistik Tenaga Kerja masih menunjukkan bahwa rekayasa perangkat lunak adalah salah satu profesi dengan pertumbuhan tercepat, gelombang PHK di industri teknologi terus berlanjut, dan perusahaan memanfaatkan AI untuk mengurangi biaya dan meningkatkan efisiensi. Hal ini mendorong orang untuk merenungkan bagaimana masyarakat harus menanggapi pengangguran struktural yang disebabkan oleh AI dan membangun paradigma baru kolaborasi “manusia + AI”. (Sumber: 36氪)

Masalah Bias Gender dalam Algoritma AI: Tak Terlihatnya dan Kurangnya “Data Perempuan”: Dalam perkembangan kecerdasan buatan, masalah bias gender dalam algoritma semakin menonjol. Karena alasan historis dan sosial, representasi data perempuan dalam pengumpulan data tidak memadai (misalnya dalam uji klinis, entri Wikipedia), yang menyebabkan AI dapat menghasilkan bias terhadap perempuan dalam diagnosis medis, rekomendasi konten, dan lainnya. Misalnya, sistem pengenalan gambar mungkin salah mengidentifikasi pria di dapur sebagai wanita, hasil gambar mesin pencari memperkuat stereotip gender. Ketidakseimbangan struktur gender dalam industri AI juga dianggap sebagai salah satu penyebabnya. Mengatasi masalah ini memerlukan berbagai upaya, mulai dari meningkatkan kesadaran pengembang, menjamin kesempatan kerja yang adil bagi perempuan, menyempurnakan peraturan perundang-undangan, membangun mekanisme audit gender sistem AI, hingga mengoptimalkan algoritma (seperti pengambilan sampel ulang data, penerapan penalaran kausal). (Sumber: 36氪)

AI Agent Memicu Diskusi Perubahan Industri SaaS: CEO Microsoft Satya Nadella memprediksi SaaS akan menghadapi disrupsi di era AI Agent. AI Agent, dengan kemampuan persepsi, pengambilan keputusan, dan tindakan otonomnya, diharapkan dapat mengatasi titik lemah SaaS dalam kustomisasi, interoperabilitas data, dan pengalaman pengguna. Misalnya, AI Agent dapat secara otomatis membuat alur kerja melalui interaksi bahasa alami, mengintegrasikan data lintas aplikasi, dan secara proaktif memberikan saran bisnis. Saat ini, vendor SaaS seperti Salesforce, Microsoft, dan Yonyou telah mulai mengintegrasikan AI Agent, menjelajahi model baru yang menggabungkan atau mendisrupsi SaaS. Meskipun AI Agent dalam aplikasi tingkat perusahaan masih menghadapi tantangan seperti kemampuan LLM, biaya, dan keamanan data, potensi perubahannya telah menarik perhatian luas industri. (Sumber: finbarrtimbers)
💡 Lainnya
AI Menghasilkan Kartu Tarot Gaya Opera Tiongkok: Pengguna @op7418 menggunakan alat AI Lovart untuk membuat satu set kartu tarot bergaya opera Tiongkok. Konsep desainnya adalah menggabungkan konten opera tradisional dengan makna yang diungkapkan oleh kartu tarot yang sesuai, menunjukkan potensi aplikasi AI dalam desain kreatif dan perpaduan budaya. (Sumber: op7418)

Pembentukan Ulang Struktur Organisasi di Era AI: Kebangkitan Tim Eksekusi Strategis (SET): Artikel ini membahas bagaimana di era percepatan perkembangan AI, struktur organisasi tradisional kesulitan beradaptasi dengan kompleksitas yang dibawa oleh AI. Diusulkan model organisasi tiga lapis dengan “Tim Eksekusi Strategis” (SET) sebagai intinya, yang bertujuan menjadikan AI sebagai bagian dari tim, melalui mekanisme kolaborasi manusia-mesin yang wajar untuk mencapai eksekusi yang gesit dan perluasan cerdas. SET bertanggung jawab untuk mengubah strategi menjadi tindakan lintas departemen, memantau entropi organisasi, menyesuaikan strategi secara fleksibel, dan mengoordinasikan kolaborasi antara manusia, proses, dan agen AI, untuk melepaskan potensi AI dan mendorong implementasi strategi. (Sumber: 36氪)

Dapatkah Pemeriksaan Fakta Crowdsourced Mencegah Disinformasi di Media Sosial?: Profesor Preslav Nakov dari Mohamed bin Zayed University of Artificial Intelligence membahas dampak Meta menggantikan pemeriksa fakta pihak ketiga dengan Community Notes. Ia berpendapat bahwa model crowdsourced seperti Community Notes (berasal dari Birdwatch X) memiliki potensi, tetapi moderasi konten memerlukan kombinasi berbagai metode, termasuk penyaringan otomatis, crowdsourcing, dan pemeriksaan fakta profesional. Dengan menganalogikan penyaringan spam dan penanganan konten berbahaya oleh LLM, ia menunjukkan bahwa setiap metode memiliki kelebihan dan kekurangan masing-masing dan harus bekerja secara sinergis. Penelitian menunjukkan bahwa Community Notes dapat memperkuat dampak pekerjaan pemeriksa fakta profesional; keduanya memiliki fokus yang berbeda tetapi kesimpulan yang serupa, sehingga dapat saling melengkapi. (Sumber: MIT Technology Review)
