Kata Kunci:Agen AI Cerdas, Robot Humanoid, Model Besar, AIGC, Microsoft 365 Copilot, Model Virtual Lalat Buah DeepMind, Penyalahgunaan Makalah Akademik AI, Model Sumber Terbuka OpenAI, Komersialisasi AI Farmasi, Kabin Cerdas dengan Model Besar Sisi Perangkat, Ekologi AI Protokol MCP, Teknik Melukis AI
🔥 Fokus
Microsoft merilis agen AI dan laporan tren kerja 2025: Microsoft meluncurkan pembaruan besar untuk Microsoft 365 Copilot, memperkenalkan agen AI seperti Researcher, Analyst, yang bertujuan untuk meningkatkan AI dari sekadar alat menjadi ‘rekan kerja AI’. Fitur baru termasuk Notebook (mengintegrasikan Web+Work+Pages), pencarian komprehensif (lintas aplikasi dan sumber pihak ketiga), dan Create (terintegrasi dengan pembuatan gambar GPT-4o). Laporan tren kerja 2025 yang dirilis bersamaan memprediksi munculnya “perusahaan perintis” (frontier companies), yang dibangun di sekitar “kecerdasan sesuai permintaan” (on-demand intelligence), didukung oleh tim “hibrida manusia-mesin”, dan karyawan perlu memiliki “pola pikir bos agen cerdas” (agent boss mindset). Laporan ini menandakan bahwa AI akan secara mendalam membentuk kembali model kerja dan struktur organisasi dalam beberapa tahun ke depan, menekankan bahwa agen AI akan menjadi inti produktivitas. (Sumber: 新智元)

Simulasi lalat buah DeepMind tampil di sampul Nature: Google DeepMind bekerja sama dengan HHMI Janelia Research Campus, menggunakan AI dan teknologi simulasi fisika untuk menciptakan model lalat buah virtual yang sangat realistis. Model ini didasarkan pada data pemindaian resolusi tinggi, dibangun dalam mesin fisika MuJoCo, dan menambahkan simulasi dinamika fluida serta adhesi kaki. Melalui deep reinforcement learning dan imitation learning (menggunakan video perilaku lalat buah asli), jaringan saraf AI berhasil menggerakkan lalat buah virtual untuk mensimulasikan perilaku terbang dan berjalan yang kompleks, bahkan termasuk navigasi visual. Penelitian ini tidak hanya mengungkap mekanisme kompleks di balik gerakan biologis, tetapi juga menyediakan platform penelitian yang kuat untuk ilmu saraf dan robotika. Model dan kode telah dibuat open-source, mendorong penelitian di bidang terkait. (Sumber: 新智元)

Nature mengungkap fenomena penyalahgunaan AI dalam makalah akademis: Artikel halaman depan Nature menunjukkan bahwa sejumlah besar makalah akademis (pelacak Academ-AI telah mencatat lebih dari 700 makalah) ditulis menggunakan AI (seperti ChatGPT) tanpa deklarasi, bahkan mengandung jejak yang jelas seperti “Saya adalah model bahasa AI”. Yang lebih mengkhawatirkan, beberapa penerbit (seperti Elsevier) ditemukan diam-diam menghapus jejak AI ini tanpa menerbitkan koreksi, memicu kekhawatiran tentang integritas ilmiah. Para peneliti menyerukan agar penulis secara eksplisit mengungkapkan cara penggunaan AI secara spesifik, dan penerbit harus membangun mekanisme peninjauan yang lebih ketat serta mempublikasikan catatan koreksi untuk menjaga transparansi dan kredibilitas penelitian akademis. (Sumber: 新智元)

OpenAI memprediksi pertumbuhan pendapatan yang pesat dan berencana restrukturisasi, memicu kontroversi: OpenAI memperkirakan pendapatan total akan mencapai 125 miliar USD pada tahun 2029, dengan pendapatan dari bisnis baru seperti agen cerdas akan melampaui ChatGPT. Sementara itu, perusahaan berencana untuk restrukturisasi menjadi Perusahaan Manfaat Publik (PBC – Public Benefit Corporation), sebuah langkah yang memicu penolakan publik dari Bapak AI Hinton dan 10 mantan karyawan lainnya. Para penentang berpendapat bahwa restrukturisasi akan melemahkan kontrol organisasi nirlaba, menyimpang dari tujuan awal untuk memastikan pengembangan AGI yang aman dan bermanfaat bagi umat manusia, serta menempatkan kepentingan komersial di atas misi amal. Mereka mendesak OpenAI untuk menjelaskan bagaimana restrukturisasi sejalan dengan misinya dan menuntut agar jaminan tata kelola organisasi nirlaba dipertahankan. (Sumber: 智东西, 腾讯科技, 学术头条)

🎯 Tren
Robot humanoid menjadi sorotan di Shanghai Auto Show, produsen mobil percepat tata letak: Di Shanghai Auto Show 2025, robot humanoid menjadi sorotan baru. Xpeng memamerkan robot IRON yang dapat berinteraksi dengan manusia dan berencana memproduksinya secara massal untuk pabrik pada tahun 2026; Chery memamerkan Mornine gen-1 yang dikembangkan sendiri, dengan kemampuan persepsi multimodal dan tanya jawab; SAIC Roewe, Changan Deepal, dll. juga memamerkan robot hasil kerja sama atau yang diperkenalkan untuk menarik pengunjung. Produsen mobil seperti Tesla, GAC, BYD (pengembangan mandiri dan investasi di ZY Robotics, Pasibot) juga mempercepat penelitian, pengembangan, dan aplikasi robot humanoid, melihat potensinya di bidang manufaktur industri, layanan, dll. Meskipun prospeknya luas, industri ini masih dalam tahap awal, dengan ketidakpastian pasar dan risiko gelembung (bubble). (Sumber: NBD汽车)

Provinsi Jilin tingkatkan industri robotika, dorong integrasi teknologi otomotif dan robotika: Provinsi Jilin, basis industri otomotif veteran, secara aktif menata industri robotika. StarNeto, FAW Fuwei menandatangani perjanjian kerja sama strategis dengan Pusat Inovasi Robot Bionik Provinsi Jilin untuk bersama-sama mengembangkan embodied intelligence, model besar, dll. Pusat inovasi ini dipimpin oleh Universitas Jilin, bertujuan untuk membangun rantai industri robotika yang lengkap. Langkah ini memanfaatkan basis rantai pasokan otomotif Jilin yang matang (tingkat tumpang tindih tinggi antara suku cadang dan teknologi robotika), dan sejalan dengan kebijakan dukungan kuat nasional dan lokal (Shenzhen, Beijing) untuk industri embodied intelligence. Teknologi robotika, terutama bagian yang terkait dengan autonomous driving, dipandang sebagai peluang baru setelah inteligentisasi industri otomotif. (Sumber: 科创板日报)

Film panjang AIGC pertama di dunia “Ratu Laut Zheng Yi Sao” tayang di bioskop: Film berdurasi 70 menit ini sepenuhnya dibuat menggunakan AI, menceritakan kisah bajak laut wanita legendaris Zheng Yi Sao, dan tayang di Singapura. Produksi menghadapi banyak tantangan: AI sulit menangani dialog panjang dan pengaturan adegan yang kompleks, cenderung menghasilkan gambar yang berulang atau tidak koheren; konsistensi citra karakter sulit dijamin, muncul masalah “wajah kembar” atau “perubahan wajah”, memerlukan perbaikan pasca-produksi manual. Penulisan naskah, storyboard, dan penyuntingan masih membutuhkan peran dominan manusia, AI belum dapat sepenuhnya memahami detail sejarah dan niat kreatif. Meskipun ada keterbatasan, AIGC secara signifikan menurunkan ambang batas dan biaya produksi, terutama menguntungkan tim baru, menunjukkan potensi dan arah masa depan kolaborasi manusia-mesin dalam produksi film dan televisi. (Sumber: 深响)

OpenAI meluncurkan fitur Deep Research versi ringan dan membukanya untuk pengguna gratis: OpenAI mengumumkan peluncuran fitur Deep Research versi ringan yang didukung oleh o4-mini, bertujuan untuk memberikan tingkat kecerdasan yang mendekati versi lengkap, tetapi dengan respons yang lebih ringkas dan biaya lebih rendah. Fitur ini telah dibuka untuk pengguna Plus, Team, Enterprise, Edu, dan gratis. Pengguna berbayar akan secara otomatis beralih ke versi ringan setelah kuota versi lengkap habis. Pengujian menunjukkan bahwa versi ringan cepat tetapi kedalaman informasi dan kutipan sumber tidak sebaik versi lengkap, kinerjanya kurang baik dalam menangani tugas kompleks, lebih seperti memberikan ide daripada laporan lengkap. Versi lengkap dapat melakukan pencarian dan analisis mendalam, menghasilkan laporan terstruktur, tetapi masih ada ruang untuk perbaikan. (Sumber: APPSO, 量子位, gdb)

Pratinjau Google I/O 2025: AI-native dan integrasi XR: Google I/O 2025 yang akan datang pada 20 Mei diperkirakan akan fokus pada kolaborasi AI dengan multi-perangkat. Android 16 akan mengintegrasikan model besar Gemini secara mendalam, menjadikannya kemampuan asli sistem, dan membuka lebih banyak API untuk pengembang. Secara visual, akan mengadopsi bahasa desain Material 3 Expressive, dan memperkuat adaptasi untuk tablet, perangkat wearable, dan XR. Sistem operasi Android XR yang sangat dinantikan akan debut, sistem ini juga menggunakan Gemini sebagai mesin interaksi inti, bertujuan untuk menghubungkan dunia nyata dan virtual. Kacamata Google AI dan perangkat MR Project Moohan hasil kerja sama dengan Samsung diperkirakan juga akan hadir, menunjukkan tata letak Google dalam asisten AI dan ekosistem XR terbuka. (Sumber: 雷科技)

Moonshot AI (Kimi) menguji coba fitur komunitas konten untuk hadapi persaingan: Menghadapi gempuran model seperti DeepSeek, Moonshot AI sedang menguji coba fitur komunitas konten untuk asisten AI-nya, Kimi. Komunitas ini saat ini dalam tahap pengujian skala abu-abu (grey testing), konten utamanya dihasilkan oleh AI dan mengundang akun saluran (channel) vertikal untuk bergabung, dilengkapi dengan fungsi interaksi seperti suka dan komentar. Langkah ini dianggap sebagai inovasi Moonshot AI di tingkat aplikasi, bertujuan untuk membangun keunggulan diferensiasi melalui ekosistem konten, untuk menghadapi tekanan persaingan dari DeepSeek di tingkat teknis. Sebelumnya Kimi sempat menjadi produk bintang di pasar AI C-end berkat kemampuan pemrosesan teks panjang dan promosi pasar, tetapi kemudian disalip oleh DeepSeek dan Tencent Yuanbao dalam hal jumlah pengguna. (Sumber: 司库财经)

OpenAI berencana merilis model open-source baru musim panas ini: Menurut TechCrunch, OpenAI berencana merilis model bahasa besar open-source baru musim panas ini, menggunakan lisensi permisif, memungkinkan pengunduhan gratis dan penggunaan komersial. Model ini bertujuan untuk melampaui kinerja model open-source yang ada dari Meta (Llama) dan DeepSeek, dan mungkin menyertakan fitur ‘handoff’ (estafet), yaitu ketika model open-source menghadapi kesulitan, ia dapat memanggil model besar cloud OpenAI untuk membantu menanganinya. Langkah ini dianggap sebagai perubahan besar dalam strategi open-source OpenAI, bertujuan untuk menarik pengembang, meningkatkan daya saing, dan menyempurnakan ekosistem AI-nya. (Sumber: 智东西)

Protokol MCP mendorong pengembangan ekosistem AI Agent, tetapi menghadapi tantangan komersial: Protokol MCP (Model Communication Protocol) bertujuan untuk menstandarkan interaksi antara model AI dan alat/layanan eksternal, menyederhanakan kompleksitas integrasi (dari M×N menjadi M+N), dijuluki sebagai “antarmuka USB-C” untuk aplikasi AI. Demonstrasi sukses Manus Agent dan dukungan dari raksasa seperti OpenAI (produsen domestik seperti Alibaba, Tencent, Baidu juga telah mengikuti) terhadap MCP sangat mendorong popularisasinya dan pengembangan ekosistem Agent. Namun, saat merangkul MCP, berbagai produsen sering kali membangun ekosistem “loop tertutup penuh” (seperti Alibaba Cloud mengintegrasikan Peta Gaode, Tencent Cloud terhubung ke WeChat Read), melindungi data dan keunggulan ekosistem mereka sendiri, yang dapat menyebabkan fragmentasi ekosistem, membatasi MCP menjadi standar yang benar-benar universal. Ekosistem Agent di masa depan mungkin menunjukkan pola “keterbukaan terbatas”, dengan MCP sebagai “konektor ekosistem” daripada satu-satunya standar. (Sumber: 产业家)

Perang harga model besar berlanjut, Li Yanhong dari Baidu sebut DeepSeek “lambat dan mahal”: Baidu merilis model Wenxin 4.5 Turbo dan X1 Turbo, menekankan keunggulan harga-kinerja mereka dibandingkan DeepSeek. Li Yanhong menunjukkan bahwa DeepSeek tidak hanya terbatas kemampuannya (terutama pemrosesan teks), tetapi juga biaya pemanggilannya tinggi dan kecepatannya lambat. Harga Wenxin 4.5 Turbo lebih rendah dari periode diskon DeepSeek V3, harga X1 Turbo setara dengan periode diskon DeepSeek R1 tetapi jauh lebih rendah dari periode standarnya. Model baru seperti ByteDance Doubao, Google Gemini Flash juga merespons dengan strategi harga rendah. Namun, artikel tersebut menunjukkan bahwa hanya mengandalkan harga-kinerja tidak cukup untuk menang, kunci keberhasilan DeepSeek terletak pada pengalaman unik yang dibawa oleh inovasi teknis seperti chain-of-thought. Jalur monetisasi komersial model domestik relatif tunggal (biaya API), sedangkan di luar negeri (seperti OpenAI) memiliki model yang lebih beragam seperti langganan sisi konsumen (C-end). (Sumber: 直面AI)

Pasang surut industri farmasi AI selama satu dekade, hadapi tantangan komersialisasi dan teknologi: Industri farmasi AI telah berkembang selama lebih dari sepuluh tahun, bertujuan untuk meningkatkan efisiensi pengembangan obat dan mengurangi biaya melalui AI. FDA baru-baru ini menghapus persyaratan uji coba hewan, menguntungkan metode alternatif seperti pemodelan AI. Industri ini mengalami booming modal (puncak pada tahun 2021), tetapi dengan kegagalan beberapa jalur pipa (pipeline) dalam tahap klinis (seperti BenevolentAI) dan surutnya modal, industri memasuki periode penyesuaian. Perusahaan bintang seperti XtalPi (AI+CRO) setelah IPO berekspansi ke bidang seperti AI+material baru untuk mencari pengembalian komersial yang lebih cepat; Insilico Medicine tetap berpegang pada model “jalur pipa mandiri + License Out”, telah mencapai beberapa kesepakatan lisensi. Industri ini masih menghadapi tantangan seperti kesulitan memperoleh data (data inti perusahaan farmasi tidak dibagikan), siklus validasi algoritma yang panjang, dan kurangnya obat yang disetujui pasar. Tetapi terobosan teknologi seperti AlphaFold, AI generatif membawa harapan baru, industri menantikan “singularitas” keberhasilan obat pertama yang dikembangkan AI untuk dipasarkan. (Sumber: 亿欧网)

Model besar sisi perangkat (on-device) Mianbi AI menggerakkan kokpit cerdas, capai produksi massal dalam sepuluh bulan: Mianbi AI meluncurkan asisten kokpit cerdas cpmGO yang didukung oleh model besar sisi perangkatnya, MiniCPM, yang telah mencapai produksi massal pada mobil baru Changan Mazda, hanya dalam waktu 10 bulan. cpmGO berjalan murni secara lokal, menjamin privasi data, mencapai respons tingkat milidetik, dan tidak terpengaruh oleh batasan jaringan. Ia memiliki kemampuan persepsi multimodal (visual, suara, UI) dan interaksi, mendukung operasi “apa yang terlihat bisa diucapkan” (visible is speakable), dan GUI Agent murni sisi perangkat bawaan dapat memahami dan menjalankan operasi layar. Mianbi AI telah bekerja sama dengan banyak produsen chip dan Tier1 seperti Qualcomm, MediaTek, Intel, Thundercomm, mendorong aplikasi AI sisi perangkat di bidang otomotif, bertujuan untuk mengatasi masalah biaya, latensi, dan privasi solusi cloud, mewujudkan pengalaman kokpit cerdas yang lebih lancar dan aman. (Sumber: 量子位)

Shanghai AI Laboratory for Science dorong perubahan paradigma penelitian ilmiah multi-bidang dengan AI: Shanghai AI Laboratory for Science (SAIL) bekerja sama dengan Universitas Fudan dan universitas lain, mengandalkan platform komputasi cerdas CFFF (daya komputasi 40 PFlop/s), menggunakan AI untuk mendorong penelitian di bidang ilmu hayati, meteorologi, material, kedokteran, iklim, humaniora, dan ilmu sosial. Hasilnya meliputi: model besar meteorologi “Fuyao” mencapai prakiraan cuaca kota tingkat kilometer dan detik; model besar kehidupan “Nuwa” mempercepat pengembangan obat siRNA; model besar materi “Suiren” mengeksplorasi penemuan material dan obat baru; bekerja sama dengan Rumah Sakit Zhongshan mengembangkan model besar khusus kardiovaskular “Guanxin CardioMind”; model besar iklim PI@Climate mengintegrasikan pengetahuan multi-disiplin untuk mengatasi perubahan iklim; algoritma VI-CNOPs mengoptimalkan prakiraan probabilitas jalur topan; model besar Peradaban Tiongkok membantu penelitian arkeologi dan paleografi; serta terobosan dalam teknologi AI dasar seperti federated learning, multimodal, graph learning, bersama-sama membangun ekosistem science intelligence yang terbuka dan kolaboratif. (Sumber: 量子位)

🧰 Alat
Universitas Stanford merilis alat pembuat laporan AI open-source Storm: Storm adalah alat AI yang dapat secara otomatis melakukan pencarian web, mengintegrasikan informasi, dan menghasilkan laporan terstruktur bergaya Wikipedia. Pengguna memasukkan topik, Storm akan mensimulasikan alur kerja peneliti: merencanakan garis besar penelitian, mencari sumber informasi yang relevan, mengintegrasikan informasi, dan menulis laporan. Ini sangat membantu bagi pengguna yang perlu dengan cepat menulis laporan latar belakang, tinjauan literatur, atau analisis mendalam. Proyek ini telah di-open-source di GitHub dan menyediakan versi uji coba online. (Sumber: karminski3)

Kerangka kerja knowledge graph open-source Graphiti dirilis: Graphiti adalah kerangka kerja yang dapat secara terus-menerus mengintegrasikan interaksi pengguna, data terstruktur/tidak terstruktur, dan informasi eksternal ke dalam knowledge graph yang dapat ditanyakan (queryable). Fiturnya adalah mendukung pembaruan inkremental dan pengambilan (retrieval) yang efisien, tanpa perlu menghitung ulang seluruh grafik, sangat cocok untuk pengembangan aplikasi AI interaktif yang memerlukan kesadaran konteks (context-aware) dan penelusuran historis. Proyek ini telah mendapatkan perhatian tinggi di GitHub (4.4K Star). (Sumber: karminski3)

Pembaruan Lovable 2.0, tingkatkan pengalaman membangun situs web AI: Alat pembuat situs web AI Lovable merilis versi 2.0, menambahkan fitur pengeditan kolaboratif multipemain, pemindaian keamanan otomatis, agen obrolan (chat agent) dengan peningkatan kecerdasan 10x, mode pengembang untuk mengedit kode langsung di dalam aplikasi, dan dukungan domain kustom. Bersamaan dengan itu, citra merek dan desain UI diperbarui, bertujuan untuk memberikan pengalaman pengembangan situs web berbasis AI yang lebih kuat, aman, dan kolaboratif. (Sumber: op7418)
Model video “Dreamina” ByteDance ditingkatkan, tingkatkan konsistensi multi-shot: Alat pembuat video ByteDance “Dreamina” (即梦) merilis pembaruan model 3.0. Berdasarkan kasus yang dibagikan pengguna, model baru menunjukkan konsistensi karakter dan adegan yang sangat baik saat menghasilkan video multi-shot dalam satu kali proses, dan efek konsistensi ini dapat direproduksi secara stabil. Model ini mendukung mode text-to-video dan image-to-video, secara signifikan meningkatkan kepraktisan dan kualitas pembuatan video AI. (Sumber: op7418)
WAN Video memasuki tahap komersialisasi, masih menyediakan layanan gratis: Platform pembuat video AI WAN Video mengumumkan memasuki tahap komersialisasi, tetapi pada saat yang sama meluncurkan mode Santai (“Relax mode”) gratis, yang menawarkan jumlah generasi gratis tanpa batas. Kasus yang dibagikan pengguna menunjukkan efeknya dalam menghasilkan adegan perang tentara Lego, meskipun persyaratan prompt cukup tinggi, hasilnya lumayan. Ini memberi pengguna kesempatan untuk mencoba dan menggunakan kemampuan pembuatan video AI secara gratis. (Sumber: dotey)

MiniMax TTS terhubung ke MCP-Server, sederhanakan pengembangan aplikasi multimodal: MiniMax menyediakan kemampuan TTS (text-to-speech) Mandarin yang kuat dan kloning suara, bersama dengan alat text-to-image/video, image-to-video, melalui MCP-Server (Model Communication Protocol Server) open-source. Pengguna dapat dengan mudah memanggil alat-alat ini di klien yang mendukung MCP seperti Cursor, mewujudkan aplikasi kreatif seperti pembuatan novel audio dengan peran terpisah, kloning suara Elon Musk untuk bercerita. Protokol MCP menyederhanakan integrasi model dan alat AI, menurunkan ambang batas pengembangan. (Sumber: 袋鼠帝AI客栈)

EasyDoc: Mesin parsing dokumen cerdas yang dioptimalkan untuk RAG: EasyDoc menyediakan layanan API untuk mem-parsing dokumen seperti PDF, Word, PPT, menghasilkan output format JSON yang cocok untuk diproses oleh LLM. Keunggulannya adalah dapat secara cerdas mengidentifikasi blok konten, menganalisis struktur hierarkis dokumen (mempertahankan hubungan induk-anak), dan interpretasi mendalam konten tabel dan gambar (menyediakan data terstruktur dan pemahaman semantik), secara efektif mengatasi masalah dalam pra-pemrosesan dokumen aplikasi RAG, seperti tata letak teks dan gambar yang kompleks, ekstraksi tabel yang tidak akurat, dll. Menyediakan tiga mode Lite, Pro, Premium dan kuota uji coba gratis, mendukung penyebaran on-premise (private deployment). (Sumber: AI进修生)

Dyad: Pembangun aplikasi AI lokal dan open-source: Dyad adalah alat pembuat aplikasi AI gratis, open-source, dan dapat dijalankan secara lokal, diposisikan sebagai alternatif untuk platform seperti v0, Lovable, Bolt. Ini memungkinkan pengguna untuk mengembangkan di komputer lokal mereka, memudahkan integrasi dengan IDE (seperti Cursor). Versi terbaru menambahkan integrasi dengan Ollama, mendukung penggunaan model bahasa besar lokal untuk membangun. Pengguna dapat memanfaatkan kunci API gratis (seperti Gemini) untuk pengembangan. (Sumber: Reddit r/LocalLLaMA)

📚 Pembelajaran
Wenda showcasing AI Infra trends and practices: Liu Chuanlin, Chief Solutions Architect Wenda (无问芯穹), berbagi tren dan praktik infrastruktur AI di AI Partner Conference. Dia menunjukkan bahwa seiring data pra-pelatihan cenderung habis, reinforcement learning (seperti paradigma DeepSeek R1) menjadi kunci peningkatan kinerja model, yang membawa tantangan baru bagi Infra. Wenda mengandalkan kemampuan optimasi kombinasi perangkat lunak-keras, membangun platform daya komputasi yang mendukung chip domestik yang beragam dan heterogen, dan melalui kerangka kerja pelatihan yang dikembangkan sendiri, mengoptimalkan efisiensi komunikasi, alokasi sumber daya dinamis, dll., beradaptasi dengan kebutuhan pelatihan model LLM dan MoE, memberikan dukungan untuk pelatihan model multimodal seperti ShengShu Technology. Sementara itu, untuk skenario inferensi, mengoptimalkan penyebaran DeepSeek R1, dan melalui layanan berbasis antarmuka (interface) berdasarkan ComfyUI menyelesaikan masalah fluktuasi lalu lintas AIGC, mengurangi biaya aplikasi AI. (Sumber: 36氪)

DAMO Academy merilis arsitektur DyDiT open-source: Daya komputasi berkurang setengah, kualitas generasi visual tanpa penurunan: DAMO Academy dan institusi lain mengusulkan arsitektur dinamis DyDiT di ICLR 2025, bertujuan untuk mengoptimalkan efisiensi inferensi model DiT (Diffusion Transformer). DyDiT dapat secara dinamis menyesuaikan alokasi sumber daya komputasi berdasarkan langkah waktu (timestep) proses generasi dan wilayah spasial gambar, mengurangi jumlah komputasi pada langkah sederhana atau area latar belakang. Eksperimen menunjukkan bahwa hanya dengan biaya fine-tuning yang kecil, DyDiT dapat mengurangi FLOPs inferensi model DiT-XL sebesar 51%, meningkatkan kecepatan 1,73 kali, sambil mempertahankan kualitas gambar yang dihasilkan (metrik FID) hampir tidak berubah. Metode ini telah dibuat open-source dan direncanakan untuk diadaptasi ke lebih banyak model text-to-image/video. (Sumber: 量子位)

UniToken: Skema pengkodean visual terpadu yang menggabungkan pemahaman dan generasi: Universitas Fudan dan Meituan mengusulkan kerangka kerja UniToken, bertujuan untuk mengatasi masalah pemisahan representasi dan interferensi pelatihan antara tugas pemahaman teks-gambar dan generasi gambar dalam model besar multimodal. UniToken dengan menggabungkan dua encoder visual, kontinu (SigLIP) dan diskrit (VQ-GAN), menyediakan satu set representasi visual terpadu yang memiliki semantik tingkat tinggi dan detail tingkat rendah untuk tugas hilir. Mengadopsi strategi pelatihan multi-tahap (penyelarasan semantik visual, pelatihan bersama multi-tugas, instruction fine-tuning) dan dikombinasikan dengan teknik peningkatan visual berbutir halus (fine-grained) (AnyRes, ViT fine-tuning), UniToken mencapai kinerja SOTA atau mendekati SOTA pada beberapa benchmark. Kode dan model telah dibuat open-source. (Sumber: 量子位)

Tsinghua dkk. usulkan Test-Time Reinforcement Learning (TTRL): Menanggapi kemampuan generalisasi terbatas teknologi Test-Time Scaling (TTS) yang ada saat menghadapi distribusi data baru, dan kurangnya sinyal hadiah (reward signal) dalam Test-Time Training (TTT), Universitas Tsinghua dan Shanghai AI Lab mengusulkan TTRL. Metode ini dapat, dalam kondisi data tanpa anotasi, memanfaatkan pengetahuan awal (prior knowledge) model itu sendiri, melalui pemungutan suara mayoritas (majority voting) dll. untuk menghasilkan label semu (pseudo-label) dan sinyal hadiah, melakukan reinforcement learning pada LLM. Eksperimen menunjukkan bahwa TTRL dapat secara berkelanjutan meningkatkan kinerja model pada berbagai tugas, seperti meningkatkan metrik pass@1 Qwen-2.5-Math-7B pada AIME 2024 sebesar 159%, dengan kinerja mendekati model yang dilatih secara terawasi. (Sumber: AINLPer)

SJTU & Ant Group usulkan mekanisme atensi campuran Rodimus: Untuk mengatasi masalah kompleksitas ruang-waktu yang tinggi yang disebabkan oleh KV cache saat inferensi Transformer, Shanghai Jiao Tong University (SJTU) dan Ant Group mengusulkan seri model Rodimus. Arsitektur ini meningkatkan pembaruan status atensi linear melalui mekanisme seleksi terkontrol suhu berbasis data (DDTS – Data-Driven Temperature-controlled Selection), dan dikombinasikan dengan sliding window shared-key attention (SW-SKA), secara efektif menggabungkan kompresi semantik, Token, dan Head. Rodimus* dapat mencapai kompleksitas ruang O(1) saat inferensi. Model kode ringan Rodimus+-Coder (1.6B dan 4B) yang dilatih berdasarkan arsitektur ini mencapai kinerja SOTA pada skala yang sama. Makalah telah diterima oleh ICLR 2025, kode telah dibuat open-source. (Sumber: AINLPer)

Sepuluh pelajaran dari penerapan RAG Agent: Douwe Kiela, pendiri Contextual AI, berbagi pengalaman menerapkan RAG Agent: 1. Kemampuan sistem lebih diutamakan daripada kinerja model; 2. Keahlian internal adalah bahan bakar nilai inti; 3. Kemampuan menangani data skala besar dan bernoise adalah parit pertahanan (moat); 4. Implementasi di lingkungan produksi jauh lebih sulit daripada pilot project; 5. Kecepatan mengalahkan kesempurnaan, iterasi cepat; 6. Waktu insinyur berharga, hindari jebakan optimasi tingkat rendah; 7. Turunkan hambatan penggunaan, tanamkan dalam sistem yang ada; 8. Ciptakan ‘momen wow’ untuk meningkatkan keterikatan pengguna; 9. Observabilitas (atribusi, audit) lebih penting daripada akurasi; 10. Target harus ambisius, berani menantang bisnis inti. (Sumber: AI觉醒)

💼 Bisnis
Nvidia menghentikan operasi Lepton AI setelah akuisisi: Nvidia, setelah mengakuisisi perusahaan platform cloud AI Lepton AI yang didirikan oleh Jia Yangqing dan Bai Junjie, mengumumkan akan menghentikan operasi platform Lepton AI pada 20 Mei 2025, dan telah menghentikan pendaftaran pengguna baru. Jia Yangqing menanggapi bahwa transaksi tersebut “bukan akuisisi bakat (talent acquisition)”, tetapi tidak mengungkapkan detail lebih lanjut. Lepton AI berfokus pada penyediaan layanan cloud untuk pengembangan, pelatihan, penyebaran model AI, serta penyewaan daya komputasi, bersaing dengan beberapa pelanggan Nvidia (seperti CoreWeave). Akuisisi dan tindakan selanjutnya ini mungkin mencerminkan upaya Nvidia untuk memperkuat integrasi vertikal rantai pasokan AI (dari chip hingga layanan), meningkatkan dominasinya di bidang komputasi AI. (Sumber: AI前线)

Diskusi Meja Bundar Investor AI Partner Conference: Mencari Kepastian dalam Aplikasi Super AI: Di 36Kr AI Partner Conference, investor seperti Wu Nan dari GSR United Capital, Zou Zejiong dari Shanghai Industrial Investment, Ren Bobing dari Sinovation Ventures membahas logika investasi aplikasi super AI. Investor percaya bahwa meskipun ada ketidakpastian dalam teknologi dasar dan lanskap pasar, peluang pasti ada pada aplikasi vertikal (niche) yang dapat menyelesaikan masalah nyata, menemukan PMF (Product-Market Fit), dan menghasilkan pendapatan, seperti AI+kesehatan, AI+pendidikan, autonomous driving, dll. Perusahaan startup yang menghadapi persaingan dari perusahaan besar harus mendalami bidang vertikal, memanfaatkan skenario tersegmentasi yang sulit dijangkau oleh perusahaan besar dan Know-How mendalam untuk membangun benteng (barrier). Sementara itu, pendiri perlu memiliki kemampuan lintas disiplin dan kemampuan pengambilan keputusan yang efisien, memperhatikan pembangunan tim dan validasi model bisnis. Keberhasilan DeepSeek menginspirasi investor untuk memperhatikan tim yang didorong oleh teknologi, memiliki ketabahan, dan mampu menggali potensi bakat. (Sumber: 36氪)

Papan Pesan Modal (Ziqing): Informasi Transaksi Aset di Bidang AI dan Robotika: Papan Pesan Modal 36Kr merilis edisi ke-160, berisi beberapa informasi jual beli aset terkait AI dan robotika. Informasi penjualan termasuk saham LP (Limited Partner) dana yang memegang saham di ZY Robotics, Unitree Robotics, Wofei Changkong (terkait eVTOL). Informasi pencarian termasuk saham perusahaan seperti ByteDance, Galaxy General, Unitree Robotics, DeepRobotics, ZY Robotics, Moore Threads, Star.Vision dll. Selain itu, ada permintaan pembelian umum di bidang robot humanoid. Petunjuk transaksi ini mencerminkan minat pasar modal saat ini pada perusahaan terkemuka di bidang hard tech seperti AI, robot humanoid, autonomous driving, semikonduktor. (Sumber: 36氪)
Perusahaan Agent Domestik Manus AI Raih Pendanaan Lebih dari 500 Juta, Valuasi Naik 5 Kali Lipat: Menurut Bloomberg, Butterfly Effect, perusahaan induk produk AI Agent umum Manus, menyelesaikan putaran pendanaan baru sebesar 75 juta USD (sekitar 550 juta RMB), dipimpin oleh VC Silicon Valley Benchmark, dengan valuasi pasca-investasi mencapai hampir 500 juta USD. Manus Agent dapat secara mandiri menjalankan tugas web seperti memesan tiket, menganalisis saham, sebelumnya menarik perhatian karena kode beta internal berharga tinggi. Pendanaan baru akan digunakan untuk memperluas layanan ke pasar AS, Jepang, Timur Tengah, dll., dan berencana mendirikan kantor di Jepang. Meskipun produknya diminati, ketergantungannya pada model Anthropic Claude menyebabkan biaya tinggi (rata-rata 2 USD per tugas), dan menghadapi keterbatasan kapasitas server. (Sumber: 智东西, 硅兔君)

Tuya Smart bertransformasi menjadi platform AI Agent, merebut pasar perangkat keras AI: Platform cloud AIoT Tuya Smart merilis kerangka kerja open-source TuyaOpen, platform edge computing Haidewei, Tuya.AI, dan platform pengembangan AI Agent yang ditingkatkan, sepenuhnya merangkul AI. Perusahaan percaya bahwa model besar AI (terutama interaksi multimodal, efisiensi tingkat ahli, kemampuan pengambilan keputusan terdistribusi) dapat secara signifikan menurunkan ambang batas penggunaan perangkat keras cerdas, mendorong普及 industri. Platform AI Agent Tuya telah terhubung ke model besar mainstream global, membantu pelanggan mengembangkan produk populer seperti cincin pintar, boneka AI, dan bekerja sama dengan Kidswant dll. untuk memajukan perangkat keras cerdas pendamping AI (AI companion hardware). Perusahaan memperkirakan tahun 2025 akan menjadi tahun ledakan perangkat keras AI baru, strategi AI Agent-nya akan memasuki masa panen dalam 2-3 tahun. (Sumber: 36氪)
🌟 Komunitas
Kekacauan Kursus Pelatihan AI: Promosi Palsu dan Efektivitas Diragukan: Media sosial dipenuhi dengan iklan kursus pelatihan “kaya mendadak dengan AI”, mengklaim orang biasa dapat dengan cepat memonetisasi melalui pembelajaran melukis AI, fine-tuning model, dll. Namun, pengalaman aktual dan umpan balik konsumen mengungkap banyak masalah: kualifikasi instruktur tidak jelas bahkan palsu (seperti identitas pendiri Coverhero yang tidak benar); konten kursus tidak sesuai dengan janji promosi, sulit mencapai efek “menerima pesanan dan menghasilkan uang”; menggunakan pemasaran kelangkaan (hunger marketing) dan kasus palsu untuk membujuk konsumsi; kesulitan pengembalian dana. Orang dalam industri menunjukkan bahwa konten kursus semacam itu seringkali terlalu teoritis atau dangkal, orang biasa sulit menguasai keterampilan AI yang cukup untuk beralih karier atau menghasilkan pendapatan stabil melalui pelatihan jangka pendek. Disarankan agar pengguna memanfaatkan sumber daya gratis dan komunitas untuk belajar, waspada terhadap jebakan kursus instan berharga mahal. (Sumber: 新周刊)

Pengembang membandingkan pengalaman pemrograman dengan Claude vs Gemini 2.5 + Cursor: Seorang pengembang berbagi pengalaman menggunakan Claude dan Gemini 2.5 Pro + Cursor untuk mengembangkan game tebak kata. Menggunakan Claude API menghabiskan 417 USD, pengalaman buruk: jendela konteks mudah hilang, menyebabkan model sering “amnesia”; memperbaiki bug sering kali menimbulkan masalah baru; tidak dapat memverifikasi kebenaran kode. Sebaliknya, menggunakan Gemini 2.5 Pro gratis (melalui integrasi Cursor) pengalaman meningkat pesat: biaya nol; kemampuan pemahaman konteks lebih kuat (berkat penyampaian struktur file Cursor); alur interaksi lebih seperti pair programming; proses debug lebih rasional. Kesimpulannya adalah, kombinasi Gemini 2.5 + Cursor memberikan pengalaman pemrograman berbantuan AI yang lebih praktis dan efisien. (Sumber: CSDN)

Asisten iOS Perplexity mendapat ulasan awal yang positif: CEO Perplexity me-retweet komentar pengguna, menunjukkan bahwa asisten AI iOS-nya berkinerja baik dalam ulasan awal. Komentar menunjukkan bahwa asisten tersebut berkinerja lebih baik daripada Siri di dalam ekosistem Apple, misalnya lebih akurat dalam tugas seperti memutar video YouTube tertentu berdasarkan perintah suara. Ini menunjukkan bahwa asisten Perplexity memiliki keunggulan dalam memahami maksud bahasa alami dan melakukan tindakan lintas aplikasi. (Sumber: AravSrinivas)

Diskusi hangat di Reddit: Membedakan antara foto asli dan hasil AI: Pengguna Reddit memulai diskusi, menampilkan 5 foto wanita serupa, salah satunya adalah foto asli, sisanya dihasilkan oleh AI, meminta orang lain untuk membedakannya. Diskusi di kolom komentar sengit, pengguna menganalisis dari sudut pandang pencahayaan, tekstur kulit, detail aksesori (seperti rantai kalung), tetapi pendapat berbeda-beda. Ini mencerminkan tingkat tinggi teknologi pembuatan gambar AI saat ini serta kesulitan dalam membedakan keasliannya. (Sumber: Reddit r/ChatGPT)
Diskusi hangat di Reddit: ChatGPT menghasilkan gambar aneh: Beberapa pengguna berbagi di Reddit, ketika meminta ChatGPT untuk menghasilkan gambar tertentu (seperti “peta Amerika Serikat”), secara tak terduga mendapatkan gambar ledakan nuklir (awan jamur) atau gambar tidak relevan lainnya (seperti R2D2). Ini memicu diskusi tentang stabilitas model dan potensi bias, belum jelas apakah itu kesalahan acak model atau prompt tertentu memicu anomali. (Sumber: Reddit r/ChatGPT)

Diskusi Reddit: Apakah AI membuat insinyur perangkat lunak kecanduan?: Seorang insinyur perangkat lunak memposting di Reddit, menyatakan bahwa alat AI (seperti asisten pemrograman) sangat meningkatkan efisiensi dan kualitas kerja, sulit berhenti setelah menggunakannya, merasa agak “kecanduan”. Kolom komentar membahas hal ini, sebagian orang berpendapat ini lebih seperti ketergantungan pada alat yang efisien, mirip dengan ketergantungan pada kompiler daripada assembly, adalah hasil alami dari peningkatan produktivitas; yang lain setuju mungkin ada risiko “kecanduan”, dan khawatir ketergantungan berlebihan dapat menyebabkan kemunduran keterampilan, menyarankan untuk secara sadar melakukan “detoks AI” atau menjaga latihan keterampilan dasar. (Sumber: Reddit r/ArtificialInteligence)
Diskusi Reddit: Fenomena agama dan pemujaan AI: Pengguna membahas apakah AI mungkin menjadi objek agama atau pemujaan. Argumen meliputi: sudah ada “AI Jesus”; diskusi tentang kesadaran AI dapat mengarah pada keyakinan; aliran pemikiran seperti Longtermism membawa nuansa seperti agama; LLM dapat memberikan penghiburan dan bimbingan spiritual yang dipersonalisasi. Komentar menyebutkan kasus nyata yang ada (seperti protokol Nova di jrprudence.com), dan membahas potensi dan risiko AI dalam memenuhi kebutuhan spiritual manusia, serta kekhawatiran tentang “kultus AI”. (Sumber: Reddit r/ArtificialInteligence)
Diskusi Reddit: Gambar AI tidak dapat ‘memperbaiki’ foto lama: Pengguna melalui eksperimen membuktikan bahwa saat menggunakan alat AI seperti ChatGPT untuk memproses foto lama, AI tidak benar-benar memperbaiki atau meningkatkan resolusi, melainkan menghasilkan gambar baru yang mirip berdasarkan gambar asli. Saat diuji dengan foto selebriti (seperti Samuel L Jackson), hasil yang dihasilkan jelas orang lain, hanya gaya dan posenya yang mirip. Ini mengingatkan pengguna untuk memahami batas kemampuan pemrosesan gambar AI dengan benar, ia lebih mahir dalam “menciptakan” daripada “memperbaiki”. (Sumber: Reddit r/ChatGPT)
💡 Lain-lain
Kumpulan Kutipan Emas dari AI Partner Conference: 36Kr mengumpulkan dan menerbitkan ringkasan pandangan menarik dari para pembicara di AI Partner Conference 2025. Pandangan ini berkisar pada tema evolusi masa depan aplikasi super AI, perubahan industri, dan restrukturisasi logika bisnis, mencerminkan pemikiran para ahli dan perintis industri AI saat ini. (Sumber: 36氪)
Uni Emirat Arab menjadi negara pertama yang menggunakan AI untuk menyusun RUU: Menurut The Hill, Uni Emirat Arab telah mulai memanfaatkan kecerdasan buatan untuk membantu menyusun teks hukum. Langkah ini menandai aplikasi awal AI di bidang legislatif, mungkin bertujuan untuk meningkatkan efisiensi legislatif atau menganalisis peraturan yang kompleks. Berita ini memicu diskusi tentang peran AI dalam tata kelola, misalnya apakah dapat mengurangi ketergantungan pada peran politik tradisional. (Sumber: Reddit r/ArtificialInteligence)

Anthropic meluncurkan proyek penelitian ‘kesejahteraan model AI’: Perusahaan Anthropic mengumumkan peluncuran program baru yang bertujuan untuk meneliti ‘kesejahteraan model’ (model welfare) AI. Meskipun bidang ini kontroversial (beberapa ahli berpendapat model tidak memiliki perasaan subjektif atau nilai-nilai), langkah Anthropic ini mungkin bertujuan untuk mengeksplorasi cara pengembangan dan interaksi model yang lebih bertanggung jawab dan etis, atau meneliti cara mengevaluasi dan mengurangi kondisi atau perilaku ‘buruk’ yang mungkin timbul pada model selama pelatihan atau interaksi. (Sumber: Reddit r/ClaudeAI)

Kebutuhan air yang besar untuk AI menarik perhatian: Laporan pemerintah AS dan media (404media) menunjukkan bahwa melatih dan menjalankan model AI besar membutuhkan konsumsi sumber daya air yang besar, terutama untuk pendinginan pusat data. Hal ini menimbulkan kekhawatiran tentang biaya lingkungan dari pengembangan AI, terutama di daerah yang mengalami krisis air. (Sumber: Reddit r/artificial)
