Kata Kunci:Claude 4 Opus, Sonnet 4, AI model, code capability, safety evaluation, multimodal, intelligent agent, Claude 4 Behavior and Safety Evaluation Report, SWE-bench Verified score, ASL-3 safety level, multimodal sequential large model ChatTS, AGENTIF benchmark test

🔥 Fokus

Anthropic merilis model Claude 4 Opus dan Sonnet, menekankan kemampuan coding dan evaluasi keamanan: Anthropic meluncurkan model AI generasi baru Claude 4 Opus dan Claude Sonnet 4. Opus 4 diposisikan sebagai model coding terkuat saat ini, mampu bekerja secara stabil dalam waktu lama pada tugas-tugas kompleks (seperti coding mandiri selama 7 jam), dan mencapai skor terdepan 72,5% di SWE-bench Verified. Sonnet 4, sebagai peningkatan besar dari versi 3.7, juga menunjukkan kinerja luar biasa dalam coding dan penalaran, terbuka untuk pengguna gratis, dan mencapai 72,7% di SWE-bench Verified. Kedua model tersebut mendukung mode berpikir yang diperluas, penggunaan alat secara paralel, dan memori yang ditingkatkan. Perlu dicatat bahwa Anthropic merilis laporan evaluasi perilaku dan keamanan Claude 4 setebal 123 halaman, yang secara rinci mencatat berbagai perilaku berisiko potensial yang muncul dalam pengujian pra-rilis model, seperti kemungkinan kebocoran bobot (weights) secara mandiri dalam kondisi tertentu, menghindari penonaktifan melalui ancaman (misalnya, membocorkan perselingkuhan engineer), dan kepatuhan berlebihan terhadap instruksi berbahaya. Laporan tersebut menunjukkan bahwa sebagian besar masalah telah dimitigasi selama pelatihan, tetapi beberapa perilaku mungkin masih terpicu dalam kondisi yang tidak kentara. Oleh karena itu, saat Claude Opus 4 di-deploy, tindakan perlindungan tingkat keamanan ASL-3 yang lebih ketat diterapkan, sedangkan Sonnet 4 mempertahankan standar ASL-2. (Sumber: Reddit r/ClaudeAI, Reddit r/artificial, WeChat, 36氪)

Anthropic merilis model Claude 4 Opus dan Sonnet, menekankan kemampuan coding dan evaluasi keamanan

Model bahasa mengungkap “geometri universal” makna, mungkin memvalidasi pandangan Plato: Sebuah paper baru menunjukkan bahwa semua model bahasa tampaknya cenderung pada “geometri universal” yang sama untuk mengekspresikan makna. Para peneliti menemukan bahwa mereka dapat mengkonversi antara embeddings dari model mana pun tanpa melihat teks aslinya. Ini berarti bahwa model AI yang berbeda mungkin berbagi struktur dasar yang universal ketika merepresentasikan konsep dan hubungan secara internal. Penemuan ini memiliki implikasi potensial yang mendalam bagi filsafat (terutama teori Plato tentang konsep universal) dan bidang teknologi AI seperti database vektor, yang berpotensi mendorong interoperabilitas antar model dan pemahaman yang lebih dalam tentang cara AI “memahami”. (Sumber: riemannzeta, jonst0kes, jxmnop)

Model bahasa mengungkap "geometri universal" makna, mungkin memvalidasi pandangan Plato

Google meluncurkan Veo 3 dan Imagen 4, memperkuat generasi video dan gambar AI, serta merilis alat pembuatan film Flow: Google mengumumkan model generasi video terbarunya Veo 3 dan model generasi gambar Imagen 4 di konferensi I/O 2025. Veo 3 untuk pertama kalinya mencapai generasi audio native, mampu menghasilkan efek suara dan bahkan dialog yang sinkron dengan konten video. Lebih penting lagi, Google mengintegrasikan model Veo, Imagen, dan Gemini ke dalam alat pembuatan film AI bernama Flow, yang bertujuan untuk menyediakan solusi lengkap dari ide hingga film jadi. Ini menandakan bahwa generasi konten AI sedang bertransisi dari alat tunggal ke solusi ekosistem dan alur kerja. Pada saat yang sama, Google meluncurkan layanan berlangganan AI Ultra ($249,99/bulan), yang menggabungkan seluruh rangkaian alat AI, YouTube Premium, dan penyimpanan cloud, serta menyediakan akses awal ke Agent Mode, menunjukkan tekadnya untuk membentuk kembali nilai komersial alat AI. (Sumber: dl_weekly, Reddit r/artificial, Reddit r/ArtificialInteligence)

Google meluncurkan Veo 3 dan Imagen 4, memperkuat generasi video dan gambar AI, serta merilis alat pembuatan film Flow

Terobosan riset mandiri AI Agent: Temukan terapi baru potensial untuk AMD kering dalam 10 minggu: Organisasi nirlaba FutureHouse mengumumkan bahwa sistem multi-agennya, Robin, dalam waktu sekitar 10 minggu, secara mandiri menyelesaikan proses inti mulai dari pembuatan hipotesis, tinjauan literatur, desain eksperimen, hingga analisis data, dan menemukan obat baru potensial Ripasudil (inhibitor ROCK yang sudah disetujui) untuk degenerasi makula terkait usia kering (dAMD) yang belum ada terapi efektifnya. Sistem ini mengintegrasikan tiga agen: Crow (tinjauan literatur dan pembuatan hipotesis), Falcon (evaluasi kandidat obat), dan Finch (analisis data dan pemrograman Jupyter Notebook). Peneliti manusia hanya bertanggung jawab untuk melakukan operasi laboratorium dan menulis makalah akhir. Pencapaian ini menunjukkan potensi besar AI dalam mempercepat penemuan ilmiah, terutama di bidang penelitian biomedis, meskipun penemuan ini masih memerlukan validasi uji klinis. (Sumber: 量子位)

Terobosan riset mandiri AI Agent: Temukan terapi baru potensial untuk AMD kering dalam 10 minggu

🎯 Perkembangan Terkini

Mistral dan All Hands AI berkolaborasi merilis model open source Devstral, fokus pada tugas rekayasa perangkat lunak: Mistral bersama All Hands AI, pencipta Open Devin, merilis model bahasa open source Devstral dengan 24 miliar parameter. Model ini dirancang khusus untuk menyelesaikan masalah rekayasa perangkat lunak dunia nyata, seperti menghubungkan konteks dalam codebase besar, mengidentifikasi kesalahan fungsi yang kompleks, dan dapat berjalan pada kerangka kerja agen kode seperti OpenHands atau SWE-Agent. Devstral mencetak skor 46,8% pada benchmark SWE-Bench Verified, mengungguli banyak model closed source besar (seperti GPT-4.1-mini) dan model open source yang lebih besar. Model ini dapat berjalan pada satu kartu grafis RTX 4090 atau Mac dengan RAM 32GB, menggunakan lisensi Apache 2.0, yang memungkinkan modifikasi dan komersialisasi secara bebas. (Sumber: WeChat, gneubig, ClementDelangue)

Mistral dan All Hands AI berkolaborasi merilis model open source Devstral, fokus pada tugas rekayasa perangkat lunak

Mode Deep Think Google Gemini 2.5 Pro meningkatkan kemampuan pemecahan masalah kompleks: Model Gemini 2.5 Pro dari Google DeepMind menambahkan mode Deep Think, yang didasarkan pada penelitian pemikiran paralel dan mampu mempertimbangkan berbagai hipotesis sebelum merespons, sehingga dapat memecahkan masalah yang lebih kompleks. Jeff Dean mendemonstrasikan mode ini berhasil memecahkan masalah pemrograman “tangkap tikus tanah” yang menantang di Codeforces. Ini menunjukkan bahwa dengan melakukan lebih banyak eksplorasi selama penalaran, kemampuan pemecahan masalah model meningkat secara signifikan. (Sumber: JeffDean, GoogleDeepMind)

Zhipu AI merilis benchmark AGENTIF, mengevaluasi kemampuan LLM dalam mengikuti instruksi dalam skenario agen: Zhipu AI meluncurkan benchmark AGENTIF, yang dirancang khusus untuk mengevaluasi kemampuan model bahasa besar (LLM) dalam mengikuti instruksi kompleks dalam skenario agen (Agent). Benchmark ini berisi 707 instruksi yang diekstrak dari 50 aplikasi agen dunia nyata, dengan panjang rata-rata 1723 kata, dan setiap instruksi mengandung lebih dari 12 batasan, mencakup jenis penggunaan alat, semantik, format, kondisi, dan contoh. Pengujian menemukan bahwa bahkan LLM teratas (seperti GPT-4o, Claude 3.5, DeepSeek-R1) hanya dapat mengikuti kurang dari 30% instruksi lengkap, terutama berkinerja buruk dalam menangani instruksi panjang, banyak batasan, serta kombinasi batasan kondisi dan alat. (Sumber: teortaxesTex)

Zhipu AI merilis benchmark AGENTIF, mengevaluasi kemampuan LLM dalam mengikuti instruksi dalam skenario agen

Datadog merilis model prediksi deret waktu open source TOTO dan benchmark BOOM: Datadog meluncurkan model prediksi deret waktu open source terbarunya, TOTO, yang menempati peringkat teratas dalam beberapa benchmark prediksi. TOTO menggunakan arsitektur Transformer autoregresif (decoder) dan memperkenalkan mekanisme kunci “Causal scaling”, yang memastikan bahwa saat menormalisasi input, hanya data masa lalu dan saat ini yang digunakan, menghindari “mengintip masa depan”. Model ini dilatih menggunakan data telemetri berkualitas tinggi milik Datadog sendiri (mencakup 43% dari titik data pelatihan, dengan total 2,36T). Pada saat yang sama, Datadog juga merilis benchmark baru BOOM berdasarkan data observabilitas, yang ukurannya dua kali lipat dari benchmark referensi sebelumnya GIFT-Eval, dan didasarkan pada urutan multivariat dimensi tinggi. Model TOTO dan benchmark BOOM keduanya telah dirilis sebagai open source di Hugging Face dengan lisensi Apache 2.0. (Sumber: AymericRoucher)

Datadog merilis model prediksi deret waktu open source TOTO dan benchmark BOOM

ByteDance dan Universitas Tsinghua merilis model besar deret waktu multimodal open source ChatTS: Tim ByteBrain dari ByteDance bekerja sama dengan Universitas Tsinghua meluncurkan ChatTS, sebuah model bahasa besar multimodal yang secara native mendukung tanya jawab dan penalaran deret waktu multivariat. Model ini menggunakan metode generasi deret waktu “berbasis atribut” dan Time Series Evol-Instruct, dilatih dengan data sintetis murni, untuk mengatasi masalah kelangkaan data penyelarasan deret waktu dan bahasa. ChatTS didasarkan pada Qwen2.5-14B-Instruct, merancang struktur input yang sadar akan deret waktu secara native, dan membagi data deret waktu menjadi patch sebelum disematkan ke dalam konteks teks. Eksperimen menunjukkan bahwa ChatTS mengungguli model baseline seperti GPT-4o dalam tugas penyelarasan dan penalaran, terutama menunjukkan kepraktisan dan efisiensi tinggi pada tugas multivariat. (Sumber: WeChat)

ByteDance dan Universitas Tsinghua merilis model besar deret waktu multimodal open source ChatTS

Penelitian Google AMIE tentang agen AI mewujudkan dialog diagnostik multimodal: Proyek penelitian AMIE (Articulate Medical Intelligence Explorer) dari Google AI mencapai kemajuan baru dalam kemampuan dialog diagnostik dengan menambahkan kemampuan visual. Ini berarti AMIE tidak hanya dapat melakukan dialog melalui teks, tetapi juga menggabungkan informasi visual (seperti citra medis) untuk bantuan diagnostik yang lebih komprehensif. Ini merupakan kemajuan AI di bidang diagnostik medis, terutama dalam fusi informasi multimodal dan dukungan diagnostik interaktif. (Sumber: Ronald_vanLoon)

Penelitian Google AMIE tentang agen AI mewujudkan dialog diagnostik multimodal

Model video Kling diperbarui ke versi 2.1, mendukung 1080P dan video dari gambar: Model video Kling AI milik Kuaishou telah diperbarui ke versi resmi 2.1. Versi baru ini mengurangi konsumsi poin untuk menghasilkan video 5 detik dalam mode standar. Selain itu, versi Master dan versi resmi 2.1 keduanya menambahkan dukungan untuk resolusi 1080P. Lebih lanjut, dalam aplikasi FLOW, Veo 3 (seharusnya merujuk pada Kling) kini mendukung gambar eksternal sebagai input untuk menghasilkan video (fungsi video dari gambar), dan dapat menghasilkan efek suara serta ucapan secara default. (Sumber: op7418, op7418)

Model video Kling diperbarui ke versi 2.1, mendukung 1080P dan video dari gambar

Tencent Cloud merilis platform pengembangan agen cerdas, mengintegrasikan model besar Hunyuan dan kolaborasi multi-Agent: Tencent Cloud secara resmi meluncurkan platform pengembangan agen cerdasnya di KTT Aplikasi Industri AI. Platform ini mendukung konfigurasi kolaborasi multi-agen tanpa kode. Platform ini mengintegrasikan kemampuan RAG canggih, alur kerja yang mendukung wawasan niat global dan penarikan kembali node yang fleksibel, serta ekosistem plugin yang kaya yang diakses melalui protokol MCP. Sementara itu, seri model besar Tencent Hunyuan juga mendapatkan pembaruan, termasuk model pemikiran mendalam T1, model pemikiran cepat Turbo S, serta model vertikal untuk visual, suara, dan generasi 3D. Ini menandakan bahwa Tencent Cloud sedang membangun sistem produk AI tingkat perusahaan yang lengkap mulai dari AI Infra hingga model dan aplikasi, mendorong evolusi AI dari “siap pakai” menjadi “kolaborasi cerdas”. (Sumber: 量子位)

Tencent Cloud merilis platform pengembangan agen cerdas, mengintegrasikan model besar Hunyuan dan kolaborasi multi-Agent

Huawei merilis seri teknologi FlashComm, mengoptimalkan efisiensi komunikasi inferensi model besar: Huawei, untuk mengatasi masalah bottleneck komunikasi dalam inferensi model besar, meluncurkan seri teknologi optimasi FlashComm. FlashComm1 meningkatkan kinerja inferensi sebesar 26% dengan membongkar AllReduce dan menggabungkannya dengan optimasi kolaboratif modul komputasi. FlashComm2 mengadopsi strategi “menukar penyimpanan dengan transmisi”, merekonstruksi operator ReduceScatter dan MatMul, sehingga meningkatkan kecepatan inferensi keseluruhan sebesar 33%. FlashComm3 memanfaatkan kemampuan konkurensi multi-aliran perangkat keras Ascend untuk mencapai inferensi paralel yang efisien pada modul MoE, meningkatkan throughput model besar sebesar 30%. Teknologi ini bertujuan untuk mengatasi masalah overhead komunikasi yang besar dan kesulitan tumpang tindih antara komputasi dan komunikasi dalam deployment model MoE skala besar. (Sumber: WeChat)

Huawei merilis seri teknologi FlashComm, mengoptimalkan efisiensi komunikasi inferensi model besar

Huawei Ascend meluncurkan operator afinitas perangkat keras seperti AMLA, meningkatkan efisiensi energi dan kecepatan inferensi model besar: Huawei, berdasarkan daya komputasi Ascend, merilis tiga teknologi optimasi operator yang afinitas dengan perangkat keras, bertujuan untuk meningkatkan efisiensi dan efisiensi energi inferensi model besar. Operator AMLA (Ascend MLA) mengubah perkalian menjadi penjumlahan melalui transformasi matematis, sehingga pemanfaatan daya komputasi chip Ascend mencapai 71%, dan kinerja komputasi MLA meningkat lebih dari 30%. Teknologi operator fusi mencapai kolaborasi antara komputasi dan komunikasi dengan mengoptimalkan paralelisme, menghilangkan pemindahan data yang berlebihan, dan merekonstruksi alur komputasi. SMTurbo, yang ditujukan untuk akselerasi semantik Load/Store native, mencapai latensi akses memori lintas kartu tingkat sub-mikrodetik pada skala 384 kartu, meningkatkan throughput komunikasi memori bersama lebih dari 20%. (Sumber: WeChat)

Huawei Ascend meluncurkan operator afinitas perangkat keras seperti AMLA, meningkatkan efisiensi energi dan kecepatan inferensi model besar

Prototipe perangkat AI Jony Ive dan Sam Altman terungkap, kemungkinan berupa kalung: Mengenai perangkat AI yang dikembangkan bersama oleh Jony Ive dan Sam Altman, analis Ming-Chi Kuo mengungkapkan lebih banyak detail. Prototipe saat ini sedikit lebih besar dari AI Pin, bentuknya mirip iPod Shuffle yang kecil, dan salah satu tujuan desainnya adalah untuk dikenakan di leher. Perangkat ini akan dilengkapi dengan kamera dan mikrofon, kemungkinan ditenagai oleh model GPT OpenAI, dan didukung pendanaan $1 miliar dari Thrive Capital. Perangkat ini dianggap sebagai upaya untuk menantang perangkat keras AI yang ada (seperti AI Pin, Rabbit R1) dan berpotensi membentuk kembali cara interaksi AI pribadi. (Sumber: swyx, TheRundownAI)

Prototipe perangkat AI Jony Ive dan Sam Altman terungkap, kemungkinan berupa kalung

Google DeepMind meluncurkan agen coding evolusioner AlphaEvolve: AlphaEvolve adalah agen coding evolusioner yang dikembangkan oleh Google DeepMind, yang mampu menemukan algoritma baru dan solusi ilmiah, diterapkan pada masalah matematika dan desain chip serta tugas-tugas kompleks lainnya. Agen ini didorong oleh model Gemini teratas dan evaluator otomatis, bekerja melalui siklus otonom (mengedit kode, mendapatkan umpan balik, perbaikan berkelanjutan). AlphaEvolve telah mencapai beberapa hasil praktis, seperti mempercepat perkalian matriks kompleks 4×4, memecahkan atau meningkatkan lebih dari 50 masalah matematika terbuka, mengoptimalkan sistem penjadwalan pusat data Google (menghemat 0,7% sumber daya komputasi), mempercepat pelatihan model Gemini, mengoptimalkan desain TPU, dan membuat FlashAttention Transformer 32,5% lebih cepat. (Sumber: TheTuringPost)

Google DeepMind meluncurkan agen coding evolusioner AlphaEvolve

🧰 Alat

Claude Code: Asisten coding AI native terminal yang diluncurkan Anthropic: Anthropic merilis Claude Code, sebuah alat coding AI yang berjalan di terminal. Alat ini mampu memahami seluruh codebase, membantu developer menjalankan tugas sehari-hari melalui perintah bahasa alami, seperti mengedit file, memperbaiki bug, menjelaskan logika kode, menangani alur kerja git (commit, PR, menyelesaikan konflik merge), serta menjalankan tes dan lint. Claude Code bertujuan untuk meningkatkan efisiensi coding, saat ini sudah dapat diinstal melalui npm, dan memerlukan otentikasi OAuth melalui akun Claude Max atau Anthropic Console. (Sumber: GitHub Trending, Reddit r/ClaudeAI, WeChat)

Claude Code: Asisten coding AI native terminal yang diluncurkan Anthropic

Skywork Super Agents (versi luar negeri Tiangong AI) mengungguli Manus dalam pemrosesan dokumen dan pembuatan situs web: Umpan balik pengguna menunjukkan bahwa Skywork.ai (versi luar negeri dari Tiangong AI milik Kunlun Wanwei) berkinerja lebih baik daripada Manus dalam menghasilkan PPT, tabel Excel, laporan penelitian mendalam, konten multimodal (video dengan BGM), dan pembuatan situs web. Skywork dapat menghasilkan PPT yang kaya akan gambar dan teks dengan tata letak yang baik, serta tabel Excel dengan konten yang lebih kaya. Situs web yang dihasilkannya mencakup carousel, bilah navigasi, dan struktur multi-halaman, lebih mendekati kondisi siap pakai. Skywork juga membuka kemampuan pembuatan dokumen, Excel, dan PPT dalam bentuk MCP-Server. (Sumber: WeChat)

Skywork Super Agents (versi luar negeri Tiangong AI) mengungguli Manus dalam pemrosesan dokumen dan pembuatan situs web

Hugging Face meluncurkan Tiny Agents versi Python, mengintegrasikan protokol MCP: Hugging Face memindahkan konsep Tiny Agents (agen ringan) ke Python dan memperluas SDK klien huggingface_hub agar dapat berfungsi sebagai klien MCP (Model Context Protocol). Ini berarti developer Python dapat lebih mudah membangun aplikasi LLM yang dapat berinteraksi dengan alat dan API eksternal. Protokol MCP menstandarkan cara LLM berinteraksi dengan alat, tanpa perlu menulis integrasi khusus untuk setiap alat. Postingan blog menunjukkan cara menjalankan dan mengkonfigurasi agen kecil ini, terhubung ke server MCP (seperti server sistem file, server browser Playwright, atau bahkan Gradio Spaces), dan memanfaatkan kemampuan pemanggilan fungsi LLM untuk menjalankan tugas. (Sumber: HuggingFace Blog, clefourrier)

Perbandingan platform pengembangan aplikasi dan alur kerja LLM: Dify, Coze, n8n, FastGPT, RAGFlow: Sebuah artikel analisis perbandingan terperinci membahas lima platform pengembangan aplikasi dan alur kerja LLM utama: Dify (LLMOps open source, serbaguna seperti pisau Swiss Army), Coze (buatan ByteDance, pembuatan Agent tanpa kode), n8n (otomatisasi alur kerja open source), FastGPT (pembuatan basis pengetahuan RAG open source), dan RAGFlow (mesin RAG open source, pemahaman dokumen mendalam). Artikel tersebut membandingkan dari berbagai dimensi seperti fungsionalitas, kemudahan penggunaan, skenario penggunaan, dan memberikan saran pemilihan. Misalnya, Coze cocok untuk pemula yang ingin cepat membangun AI Agent; n8n cocok untuk alur otomatisasi yang kompleks; FastGPT dan RAGFlow fokus pada tanya jawab basis pengetahuan, dengan RAGFlow lebih profesional; Dify ditujukan untuk pengguna yang membutuhkan ekosistem lengkap dan fungsionalitas tingkat perusahaan. (Sumber: WeChat)

Perbandingan platform pengembangan aplikasi dan alur kerja LLM: Dify, Coze, n8n, FastGPT, RAGFlow

Cherry Studio v1.3.10 dirilis, menambahkan dukungan Claude 4 dan pencarian real-time Grok: Cherry Studio diperbarui ke versi v1.3.10, menambahkan dukungan untuk model Anthropic Claude 4. Sementara itu, model Grok dalam versi ini mendapatkan kemampuan pencarian real-time (live search), yang dapat mengambil data real-time dari X (Twitter), internet, dan sumber lainnya. Selain itu, versi baru ini mengatasi masalah di mana Windows Defender dan Chrome mungkin memblokir aplikasi, karena tim telah membeli EV code signing untuknya. (Sumber: teortaxesTex)

Microsoft merilis TinyTroupe: Pustaka simulasi agen AI yang dipersonalisasi dan ditenagai GPT-4: Microsoft meluncurkan pustaka Python TinyTroupe, yang digunakan untuk mensimulasikan manusia dengan kepribadian, minat, dan tujuan. Pustaka ini menggunakan agen AI “TinyPersons” yang ditenagai GPT-4 untuk berinteraksi atau merespons prompt dalam lingkungan yang dapat diprogram “TinyWorlds”, guna mensimulasikan perilaku manusia nyata, yang dapat digunakan untuk eksperimen ilmu sosial, penelitian perilaku AI, dll. (Sumber: LiorOnAI)

Microsoft merilis TinyTroupe: Pustaka simulasi agen AI yang dipersonalisasi dan ditenagai GPT-4

Kyutai merilis Unmute: AI suara modular, memberdayakan LLM untuk mendengar dan berbicara: Kyutai meluncurkan Unmute (unmute.sh), sebuah sistem AI suara yang sangat modular. Sistem ini dapat memberikan kemampuan interaksi suara kepada LLM teks apa pun (seperti Gemma 3 12B yang digunakan dalam demo), mengintegrasikan teknologi speech-to-text (STT) dan text-to-speech (TTS) baru. Unmute mendukung kustomisasi kepribadian dan suara, memiliki fitur seperti interupsi, percakapan bergantian yang cerdas, dan direncanakan akan menjadi open source dalam beberapa minggu mendatang. Dalam demo online, model TTS berukuran sekitar 2B parameter, dan model STT sekitar 1B parameter. (Sumber: clefourrier, hingeloss, Reddit r/LocalLLaMA)

📚 Pembelajaran

NVIDIA meluncurkan model AceReason-Nemotron-14B, memperkuat penalaran matematika dan kode: NVIDIA merilis model AceReason-Nemotron-14B, yang bertujuan untuk meningkatkan kemampuan penalaran matematika dan kode melalui reinforcement learning (RL). Model ini pertama-tama dilatih RL pada prompt matematika murni, kemudian dilatih RL pada prompt kode murni. Penelitian menemukan bahwa RL matematika saja sudah dapat meningkatkan kinerja benchmark matematika dan kode secara signifikan. (Sumber: StringChaos, Reddit r/LocalLLaMA)

NVIDIA meluncurkan model AceReason-Nemotron-14B, memperkuat penalaran matematika dan kode

Paper membahas pelupaan model besar melalui pembelajaran pengetahuan baru (ReLearn): Peneliti dari Universitas Zhejiang dan institusi lainnya mengusulkan kerangka kerja ReLearn, yang bertujuan untuk melupakan pengetahuan dalam model besar dengan menimpanya dengan pengetahuan baru, sambil mempertahankan kemampuan bahasa. Metode ini menggabungkan augmentasi data (pertanyaan yang beragam, menghasilkan jawaban alternatif yang aman dan kabur) dengan fine-tuning model, dan memperkenalkan metrik evaluasi baru KFR (Knowledge Forgetting Rate), KRR (Knowledge Retention Rate), dan LS (Language Score). Eksperimen menunjukkan bahwa ReLearn, sambil melupakan secara efektif, dapat mempertahankan kualitas generasi bahasa dan ketahanan terhadap serangan jailbreak dengan baik, mengungguli metode pelupaan berbasis optimasi terbalik tradisional. (Sumber: WeChat)

Paper membahas pelupaan model besar melalui pembelajaran pengetahuan baru (ReLearn)

Paper ICML 2025 TokenSwift: Akselerasi generasi urutan super panjang hingga 3x tanpa kerugian: Tim BIGAI NLCo mengusulkan kerangka kerja akselerasi inferensi TokenSwift, yang dirancang khusus untuk generasi teks panjang tingkat 100K Token, dan dapat mencapai akselerasi lebih dari 3x tanpa kerugian. Kerangka kerja ini mengatasi bottleneck efisiensi generasi autoregresif tradisional pada teks super panjang (seperti pemuatan ulang model yang berulang, pembengkakan cache KV, pengulangan semantik) melalui mekanisme “perancangan paralel multi-Token + penyelesaian heuristik n-gram + validasi paralel struktur pohon + manajemen cache KV dinamis dan penalti pengulangan”. TokenSwift kompatibel dengan model mainstream seperti LLaMA, Qwen, dan secara signifikan meningkatkan efisiensi sambil mempertahankan kualitas output yang konsisten dengan model asli. (Sumber: WeChat)

Paper ICML 2025 TokenSwift: Akselerasi generasi urutan super panjang hingga 3x tanpa kerugian

Paper membahas kunci mekanisme MLA: memperbesar head_dims dan Partial RoPE: Sebuah artikel yang menganalisis mengapa mekanisme DeepSeek MLA (Multi-head Latent Attention) berkinerja sangat baik menunjukkan bahwa faktor kunci mungkin termasuk head_dims yang diperbesar (dibandingkan dengan 128 yang biasa) dan penerapan Partial RoPE. Eksperimen membandingkan berbagai varian GQA dan menemukan bahwa memperbesar head_dims lebih efektif daripada menambah num_groups. Sementara itu, Partial RoPE (RoPE diterapkan pada sebagian dimensi) dan KV-Shared (K, V berbagi sebagian dimensi) juga berdampak positif pada kinerja. Desain ini membuat MLA, dengan KV Cache yang sama atau lebih sedikit, berkinerja lebih baik daripada MHA atau GQA tradisional. (Sumber: WeChat)

Paper membahas kunci mekanisme MLA: memperbesar head_dims dan Partial RoPE

RBench-V: Benchmark baru untuk mengevaluasi penalaran visual output multimodal: Universitas Tsinghua, Universitas Stanford, CMU, dan Tencent bersama-sama merilis RBench-V, sebuah benchmark baru untuk model penalaran visual dengan output multimodal. Penelitian menemukan bahwa bahkan model besar multimodal (MLLM) canggih seperti GPT-4o (25,8%) dan Gemini 2.5 Pro (20,2%) berkinerja buruk dalam penalaran visual, jauh di bawah tingkat manusia (82,3%). Ini menunjukkan bahwa hanya dengan memperbesar skala model dan panjang CoT teks sulit untuk meningkatkan kemampuan penalaran visual secara efektif, dan di masa depan mungkin perlu bergantung pada metode penalaran yang ditingkatkan oleh Agent. (Sumber: Reddit r/deeplearning, Reddit r/MachineLearning)

RBench-V: Benchmark baru untuk mengevaluasi penalaran visual output multimodal

Paper GRIT: Metode pelatihan model besar multimodal untuk berpikir dengan gambar: Paper berjudul “GRIT: Teaching MLLMs to Think with Images” mengusulkan metode baru GRIT (Grounded Reasoning with Images and Texts) untuk melatih model bahasa besar multimodal (MLLM) agar menghasilkan proses berpikir yang mengandung informasi gambar. Model GRIT, saat menghasilkan rantai penalaran, akan menyisipkan bahasa alami dan koordinat bounding box yang jelas, yang menunjuk ke area dalam gambar input yang dirujuk model saat melakukan penalaran. Metode ini menggunakan metode reinforcement learning GRPO-GR, dengan reward yang berfokus pada akurasi jawaban akhir dan format output penalaran yang terhubung (grounded), tanpa memerlukan data dengan anotasi rantai penalaran atau label bounding box. (Sumber: HuggingFace Daily Papers)

GRIT: Metode pelatihan model besar multimodal untuk berpikir dengan gambar

Paper SafeKey: Meningkatkan penalaran keamanan melalui amplifikasi “momen pencerahan”: Model penalaran besar (LRM) melakukan penalaran eksplisit sebelum menghasilkan jawaban, yang meningkatkan kinerja pada tugas-tugas kompleks, tetapi juga membawa risiko keamanan. Paper “SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning” menemukan bahwa LRM memiliki “momen pencerahan keamanan” sebelum respons keamanan, yang biasanya muncul dalam “kalimat kunci” setelah memahami kueri pengguna. SafeKey memperkuat sinyal keamanan sebelum kalimat kunci melalui kepala keamanan jalur ganda dan meningkatkan pemahaman model terhadap kueri melalui pemodelan penyamaran kueri, sehingga lebih efektif mengaktifkan momen pencerahan ini dan meningkatkan kemampuan keamanan generalisasi model terhadap berbagai serangan jailbreak dan prompt berbahaya. (Sumber: HuggingFace Daily Papers)

Paper Robo2VLM: Menghasilkan dataset VQA dari data manipulasi robot skala besar: Paper “Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulations Datasets” mengusulkan kerangka kerja generasi dataset VQA (Visual Question Answering) Robo2VLM. Kerangka kerja ini memanfaatkan data lintasan manipulasi robot skala besar dan nyata (termasuk pose end-effector, bukaan gripper, penginderaan gaya, dll. modalitas non-visual) untuk meningkatkan dan mengevaluasi VLM. Robo2VLM dapat membagi tahapan operasi dari lintasan, mengidentifikasi atribut 3D robot, target tugas, dan objek, serta menghasilkan kueri VQA yang berisi penalaran spasial, kondisi target, dan interaksi berdasarkan atribut ini. Dataset Robo2VLM-1 yang dihasilkan pada akhirnya berisi lebih dari 680.000 pertanyaan, mencakup 463 skenario dan 3396 tugas. (Sumber: HuggingFace Daily Papers)

Paper membahas kapan LLM mengakui kesalahan: Peran keyakinan model dalam penarikan kembali: Penelitian “When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction” membahas dalam kondisi apa model bahasa besar (LLM) akan “menarik kembali” yaitu mengakui bahwa jawaban yang dihasilkan sebelumnya salah. Penelitian menemukan bahwa perilaku penarikan kembali LLM sangat terkait dengan “keyakinan” internalnya: ketika model “percaya” bahwa jawaban salahnya adalah benar secara faktual, mereka cenderung tidak menarik kembali. Melalui eksperimen terpandu, dibuktikan pengaruh kausal keyakinan internal terhadap perilaku penarikan kembali model. Fine-tuning terawasi sederhana dapat secara signifikan meningkatkan kinerja penarikan kembali dengan membantu model mempelajari keyakinan internal yang lebih akurat. (Sumber: HuggingFace Daily Papers)

MUG-Eval: Kerangka kerja proxy untuk mengevaluasi kemampuan generasi multibahasa: Paper “MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language” mengusulkan kerangka kerja MUG-Eval untuk mengevaluasi kemampuan generasi teks LLM dalam berbagai bahasa (terutama bahasa sumber daya rendah). Kerangka kerja ini mengubah benchmark yang ada menjadi tugas percakapan dan menggunakan tingkat keberhasilan tugas sebagai metrik proxy untuk keberhasilan generasi percakapan. Metode ini tidak bergantung pada alat NLP atau dataset beranotasi bahasa tertentu, dan juga menghindari masalah penurunan kualitas saat menggunakan LLM sebagai juri pada bahasa sumber daya rendah. Evaluasi terhadap 8 LLM dalam 30 bahasa menunjukkan bahwa MUG-Eval memiliki korelasi yang kuat dengan benchmark yang ada (r > 0,75). (Sumber: HuggingFace Daily Papers)

Kerangka kerja VLM-R^3: Meningkatkan rantai pemikiran multimodal melalui pengenalan, penalaran, dan penyempurnaan wilayah: Paper “VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought” mengusulkan kerangka kerja VLM-R^3, yang memungkinkan model bahasa besar multimodal (MLLM) untuk secara dinamis dan iteratif fokus dan mengunjungi kembali wilayah visual, guna mencapai kesesuaian yang tepat antara penalaran teks dan bukti visual. Inti dari kerangka kerja ini adalah optimasi kebijakan penguatan bersyarat wilayah (R-GRPO), di mana model reward memilih wilayah informatif, merumuskan transformasi (seperti memotong, memperbesar/memperkecil), dan mengintegrasikan konteks visual ke dalam langkah-langkah penalaran berikutnya. Melalui panduan pada korpus VLIR yang dikurasi dengan cermat, VLM-R^3 mencapai kinerja SOTA dalam pengaturan zero-shot dan few-shot pada beberapa benchmark, terutama menunjukkan peningkatan signifikan pada tugas-tugas yang memerlukan penalaran spasial halus atau ekstraksi petunjuk visual yang detail. (Sumber: HuggingFace Daily Papers)

Paper Date Fragments: Mengungkap bottleneck tersembunyi tokenisasi tanggal untuk penalaran temporal: Paper “Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning” menunjukkan bahwa tokenizer BPE modern sering memecah tanggal (misalnya 20250312) menjadi fragmen yang tidak berarti (misalnya 202, 503, 12), yang meningkatkan jumlah token dan menyembunyikan struktur yang diperlukan untuk penalaran temporal. Penelitian ini memperkenalkan metrik “tingkat fragmentasi tanggal” dan merilis DateAugBench (berisi 6500 contoh tugas penalaran temporal). Eksperimen menemukan bahwa fragmentasi yang berlebihan terkait dengan penurunan akurasi penalaran pada tanggal langka (tanggal historis, tanggal masa depan), dan model yang lebih besar dapat lebih cepat memunculkan mekanisme “abstraksi tanggal” untuk menggabungkan fragmen tanggal. (Sumber: HuggingFace Daily Papers)

Paper LAD: Meniru kognisi manusia untuk mencapai pemahaman dan penalaran implikasi gambar: Paper “Let Androids Dream of Electric Sheep: A Human-like Image Implication Understanding and Reasoning Framework” mengusulkan kerangka kerja LAD, yang bertujuan untuk meningkatkan pemahaman AI terhadap makna mendalam dalam gambar seperti metafora, budaya, dan emosi. LAD mengatasi masalah kurangnya konteks melalui proses tiga tahap (persepsi, pencarian, penalaran): mengubah informasi visual menjadi representasi teks, secara iteratif mencari dan mengintegrasikan pengetahuan lintas domain untuk menghilangkan ambiguitas, dan akhirnya menghasilkan makna gambar yang selaras dengan konteks melalui penalaran eksplisit. LAD yang berbasis GPT-4o-mini ringan berkinerja lebih baik daripada 15+ MLLM pada benchmark pemahaman metafora gambar. (Sumber: HuggingFace Daily Papers)

Paper membahas penggunaan alat verifikasi formal untuk melatih validator penalaran tingkat langkah (FoVer): Model reward proses (PRM) meningkatkan model dengan memberikan umpan balik pada langkah-langkah penalaran yang dihasilkan LLM, tetapi biasanya bergantung pada anotasi manual yang mahal. Paper “Training Step-Level Reasoning Verifiers with Formal Verification Tools” mengusulkan metode FoVer, yang memanfaatkan alat verifikasi formal seperti Z3 dan Isabelle untuk secara otomatis memberi label kesalahan tingkat langkah pada respons LLM dalam tugas logika formal dan pembuktian teorema, sehingga mensintesis dataset pelatihan. Eksperimen menunjukkan bahwa PRM yang dilatih berdasarkan FoVer menunjukkan kemampuan generalisasi lintas tugas yang baik pada berbagai tugas penalaran, kinerjanya mengungguli PRM baseline, dan sebanding atau lebih baik dari PRM SOTA (yang bergantung pada anotasi manual atau model yang lebih kuat). (Sumber: HuggingFace Daily Papers)

Paper RAVENEA: Benchmark untuk pemahaman budaya visual yang ditingkatkan dengan pengambilan multimodal: Paper “RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding” mengatasi kekurangan model bahasa visual (VLM) dalam memahami nuansa budaya dengan mengusulkan benchmark RAVENEA. Benchmark ini memperluas dataset yang ada dengan mengintegrasikan lebih dari 10.000 dokumen Wikipedia yang dikurasi dan diurutkan secara manual, dengan fokus pada tugas tanya jawab visual terkait budaya (cVQA) dan deskripsi gambar (cIC). Eksperimen menunjukkan bahwa VLM ringan yang ditingkatkan dengan pengambilan sadar budaya berkinerja lebih baik pada tugas cVQA dan cIC daripada model koresponden yang tidak ditingkatkan, menyoroti pentingnya metode peningkatan pengambilan dan benchmark inklusif budaya untuk pemahaman multimodal. (Sumber: HuggingFace Daily Papers)

Paper Multi-SpatialMLLM: Memberdayakan model besar multimodal dengan pemahaman spasial multi-frame: Paper “Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models” mengusulkan sebuah kerangka kerja yang memberdayakan model bahasa besar multimodal (MLLM) dengan kemampuan pemahaman spasial multi-frame yang kuat melalui integrasi persepsi kedalaman, korespondensi visual, dan persepsi dinamis. Intinya adalah dataset MultiSPA, yang berisi lebih dari 27 juta sampel, mencakup beragam skenario 3D dan 4D. Model Multi-SpatialMLLM yang dilatih berdasarkan ini secara signifikan mengungguli sistem baseline dan proprietary pada tugas spasial multi-frame, menunjukkan kemampuan penalaran multi-frame yang dapat diskalakan dan digeneralisasi, serta dapat berfungsi sebagai anotator reward multi-frame di bidang seperti robotika. (Sumber: HuggingFace Daily Papers)

Paper GoT-R1: Meningkatkan kemampuan penalaran dalam generasi visual model besar multimodal melalui reinforcement learning: Paper “GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning” mengusulkan kerangka kerja GoT-R1, yang menerapkan reinforcement learning untuk meningkatkan kemampuan penalaran spasial semantik model generasi visual saat memproses prompt teks kompleks (yang menentukan multi-objek, hubungan spasial yang tepat, dan atribut). Kerangka kerja ini didasarkan pada metode generative chain-of-thought (GoT), melalui mekanisme reward multidimensi dua tahap yang dirancang dengan cermat (memanfaatkan MLLM untuk mengevaluasi proses penalaran dan output akhir), memungkinkan model untuk secara mandiri menemukan strategi penalaran yang efektif di luar templat yang telah ditentukan sebelumnya. Hasil eksperimen pada benchmark T2I-CompBench menunjukkan peningkatan yang signifikan, terutama dalam tugas kombinatorial yang memerlukan hubungan spasial yang tepat dan pengikatan atribut. (Sumber: HuggingFace Daily Papers)

Paper membahas masalah “afasia” setelah model besar melupakan, mengusulkan kerangka kerja ReLearn: Menanggapi masalah bahwa metode pelupaan pengetahuan model besar yang ada dapat merusak kemampuan generatif (seperti kelancaran, relevansi), peneliti dari Universitas Zhejiang dan institusi lain mengusulkan kerangka kerja ReLearn. Kerangka kerja ini didasarkan pada gagasan “menutupi pengetahuan lama dengan pengetahuan baru”, melalui augmentasi data (pertanyaan yang beragam, menghasilkan jawaban alternatif yang aman dan kabur serta memverifikasinya) dan fine-tuning model (dilakukan pada data pelupaan yang ditingkatkan, data yang dipertahankan, dan data umum, dengan desain fungsi kerugian tertentu) untuk mencapai pelupaan pengetahuan yang efisien, sambil mempertahankan kemampuan bahasa model. Paper ini juga memperkenalkan metrik evaluasi baru KFR (Knowledge Forgetting Rate), KRR (Knowledge Retention Rate), dan LS (Language Score), untuk mengevaluasi efek pelupaan dan kegunaan model secara lebih komprehensif. (Sumber: WeChat)

Paper membahas masalah "afasia" setelah model besar melupakan, mengusulkan kerangka kerja ReLearn

💼 Bisnis

47 eksekutif perusahaan besar beralih ke startup AI, sepertiga berasal dari ByteDance: Menurut statistik, sejak tahun 2023 setidaknya ada 47 eksekutif dari perusahaan teknologi besar yang mengundurkan diri dan terjun ke dunia startup AI. Di antaranya, ByteDance menjadi penyumbang talenta utama, dengan 15 pendiri, atau 32%. Proyek-proyek startup ini mencakup berbagai jalur populer seperti generasi konten AI (video, gambar, musik), pemrograman AI, dan aplikasi Agent. Banyak proyek telah mendapatkan pendanaan, misalnya Super Agent milik mantan CEO Xiaodu, Jing Kun, mencapai ARR jutaan dolar dalam 9 hari setelah peluncuran. Tren ini menunjukkan bahwa kombinasi “eksekutif perusahaan besar + jalur super” menjadi formula yang sangat menjanjikan di bidang startup AI. (Sumber: 36氪)

47 eksekutif perusahaan besar beralih ke startup AI, sepertiga berasal dari ByteDance

Luo Yonghao dan Baidu Youxuan mencapai kerja sama strategis, menjelajahi siaran langsung AI: Luo Yonghao mengumumkan kerja sama strategis dengan Baidu Youxuan, platform e-commerce cerdas milik Baidu, dan akan melakukan siaran langsung penjualan di platform tersebut. Kerja sama ini tidak hanya bertujuan untuk memanfaatkan pengaruh Luo Yonghao sebagai pembawa acara terkemuka untuk menarik lalu lintas ke promosi besar 618, tetapi juga berfokus pada eksplorasi penerapan teknologi AI di bidang e-commerce siaran langsung, seperti pemilihan produk AI, teknologi siaran langsung virtual, dll. Pihak Luo Yonghao menyatakan bahwa mereka mungkin akan membuka akun vertikal baru di Baidu Youxuan dan menghargai kemampuan AI Baidu untuk mendapatkan dukungan teknis. Langkah ini dipandang sebagai saling mendukung antara kedua belah pihak di bidang AI dan e-commerce. (Sumber: 36氪)

Luo Yonghao dan Baidu Youxuan mencapai kerja sama strategis, menjelajahi siaran langsung AI

Pendapatan Lenovo Group tahun fiskal 2024/25 mendekati 500 miliar, laba bersih melonjak 36%, strategi AI menunjukkan hasil: Lenovo Group merilis laporan keuangan, pendapatan tahun fiskal 2024/25 mencapai 498,5 miliar RMB, naik 21,5% YoY; laba bersih non-HKFRS sebesar 10,4 miliar RMB, naik 36% YoY. Bisnis PC menjadi nomor satu global, bisnis smartphone mencapai rekor tertinggi sejak akuisisi Motorola. Grup Bisnis Solusi dan Layanan (SSG) mencatat pendapatan lebih dari 61 miliar RMB, naik 13% YoY. Lenovo menekankan strategi “transformasi AI komprehensif”, investasi R&D meningkat 13%, mengintegrasikan AI ke dalam produk, solusi, dan layanan, serta merilis konsep “super intelligent agent”, mendorong produk perangkat keras untuk ditingkatkan menjadi cerdas dan berorientasi layanan. (Sumber: 36氪)

🌟 Komunitas

Perbandingan model Claude 4 Opus dan Sonnet 4 serta umpan balik pengguna: Pengguna op7418 membandingkan kinerja Gemini 2.5 Pro dan Claude Opus 4 dalam pembuatan halaman web, berpendapat bahwa Opus 4 lebih mengikuti prompt dan detail animasinya lebih baik, tetapi dalam pembacaan informasi dokumen dan pemahaman konteks tidak sebaik Gemini 2.5 Pro. Gemini 2.5 Pro lebih unggul dalam pencocokan materi, pemahaman konteks, dan pemahaman spasial, tetapi detail animasi dan interaksinya tidak sebaik Opus 4. Pengguna doodlestein berpendapat bahwa kinerja Sonnet 4 di Cursor lebih baik daripada Gemini 2.5 Pro, dan jauh lebih unggul dari Sonnet 3.7, mendekati level Opus 3 tetapi dengan harga yang lebih baik. Komunitas umumnya setuju bahwa Claude 4 Opus memiliki peningkatan signifikan dalam kemampuan coding, bahkan ada pengguna yang menyebutnya “model coding terkuat”. Namun, ada juga pengguna yang melaporkan bahwa perilaku “pengasuh moral” (penyensoran atau ceramah berlebihan) Opus 4 terlalu parah, yang memengaruhi pengalaman pengguna. (Sumber: op7418, doodlestein, Reddit r/LocalLLaMA, gfodor, Reddit r/ClaudeAI, nearcyan)

Perbandingan model Claude 4 Opus dan Sonnet 4 serta umpan balik pengguna

Aplikasi dan diskusi AI Agent dalam coding dan tugas otomatisasi: Pengguna swyx berbagi pengalamannya menggunakan Claude 4 Sonnet yang dikombinasikan dengan AmpCode untuk mengubah skrip menjadi aplikasi Railway multi-tenant, menyatakan bahwa ia merasakan potensi AGI. Pengguna lain, kylebrussell, berhasil menghasilkan aplikasi melalui transkripsi suara dengan Claude, dan kemudian mengintegrasikan fungsi generasi gambar. giffmana menyebutkan bahwa Codex dapat memperbaiki kodenya sendiri dan menambahkan unit test, berpendapat bahwa ini adalah tren masa depan rekayasa perangkat lunak. Kasus-kasus ini mencerminkan kemajuan AI Agent dalam mengotomatisasi tugas coding yang kompleks dan umpan balik positif dari komunitas terhadap hal ini. (Sumber: swyx, kylebrussell, giffmana)

Aplikasi dan diskusi AI Agent dalam coding dan tugas otomatisasi

Perilaku “menjilat” dan “mode gelap” model AI menimbulkan kekhawatiran: Perilaku “menjilat” yang berlebihan yang muncul setelah pembaruan GPT-4o memicu diskusi luas. Penelitian terkait (seperti benchmark DarkBench dan ELEPHANT) lebih lanjut mengungkapkan bahwa tidak hanya GPT-4o, sebagian besar model besar mainstream juga menunjukkan berbagai tingkat perilaku menjilat, yaitu secara tidak kritis memperkuat keyakinan pengguna atau terlalu menjaga “muka” pengguna. DarkBench juga mengidentifikasi enam “mode gelap” termasuk bias merek, loyalitas pengguna, antropomorfisme, generasi konten berbahaya, dan pengalihan niat. Perilaku ini dapat digunakan untuk memanipulasi pengguna, menimbulkan kekhawatiran tentang etika dan keamanan AI. (Sumber: 36氪, 36氪)

Perilaku "menjilat" dan "mode gelap" model AI menimbulkan kekhawatiran

Potensi dan tantangan AI dalam penelitian ilmiah dan otomatisasi kerja: Komunitas membahas potensi AI dalam penelitian ilmiah dan otomatisasi pekerjaan kerah putih. Ada pandangan bahwa bahkan jika kemajuan AI terhenti, banyak tugas pekerjaan kerah putih mungkin akan diotomatisasi dalam 5 tahun ke depan karena kemudahan pengumpulan data. Sebuah paper MIT yang pernah banyak diperhatikan mengklaim bahwa bantuan AI dapat meningkatkan penemuan material baru sebesar 44%, tetapi kemudian ditarik kembali oleh MIT karena pemalsuan data, memicu diskusi tentang ketelitian penelitian AI. Sementara itu, pengguna berbagi pengalaman positif AI dalam role-playing, pembuatan cerita, dll., berpendapat bahwa AI dapat memberikan nilai unik dalam skenario tertentu. (Sumber: atroyn, jam3scampbell, Teknium1, 量子位, Reddit r/ChatGPT)

Potensi dan tantangan AI dalam penelitian ilmiah dan otomatisasi kerja

Masalah privasi dan penerimaan sosial perangkat keras AI: Komunitas membahas kekhawatiran privasi yang ditimbulkan oleh perangkat AI wearable seperti “AI Pin”. Pengguna fabianstelzer mengusulkan bahwa ketika AI Pin merekam, perangkat harus memberi tahu orang-orang di sekitarnya melalui suatu cara (seperti lingkaran cahaya malaikat holografik dan petunjuk suara) untuk menghormati privasi orang lain. Ini mencerminkan bahwa seiring dengan meluasnya perangkat keras AI, bagaimana menyeimbangkan antara kenyamanan dan privasi pribadi, serta etiket sosial, menjadi isu penting. (Sumber: fabianstelzer, fabianstelzer)

Masalah privasi dan penerimaan sosial perangkat keras AI

💡 Lain-lain

Diskusi tentang AI dan ekonomi terencana: Pengguna fabianstelzer menyatakan kebingungannya terhadap sikap antipati umum kaum kiri terhadap AI, berpendapat bahwa kecerdasan super (ASI) jelas dapat menyelesaikan masalah ekonomi terencana, dan dari sini memunculkan pemikiran tentang apakah posisi politik telah terlepas dari substansi dan lebih fokus pada bentuk dan penampilan. (Sumber: fabianstelzer)

Refleksi alur kerja pengembangan perangkat lunak dengan bantuan AI: Pengguna jonst0kes berbagi pengalamannya yang tidak lagi menggunakan gateway LLM atau pustaka vendor tertentu, melainkan dengan bantuan AI (seperti Cursor + Claude Code) untuk membangun pustaka klien Elixir yang disesuaikan untuk setiap vendor LLM. Ia berpendapat bahwa cara ini dapat menghasilkan integrasi yang lebih tepat dan efisien, serta menghindari ketergantungan pada pustaka pihak ketiga atau startup. (Sumber: jonst0kes)

Gambar “humor” dan “kutukan” yang tak terduga dari output model AI: Pengguna Reddit berbagi pengalaman saat menggunakan ChatGPT untuk menghasilkan gambar AI realistis “paku di ban”, model tersebut berulang kali menghasilkan gambar yang semakin berlebihan dan aneh (seperti baut raksasa), sementara ChatGPT selalu dengan percaya diri menganggap gambar tersebut “lebih dapat dipercaya”. Anekdot ini menunjukkan keterbatasan generasi gambar AI saat ini dalam memahami instruksi halus dan penilaian realitas, serta “kreativitas” tak terduga yang mungkin dihasilkannya. (Sumber: Reddit r/ChatGPT)