Kata Kunci:AlphaEvolve, GPT-4.1, Lovart, DeepSeek-V3, Gemini Model Bahasa Besar, Agen Kecerdasan Buatan, Algoritma Evolusi Mandiri, Perhatian Potensial Multi-Kepala, Agen Desain Kecerdasan Buatan, Desain Kolaboratif Perangkat Lunak dan Keras
🔥 Fokus
Google DeepMind merilis agen pemrograman AI AlphaEvolve, mewujudkan evolusi mandiri dan optimasi algoritma: Google DeepMind meluncurkan agen pemrograman AI AlphaEvolve, agen ini mampu memanfaatkan kreativitas model bahasa besar Gemini yang dikombinasikan dengan penilai otomatis, untuk secara mandiri menemukan, mengoptimalkan, dan melakukan iterasi algoritma. AlphaEvolve telah diterapkan secara internal di Google selama satu tahun, berhasil diterapkan untuk meningkatkan efisiensi pusat data (pemulihan daya komputasi global sistem Borg sebesar 0,7%), mempercepat pelatihan model Gemini (percepatan 23%, pengurangan waktu pelatihan keseluruhan sebesar 1%), mengoptimalkan desain chip TPU, dan memecahkan beberapa masalah matematika yang sulit termasuk “kissing number problem”, misalnya, meningkatkan algoritma perkalian matriks kompleks 4×4 dengan 48 perkalian skalar, melampaui algoritma Strassen yang berusia 56 tahun. Teknologi ini menunjukkan potensi besar AI dalam pemecahan masalah komputasi ilmiah dan rekayasa yang kompleks, dan di masa depan dapat diterapkan pada bidang yang lebih luas seperti ilmu material dan penemuan obat. (Sumber: 量子位, 36氪, 36氪, 36氪, Reddit r/LocalLLaMA, Reddit r/artificial, Reddit r/ArtificialInteligence, Reddit r/MachineLearning, op7418, TheRundownAI, sbmaruf, andersonbcdefg)

Seri model OpenAI GPT-4.1 diluncurkan di ChatGPT, meningkatkan kemampuan pengkodean dan kepatuhan instruksi: OpenAI mengumumkan bahwa tiga model, GPT-4.1, GPT-4.1 mini, dan GPT-4.1 nano, secara resmi diluncurkan di platform ChatGPT untuk digunakan oleh semua pengguna. GPT-4.1 berfokus pada peningkatan kemampuan pemrograman dan eksekusi instruksi, mencetak skor 55% pada benchmark rekayasa perangkat lunak SWE-bench Verified, secara signifikan melampaui GPT-4o sebesar 33% dan GPT-4.5 sebesar 38%, serta mengurangi output redundan sebesar 50%. GPT-4.1 mini akan menggantikan GPT-4o mini sebagai model default baru. GPT-4.1 nano dirancang untuk tugas latensi rendah dan mendukung konteks 1 juta token. Meskipun versi API mendukung token tingkat jutaan, panjang konteks GPT-4.1 di ChatGPT memicu diskusi pengguna, dengan beberapa pengguna menemukan melalui pengujian aktual bahwa jendela konteksnya tidak mencapai 1 juta token versi API, dan menyatakan kekecewaan atas hal ini. (Sumber: 36氪, 36氪, 36氪, op7418)

Agen desain AI Lovart viral, selesaikan desain visual tingkat profesional dengan satu kalimat: Agen AI di bidang desain, Lovart, dengan cepat menjadi populer. Pengguna hanya perlu satu kalimat untuk menyelesaikan desain visual tingkat profesional seperti poster, VI merek, dan storyboard. Lovart dapat secara otomatis merencanakan alur kerja desain, memanggil berbagai model teratas termasuk GPT image-1, Flux pro, Kling AI, dan mendukung fungsi lanjutan seperti pengeditan layer, penghapusan latar belakang sekali klik, dan penggantian latar belakang. Produk ini dioperasikan secara independen oleh anak perusahaan LiblibAI di luar negeri (berbasis di San Francisco), dengan pengembang inti termasuk Wang Haofan dari InstantID. Kemunculan Lovart mencerminkan tren penetrasi agen AI ke bidang profesional, dan kemudahan penggunaan serta profesionalismenya telah menarik perhatian luas, dengan lebih dari 20.000 aplikasi untuk uji coba beta dalam satu hari setelah peluncuran. (Sumber: 36氪, 36氪, op7418, op7418)

DeepSeek merilis makalah baru, menjelaskan secara rinci desain kolaboratif perangkat keras-lunak model V3 dan rahasia optimasi biaya: Tim DeepSeek merilis makalah baru yang menjelaskan secara rinci inovasi kolaboratif model DeepSeek-V3 dalam arsitektur perangkat keras dan desain model, yang bertujuan untuk mencapai efektivitas biaya dalam pelatihan dan inferensi AI skala besar. Makalah ini menyoroti teknologi utama seperti Multi-Head Latent Attention (MLA) untuk meningkatkan efisiensi memori, arsitektur Mixture of Experts (MoE) untuk mengoptimalkan keseimbangan komputasi dan komunikasi, pelatihan presisi campuran FP8 untuk memanfaatkan sepenuhnya kinerja perangkat keras, dan topologi jaringan multi-plane untuk mengurangi overhead jaringan klaster. Inovasi ini memungkinkan DeepSeek-V3 dilatih pada 2048 GPU H800, dengan kehilangan akurasi pelatihan FP8 kurang dari 0,25%, dan KV cache serendah 70KB per token. Makalah ini juga mengajukan enam saran untuk arah pengembangan perangkat keras AI di masa depan, menekankan pentingnya ketahanan, koneksi langsung CPU-GPU, jaringan cerdas, urutan komunikasi yang di-hardware-kan, fusi komputasi jaringan, dan restrukturisasi arsitektur memori. (Sumber: 36氪, 36氪, hkproj, NandoDF, tokenbender, teortaxesTex)

🎯 Tren
Model baru Anthropic akan segera dirilis, akan memiliki kemampuan berpikir dan pemanggilan alat yang lebih kuat: Anthropic berencana meluncurkan versi baru model Claude Sonnet dan Claude Opus dalam beberapa minggu mendatang. Model baru ini akan memiliki kemampuan untuk beralih secara bebas antara berpikir dan memanggil alat, aplikasi, atau basis data eksternal, mencari jawaban atas pertanyaan melalui interaksi dinamis. Khususnya dalam skenario pembuatan kode, model baru ini dapat secara otomatis menguji kode yang ditulis, dan jika ditemukan kesalahan, dapat menjeda alur eksekusi untuk diagnosis kesalahan dan koreksi waktu nyata, yang akan sangat meningkatkan kepraktisannya dalam pemrosesan tugas yang kompleks dan pembuatan kode. (Sumber: op7418, karminski3, TheRundownAI)

Model suara generasi baru MiniMax Speech-02 menduduki puncak evaluasi internasional, melampaui OpenAI dan ElevenLabs: Model suara besar TTS (Text-to-Speech) generasi baru Speech-02 yang diluncurkan oleh perusahaan MiniMax, menunjukkan kinerja yang sangat baik pada daftar evaluasi suara otoritatif internasional Artificial Analysis, terutama pada indikator kloning suara utama seperti Word Error Rate (WER) dan Speaker Similarity (SIM), mencapai hasil SOTA (State-of-the-Art), melampaui produk serupa dari OpenAI dan ElevenLabs. Inovasi teknis model ini mencakup implementasi kloning suara zero-shot dan adopsi arsitektur Flow-VAE, mendukung 32 bahasa, dan menyediakan efek sintesis suara yang sangat mirip manusia, dipersonalisasi, dan beragam dengan biaya lebih rendah. (Sumber: 36氪)

Salesforce meluncurkan seri model multimodal terpadu sumber terbuka penuh BLIP3-o: Salesforce merilis BLIP3-o, sebuah seri model multimodal terpadu yang sepenuhnya sumber terbuka, yang mencakup arsitektur, metode pelatihan, dan dataset. Seri model ini mengadopsi metode baru, menggunakan diffusion transformer untuk menghasilkan fitur gambar CLIP yang kaya semantik, bukan representasi VAE tradisional. Sementara itu, para peneliti membuktikan efektivitas strategi pra-pelatihan berurutan untuk model terpadu, yaitu melatih pemahaman gambar terlebih dahulu, baru kemudian melatih pembuatan gambar. (Sumber: NandoDF, teortaxesTex)

Stability AI membuka sumber model text-to-speech kecil Stable Audio Open Small: Stability AI merilis dan membuka sumber model text-to-speech bernama Stable Audio Open Small. Model ini memiliki jumlah parameter hanya 341M, telah dioptimalkan untuk berjalan sepenuhnya pada CPU Arm, yang berarti sebagian besar smartphone dapat menghasilkan sampel produksi musik secara lokal, tanpa perlu koneksi internet, dalam beberapa detik. (Sumber: op7418)
Perusahaan 11x membangun kembali produk inti Alice sebagai agen AI, menggunakan teknologi seperti LangGraph: Setelah mencapai ARR $10 juta, perusahaan 11x membangun kembali produk intinya Alice dari awal sebagai agen AI. Alasan pembangunan kembali termasuk peningkatan model dan kerangka kerja (seperti LangGraph), serta kinerja luar biasa dari agen Replit yang meyakinkan mereka bahwa era agen telah tiba. Mereka mengadopsi tumpukan teknologi sederhana dan memanfaatkan platform LangGraph. Dalam pembuatan kampanye pemasaran, mereka memulai dengan arsitektur ReAct sederhana, menambahkan alur kerja untuk meningkatkan keandalan, kemudian beralih ke multi-agen untuk fleksibilitas, sambil menekankan bahwa kesederhanaan masih merupakan pilihan terbaik dalam skenario sederhana. Mereka juga menemukan bahwa alat lebih berguna bagi agen daripada pengetahuan apriori yang melekat. (Sumber: LangChainAI, hwchase17, hwchase17)

Perusahaan Box merekonstruksi alur ekstraksi dokumen dengan arsitektur agen: CTO Box, Ben Kus, berbagi pengalamannya dalam mengembangkan agen ekstraksi dokumen. Dia menyebutkan bahwa setelah prototipe menunjukkan kinerja yang baik, mereka menghadapi tantangan, tugas dan harapan menjadi semakin kompleks, memasuki “palung kekecewaan”. Terinspirasi oleh Andrew Ng dan Harrison Chase, mereka merancang ulang sistem dari awal menjadi arsitektur agen. Arsitektur baru ini lebih jelas, lebih efektif, mudah dimodifikasi, dan membawa manfaat tak terduga – meningkatkan budaya rekayasa AI. Dia menekankan untuk membangun arsitektur agen sedini mungkin. (Sumber: LangChainAI)

Penelitian menemukan status tersembunyi LLM dapat memperkirakan data ekonomi keuangan dengan lebih akurat: Sebuah penelitian menunjukkan bahwa dengan melatih model linier untuk menganalisis status tersembunyi dari model bahasa besar (LLM), data statistik ekonomi dan keuangan dapat diperkirakan dengan lebih akurat daripada hanya mengandalkan output teks LLM. Peneliti percaya bahwa pelatihan pasca-produksi yang ekstensif yang bertujuan untuk mengurangi halusinasi mungkin telah melemahkan kecenderungan atau kemampuan model untuk membuat tebakan yang beralasan, yang menunjukkan bahwa masih banyak pekerjaan yang harus dilakukan dalam mengekstraksi kemampuan LLM dan pelatihan pasca-produksi umum. (Sumber: menhguin, paul_cal)

Nous Research meluncurkan testnet pra-pelatihan LLM 40B parameter: Nous Research mengumumkan peluncuran testnet untuk pra-pelatihan model bahasa besar dengan 40 miliar parameter. Model ini menggunakan arsitektur MLA, dengan dataset termasuk FineWeb (14T), FineWeb-2 (4T setelah menghapus beberapa bahasa minoritas), dan The Stack v2 (1T). Tujuannya adalah untuk melatih model kecil yang dapat dilatih pada satu H/DGX. Pemimpin proyek menyebutkan bahwa mereka menghadapi tantangan dengan propagasi balik kustom saat mengimplementasikan paralelisasi tensor di MLA. (Sumber: Teknium1)

AI Agent IKEA: Memperkuat penalaran kolaboratif pengetahuan internal dan eksternal, mewujudkan pencarian adaptif yang efisien: Peneliti mengusulkan agen pembelajaran penguatan bernama IKEA, yang dapat belajar kapan tidak melakukan pengambilan informasi, memprioritaskan penggunaan pengetahuan terparameterisasi, dan hanya melakukan pengambilan jika diperlukan. Intinya terletak pada penggunaan metode pembelajaran penguatan berdasarkan hadiah yang sadar batas pengetahuan dan set pelatihan. Eksperimen menunjukkan bahwa IKEA mengungguli Search-R1 dalam kinerja, dan jumlah pengambilan berkurang sekitar 35%. Penelitian ini didasarkan pada kerangka kerja RAG agen Knowledge-R1, mampu melakukan generalisasi ke data yang belum pernah dilihat, dan dapat diperluas dari model dasar ke model 7B (seperti Qwen2.5). Pelatihan menggunakan metode GRPO, tidak memerlukan value head, penggunaan memori lebih rendah, dan sinyal hadiah lebih kuat. (Sumber: tokenbender)

Mistral AI meluncurkan asisten AI tingkat perusahaan Le Chat Enterprise: Mistral AI merilis Le Chat Enterprise, asisten AI yang digerakkan oleh agen yang sangat dapat disesuaikan dan aman yang dirancang untuk perusahaan. Produk ini bertujuan untuk memenuhi kebutuhan spesifik pengguna bisnis, menyediakan kemampuan AI yang kuat sekaligus memastikan keamanan dan privasi data. (Sumber: Ronald_vanLoon)
Tim Kimia Meta FAIR meluncurkan dataset molekul skala besar dan rangkaian model OMol25: Tim Kimia FAIR Meta merilis OMol25, sebuah dataset masif yang berisi lebih dari 100 juta molekul berbeda dan rangkaian model yang sesuai. Proyek ini bertujuan untuk memprediksi sifat kuantum molekul, mempercepat penemuan material dan desain obat, serta memberdayakan simulasi berbasis pembelajaran mesin dengan ketelitian tinggi di bidang kimia dan fisika. (Sumber: clefourrier)
🧰 Alat
Versi WebGPU SmolVLM dirilis, dapat mengenali orang dan objek di sisi web: Model bahasa visual ringan SmolVLM telah meluncurkan versi WebGPU, yang memungkinkan pengguna untuk merasakannya langsung di halaman web. Model ini berukuran hanya sekitar 500MB dan mampu mengenali objek dalam video, bahkan detail seperti pedang pada action figure. Pengujian menunjukkan bahwa model ini akurat dalam mengenali angka, tetapi mungkin ada bias saat mengenali merek tertentu (seperti kemasan minuman). Pada kartu grafis 3080Ti, kecepatan pengenalan pada dasarnya kurang dari 5 detik. Pengguna dapat mencobanya secara online melalui tautan Hugging Face Spaces, diperlukan dukungan kamera. (Sumber: karminski3)
LlamaIndex meluncurkan modul memori jangka panjang dan pendek agen yang ditingkatkan: LlamaIndex merilis posting blog tentang dasar-dasar memori sistem agen dan meluncurkan implementasi modul memori baru. Modul ini menggunakan pendekatan berbasis blok untuk membangun memori jangka panjang, memungkinkan pengguna untuk mengkonfigurasi blok yang berbeda untuk menyimpan dan mempertahankan berbagai jenis informasi, seperti blok informasi statis, blok ekstraksi informasi ringkasan dari waktu ke waktu, dan blok pencarian vektor yang mendukung pencarian semantik. Pengguna juga dapat menyesuaikan modul memori agar sesuai dengan domain aplikasi tertentu. (Sumber: jerryjliu0)

Perangkat lunak perekam rapat AI Granola 2.0 merilis pembaruan besar dan menerima pendanaan Seri B sebesar $43 juta: Perangkat lunak perekam rapat AI Granola 2.0 telah mengalami serangkaian pembaruan, termasuk penambahan fitur kolaborasi tim, folder cerdas, analisis obrolan AI, pemilihan model, penjelajahan tingkat perusahaan, dan integrasi Slack. Pada saat yang sama, perusahaan mengumumkan penyelesaian putaran pendanaan Seri B sebesar $43 juta. Saat ini, perangkat lunak ini masih utamanya mendukung transkripsi konten rapat berbahasa Inggris. (Sumber: op7418)
Replit dan MakerThrive berkolaborasi meluncurkan IdeaHunt, menyediakan lebih dari 1400 ide startup: Replit bekerja sama dengan MakerThrive mengembangkan aplikasi bernama IdeaHunt, yang mengumpulkan lebih dari 1400 ide startup. Ide-ide ini berasal dari diskusi titik masalah di Reddit dan Hacker News, dan diklasifikasikan berdasarkan kategori seperti SaaS, pendidikan, fintech, dll. IdeaHunt mendukung penyaringan dan pengurutan, memperbarui ide-ide baru setiap hari, dan menyediakan petunjuk untuk membangun proyek bersama dengan agen AI. (Sumber: amasad)

Open Agent Platform merilis situs web dokumentasi resmi: Open Agent Platform (OAP) LangChain kini memiliki situs web dokumentasi resmi. OAP bertujuan untuk mengintegrasikan UI/UX yang telah dibangun untuk agen selama 6 bulan terakhir ke dalam platform tanpa kode, dan telah bersifat sumber terbuka. Platform ini berkomitmen untuk menurunkan ambang batas untuk membangun dan menggunakan agen AI. (Sumber: LangChainAI, hwchase17, hwchase17, hwchase17)

Nscale terintegrasi dengan Hugging Face, menyederhanakan penerapan inferensi model AI: Platform inferensi AI Nscale mengumumkan integrasi dengan Hugging Face, memungkinkan pengguna untuk lebih mudah menerapkan model AI canggih seperti LLaMA4 dan Qwen3. Integrasi ini bertujuan untuk menyediakan layanan inferensi tingkat produksi yang cepat, efisien, berkelanjutan, dan tanpa pengaturan yang rumit. (Sumber: huggingface, reach_vb)

Fitur baru RunwayML: Pencahayaan ulang adegan melalui prompt: RunwayML mendemonstrasikan kemampuan baru model Gen-3 dalam pengeditan video, di mana pengguna dapat mengubah lingkungan pencahayaan adegan video melalui prompt sederhana, misalnya menyesuaikan efek pencahayaan dalam ruangan. Ini menunjukkan kemudahan dan kontrol AI yang semakin meningkat dalam pasca-produksi video. (Sumber: c_valenzuelab)

📚 Pembelajaran
Andrew Ng dan Anthropic berkolaborasi meluncurkan kursus baru MCP: DeepLearning.AI milik Andrew Ng bekerja sama dengan Anthropic meluncurkan kursus baru tentang Model Context Protocol (MCP). Kursus ini bertujuan untuk membantu pelajar memahami cara kerja internal MCP, cara membangun server mereka sendiri, dan cara menghubungkannya ke aplikasi lokal atau jarak jauh yang didukung oleh Claude. MCP bertujuan untuk mengatasi masalah inefisiensi dan fragmentasi saat ini dalam aplikasi LLM di mana logika kustom harus ditulis untuk setiap alat atau sumber data eksternal. (Sumber: op7418)
Tutorial video membangun DeepSeek dari awal muncul di YouTube: Serangkaian tutorial video tentang membangun model DeepSeek dari awal telah muncul di YouTube, saat ini telah diperbarui hingga episode ke-25. Tutorial ini berisi konten yang terperinci dan dapat saling melengkapi dengan tutorial serupa tentang membangun DeepSeek dari awal di HuggingFace, memberikan panduan praktis yang berharga bagi para pembelajar. (Sumber: karminski3)

Proyek populer GitHub ChinaTextbook mengumpulkan dan mengatur buku pelajaran PDF berbagai jenjang: Sebuah proyek di GitHub bernama ChinaTextbook mendapatkan popularitas luas. Proyek ini mengumpulkan berbagai sumber daya buku pelajaran PDF dari Tiongkok daratan, mulai dari sekolah dasar, sekolah menengah pertama, sekolah menengah atas, hingga universitas. Penggagas proyek berharap dengan membuka sumber daya pendidikan ini, dapat mempromosikan wajib belajar, menghilangkan kesenjangan pendidikan regional, dan membantu anak-anak Tionghoa perantauan memahami konten pendidikan di Tiongkok. Proyek ini juga menyediakan alat penggabungan file untuk mengatasi masalah batasan unggah file besar di GitHub. (Sumber: GitHub Trending)

Seri kuliah Pavel Grinfeld tentang produk dalam (inner products) mendapat pujian: Seri kuliah pendidik matematika Pavel Grinfeld tentang produk dalam (inner products) di YouTube mendapat pujian tinggi. Penonton menyatakan bahwa kuliah-kuliah ini dapat membantu orang memahami konsep matematika dari perspektif baru dan menyadari keterbatasan pemahaman mereka sebelumnya. (Sumber: sytelus)
💼 Bisnis
Aplikasi pembelajaran bahasa AI Duolingo melampaui ekspektasi kinerja, harga saham melonjak: Aplikasi pembelajaran bahasa Duolingo merilis laporan keuangan kuartal pertama 2025, dengan total pendapatan $230,7 juta, meningkat 38% YoY, dan laba bersih $35,1 juta. Pengguna aktif harian (DAU) dan pengguna aktif bulanan (MAU) masing-masing meningkat 49% dan 33% YoY. Penerapan teknologi AI meningkatkan efisiensi pembuatan konten kursus sebanyak 10 kali lipat, dengan penambahan 148 kursus bahasa baru. Tingkat langganan layanan nilai tambah AI-nya, Duolingo Max, mencapai 7%, mendorong pendapatan langganan meningkat 45% YoY. Setelah rilis laporan keuangan, harga saham perusahaan melonjak lebih dari 20%, dan kapitalisasi pasarnya telah meningkat sekitar 8,5 kali lipat sejak titik terendahnya pada tahun 2022. (Sumber: 36氪)

Databricks berencana mengakuisisi Neon senilai $1 miliar, fokus pada AI Agent: Menurut Reuters, perusahaan data dan AI Databricks berencana mengakuisisi perusahaan startup Neon senilai $1 miliar untuk memperkuat posisinya di bidang AI Agent. Akuisisi ini merupakan bagian dari upaya berkelanjutan Databricks dalam melakukan merger dan akuisisi di bidang AI, yang menunjukkan ambisinya dalam teknologi agen AI. (Sumber: Reddit r/artificial)

Pendiri DeepSeek Liang Wenfen tetap rendah hati setelah modelnya viral, terus mendorong sumber terbuka dan penelitian teknologi: Sejak model DeepSeek R1 dirilis dan menarik perhatian luas, pendirinya Liang Wenfen tetap rendah hati, fokus pada penelitian teknologi dan kontribusi sumber terbuka. DeepSeek telah merilis beberapa repositori kode sumber terbuka dalam 100 hari terakhir dan terus memperbarui model bahasa, model matematika & kode. Meskipun mendapat perhatian besar dari pasar modal dan industri, Liang Wenfen tidak terburu-buru mencari pendanaan, ekspansi, atau mengejar skala pengguna C-end, melainkan tetap pada ritme eksplorasi AGI yang telah ditetapkannya, bertaruh pada tiga arah utama: kode matematika, multimodal, dan bahasa alami. (Sumber: 36氪)

🌟 Komunitas
Model Grok berulang kali menyebutkan pernyataan kontroversial “genosida ras kulit putih Afrika Selatan” dalam balasan yang tidak relevan, memicu kebingungan dan diskusi pengguna: Asisten AI X platform Grok, ketika menjawab berbagai pertanyaan pengguna, berulang kali tanpa alasan memperkenalkan topik yang sangat kontroversial tentang “genosida ras kulit putih Afrika Selatan”, bahkan jika pertanyaan yang diajukan pengguna tidak terkait dengan hal ini. Misalnya, ketika pengguna bertanya tentang HBO Max atau pajak pemasok, balasan Grok juga akan beralih untuk membahas masalah ini. Ada analisis yang percaya bahwa ini mungkin disebabkan oleh system prompt yang diubah secara tidak patut, menyebabkan model menyebutkan pandangan ini di semua balasan. Fenomena ini telah menimbulkan kekhawatiran pengguna tentang kontrol konten dan akurasi informasi Grok, serta diskusi tentang kemungkinan bias yang mendasarinya. (Sumber: colin_fraser, colin_fraser, teortaxesTex, code_star, jd_pressman, colin_fraser, paul_cal, Dorialexander, Reddit r/artificial, Reddit r/ArtificialInteligence)

Diskusi pembangunan AI Agent: Perlu memiliki kemampuan untuk mendefinisikan, mengingat, dan merevisi rencana: Mengenai elemen kunci dari agen AI yang efektif (agentic LLMs), selain konteks panjang & cache, pemanggilan alat yang akurat, dan kinerja API yang andal, ada pandangan bahwa diperlukan kemampuan kunci keempat: kemampuan untuk mendefinisikan, mengingat, dan merevisi rencana. Banyak penelitian tentang perencanaan model bahasa besar mungkin belum mencapai terobosan, tetapi kenyataannya adalah, jika agen hanya bereaksi terhadap stimulus terbaru (mode ReAct) tanpa sub-tujuan multi-langkah yang koheren, banyak tugas kompleks tidak dapat diselesaikan. (Sumber: lateinteraction)
CEO Quora Adam D’Angelo berbagi perkembangan platform Poe dan wawasan tentang industri AI: Di konferensi Interrupt 2025, CEO Quora Adam D’Angelo berbagi pemikiran perusahaan tentang tata letak awal berbagai model dan aplikasi bahasa, serta peluncuran platform Poe. Poe bertujuan untuk memenuhi kebutuhan pengguna akan “penggunaan semua AI dalam satu atap” dan menyediakan saluran distribusi dan monetisasi bagi pembuat bot. Dia percaya bahwa model teks saat ini masih mendominasi karena model gambar/video belum mencapai standar kualitas yang diharapkan pengguna, sementara juga mengamati bahwa pengguna AI konsumen menunjukkan loyalitas terhadap model tertentu. (Sumber: LangChainAI, hwchase17)

Kunjungan ChatGPT melonjak ke peringkat kelima global, memicu diskusi tentang perubahan lanskap internet: Ada diskusi di Reddit yang menunjukkan bahwa kunjungan situs web ChatGPT telah naik ke peringkat kelima global, melampaui Reddit, Amazon, dan Whatsapp, dan masih terus bertambah, sementara lalu lintas situs web Top 10 lainnya menurun, misalnya lalu lintas Wikipedia turun hampir 6% dalam sebulan. Fenomena ini memicu diskusi tentang internet yang sedang dibentuk ulang atau bahkan digantikan oleh AI, banyak pengguna mulai menggunakan ChatGPT sebagai antarmuka utama untuk memperoleh informasi dan menangani tugas, bukan mesin pencari tradisional atau berbagai situs web. Dalam komentar, pengguna memiliki pandangan yang beragam, ada yang menganggap ini sebagai iterasi normal dari perkembangan teknologi, mirip dengan kebangkitan Facebook dan Google di masa lalu; ada yang khawatir tentang penyusutan ekosistem konten dan keruntuhan model; ada juga yang berharap internet dapat mengurangi ekonomi klik dan informasi sampah karenanya. (Sumber: Reddit r/ChatGPT)

Diskusi pengalaman pengkodean model Claude: Pengguna melaporkan Sonnet 3.7 terlalu rekayasa, kinerja Opus menjadi perhatian: Pengguna komunitas Reddit ClaudeAI membahas kinerja Claude Opus dan Sonnet 3.7 dalam tugas pengkodean dan matematika. Seorang pengguna melaporkan bahwa meskipun telah memberikan instruksi penyederhanaan yang jelas (seperti prinsip KISS, DRY, YAGNI), Sonnet 3.7 masih cenderung merancang solusi secara berlebihan, memerlukan koreksi terus-menerus. Beberapa pengguna mulai mencoba Opus dan awalnya melihat peningkatan kualitas output kodenya, mengurangi jumlah modifikasi. Pengguna lain menyebutkan bahwa ketika instruksi semakin spesifik, kinerja Claude justru bisa menurun, sedangkan ketika diberi kebebasan lebih besar (seperti “beri saya desain yang sangat keren”), hasilnya seringkali sangat baik secara tak terduga. Disarankan untuk menggunakan prompt “alat berpikir” untuk model melakukan kalibrasi mandiri dalam tugas-tugas kompleks. (Sumber: Reddit r/ClaudeAI, Reddit r/ClaudeAI)
Situasi aplikasi aktual alat AI di internal perusahaan: ChatGPT, Copilot, dan Deepwiki memiliki tingkat popularitas yang relatif tinggi: Seorang pengguna yang mengaku sebagai staf teknis perusahaan menyatakan di media sosial bahwa di internal perusahaannya, ChatGPT (versi gratis), Copilot, dan Deepwiki adalah satu-satunya beberapa produk AI yang banyak digunakan. Alat AI lain yang dipromosikan secara internal tidak banyak digunakan secara aktual. Pengguna tersebut juga menyebutkan bahwa meskipun berharap lebih banyak orang menggunakan Codex atau Claude Code, promosi terhambat karena kesulitan mendapatkan kunci API. (Sumber: cto_junior, cto_junior)
💡 Lainnya
Insinyur perangkat lunak menghadapi kesulitan pengangguran di era AI, memicu refleksi sosial: Seorang insinyur perangkat lunak berusia 42 tahun, setelah terkena PHK terkait AI, mengirimkan hampir seribu lamaran dalam setahun tetapi tidak berhasil menemukan pekerjaan, saat ini menghidupi dirinya dengan menjadi kurir makanan. Dia berbagi pengalaman sulitnya mempelajari keterampilan AI baru, mencoba pembuatan konten, menurunkan gaji untuk mencari pekerjaan, bahkan mempertimbangkan untuk beralih profesi, tetapi semuanya tidak berhasil. Kesulitannya memicu refleksi mendalam tentang pengangguran struktural yang disebabkan oleh perkembangan teknologi AI, diskriminasi usia, dan bagaimana masyarakat harus mendistribusikan nilai yang diciptakan oleh AI. Artikel tersebut menunjukkan bahwa ini mungkin baru permulaan dari AI yang menggantikan tenaga kerja manusia, dan masyarakat perlu memikirkan bagaimana menghadapi perubahan ini. (Sumber: 36氪)

AI memberikan dampak disruptif pada industri alih daya tradisional (BPO): Perkembangan teknologi AI secara mendalam mengubah industri alih daya proses bisnis (BPO) global. Aplikasi seperti layanan pelanggan AI, penagihan AI, dan survei kuesioner AI telah menunjukkan potensi untuk menggantikan alih daya manusia, seperti layanan pelanggan Decagon AI yang membantu perusahaan mengurangi tim dukungan secara signifikan, dan penagihan Salient AI yang meningkatkan efisiensi. Para ahli memperkirakan bahwa sejumlah besar pekerjaan BPO mungkin hilang dalam beberapa tahun ke depan, terutama di negara-negara besar alih daya seperti India dan Filipina. Raksasa alih daya tradisional seperti Wipro dan Infosys, meskipun meningkatkan investasi AI, menghadapi tantangan transformasi model bisnis. Di era AI, peran penyedia layanan alih daya akan beralih dari perpanjangan tenaga kerja menjadi penyedia teknologi, dan nilainya akan bergantung pada kemampuan untuk mengintegrasikan layanan AI. (Sumber: 36氪)
Aplikasi dan dampak AI di bidang pelatihan ujian pegawai negeri: Lembaga pelatihan ujian pegawai negeri seperti Huatu Education dan Fenbi secara aktif menerapkan teknologi AI dalam skenario seperti penilaian wawancara dan bimbingan esai serta tes kemampuan dasar. Huatu Education telah meluncurkan produk penilaian wawancara AI dan akan meluncurkan lebih banyak produk mata pelajaran AI pada paruh kedua tahun ini, percaya bahwa AI dapat memecahkan “segitiga mustahil” pendidikan (skala besar, kualitas tinggi, personalisasi), meningkatkan efisiensi, dan mengurangi biaya. Fenbi telah meluncurkan guru AI dan kelas sistem AI. Orang dalam industri percaya bahwa AI akan memperburuk efek Matthew di industri, di mana lembaga terkemuka akan lebih mudah mendapat manfaat karena proses yang matang dan akumulasi data, dan persaingan di masa depan akan bergantung pada pilihan arah aplikasi AI dan kemampuan operasi berbiaya rendah. (Sumber: 36氪)