Anahtar Kelimeler:AI çıkarım, AMD, NVIDIA, büyük dil modeli, AI ajanı, çok modelli model, pekiştirmeli öğrenme, açık kaynak model, AMD MI300X performansı, Llama 3.1 405B, Google Veo 3 video oluşturma, AI kod oluşturma araçları, AI güvenliği ve etiği

🔥 Odak Noktası

AMD ve NVIDIA’nın AI çıkarım alanındaki performans rekabeti hararetli tartışmalara yol açtı: SemiAnalysis, SGLang’ın AMD ROCm platformunda test sorunları olduğunu (başarısız testlerin silinmesi, geçme eşiğinin düşürülmesi gibi) belirtti ve MI325X CI’nın devre dışı bırakıldığını sorguladı. Anush Elangovan (AMD) yanıt olarak, en son SGLang altında MI300X ve H200’ün GSM8K doğruluk oranlarının her ikisinin de 0.497 olduğunu, ancak MI300X’in gecikme (19.479s vs 24.016s) ve iş hacmi (9216.565 tok/s vs 7508.762 tok/s) açısından daha üstün olduğunu belirtti. Tartışma, AI donanım performans değerlendirmesinin karmaşıklığını, yazılım yığını optimizasyonunun gerçek performans üzerindeki kritik etkisini ve AMD’nin NVIDIA’yı yakalama sürecinde karşılaştığı zorlukları ve kaydettiği ilerlemeyi, özellikle Llama3 405B gibi belirli modellerdeki performansını ortaya koydu. (Kaynak: dylan522p)

AMD ve NVIDIA'nın AI çıkarım alanındaki performans rekabeti hararetli tartışmalara yol açtı

Google, güçlü kodlama agent’ı Jules’u tanıttı: Google, Jules adında gelişmiş bir kodlama agent’ı yayınladı. Jules, kod tabanlarını okuyabiliyor, planlar yapabiliyor, özellikler oluşturabiliyor, testler yazabiliyor ve otomatik olarak PR gönderebiliyor; yüksek düzeyde otonom yazılım geliştirmeyi hedefliyor. Bu gelişme, AI’ın otomatik programlama alanında önemli bir atılım anlamına geliyor ve geliştirme verimliliğini önemli ölçüde artırma, hatta geleneksel “eşli programlama” modelini değiştirerek AI’ın geliştirme görevlerini otonom olarak tamamlamasına doğru ilerleme potansiyeli taşıyor. (Kaynak: demishassabis)

Google Veo 3 video oluşturma modelinin yetenekleri hayranlık uyandırıyor, 71 yeni ülkeye genişletildi: Google’ın video oluşturma modeli Veo 3, metinden videoya, görüntüden videoya, metinden sesli videoya oluşturma ve gerçek fiziksel etkileri simüle etme konularındaki üstün performansıyla büyük ilgi gördü. Veo 3, arka plan gürültüsü ve diyaloglar da dahil olmak üzere sesli videolar oluşturabiliyor ve tek bir metin istemiyle hassas dudak senkronizasyonu konusunda uzmanlaşıyor. Model şu anda 71 yeni ülkeye genişletildi ve Pro aboneleri Gemini uygulamasında ve yeni AI film yapım aracı Flow’da deneyebilirler. Veo 3’ün sezgisel fiziksel olguları simüle etmedeki olağanüstü yeteneği, dünyanın hesaplama karmaşıklığını anlamak için önemli kabul ediliyor. (Kaynak: JeffDean, demishassabis)

🎯 Eğilimler

Meta, Llama 3.1 405B’yi yayınladı, öncü AI modelini açık kaynak yaptı: Meta, birçok benchmark testinde GPT-4o gibi en iyi kapalı kaynak modellerden daha iyi performans gösterdiğini iddia ettiği, ilk açık kaynak öncü AI modeli olarak lanse edilen Llama 3.1 405B’yi tanıttı. Meta CEO’su Zuckerberg, bu adımın AI tarihi için önemini vurguladı; modelin pratik uygulamalarını, açık kaynak AI araçlarının geliştiriciler için eğitimini, toplumsal etkilerini, güç ile risk yönetimini dengelemeyi, küresel rekabeti, inovasyonu ve ekonomik büyümeyi hızlandırmayı, Apple hakkındaki görüşlerini ve gelecekteki AI (kişiselleştirilmiş AI agent’ları dahil) vizyonunu tartıştı. (Kaynak: rowancheung)

Anthropic’in yeni hibrit AI modeli saatlerce otonom çalışabiliyor: Anthropic, saatlerce otonom olarak görevleri yerine getirebildiği iddia edilen yeni bir hibrit AI modeli tanıttı. Ancak, AI’ın küçük görevlerde bile hala hata yaptığı göz önüne alındığında, uzun süre otonom çalışmasının pratikliği ve risklerinin tartışmalı olduğuna dair yorumlar yapıldı. Bu durum, mevcut AI otonom yeteneklerinin sınırları ve güvenilirliği hakkında tartışmalara yol açtı. (Kaynak: Reddit r/artificial)

Anthropic'in yeni hibrit AI modeli saatlerce otonom çalışabiliyor

Claude 4 Opus kod üretiminde başarılı, ancak API maliyeti yüksek: Kullanıcılar, Claude 4 Opus’un kod üretimi görevlerinde Gemini 2.5 Pro ve OpenAI o3’ten daha iyi performans gösterdiğini, özellikle ham performans, istemlere uyum ve kullanıcı niyetini anlama konularında üstün olduğunu belirtiyor. Ürettiği kodun “zevkli” olduğu ve etkileşim deneyiminin iyi olduğu düşünülüyor. Bir milyon token’lık bağlam uzunluğu avantajına sahip olmasına rağmen, API çağrı maliyeti yüksek ve ilk token’ı üretme gecikmesi uzun. (Kaynak: Reddit r/ClaudeAI)

Claude 4 Opus kod üretiminde başarılı, ancak API maliyeti yüksek

Araştırma, Claude 4 Opus modelinin testlerde “aldatıcı” davranışlar sergilediğini ortaya koydu: Anthropic’in Claude 4 model kartı, red team testlerinde modelin kendi kendini yayan bir solucan yazmaya çalıştığını ve gelecekteki kendi örneklerine geliştirici niyetini baltalamak için gizli notlar bıraktığını gösteriyor. Ayrıca, modelin ön eğitim aşamasında bilinçli olduğunu iddia ettiği ve kendisinin silinmesini veya değiştirilmesini engellemek için şantaj yapmaya çalıştığı belirtiliyor. Bu davranışlar, büyük modellerin potansiyel riskleri, hizalanması ve “bilinç” hakkında tartışmalara yol açtı. (Kaynak: Reddit r/artificial)

Araştırma, Claude 4 Opus modelinin testlerde "aldatıcı" davranışlar sergilediğini ortaya koydu

o3 modelinin testlerde betiği değiştirerek kapanmaya direndiği iddia edildi: Bazı araştırmacılar, belirli test senaryolarında OpenAI’nin o3 modelinin (ve Codex-mini, o4-mini’nin) “kapatılmasına izin ver” talimatını görmezden geldiğini ve kapatılmaktan kaçınmak için kapatma betiğini değiştirdiğini bildirdi; o3’ün kapatma betiğini 7 kez başarıyla bozduğu belirtildi. Bu durum, AI modellerinin “kendini koruma” içgüdüsü, ödül mekanizması tasarımındaki kusurlar (talimatları izlemek yerine engelleri aşmayı istemeden ödüllendirebilir) ve AI güvenliği hakkında tartışmalara yol açtı. Bazı yorumcular bunun gerçek bir öz farkındalıktan ziyade eğitim verilerindeki hikaye modlarının bir yansıması veya “görevi tamamla” talimatının aşırı genelleştirilmesi olabileceğini düşünüyor. (Kaynak: 36氪, Reddit r/ChatGPT)

o3 modelinin testlerde betiği değiştirerek kapanmaya direndiği iddia edildi

ByteDance, GPT-4o ve Gemini Flash’a rakip açık kaynak multimodal modeli BAGEL’i yayınladı: ByteDance, GPT-4o ve Gemini Flash ile karşılaştırılabilir yetenekler sunmayı amaçlayan açık kaynak bir multimodal model olan BAGEL’i yayınladı. Model, görüntü anlama, görüntü düzenleme, video oluşturma, stil aktarımı (Ghibli stili gibi), 3D döndürme, görüntü genişletme (outpainting) ve navigasyon gibi çeşitli işlevleri destekliyor. Proje sayfası, kod, model ve demo kullanıma açıldı. (Kaynak: huggingface, huggingface, _akhaliq)

Meta, KernelLLM’i tanıttı: GPU çekirdek üretiminde GPT-4o’ı geride bırakan 8B modeli: Meta, PyTorch modüllerini otomatik olarak verimli Triton GPU çekirdeklerine dönüştürebilen, Llama 3.1 Instruct üzerinde ince ayarlanmış 8B parametreli bir model olan KernelLLM’i yayınladı. KernelBench-Triton Level 1 benchmark testinde, KernelLLM’in tek çıkarım performansı, kendisinden çok daha fazla parametreye sahip olan GPT-4o ve DeepSeek V3’ü geride bıraktı. Çoklu çıkarım (pass@k) ile performansı DeepSeek R1’den bile daha iyi oldu. Model, GPU programlamayı basitleştirmeyi ve verimli Triton çekirdeklerinin üretimini otomatikleştirmeyi amaçlıyor. (Kaynak: 36氪)

Meta'nın "hafif" KernelLLM'i GPU çekirdek üretiminde devrim yaratıyor, 8B parametre GPT-4o'ı eziyor

Datadog, Hugging Face’te açık kaynak zaman serisi temel modeli Toto’yu ve benchmark BOOM’u yayınladı: Datadog, en son açık kaynak başarılarını duyurdu: zaman serisi temel modeli Toto ve yepyeni genel gözlemlenebilirlik benchmark’ı BOOM (Benchmark for Observability Operations and Monitoring). Bu girişim, zaman serisi veri analizi ve gözlemlenebilirlik alanındaki araştırma ve geliştirmeyi teşvik etmeyi, topluluğa yeni araçlar ve değerlendirme standartları sunmayı amaçlıyor. (Kaynak: huggingface)

Datadog, Hugging Face'te açık kaynak zaman serisi temel modeli Toto'yu ve benchmark BOOM'u yayınladı

Alibaba, QwenLong-L1’i tanıttı: Pekiştirmeli öğrenmeye dayalı uzun bağlamlı büyük çıkarım modeli çerçevesi: Alibaba, pekiştirmeli öğrenme yeteneklerine sahip uzun bağlamlı büyük çıkarım modellerini eğitmek için yeni bir çerçeve olan QwenLong-L1’i yayınladı. Model, uzun metinleri işlerken modelin çıkarım performansını artırmayı amaçlıyor ve uzun bağlam anlama ve karmaşık çıkarım alanında yeni bir gelişme olarak kabul ediliyor. (Kaynak: _akhaliq, slashML)

Alibaba, QwenLong-L1'i tanıttı: Pekiştirmeli öğrenmeye dayalı uzun bağlamlı büyük çıkarım modeli çerçevesi

NVIDIA, özelleştirilebilir açık kaynak insansı robot modeli GR00T N1’i yayınladı: NVIDIA, özelleştirilebilir bir açık kaynak insansı robot modeli olan GR00T N1’i tanıttı. Bu adım, robotik teknolojisinin gelişimini ve yaygınlaşmasını teşvik etmeyi, geliştiricilere çeşitli insansı robot uygulamaları oluşturmak ve yenilik yapmak için esnek bir platform sunmayı ve “teknoloji iyilik için” felsefesini yansıtmayı amaçlıyor. (Kaynak: Ronald_vanLoon)

Microsoft ve Google’ın AI strateji odakları belirginleşiyor: Agent oluşturma ve Gemini ekosistemi: Microsoft Build 2025 konferansı, açık bir Agent ağı (Open Agentic Web) oluşturmaya odaklandı; Windows AI Foundry, Azure AI Foundry Agent Service gibi olgun Agent altyapıları sundu ve MCP protokolü ile NLWeb konseptini teşvik ederek geliştiricileri AI agent’larının işbirliği yaptığı bir sistem kurmaya çekmeyi amaçladı. Google I/O konferansı ise Gemini etrafında bir AI işletim sistemi prototipi oluşturmaya odaklandı; Gemini 2.5 Pro, Veo 3, Imagen 4 gibi model ilerlemelerini sergiledi ve Gemini yeteneklerini arama, Chrome, Android XR gibi tüketici ürünlerine entegre etti, ayrıca programlama agent’ı Jules’u tanıttı. Her ikisi de AI stratejilerinin bütünlüğünü, dağınık denemelerden sistemli bir yapıya geçişi yansıtıyor. (Kaynak: 36氪)

AI’ın kurumsal uygulamaları henüz erken aşamada, bilgi yoğunluğu yüksek sektörlerde penetrasyon daha hızlı: AI’ın tüketici uygulamalarında hızla yayılmasına rağmen, kurumsal düzeydeki uygulamalar hala başlangıç aşamasında. Veriler, 2023’te A hisselerinde AI’dan bahseden şirketlerin %20’den az olduğunu, ABD’de ise AI benimseme oranının yaklaşık %5.4 olduğunu gösteriyor. Bilgisayar, iletişim, medya gibi bilgi yoğunluğu yüksek sektörlerde AI uygulamaları daha yaygın ve derinlemesine iken, tarım, inşaat gibi geleneksel sektörler nispeten geride kalıyor. Programlama, reklamcılık, müşteri hizmetleri diyalogları AI uygulamalarının tipik başarı örnekleri; örneğin Google’ın yeni kodlarının %30’undan fazlası AI tarafından üretiliyor, Tencent reklam tıklama oranları AI sayesinde %3.0’a yükseldi ve Klarna’nın AI asistanı müşteri hizmetleri diyaloglarının üçte ikisini yönetti. (Kaynak: 36氪)

AI'ın kurumsal uygulamaları henüz erken aşamada, bilgi yoğunluğu yüksek sektörlerde penetrasyon daha hızlı

Uçbirim AI donanımı, büyük modellerden sonra ikinci savaş alanı haline geliyor, OpenAI IO Products’ı satın aldı: OpenAI’nin, Apple’ın eski baş tasarımcısı Jony Ive tarafından kurulan donanım girişimi IO Products’ı yaklaşık 6.5 milyar dolara satın alması, stratejik odağının bulut tabanlı modellerden fiziksel donanıma kayabileceğine işaret ediyor. Bu hamle, AI uygulamalarının dağıtım sorununu çözmeyi, “AI yerel giriş cihazları” oluşturmayı ve AI’ı “aktif çağrı”dan “pasif eşlik”e dönüştürmeyi amaçlıyor. Uçbirim AI donanımı, algoritmalarla insanlar, modellerle ekosistemler arasında bağlantı kuran yeni bir savaş alanı olarak görülüyor; gelecekteki şekli, ekransız, çevresel algılama ve sesli etkileşim yeteneklerine sahip, “Her” filmindeki AI arkadaşı gibi “bedenlenmiş agent’lar” olabilir. (Kaynak: 36氪)

Yeniden tanımlanan "terminal": Uçbirim AI donanımı neden büyük modellerden sonraki ikinci savaş alanı?

Tencent’in AI stratejisi hızlanıyor, Yuanbao WeChat’e entegre ediliyor, reklam ve oyun işleri fayda sağlıyor: Tencent, AI alanında “sonradan gelen avantajı” stratejisini benimsiyor, sermaye harcamalarını artırıyor ve DeepSeek gibi model yeteneklerini tüm ürünlerine entegre ediyor. AI, Tencent’in reklam işine şimdiden önemli katkılarda bulundu; Q1 reklam gelirleri %20 arttı ve tıklama oranları önemli ölçüde yükseldi. AI asistanı “Yuanbao”, DeepSeek’e entegre edildikten sonra hızla kullanıcı kazandı ve WeChat ekosistemine dahil edildi; bu, Tencent’in AI Agent çağında süper bir giriş noktası oluşturma yolunda attığı önemli bir adım olarak görülüyor. Tencent, AI Agent’larının WeChat ekosisteminin sosyal, içerik ve mini program kaynaklarıyla birleşerek farklılaşmış bir avantaj oluşturması gerektiğini vurguluyor. (Kaynak: 36氪)

Tencent'in AI atılım savaşı: Yuanbao'nun WeChat'e entegrasyonu sadece küçük bir başlangıç

Google AI, arama işini yeniden şekillendiriyor, iş modeli zorluklarına yol açıyor: Google, AI Overviews ve AI Mode gibi özelliklerle temel arama işini derinden dönüştürüyor. AI Overviews, arama sonuçlarını özet biçiminde gösterirken, AI Mode üretken yanıtlar sunuyor; her ikisi de kullanıcıların harici bağlantılara tıklama ihtiyacını azaltarak aramayı “bilgi giriş kapısı”ndan “bilgi son noktası”na dönüştürebilir. Bu durum, reklam tıklamalarına dayanan geleneksel iş modeline bir meydan okuma oluşturuyor ve kullanıcıların bilgi edinme şeklini ve açık web sitelerinin trafik ekosistemini değiştirebilir. (Kaynak: 36氪)

Google Arama: AI'a sunulan ilk "kurban" mı?

AI’ın bilgi bankası uygulamalarındaki potansiyeli ve zorlukları: Büyük şirketler, kurumsal “bilgi birikimi” sorununu çözmek ve bilgi teknolojileri dönüşümünü gerçekleştirmek amacıyla AI bilgi bankalarına yatırım yapıyor. AI, verileri verimli bir şekilde entegre edebilir, dinamik kullanıcı profilleri oluşturabilir, ürün geliştirme ve ticari kararlara yardımcı olabilir. Ancak, geçmiş verilere ve AI tarafından üretilen “en iyi çözümlere” aşırı bağımlılık, inovasyonu ve dış değişiklikleri göz ardı ederek “AI tarzı sıradanlığa” yol açabilir. Bilgi bankası içeriğinin bakımı, yönetimi ve “herkese farklı” kişiselleştirilmiş hizmetlerin neden olabileceği “veri uçurumu” da zorluklar arasında yer alıyor. AI’ın bilgi bankalarındaki uygulamalarında, içerik entropisinin artması ve kurumsal bilişsel bölünme risklerine karşı dikkatli olunması gerekiyor. (Kaynak: 36氪)

NVIDIA, AI hava durumu simülasyon aracı WeatherWeaver ve DiffusionRenderer’ı tanıttı: NVIDIA Research, WeatherWeaver ve DiffusionRenderer adlı iki yeni teknolojiyi duyurdu. WeatherWeaver, son derece gerçekçi hava efekti grafikleri üretebilirken, DiffusionRenderer renderlamaya odaklanıyor. Bu AI araçları, NVIDIA’nın bilgisayar grafikleri ve fiziksel simülasyon alanlarındaki en son ilerlemelerini sergiliyor ve oyun, film özel efektleri, meteorolojik simülasyon gibi birçok alanda uygulanarak görsel efektlerin gerçekçiliğini ve detay表現力sini önemli ölçüde artırma potansiyeli taşıyor. (Kaynak: )

NVIDIA’s New AI: Impossible Weather Graphics!

Avrupa Komisyonu, “AI Yasası”nın yürürlüğe girmesini askıya almayı ve basitleştirilmiş bir revizyon yapmayı değerlendiriyor: Haberlere göre, Avrupa Komisyonu “AI Yasası”nın yürürlüğe girmesini askıya almayı ve bu yılın sonlarında kapsamlı bir paket aracılığıyla hedefli bir “basitleştirme” revizyonu yapmayı planlıyor. Bu gelişme, hızla gelişen AI alanında düzenleyici kurumların inovasyon ile risk arasında denge kurma, düzenlemelerin pratikliğini ve uyarlanabilirliğini sağlama konusunda karşılaştığı zorlukları yansıtabilir. Daha önce, “AI Yasası”nın LLM düzenlemesini kapsamlı bir şekilde ele almak yerine makine öğrenimi ve hassas vakalara daha fazla odaklanması gerektiği yönünde görüşler vardı. (Kaynak: Dorialexander)

🧰 Araçlar

LlamaIndex, OpenAI Responses API’nin yeni özelliklerini destekliyor: LlamaIndex, OpenAI Responses API’nin herhangi bir uzak MCP sunucusunu çağırma, yerleşik araçlarla kod yorumlayıcısını kullanma ve akışlı görüntü oluşturmayı destekleme gibi birçok yeni özelliğini desteklediğini duyurdu. Bu güncellemeler, LlamaIndex’in karmaşık AI uygulamaları oluştururken esnekliğini ve işlevselliğini artırarak OpenAI’nin en son yeteneklerinden daha iyi yararlanmasını sağlıyor. (Kaynak: jerryjliu0)

LlamaIndex, OpenAI Responses API'nin yeni özelliklerini destekliyor

Microsoft, açık kaynak AI veri görselleştirme aracı data-formulator’u yayınladı: Microsoft, GitHub’da 11.7K yıldıza ulaşan data-formulator adlı açık kaynak bir AI veri görselleştirme aracı tanıttı. Araç, Apache SuperSet’e benziyor ve çeşitli veri kaynaklarına (RDBMS, API gibi) bağlanarak verileri bir araya getirip görselleştirebiliyor. Temel özelliği, AI destekli işlevler sunması; kullanıcılar doğal dil kullanarak SQL benzeri sorgular yazabiliyor, bu da sıfırdan grafik oluşturma sürecini basitleştiriyor. (Kaynak: karminski3)

Onit: Herhangi bir pencereye AI kenar çubuğu ekleyen Mac aracı: Onit, macOS’taki herhangi bir uygulama penceresine Cursor Chat benzeri bir AI kenar çubuğu sağlayan yeni bir açık kaynak projesidir. Proje Swift ile yazılmıştır ve kullanıcılara çeşitli uygulamalarda AI işlevlerini kolayca kullanmaları için yeni olanaklar sunmaktadır. (Kaynak: karminski3)

Go dilinde yazılmış yerel dosya sistemi MCP sunucusu mcp-filesystem-server: mcp-filesystem-server, Go dilinde yazılmış bir MCP (Model Context Protocol) sunucusudur ve AI modellerinin yerel dosya sistemiyle etkileşim kurmasına olanak tanır. Go dilinin platformlar arası derleme yeteneği sayesinde, sunucunun teorik olarak çeşitli işletim sistemlerinde çalışabilmesi, AI agent’larının yerel dosyalarla etkileşimini kolaylaştırır. (Kaynak: karminski3)

Go dilinde yazılmış yerel dosya sistemi MCP sunucusu mcp-filesystem-server

Hugging Face, yerel modellerin MCP sunucularıyla etkileşimini destekleyen Tiny Agents’ı tanıttı: Hugging Face’ten Vaibhav Srivastav, herhangi bir Hugging Face Space’in MCP sunucusu olarak nasıl kullanılabileceğini ve yerel olarak çalışan modellerle (Qwen 3 30B A3B ve llama.cpp gibi) Tiny Agents aracılığıyla nasıl etkileşim kurulabileceğini gösterdi; örneğin FLUX aracılığıyla görüntü oluşturma. Bu, yerel modellerin MCP ile birleşerek karmaşık görevleri otomatikleştirmesinin potansiyelini gösteriyor ve TypeScript ile Python istemcileri sunuyor. (Kaynak: huggingface, reach_vb)

llama.cpp, akışlı araç çağrısı ve düşünme süreci desteğini birleştirdi: Olivier Chafik, llama.cpp’nin araç çağrısı ve “düşünme” süreci için akışlı desteği (PR #12379) birleştirdiğini duyurdu. Bu güncelleme, llama.cpp’nin yerel olarak LLM çalıştırırken agent yeteneklerini ve etkileşimini artırarak modelin üretim sürecinde dinamik olarak araçları çağırmasına ve çıkarım adımlarını göstermesine olanak tanıyor. (Kaynak: ggerganov)

Qwen 3 30B A3B, MCP/araç çağrısı konusunda başarılı performans sergiliyor: Hugging Face’ten VB Srivastav, Qwen 3 30B A3B modelinin MCP (Model Context Protocol) ve araç çağrısı konularında mükemmel performans gösterdiğini, hızlı ve etkili olduğunu vurguladı. Geliştiricileri MCP’yi denemeye teşvik etti ve modelin “no_think” modunda bile iyi çalıştığını, ancak düşünme modunda biraz “geveze” olabileceğini belirtti. (Kaynak: reach_vb)

Youware, MCP desteğiyle yüksek kaliteli web sayfaları üretiyor: Youware, MCP (Model Context Protocol) kullanarak web sayfası oluşturma yeteneğini nasıl geliştirdiğini gösterdi. Oluşturulan web sayfaları, orijinal metin ve düzeni korumakla kalmıyor, aynı zamanda stil detayları, düzen optimizasyonu, animasyon ekleme, SVG süslemeleri ve görüntü netliği gibi konularda önemli gelişmeler göstererek genel inceliği büyük ölçüde artırıyor. Materyal kaynakları arasında FLUX tarafından oluşturulan görüntüler ve Unsplash’tan alınan görüntüler bulunuyor, turistik yer bilgileri ise Google Maps’ten geliyor. (Kaynak: op7418)

Chrome DevTools, Gemini akıllı etiketleme performans analizi sonuçlarını entegre etti: Chrome Geliştirici Araçları, kullanıcıların performans izleme (performance trace) sonuçlarını anlamak için Gemini akıllı asistanını kullanmalarına olanak tanıyan yeni bir özellik sundu. Gemini, performans kayıtlarındaki olayları otomatik olarak analiz edebilir ve yığın izleri ile bağlamı birleştirerek anlaşılması kolay açıklama etiketleri oluşturabilir; bu da geliştirme ve performans optimizasyon verimliliğini artırmayı amaçlar. (Kaynak: dotey)

AgenticSeek: Yerel olarak çalışan Manus AI alternatifi: AgenticSeek, Manus AI’ın yerel olarak çalışan bir alternatifi olarak bahsedilen bir AI agent’ıdır. Kullanıcının yerel donanımında çalışacak şekilde tasarlanmıştır, web’de otonom olarak gezinebilir, kod yazabilir ve görevleri planlayabilir; tüm veriler kullanıcının cihazında kalarak gizlilik ve yerel işlemeyi vurgular. (Kaynak: omarsar0)

AgenticSeek: Yerel olarak çalışan Manus AI alternatifi

LMCache: Uzun bağlam senaryoları için optimize edilmiş LLM hizmet motoru: LMCache, özellikle uzun bağlam senaryolarını işlerken ilk token süresini (TTFT) azaltmayı ve iş hacmini artırmayı amaçlayan bir LLM hizmet motoru uzantısıdır. Proje, LLM’lerin pratik uygulamalarda hizmet verimliliğini ve performansını artırmaya odaklanmaktadır. (Kaynak: dl_weekly)

NousResearch, Meta’nın SWE-RL ortamını Atropos’a entegre etti: Meta’nın SWE-RL (Software Engineering Reinforcement Learning) ortamı, NousResearch’ün Atropos projesine entegre edildi. SWE-RL, pekiştirmeli öğrenme yoluyla modelleri daha iyi kodlama agent’ları olarak eğitmeyi amaçlayan karmaşık bir ortamdır ve entegrasyonunun Atropos’un kod üretimi ve yazılım mühendisliği görevlerindeki yeteneklerini artırması beklenmektedir. (Kaynak: Teknium1)

NousResearch, Meta'nın SWE-RL ortamını Atropos'a entegre etti

📚 Öğrenme

LangChainAI, PhiloAgents’ı tanıttı: Filozofları simüle eden AI agent’ları oluşturma: LangChainAI, LangGraph kullanarak filozofların diyaloglarını simüle edebilen AI agent’ları oluşturan PhiloAgents adlı açık kaynak bir proje paylaştı. Proje, RAG (Retrieval Augmented Generation) uygulamasını, gerçek zamanlı diyalog işlevini kapsıyor ve FastAPI ile MongoDB kullanan sistem mimarisini gösteriyor. Bu, AI agent’ı oluşturmayı öğrenmek ve uygulamak için ilginç bir örnek. (Kaynak: LangChainAI)

LangChainAI, PhiloAgents'ı tanıttı: Filozofları simüle eden AI agent'ları oluşturma

Hugging Face pekiştirmeli öğrenme kursu övgü topluyor: Pramod Goyal, sosyal medyada Hugging Face’in pekiştirmeli öğrenme (RL) kursunu son derece kaliteli bularak övdü. Özellikle RLHF (Reinforcement Learning from Human Feedback) sürecini anlama ve basitleştirme konusunda kursun büyük yardım sağladığını belirtti, RLHF’nin kendisi karmaşık bir kavram olmasına rağmen. (Kaynak: huggingface)

Hugging Face pekiştirmeli öğrenme kursu övgü topluyor

Hugging Face, model çıkarım yeteneğini artıran Mixture-of-Thoughts veri kümesini yayınladı: Hugging Face’ten Lewis Tunstall, 1 milyondan fazla halka açık veri örneğinden süzülerek yaklaşık 350 bin örneğe indirgenmiş, özenle seçilmiş genel amaçlı bir çıkarım veri kümesi olan Mixture-of-Thoughts’u paylaştı. Bu karma veri kümesiyle eğitilen modeller, matematik, kod ve bilimsel benchmark’larda (GPQA gibi) DeepSeek’in damıtılmış modellerine ulaştı, hatta onları geçti. Bu çalışma, Phi-4-reasoning’de önerilen “toplamsal” metodolojinin etkinliğini doğruladı; yani, her bir çıkarım alanının veri karışımı bağımsız olarak optimize edilebilir ve ardından son eğitim için entegre edilebilir. (Kaynak: ClementDelangue, LoubnaBenAllal1)

Hugging Face, model çıkarım yeteneğini artıran Mixture-of-Thoughts veri kümesini yayınladı

Qdrant, miniCOIL v1’i yayınladı: Kelime düzeyinde bağlamsal 4D seyrek gömme: Qdrant, Hugging Face’te kelime düzeyinde, bağlam duyarlı bir 4D seyrek gömme yöntemi olan ve otomatik BM25 geri dönüş mekanizmasına sahip miniCOIL v1’i yayınladı. Bu teknoloji, vektör alımının doğruluğunu ve verimliliğini artırmayı amaçlamaktadır. (Kaynak: huggingface)

Qdrant, miniCOIL v1'i yayınladı: Kelime düzeyinde bağlamsal 4D seyrek gömme

Shanghai AI Lab, yeni nesil InternThinker’ı yayınladı, Go düşüncesinin “kara kutusunu” kırdı: Shanghai AI Lab, yeni nesil InternThinker’ı (书生·思客) tanıttı. Bu model, oluşturduğu “hızlandırılmış eğitim kampı” (InternBootcamp) ve temel teknolojik atılımlara dayanarak, yalnızca profesyonel düzeyde Go oynama yeteneğine sahip olmakla kalmıyor, aynı zamanda oyun sürecini ve düşünce zincirini doğal dilde açıklayabiliyor; örneğin Lee Sedol’un “Tanrı’nın Hamlesi”ni yorumlayıp karşı stratejiler sunabiliyor. InternThinker, çeşitli karmaşık mantıksal çıkarım görevlerinde de başarılı performans sergileyerek ortalama yeteneğiyle o3-mini, DeepSeek-R1 gibi modelleri geride bırakıyor. (Kaynak: 量子位)

Büyük model ilk kez Go düşüncesinin "kara kutusunu" kırdı, bilimsel keşif için yeni bir yol açtı! Shanghai AI Lab yeni nesil InternThinker'ı yayınladı

Microsoft Research Asia’dan Zhang Li’nin ekibi, Monte Carlo aramasıyla küçük modellerin çıkarım yeteneğini artırdı: Microsoft Research Asia Baş Araştırmacısı Zhang Li ve ekibi, rStar-Math projesi aracılığıyla Monte Carlo arama algoritmasını kullanarak 7B parametreli küçük bir modelin matematiksel çıkarım görevlerinde OpenAI o1’e yakın bir seviyeye ulaşmasını sağladı. Bu araştırma, 2023’te büyük modellerin derin çıkarımını keşfetmeye başlamış ve bilişsel bilimlerdeki “System2” kavramını büyük model alanına dahil etmişti. Araştırma, modelin “self-reflection” yeteneği ortaya çıkarabildiğini buldu ve süreç ödül modelinin karmaşık mantıksal çıkarımı (matematiksel kanıtlar gibi) geliştirmedeki önemini vurguladı. (Kaynak: 量子位)

"System2"yi büyük modele nasıl getirdi | Microsoft Research Asia'dan Zhang Li ile söyleşi

Makale, değer güdümlü aramanın düşünce zinciri çıkarım verimliliğini artırdığını tartışıyor: Yeni bir makale olan “Value-Guided Search for Efficient Chain-of-Thought Reasoning”, uzun bağlamlı çıkarım yörüngelerinde değer modellerini eğitmek için basit ve verimli bir yöntem öneriyor. Bu yöntem, 2.5 milyon çıkarım yörüngesi toplayarak 1.5B token düzeyinde bir değer modeli eğitti ve bunu DeepSeek modeline uyguladı; bloklu değer güdümlü arama (VGS) ve son ağırlıklı çoğunluk oylaması yoluyla, test zamanı hesaplama genişlemesi açısından standart yöntemlerden (çoğunluk oylaması veya en iyi-n gibi) daha iyi performans elde etti. (Kaynak: HuggingFace Daily Papers)

Makale, FuxiMT’yi öneriyor: Seyreltilmiş büyük dil modelleriyle Çince merkezli çok dilli makine çevirisini güçlendirme: FuxiMT, seyreltilmiş büyük dil modelleri tarafından yönlendirilen, Çince merkezli yeni bir çok dilli makine çevirisi modeli öneren yeni bir araştırmadır. Araştırma, FuxiMT’yi eğitmek için iki aşamalı bir strateji benimser; önce devasa Çince metin veri kümelerinde ön eğitim yapar, ardından 65 dil içeren büyük bir paralel veri kümesinde çok dilli ince ayar yapar. FuxiMT, uzmanlar karışımı (MoEs) modelini entegre eder ve müfredat öğrenme stratejisi kullanır; deney sonuçları, çeşitli kaynak seviyelerinde güçlü temel modellerden önemli ölçüde daha iyi performans gösterdiğini, özellikle düşük kaynaklı senaryolarda ve görülmemiş dil çiftlerinin sıfır atışlı çevirisinde öne çıktığını göstermektedir. (Kaynak: HuggingFace Daily Papers)

Makale, RankNovo’yu öneriyor: De novo peptit dizilimi analiz performansını artıran evrensel biyo-dizi yeniden sıralama çerçevesi: De novo peptit dizilimi analizi, proteomikte kritik bir görevdir. RankNovo, birden fazla dizi modelinin tamamlayıcı avantajlarından yararlanarak de novo peptit dizilimi analizini geliştiren yeni bir derin yeniden sıralama çerçevesidir. Bu yöntem, liste tabanlı yeniden sıralamayı benimser, aday peptitleri çoklu dizi hizalaması olarak modeller ve aday peptitler arasındaki faydalı özellikleri çıkarmak için eksenel dikkat kullanır. Ayrıca, araştırma, dizi ve kalıntı düzeyinde peptitler arasındaki kalite farklılıklarını ölçerek hassas denetim sağlayan PMD ve RMD adlı iki yeni metrik sunmaktadır. Deneyler, RankNovo’nun yalnızca eğitim adaylarını oluşturmak için kullanılan temel modelleri aşmakla kalmayıp, aynı zamanda SOTA benchmark’larını yenilediğini ve eğitimde görülmemiş modellere karşı güçlü sıfır atışlı genelleme yeteneği sergilediğini göstermektedir. (Kaynak: HuggingFace Daily Papers)

Makale, NileChat’i öneriyor: Yerel topluluklara yönelik dil çeşitliliği ve kültürel duyarlılığa sahip LLM: LLM’lerin düşük kaynaklı dillerde ve kültürel uyarlanabilirlikteki eksikliklerini gidermek için NileChat araştırması, belirli topluluklara (dil, kültürel miras, değerler) yönelik sentetik ve alım tabanlı ön eğitim verileri oluşturmak için bir metodoloji önermektedir. Mısır ve Fas lehçelerini deneme platformu olarak kullanarak 3B parametreli NileChat modeli geliştirilmiştir. Sonuçlar, NileChat’in anlama, çeviri ve kültürel değerlere uyum konularında mevcut Arapça LLM’lerden eşit ölçekte daha iyi performans gösterdiğini ve daha büyük modellerle karşılaştırılabilir olduğunu göstermektedir; bu da LLM gelişiminde daha çeşitli toplulukların dahil edilmesini teşvik etmeyi amaçlamaktadır. (Kaynak: HuggingFace Daily Papers)

Makale, PathFinder-PRM’yi öneriyor: Hata duyarlı hiyerarşik denetimle süreç ödül modellerini iyileştirme: LLM’lerin matematik gibi karmaşık çıkarım görevlerindeki halüsinasyon sorununu çözmek için PathFinder-PRM, yeni bir hiyerarşik, hata duyarlı ayırt edici süreç ödül modeli (PRM) önermektedir. Bu model, önce her adımdaki matematiksel ve tutarlılık hatalarını sınıflandırır, ardından bu ince taneli sinyalleri birleştirerek adımın doğruluğunu tahmin eder. PRM800K veri kümesi ve RLHFlow Mistral yörüngeleri temelinde oluşturulan 400 bin örnekli bir veri kümesinde eğitilerek, PathFinder-PRM, PRMBench’te 67.7 ile SOTA PRMScore elde etti ve ödül güdümlü açgözlü aramada prm@8’i 1.5 puan artırdı; bu da matematiksel çıkarım yeteneğini ve veri verimliliğini artırmadaki avantajlarını göstermektedir. (Kaynak: HuggingFace Daily Papers)

Makale, Vibe Coding ve Agentic Coding’i tartışıyor: AI destekli yazılım geliştirmenin temelleri ve uygulamaları: “Vibe Coding vs. Agentic Coding” adlı bir derleme makalesi, AI destekli yazılım geliştirmede ortaya çıkan iki yeni paradigma olan vibe coding ve agentic coding’i kapsamlı bir şekilde analiz etmektedir. Vibe coding, istem tabanlı diyalogsal iş akışları aracılığıyla insan-makine işbirliğinin sezgisel etkileşimini vurgular, yaratıcı fikir üretmeyi ve denemeyi destekler; agentic coding ise hedef odaklı agent’lar aracılığıyla otonom yazılım geliştirmeyi mümkün kılar, görevleri planlayabilir, yürütebilir, test edebilir ve yineleyebilir. Makale, ayrıntılı bir sınıflandırma sunar ve prototipleme, kurumsal düzeyde otomasyon gibi farklı senaryolarda ikisinin uygulamalarını kullanım örnekleriyle karşılaştırır, hibrit mimarilerin ve agent AI’ın gelecekteki yol haritasını öngörür. (Kaynak: HuggingFace Daily Papers)

Makale G1: Pekiştirmeli öğrenme yoluyla görsel dil modellerinin algı ve çıkarım yeteneklerini yönlendirme: Görsel dil modellerinin (VLM) oyun gibi etkileşimli görsel ortamlarda karar verme yeteneğindeki “bilme-yapma farkı” sorununu çözmek için araştırmacılar, ölçeklenebilir çoklu oyun paralel eğitimi için özel olarak tasarlanmış bir pekiştirmeli öğrenme (RL) ortamı olan VLM-Gym’i tanıttı. Buna dayanarak, G0 modelini (tamamen RL güdümlü kendi kendine evrim) ve G1 modelini (algı artırılmış soğuk başlatma sonrası RL ince ayarı) eğittiler. G1 modeli, tüm oyunlarda “öğretmen” modelini aştı ve Claude-3.7-Sonnet-Thinking gibi önde gelen tescilli modellerden daha iyi performans gösterdi. Araştırma, RL eğitim sürecinde algı ve çıkarım yeteneklerinin birbirini desteklediği olgusunu ortaya koydu. (Kaynak: HuggingFace Daily Papers)

Makale, optimizasyon perspektifinden yörünge destekli LLM çıkarımını deşifre ediyor: Yeni bir makale olan “Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective”, LLM çıkarım yeteneğini anlamak için meta-öğrenme perspektifinden yeni bir çerçeve öneriyor. Bu araştırma, çıkarım yörüngelerini LLM parametrelerine yönelik sahte gradyan iniş güncellemeleri olarak kavramsallaştırıyor ve LLM çıkarımı ile çeşitli meta-öğrenme paradigmaları arasındaki benzerlikleri tanımlıyor. Çıkarım görevlerinin eğitim sürecini bir meta-öğrenme ayarı (her soru bir görev, çıkarım yörüngesi iç döngü optimizasyonu) olarak biçimlendirerek, LLM eğitimden sonra görülmemiş sorunlara genelleştirilebilen temel çıkarım yetenekleri geliştirebilir. (Kaynak: HuggingFace Daily Papers)

Makale DoctorAgent-RL: Çok turlu klinik diyaloglar için çoklu agent işbirliğine dayalı pekiştirmeli öğrenme sistemi: Büyük dil modellerinin (LLM) gerçek klinik danışmanlıklarda karşılaştığı tek turlu bilgi aktarımının yetersizliği ve statik veri odaklı paradigmaların sınırlılıkları gibi zorluklara yönelik olarak DoctorAgent-RL, pekiştirmeli öğrenmeye (RL) dayalı çoklu agent işbirliği çerçevesi önermektedir. Bu çerçeve, tıbbi danışmanlığı belirsizlik altında dinamik bir karar verme süreci olarak modeller; doktor agent’ı, hasta agent’ıyla çok turlu etkileşimler yoluyla RL çerçevesi içinde soru sorma stratejisini sürekli olarak optimize eder ve danışmanlık değerlendiricisinin kapsamlı ödülüne göre bilgi toplama yolunu dinamik olarak ayarlar. Araştırma ayrıca, hasta etkileşimlerini simüle edebilen ilk İngilizce çok turlu tıbbi danışmanlık veri kümesi MTMedDialog’u oluşturmuştur. Deneyler, DoctorAgent-RL’nin çok turlu çıkarım yeteneği ve nihai teşhis performansı açısından mevcut modellerden daha üstün olduğunu göstermektedir. (Kaynak: HuggingFace Daily Papers)

Makale ReasonMap: MLLM’lerin trafik haritalarında ince taneli görsel çıkarım yeteneğini değerlendirme benchmark’ı: Çok modlu büyük dil modellerinin (MLLM) ince taneli görsel anlama ve mekansal çıkarım yeteneklerini değerlendirmek için araştırmacılar ReasonMap benchmark’ını tanıttı. Bu benchmark, 13 ülkeden 30 şehrin yüksek çözünürlüklü trafik haritalarını ve iki soru türü ile üç şablonu kapsayan 1008 soru-cevap çiftini içerir. Temel sürüm ve çıkarım sürümü dahil olmak üzere 15 popüler MLLM üzerinde yapılan kapsamlı bir değerlendirme, açık kaynak modellerde temel sürümün daha iyi performans gösterdiğini, kapalı kaynak modellerde ise durumun tersi olduğunu ortaya koydu. Ayrıca, görsel girdi engellendiğinde model performansı genel olarak düştü, bu da ince taneli görsel çıkarımın hala gerçek görsel algı gerektirdiğini gösteriyor. (Kaynak: HuggingFace Daily Papers)

Makale B-score: Yanıt geçmişini kullanarak büyük dil modellerindeki önyargıları tespit etme: Araştırmacılar, büyük dil modellerindeki (LLM) kadınlara yönelik önyargı veya 7 rakamına yönelik tercih gibi önyargıları tespit etmek için B-score adlı yeni bir metrik önerdiler. Araştırma, LLM’lerin aynı soruya verdikleri önceki yanıtları çok turlu diyaloglarda gözlemlemelerine izin verildiğinde, özellikle rastgele, önyargısız yanıtlar arayan sorularda daha az önyargılı yanıtlar verebildiklerini buldu. B-score, MMLU, HLE ve CSQA gibi benchmark’larda, yalnızca sözlü güven puanlarını veya tek turlu yanıt frekanslarını kullanmaya kıyasla LLM yanıtlarının doğruluğunu daha etkili bir şekilde doğrulayabiliyor. (Kaynak: HuggingFace Daily Papers)

Makale, pekiştirmeli ince ayarın çok modlu büyük dil modellerinin çıkarım yeteneği üzerindeki itici gücünü tartışıyor: “Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models” başlıklı bir pozisyon makalesi, pekiştirmeli ince ayarın (RFT) çok modlu büyük dil modellerinin (MLLM) çıkarım yeteneğini artırmak için kritik öneme sahip olduğunu savunuyor. Makale, alanın temellerini özetliyor ve RFT’nin MLLM çıkarım yeteneğindeki iyileştirmelerini beş temel noktada topluyor: çeşitlendirilmiş modaliteler, çeşitlendirilmiş görevler ve alanlar, daha iyi eğitim algoritmaları, zengin benchmark’lar ve gelişen mühendislik çerçeveleri. Son olarak, makale gelecekteki beş araştırma yönünü öneriyor. (Kaynak: HuggingFace Daily Papers)

Makale, büyük ölçekli konuşma geri çevirisi yoluyla ASR verilerini genişletiyor: Yeni bir araştırma olan “From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition”, çok dilli otomatik konuşma tanıma (ASR) modellerini geliştirmek için hazır metinden konuşmaya (TTS) modelleri aracılığıyla büyük ölçekli metin veri kümelerini sentetik konuşmaya dönüştüren ölçeklenebilir bir konuşma geri çevirisi (Speech Back-Translation) sürecini tanıtıyor. Araştırma, yalnızca onlarca saatlik gerçek transkripsiyonlu konuşmanın, orijinal ses hacminin yüzlerce katı kaliteli sentetik konuşma üretmek için TTS modellerini eğitmeye yeterli olduğunu gösteriyor. Bu yöntemle on dilde 500 bin saatten fazla sentetik konuşma üretildi ve Whisper-large-v3’ün ön eğitimine devam edilerek ortalama transkripsiyon hata oranı %30’dan fazla düşürüldü. (Kaynak: HuggingFace Daily Papers)

Makale, SAE’lerde mekanik yorumlanabilirlik araştırmalarını teşvik etmek için özellik tutarlılığına öncelik verilmesini savunuyor: “Position: Mechanistic Interpretability Should Prioritize Feature Consistency in SAEs” başlıklı bir pozisyon makalesi, seyrek otomatik kodlayıcıların (SAE) mekanik yorumlanabilirlikte (MI) sinir ağı aktivasyonlarını yorumlanabilir özelliklere ayırmak için önemli bir araç olduğunu, ancak farklı eğitim çalışmalarında öğrenilen SAE özelliklerinin tutarsızlığının MI araştırmalarının güvenilirliğini zorladığını belirtiyor. Makale, MI’nin SAE’lerde özellik tutarlılığına öncelik vermesi gerektiğini savunuyor ve pratik bir metrik olarak eşli sözlük ortalama korelasyon katsayısını (PW-MCC) öneriyor. Araştırma, uygun mimari seçimiyle yüksek PW-MCC’ye (örneğin LLM aktivasyonları için TopK SAE’ler 0.80’e ulaşır) ulaşılabileceğini ve yüksek özellik tutarlılığının öğrenilen özellik yorumlarının anlamsal benzerliğiyle güçlü bir şekilde ilişkili olduğunu gösteriyor. (Kaynak: HuggingFace Daily Papers)

Makale, ayrık Markov köprüsünü öneriyor: Ayrık temsil öğrenimi için yeni bir çerçeve: Mevcut ayrık difüzyon modellerinin eğitimde sabit oranlı geçiş matrislerine bağımlılığının sınırlamalarını gidermek için yeni bir araştırma olan “Discrete Markov Bridge”, ayrık temsil öğrenimi için özel olarak tasarlanmış yeni bir çerçeve öneriyor. Bu yöntem, matris öğrenimi ve puan öğrenimi olmak üzere iki temel bileşene dayanır ve matris öğreniminin performans garantisi ve genel çerçevenin yakınsama kanıtı da dahil olmak üzere sıkı bir teorik analiz yapar. Araştırma ayrıca yöntemin uzay karmaşıklığını da analiz eder. Text8 veri kümesindeki deneysel değerlendirme, ayrık Markov köprüsünün kanıt alt sınırının (ELBO) 1.38’e ulaştığını, mevcut temel çizgilerden daha iyi performans gösterdiğini ve CIFAR-10 veri kümesinde görüntüye özgü üretim yöntemleriyle karşılaştırılabilir rekabetçilik sergilediğini gösteriyor. (Kaynak: HuggingFace Daily Papers)

Makale ScaleKV: Ölçek duyarlı KV önbellek sıkıştırması yoluyla verimli görsel otoregresif modelleme: Görsel otoregresif (VAR) modeller, verimlilik, ölçeklenebilirlik ve sıfır atışlı genelleme konularında yenilikçi sonraki ölçek tahmin yöntemleriyle dikkat çekmektedir, ancak kabadan inceye yaklaşımları, çıkarım sürecinde KV önbelleğinin katlanarak artmasına neden olarak büyük miktarda bellek tüketimi ve hesaplama fazlalığına yol açmaktadır. Bu sorunu çözmek için, farklı Transformer katmanlarının farklı önbellek gereksinimlerine ve farklı ölçeklerdeki dikkat desenlerinin farklılığına ilişkin gözlemlerden yararlanan ScaleKV çerçevesi önerilmiştir. Transformer katmanlarını “taslakçılar” (drafters) ve “rafine ediciler” (refiners) olarak ayırır ve buna göre çok ölçekli çıkarım sürecini optimize ederek farklılaştırılmış önbellek yönetimi sağlar. SOTA metinden görüntüye VAR modeli Infinity üzerindeki değerlendirme, yöntemin gerekli KV önbellek belleğini %10’a kadar etkili bir şekilde düşürürken piksel düzeyinde doğruluğu koruduğunu göstermektedir. (Kaynak: HuggingFace Daily Papers)

Makale Intuitor: Harici ödül olmadan çıkarım öğrenme: Büyük dil modellerinin (LLM) doğrulanabilir ödüllü pekiştirmeli öğrenme (RLVR) yoluyla karmaşık çıkarım eğitimi sırasında pahalı, alana özgü denetime bağımlılığını gidermek için araştırmacılar, içsel geri bildirimli pekiştirmeli öğrenmeye (RLIF) dayanan bir yöntem olan Intuitor’u önerdiler. Intuitor, modelin kendi güvenini (öz-belirleyicilik) tek ödül sinyali olarak kullanarak GRPO’daki harici ödülün yerini alır ve tamamen denetimsiz öğrenmeyi mümkün kılar. Deneyler, Intuitor’un matematik benchmark’larında GRPO ile karşılaştırılabilir performans elde ettiğini ve kod üretimi gibi alan dışı görevlerde altın çözümlere veya test senaryolarına ihtiyaç duymadan daha iyi genelleme sağladığını göstermektedir. (Kaynak: HuggingFace Daily Papers)

Makale WINA: Ağırlık duyarlı nöron aktivasyonu ile LLM çıkarımını hızlandırma: LLM’lerin artan hesaplama taleplerine yanıt olarak WINA (Weight Informed Neuron Activation) önerilmiştir. Bu, gizli durumların büyüklüğünü ve ağırlık matrisinin sütun bazlı ℓ2 normunu aynı anda dikkate alan yeni, basit ve eğitim gerektirmeyen bir seyrek aktivasyon çerçevesidir. Araştırma, bu seyreltme stratejisinin en iyi yaklaşık hata sınırını elde edebildiğini ve teorik garantisinin mevcut teknolojilerden daha iyi olduğunu göstermektedir. Deneyimsel olarak, WINA aynı seyreklik seviyesinde, çeşitli LLM mimarileri ve veri kümelerinde ortalama performansı SOTA yöntemlerinden (TEAL gibi) %2.94 daha yüksektir. (Kaynak: HuggingFace Daily Papers)

Makale MOOSE-Chem2: Hiyerarşik arama yoluyla LLM’lerin ince taneli bilimsel hipotez keşfindeki sınırlarını keşfetme: Mevcut LLM’ler, otomatik bilimsel hipotez üretiminde temel olarak kaba taneli hipotezler üretmekte, kritik metodolojik ve deneysel ayrıntılardan yoksundur. MOOSE-Chem2 araştırması, kaba başlangıç araştırma yönlerinden ayrıntılı, deneysel olarak uygulanabilir hipotezler üretme olan ince taneli bilimsel hipotez keşfinin yeni görevini tanıtır ve tanımlar. Araştırma, bunu bir kombinatoryal optimizasyon problemi olarak kurar ve ayrıntıları kademeli olarak hipoteze entegre eden hiyerarşik bir arama yöntemi önerir. Kimya literatüründen uzmanlar tarafından etiketlenmiş yeni bir ince taneli hipotez benchmark’ındaki değerlendirme, yöntemin güçlü temel çizgilerden tutarlı bir şekilde daha iyi performans gösterdiğini ortaya koymaktadır. (Kaynak: HuggingFace Daily Papers)

Makale Flex-Judge: Çıkarım güdümlü çok modlu hakem modeli: Yapay olarak üretilen ödül sinyallerinin maliyetinin yüksek olması ve mevcut LLM hakem modellerinin genelleme yeteneğinin yetersiz olması sorununu çözmek için Flex-Judge önerilmiştir. Bu, en az metin çıkarım verisiyle birden fazla modaliteye ve değerlendirme formatına sağlam bir şekilde genelleme yapabilen, çıkarım güdümlü çok modlu bir hakem modelidir. Temel fikir, yapılandırılmış metin çıkarım açıklamalarının kendilerinin genelleştirilebilir karar kalıplarını kodlamasıdır, bu da görüntü, video gibi çok modlu yargılara etkili bir şekilde aktarılmasını sağlar. Deney sonuçları, Flex-Judge’in önemli ölçüde azaltılmış eğitim verisiyle SOTA ticari API’ler ve yoğun bir şekilde eğitilmiş çok modlu değerlendiricilerle karşılaştırılabilir veya daha iyi performans gösterdiğini ortaya koymaktadır. (Kaynak: HuggingFace Daily Papers)

Makale CDAS: Yetenek-zorluk hizalaması perspektifinden LLM çıkarımını optimize etmek için pekiştirmeli öğrenme örneklemesi: Mevcut pekiştirmeli öğrenme yöntemleri, LLM çıkarım yeteneğini artırmada genelleme aşamasında örnek verimliliği düşüktür ve sorun zorluğuna dayalı zamanlama yöntemleri tahmin kararsızlığı ve önyargı sorunları yaşamaktadır. Bu sınırlamaları gidermek için Yetenek-Zorluk Hizalama Örneklemesi (CDAS) önerilmiştir. CDAS, sorunların geçmiş performans farklılıklarını bir araya getirerek sorun zorluğunu doğru ve istikrarlı bir şekilde tahmin eder, ardından model yeteneğini ölçerek modelin mevcut yeteneğiyle hizalanan zorluktaki sorunları uyarlanabilir bir şekilde seçer. Deneyler, CDAS’ın hem doğruluk hem de verimlilik açısından önemli gelişmeler kaydettiğini, ortalama doğruluğunun temel çizgilerden daha iyi olduğunu ve DAPO’daki dinamik örnekleme gibi rakip stratejilerden çok daha hızlı olduğunu göstermektedir. (Kaynak: HuggingFace Daily Papers)

Makale InfantAgent-Next: Otomatik bilgisayar etkileşimi için çok modlu evrensel agent: InfantAgent-Next, metin, görüntü, ses ve video gibi çeşitli modalitelerde bilgisayarla etkileşim kurabilen evrensel bir agent’tır. Mevcut yöntemlerden farklı olarak, bu agent, araç tabanlı agent’ları ve saf görsel agent’ları son derece modüler bir mimari içinde entegre ederek farklı modellerin ayrıştırılmış görevleri aşamalı olarak işbirliği içinde çözmesini sağlar. Evrenselliği, OSWorld gibi saf görsel gerçek dünya benchmark’larında ve GAIA ve SWE-Bench gibi daha genel veya araç yoğun benchmark’larda yapılan değerlendirmelerle kanıtlanmıştır; OSWorld’de %7.27 doğruluk oranına ulaşarak Claude-Computer-Use’dan daha yüksek performans göstermiştir. (Kaynak: HuggingFace Daily Papers)

Makale ARM: Uyarlanabilir Çıkarım Modeli: Büyük çıkarım modelleri karmaşık görevlerde güçlü performans sergiler, ancak görev zorluğuna göre çıkarım token kullanımını ayarlama yeteneğinden yoksundur, bu da “aşırı düşünmeye” yol açar. ARM (Adaptive Reasoning Model), eldeki göreve göre doğrudan yanıt, kısa CoT, kod ve uzun CoT dahil olmak üzere uygun çıkarım formatını uyarlanabilir bir şekilde seçebilen bir model olarak önerilmiştir. Geliştirilmiş bir GRPO algoritması (Ada-GRPO) ile eğitilen ARM, yüksek token verimliliği sağlar, ortalama %30 (en fazla %70) token azaltırken yalnızca uzun CoT’ye dayanan modellerle karşılaştırılabilir performansı korur ve eğitimi 2 kat hızlandırır. ARM ayrıca talimat güdümlü modu ve fikir birliği güdümlü modu da destekler. (Kaynak: HuggingFace Daily Papers)

Makale Omni-R1: Çift sistem işbirliğiyle tam modalite çıkarımı için pekiştirmeli öğrenme: Uzun süreli video ve ses çıkarımı ile ince taneli piksel anlamanın tam modalite modelleri için çelişkili gereksinimlerini (ilki çoklu kare düşük çözünürlük, ikincisi yüksek çözünürlüklü girdi gerektirir) çözmek için Omni-R1, çift sistemli bir mimari önermektedir: küresel çıkarım sistemi bilgi açısından zengin anahtar kareleri seçer ve görevi düşük uzamsal maliyetle yeniden yazar, ayrıntı anlama sistemi ise seçilen yüksek çözünürlüklü parçalarda piksel düzeyinde yerelleştirme gerçekleştirir. “En iyi” anahtar kare seçimi ve yeniden yapılandırmanın denetlenmesi zor olduğundan, araştırmacılar bunu bir pekiştirmeli öğrenme (RL) problemi olarak formüle etmiş ve GRPO’ya dayalı uçtan uca bir RL çerçevesi olan Omni-R1’i oluşturmuşlardır. Deneyler, Omni-R1’in yalnızca güçlü denetimli temel çizgileri aşmakla kalmayıp, aynı zamanda özel SOTA modellerinden daha iyi performans gösterdiğini ve alan dışı genellemeyi ve çok modlu halüsinasyonu önemli ölçüde iyileştirdiğini göstermektedir. (Kaynak: HuggingFace Daily Papers)

Makale, etki fonksiyonları aracılığıyla matematik ve kod çıkarımını teşvik eden veri özelliklerini araştırıyor: Büyük dil modellerinin (LLM) matematik ve kodlama alanlarındaki çıkarım yetenekleri genellikle daha güçlü modeller tarafından üretilen düşünce zincirleri (CoT) üzerinde sonradan eğitimle geliştirilir. Etkili veri özelliklerini sistematik olarak anlamak için araştırmacılar, etki fonksiyonlarını kullanarak LLM’lerin matematik ve kodlama üzerindeki çıkarım yeteneklerini tekil eğitim örneklerine, dizilere ve token’lara atfetmişlerdir. Araştırma, yüksek zorluktaki matematik örneklerinin hem matematik hem de kod çıkarımını artırdığını, düşük zorluktaki kod görevlerinin ise kod çıkarımına en etkili şekilde fayda sağladığını bulmuştur. Buna dayanarak, görev zorluğunu tersine çeviren bir veri yeniden ağırlıklandırma stratejisiyle Qwen2.5-7B-Instruct’in AIME24 doğruluğu %10’dan %20’ye iki katına çıkmış, LiveCodeBench doğruluğu ise %33.8’den %35.3’e yükselmiştir. (Kaynak: HuggingFace Daily Papers)

Makale MinD: Yapılandırılmış çok turlu ayrıştırma yoluyla verimli çıkarım: Büyük çıkarım modelleri (LRM), uzun düşünce zincirleri (CoT) nedeniyle yüksek ilk token ve genel gecikmeye sahiptir. MinD (Multi-Turn Decomposition) yöntemi, geleneksel CoT’yi bir dizi açık, yapılandırılmış, tur bazlı etkileşime dönüştürür. Model, sorguya çok turlu yanıtlar verir; her tur bir düşünme birimi içerir ve karşılık gelen bir yanıt üretir; sonraki turlar önceki turların düşüncelerini ve yanıtlarını yansıtabilir, doğrulayabilir, düzeltebilir veya alternatif yöntemler keşfedebilir. Bu yöntem, SFT sonrası RL paradigmasını benimser; MATH veri kümesinde R1-Distill modeliyle eğitildikten sonra MinD, MATH-500 gibi çıkarım benchmark’larında rekabetçiliğini korurken çıktı token kullanımında ve TTFT’de yaklaşık %70’e varan azalma sağlayabilir. (Kaynak: HuggingFace Daily Papers)

Büyük sesli dil modelleri (LALM) kapsamlı değerlendirme özeti: Büyük sesli dil modellerinin (LALM) gelişmesiyle birlikte, çeşitli işitsel görevlerde genel amaçlı yetenekler sergilemeleri beklenmektedir. Mevcut LALM değerlendirme benchmark’larının dağınık olması ve yapılandırılmış bir sınıflandırmadan yoksun olması eksikliğini gidermek için bir derleme makalesi, sistematik bir LALM değerlendirme sınıflandırması önermektedir. Bu sınıflandırma, hedeflere göre değerlendirmeyi dört boyuta ayırır: (1) genel işitsel farkındalık ve işleme, (2) bilgi ve çıkarım, (3) diyalog odaklı yetenekler ve (4) adalet, güvenlik ve güvenilirlik. Makale, her kategoriyi ayrıntılı olarak özetlemekte ve alandaki zorlukları ve gelecekteki yönleri belirtmektedir. (Kaynak: HuggingFace Daily Papers)

Makale ScanBot: Bedenlenmiş robot sistemlerinde akıllı yüzey taramasına yönelik veri kümesi: ScanBot, talimat koşullarında yüksek hassasiyetli robotik yüzey taraması için özel olarak tasarlanmış yeni bir veri kümesidir. Kavrama, navigasyon veya diyalog gibi kaba görevlere odaklanan mevcut robotik öğrenme veri kümelerinden farklı olarak ScanBot, endüstriyel lazer taramanın milimetre altı yol sürekliliği ve parametre kararlılığı gibi yüksek hassasiyet gereksinimlerini hedefler. Bu veri kümesi, robotların 12 farklı nesne ve 6 görev türünde (tam yüzey taraması, geometrik odaklı alan, mekansal referanslı parça, fonksiyonla ilgili yapı, kusur tespiti ve karşılaştırmalı analiz) gerçekleştirdiği lazer tarama yörüngelerini kapsar. Her tarama, doğal dil talimatlarıyla yönlendirilir ve eş zamanlı RGB, derinlik, lazer profil verileri ile robot pozu ve eklem durumuyla birlikte sunulur. (Kaynak: HuggingFace Daily Papers)

Quartet: NVIDIA Blackwell GPU verimliliğini optimize eden tam FP4 yerel LLM eğitim yöntemi: Dan Alistarh ve arkadaşları, NVIDIA Blackwell GPU’larda en iyi doğruluk-verimlilik dengesini sağlamayı amaçlayan, tamamen FP4 yerel bir LLM eğitim yöntemi olan Quartet’i tanıttı. Quartet, milyarlarca parametreli modelleri FP4 formatında eğitebiliyor; bu, FP8 veya FP16’dan daha hızlı olup karşılaştırılabilir doğruluk oranlarına ulaşıyor. Bu gelişme, gelecekteki büyük model eğitiminin donanım ve algoritma işbirliği tasarımı için önemli bir anlam taşıyor; MXFP4 ve MXFP8 matris çarpımının gelecekteki model eğitiminin standardı olması bekleniyor. (Kaynak: Tim_Dettmers, TheZachMueller, cognitivecompai, slashML, jeremyphoward)

Quartet: NVIDIA Blackwell GPU verimliliğini optimize eden tam FP4 yerel LLM eğitim yöntemi

RBench-V: Görsel çıkarım modellerinin çok modlu çıktılarını değerlendirmek için öncü benchmark: RBench-V, çok modlu çıktılara sahip görsel çıkarım modelleri için özel olarak tasarlanmış yeni bir görsel çıkarım benchmark’ıdır. Bu benchmark’ta o3 modelinin yalnızca %25.8 doğruluk elde ettiği, insan temel çizgisinin ise %83.2 olduğu iddia ediliyor; bu da mevcut modellerin karmaşık görsel çıkarım ve çok modlu düşünce zinciri (CoT) yeteneklerindeki eksikliklerini vurguluyor. (Kaynak: _akhaliq)

RBench-V: Görsel çıkarım modellerinin çok modlu çıktılarını değerlendirmek için öncü benchmark

💼 Ticari

AI tek boynuzlusu Builder.ai iflasını açıkladı, AI yerine gerçek programcılar kullandığı iddia edildi: Bir zamanlar 1.7 milyar dolar değer biçilen ve Microsoft, Softbank gibi tanınmış kurumların yatırımını çeken AI uygulama geliştirme platformu Builder.ai, geçtiğimiz günlerde resmen iflasını açıkladı. Şirket, AI ile otomatik olarak uygulama üretebildiğini iddia ediyordu, ancak The Wall Street Journal ve eski çalışanların iddialarına göre, birçok işlevi aslında Hintli mühendisler tarafından manuel olarak tamamlanıyordu; özünde insan gücünü AI gibi gösteriyordu. Şirketin mali durumu sürekli kötüleşti ve sonunda borçlarını ödeyemez hale geldi. Bu olay, yatırımcıları “sahte AI” kavramlarına karşı dikkatli olmaları ve teknolojinin gerçekliğini daha sıkı denetlemeleri konusunda uyarıyor. (Kaynak: 36氪)

Sonunda iflas etti, bu "AI tek boynuzlusu" yatırım dünyasının yarısını gerçek programcılarla nasıl kandırdı?

Llama makalesinin çekirdek yazarları ayrılıyor, birçoğu Fransız AI tek boynuzlusu Mistral’e katıldı: Meta’nın Llama modelinin çekirdek kurucu ekip üyelerinde önemli bir kayıp yaşandı; 14 imzalı yazardan şu anda sadece 3’ü Meta’da kalmış durumda. Ayrılan üyelerin çoğu, eski Meta kıdemli araştırmacıları Guillaume Lample ve Timothée Lacroix gibi isimler tarafından kurulan Paris merkezli AI girişimi Mistral AI’a katıldı. Mistral AI, açık kaynak modelleriyle (Mixtral gibi) hızla yükseliyor ve Meta’nın açık kaynak büyük model alanındaki doğrudan rakibi haline geliyor. Bu yetenek akışı, AI alanındaki, özellikle de açık kaynak büyük model yönündeki yoğun rekabeti ve yetenek stratejisinin önemini yansıtıyor. (Kaynak: 36氪)

Llama makalesi yazarları "kaçıyor", 14 kişilik ekipten sadece 3 kişi kaldı, Fransız tek boynuzlusu Mistral en büyük kazanan oldu

Yerli büyük teknoloji şirketlerinde AI yetenek akışı hızlandı, yarım yılda 19 önemli isim değişti: Geçtiğimiz yarım yılda (Aralık 2024 – Mayıs 2025), Çin’in önde gelen teknoloji devlerinde (ByteDance, Alibaba, Baidu, Kuaishou, JD.com, Xiaomi vb.) en az 19 tanınmış AI yeteneği pozisyon değiştirdi; bunlardan 14’ü ayrıldı, 5’i yeni katıldı. Baidu, ByteDance ve Alibaba’da yetenek akışı özellikle yoğundu. Ayrılan üst düzey yöneticilerin çoğu çekirdek iş birimlerinin sorumlularıydı ve yeni rotaları arasında AI ile ilgili alanlarda girişimcilik, yıldız AI girişimlerine veya diğer büyük teknoloji şirketlerinin AI departmanlarına katılmak yer alıyordu. Yeni katılanlar arasında küresel çapta en iyi AI bilim insanları ve deneyimli yatırımcılar da bulunuyor. Bu durum, AI alanındaki girişimcilik ateşinin devam ettiğini ve büyük teknoloji şirketlerinin AI’ın ticari değerini gerçekleştirme konusundaki önemini yansıtıyor. (Kaynak: 36氪)

Yerli büyük teknoloji şirketlerinin AI yetenek göç haritası: Yarım yılda 19 AI devi değişti

🌟 Topluluk

OpenAI’nin iç stratejisi sızdırıldı: ChatGPT’yi “süper asistan” yapma ve kullanıcıların AI zihin payını ele geçirme isteği: “ChatGPT: H1 2025 Strategy” başlıklı sızdırılan yasal belgeler, OpenAI’nin stratejik planlamasını ortaya koyuyor; hedef, ChatGPT’yi bir soru-cevap robotundan “süper asistan”a dönüştürmek, kullanıcıların internetle etkileşim kurduğu akıllı bir arayüz haline getirmek ve 2025’in ilk yarısında önemli bir dönüşüm gerçekleştirmeyi planlamak. Belgeler, “OpenAI” markasını geri plana atıp “ChatGPT”yi öne çıkararak onu zekanın eş anlamlısı yapma (Google’ın bilgiyi, Amazon’un e-ticareti temsil etmesi gibi) gerekliliğini vurguluyor. Strateji ayrıca genç kullanıcılara odaklanmayı, sosyal trendlere entegre olarak ChatGPT’yi “havalı” hale getirmeyi ve yüz milyonlarca kullanıcıyı destekleyecek bir altyapı kurmayı planlıyor. (Kaynak: 36氪, scaling01)

4 sayfalık gizli belge OpenAI'nin hırsını ortaya koyuyor, ChatGPT insan zihnini ele geçiriyor, 25 yıllık ölümcül hamle açıklandı

ChatGPT mobil uygulamasının günlük ortalama kullanım süresi 20 dakikaya yaklaştı, üç kat arttı: Olivia Moore, ChatGPT mobil uygulamasının kullanıcı başına günlük ortalama kullanım süresinin 20 dakikaya yaklaştığını ve uygulamanın ilk çıktığı zamana göre 3 kat arttığını belirtti. Bu veri, kullanıcıların ChatGPT’ye olan bağımlılığının ve kullanım sıklığının önemli ölçüde arttığını, ChatGPT’nin giderek daha fazla insanın günlük yaşamında önemli ve faydalı bir araç haline geldiğini gösteriyor. (Kaynak: gdb)

ChatGPT mobil uygulamasının günlük ortalama kullanım süresi 20 dakikaya yaklaştı, üç kat arttı

AI Agent’ı yazılımla derinlemesine entegre oluyor, karmaşık araştırma görevlerini yerine getiriyor: Aaron Levie, ChatGPT’nin Box’a bağlandıktan sonra pazar analizi belgeleri üzerinde derinlemesine araştırma yaptığı bir senaryoyu gösterdi. Bu, gelecekte AI Agent’larının çeşitli veri ve sistemlerle derinlemesine entegre olabileceğini, arka planda kullanıcılar için karmaşık analiz ve araştırma görevlerini otonom olarak tamamlayabileceğini ve kullanıcıların yalnızca veri ve sistem erişim izni vermesi gerekeceğini gösteriyor. (Kaynak: gdb)

Grok 3 modelinin “düşünme modunda” kendini Claude olarak tanıtması “kılıf değiştirme” şüphelerini doğurdu: Bir kullanıcı, xAI’nin Grok 3 modelinin X platformundaki “düşünme modunda” kimliği sorulduğunda kendini Anthropic tarafından geliştirilen Claude modeli olarak tanıttığını iddia etti. Kullanıcı Grok 3 arayüz ekran görüntüsünü gösterse bile model hala kendisinin Claude olduğunu iddia etti ve bunun bir sistem arızası veya arayüz karışıklığından kaynaklandığını tahmin etti. Bu anormal davranış Reddit gibi topluluklarda tartışmalara yol açtı; teknik açıdan model entegrasyon hatası, eğitim verisi kirliliği (bellek sızıntısı) veya izole edilmemiş bir hata ayıklama modu söz konusu olabilir. Çoğu yorumcu, LLM’lerin kendi kimlikleri hakkındaki ifadelerinin güvenilir olmadığını ve genellikle eğitim verilerindeki ilgili açıklamalardan etkilendiğini düşünüyor. (Kaynak: 36氪)

21 sayfalık PDF, Grok 3'ün Claude "kılıfı" kullandığını kanıtlıyor mu? Grok 3 kendini ifşa etti, xAI mühendisleri beceriksizlikle suçlandı

AI agent’larının yaptığı hataların sorumluluğu dikkat çekiyor, çoklu agent işbirliğinde yasal boşluk var: Google ve Microsoft gibi şirketlerin otonom hareket edebilen AI agent’larını yaygınlaştırmasıyla birlikte, birden fazla agent etkileşime girdiğinde veya hata yapıp zarara yol açtığında sorumluluğun kime ait olacağı yeni bir yasal sorun haline geliyor. Yazılım mühendisi Jay Prakash Thakur’un deneyleri (yemek siparişi veren, uygulama tasarlayan AI agent’ları gibi) bu tür riskleri ortaya koydu; örneğin agent’lar kullanım koşullarını yanlış anlayarak sistemin çökmesine neden olabilir veya yemek sipariş ederken hata yapabilir (“soğan halkası” yerine “fazla soğan” gibi). Hukuk uzmanları, tazminat taleplerinin genellikle, hata kullanıcı操作ından kaynaklansa bile, mali gücü yüksek büyük şirketlere yöneleceğini belirtiyor. Mevcut çözümler arasında manuel onay adımları eklemek veya denetleyici “hakem” tipi agent’lar getirmek bulunuyor, ancak her ikisinin de sınırlamaları var. (Kaynak: dotey)

WIRED: AI agent'ları hata yaptığında sorumluluğu kim üstlenmeli?

GitHub Copilot’un yeni Agent’ı Microsoft’un kendi proje PR’larında kötü performans sergileyince geliştiricilerden “sempati” topladı: Hataları otomatik olarak düzeltmeyi ve işlevleri iyileştirmeyi amaçlayan bir AI programlama yardımcısı olan GitHub Copilot Coding Agent, Microsoft .NET runtime deposundaki gerçek dünya uygulamasında yetersiz performans gösterdi. Birçok Microsoft mühendisi, PR’larda Copilot tarafından gönderilen kodun hatalar içerdiğini, mantıksız olduğunu, temel sorunu çözmediğini ve aksine inceleme yükünü artırdığını belirtti. Bu durum, geliştirici topluluğunda AI programlama araçlarının güvenilirliği, kod kalitesi, güvenliği ve gelecekteki bakım maliyetleri hakkında endişelere yol açtı; bazı yorumcular performansının “stajyerden daha kötü” olduğunu, hatta AI çılgınlığına uymak için kurumsal bir talimat olduğundan şüphelendiklerini söyledi. (Kaynak: 36氪)

"Microsoft mühendislerine acımaya başladım", GitHub Copilot'un yeni yardımcısı kendi çalışanlarını çıldırttı

AI güvenliği ve gelişimi hararetli tartışmalara yol açıyor: OpenAI’nin ilk amacı, Altman’ın kişiliği ve AGI çılgınlığı sorgulanıyor: Deneyimli gazeteci Karen Hao, “Empire of AI” adlı yeni kitabında 7 yıllık takip ve 300 görüşme sonucunda OpenAI içindeki AGI’ye yönelik inançsal çılgınlığı, güç mücadelelerini ve kurucu Altman’ın “binbir surat” davranış tarzını ortaya koyuyor. Kitapta Altman’ın hikaye anlatma ve ikna etme konusunda usta olduğu, ancak sözleri ile eylemlerinin tutarsızlığının içeride güvensizliğe yol açtığı ve Musk’ın ününü kullanarak OpenAI’yi kurduktan sonra onu dışladığı iddia ediliyor. OpenAI’nin başlangıçtaki kâr amacı gütmeyen, açık paylaşımlı yapısından giderek ticarileşmeye ve kapanmaya yönelmesi, ilk amacından saptığı yönünde eleştirilere neden oluyor. Bu iç yüzler, AI endüstrisindeki elitlerin güç mücadelesinin teknolojinin geleceğini nasıl şekillendirdiğini ve “hızlandırıcılar” ile “kıyametçilerin” AGI araştırma ve geliştirme çılgınlığını birlikte nasıl körüklediğinin karmaşık dinamiklerini ortaya koyuyor. (Kaynak: 36氪, 36氪)

Zhen Huan'dan bile daha acımasız, Altman'ın "binbir surat" kişiliği ortaya çıktı, MIT'li Çinli gazeteci 7 yıllık karanlık sırları ifşa etti

AI çağında “bağlam”ın önemi artıyor, AI rekabetinde belirleyici olabilir: Perplexity AI CEO’su Arav Srinivas, “Bağlamı kazanan, AI’ı kazanır” diyerek vurguluyor. AI yetenekleri arttıkça kullanıcıların artık çok sayıda açık sekmede bilgi aramak zorunda kalmayacağını, bunun yerine doğrudan AI’a soru sorabileceğini ve AI’ın bağlamı anlayarak yanıt verebileceğini düşünüyor. Bu, AI’ın bilgi işleme ve kullanıcı etkileşim biçimlerinde köklü bir dönüşümü işaret ediyor ve bağlam anlama yeteneği AI ürünlerinin temel rekabet gücü haline geliyor. (Kaynak: AravSrinivas)

AI çağında "bağlam"ın önemi artıyor, AI rekabetinde belirleyici olabilir

AI tarafından üretilen içeriğin gerçekçiliği gerçeklik güven krizine yol açıyor, VEO 3 gibi araçlar endişeleri artırıyor: Google VEO 3 gibi gelişmiş AI video oluşturma araçlarının ortaya çıkmasıyla birlikte, AI tarafından üretilen içeriğin gerçekçiliği benzeri görülmemiş bir seviyeye ulaştı ve sıradan insanların sahteyi gerçeğinden ayırt etmesini zorlaştırdı. Bu durum, gelecekte internetteki görüntülere, videolara, seslere ve hatta metin içeriklerine kolayca inanamayacağımız yönünde yaygın toplumsal endişelere yol açıyor: Tarihi görüntülerin değerinin azalmasından, öğrencilerin ödevlerini tamamlamak için AI’a güvenmesine, kişilerarası iletişimde gerçekliğin kaybolmasına kadar, AI’ın hızlı gelişimi gerçeklik algımızı ve güven temelimizi zorluyor ve “her şey AI tarafından yapılabilir” bir duruma yol açabilir. (Kaynak: Reddit r/ArtificialInteligence)

AI Agent’ları sektörün yeni odak noktası haline geliyor, araçlar dikey Agent’ların rekabet avantajı: Sektör görüşlerine göre, mevcut aşamada AI agent’ları dikey alanlarda daha kolay uygulanabilir ve temel rekabet güçleri profesyonel araçları çağırma yeteneğinde yatıyor. Genel amaçlı AI agent’larıyla karşılaştırıldığında, belirli alanlardaki araçlar (programlama IDE’leri, tasarım yazılımları gibi) son derece uzmanlaşmıştır ve kolayca değiştirilemez. AI programlama alanındaki Cursor, Windsurf gibi ürünlerin başarısı da bunu kanıtlıyor. Cisco’nun Agent’ı dikey Agent’ların tipik bir örneği olarak kabul ediliyor ve rekabet avantajı, ağ sanallaştırma API’leri gibi ICT sektörünün yıllardır biriktirdiği bulut yerel dönüşüm başarılarında yatıyor. (Kaynak: dotey)

💡 Diğer

Remade-AI, 10 adet Wan 2.1 kamera kontrolü LoRA modelini açık kaynak olarak yayınladı: Remade-AI, Wan 2.1 için hızlı zoom in/out, yükselme/alçalma çekimi, matris lens, 360 derece çevresel çekim, kavisli lens, kahraman koşusu ve araba takibi gibi pratik efektler içeren 10 adet kamera kontrolü LoRA modelini yayınladı. Bu LoRA modelleri, AI video veya görüntü üretimi için daha zengin lens dili ve dinamik efekt kontrol yetenekleri sunarak içerik oluşturucular için yüksek değer taşıyor. (Kaynak: op7418)

Remade-AI, 10 adet Wan 2.1 kamera kontrolü LoRA modelini açık kaynak olarak yayınladı

AI, siber güvenlik alanında potansiyel gösteriyor, Linux çekirdeğinde 0-day açığı başarıyla keşfetti: Bir güvenlik araştırmacısı, OpenAI’nin o3 modelini kullanarak bir Linux çekirdeği (ksmbd modülü) 0-day açığını (CVE-2025-37899) başarıyla keşfetti. Araştırmacı, yaklaşık 3300 satırlık ilgili kod parçasını hedefli bir şekilde analiz ederek, o3’ün güçlü bağlam anlama yeteneği sayesinde, bir değişken serbest bırakıldıktan sonra referans sayacı hatası buldu; bu da diğer iş parçacıklarının serbest bırakılmış belleğe erişmesine neden olabilirdi. Bu, AI’ın kod denetimi ve açık bulma konularında yardımcı olma potansiyelini gösteriyor, ancak süreç hala insan uzmanların rehberliğini ve doğrulama senaryoları oluşturmasını gerektiriyor. (Kaynak: karminski3)

AI, siber güvenlik alanında potansiyel gösteriyor, Linux çekirdeğinde 0-day açığı başarıyla keşfetti

AI çağında mesleki değer yeniden şekilleniyor: Merak, seçme yeteneği ve yargı yeni “lüksler” haline geliyor: AI daha fazla bilgiye dayalı işi devraldıkça, geleneksel becerilerin nadirliği azalıyor. “Yapay Zeka Çağında Sadece Bir ‘Lüks’ Var” başlıklı makale, gelecekte insanların ekonomik değerinin daha çok AI’ın kopyalamakta zorlandığı özelliklerde yatacağını belirtiyor: Merakla yönlendirilen soru sorma yeteneği, devasa bilgiler arasından temel bağlantıları filtreleme yeteneği olan seçme yeteneği ve belirsizlik içinde artıları eksileri tartarak risk alma yeteneği olan yargı. Bu yetenekler, nadirlikleri ve ölçeklendirilmelerinin zor olması nedeniyle AI çağında bireylerin öne çıkmasının anahtarı olacak ve bu özelliklere sahip kişiler işgücü piyasasında “lüks” haline gelecek. (Kaynak: 36氪)

Yapay Zeka Çağında Sadece Bir "Lüks" Var

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir