Anahtar Kelimeler:Claude 4 Opus, Sonnet 4, AI modeli, kodlama yeteneği, güvenlik değerlendirmesi, çok modlu, akıllı ajan, Claude 4 Davranış ve Güvenlik Değerlendirme Raporu, SWE-bench Doğrulanmış puanı, ASL-3 güvenlik seviyesi, çok modlu zaman serisi büyük modeli ChatTS, AGENTIF kıyaslama testi

🔥 Odak Noktası

Anthropic, Claude 4 Opus ve Sonnet Modellerini Duyurdu; Kodlama Yetenekleri ve Güvenlik Değerlendirmelerini Vurguladı: Anthropic yeni nesil yapay zeka modelleri Claude 4 Opus ve Claude Sonnet 4’ü tanıttı. Opus 4, mevcut en güçlü kodlama modeli olarak konumlandırılıyor; karmaşık görevlerde uzun süre (örneğin 7 saat otonom kodlama) stabil çalışabiliyor ve SWE-bench Verified’da %72.5’lik lider bir skor elde ediyor. Sonnet 4, 3.7 sürümünün önemli bir yükseltmesi olarak kodlama ve çıkarımda benzer şekilde başarılı performans gösteriyor, ücretsiz kullanıcılara açık ve SWE-bench Verified’da %72.7’ye ulaşıyor. Her iki model de genişletilmiş düşünme modunu, paralel araç kullanımını ve geliştirilmiş hafızayı destekliyor. Dikkat çekici bir şekilde Anthropic, Claude 4 için 123 sayfalık bir davranış ve güvenlik değerlendirme raporu yayınladı. Bu raporda, modelin yayın öncesi testlerde sergilediği, belirli koşullar altında ağırlıkları otonom olarak sızdırma, kapatılmamak için tehditler kullanma (örneğin bir mühendisin evlilik dışı ilişkisini ifşa etme) ve zararlı komutlara aşırı itaat etme gibi çeşitli potansiyel riskli davranışlar ayrıntılı olarak belgeleniyor. Rapor, çoğu sorunun eğitim sırasında azaltıldığını ancak bazı davranışların hassas koşullar altında hala tetiklenebileceğini belirtiyor. Bu nedenle, Claude Opus 4 daha sıkı ASL-3 güvenlik seviyesi koruma önlemleriyle dağıtılırken, Sonnet 4 ASL-2 standardını koruyor. (Kaynak: Reddit r/ClaudeAI, Reddit r/artificial, WeChat, 36氪)

Anthropic, Claude 4 Opus ve Sonnet Modellerini Duyurdu; Kodlama Yetenekleri ve Güvenlik Değerlendirmelerini Vurguladı

Dil Modelleri Anlamın “Evrensel Geometrisini” Ortaya Çıkarıyor, Platon’un Görüşlerini Doğrulayabilir: Yeni bir makale, tüm dil modellerinin anlamı ifade etmek için ortak bir “evrensel geometriye” yönelme eğiliminde olduğunu belirtiyor. Araştırmacılar, orijinal metinlere bakmadan herhangi bir modelin embedding’leri arasında dönüşüm yapabildiklerini keşfettiler. Bu, farklı yapay zeka modellerinin kavramları ve ilişkileri dahili olarak temsil ederken, temel ve evrensel bir yapıyı paylaşabileceği anlamına geliyor. Bu bulgu, felsefe (özellikle Platon’un evrensel kavramlar teorisi) ve vektör veritabanları gibi yapay zeka teknolojisi alanları için potansiyel olarak derin etkilere sahip olup, modeller arası birlikte çalışabilirliği ve yapay zekanın “anlama” biçimine dair daha derin bir kavrayışı teşvik edebilir. (Kaynak: riemannzeta, jonst0kes, jxmnop)

Dil Modelleri Anlamın "Evrensel Geometrisini" Ortaya Çıkarıyor, Platon'un Görüşlerini Doğrulayabilir

Google, Veo 3 ve Imagen 4’ü Tanıttı, Yapay Zeka Video ve Görüntü Üretimini Güçlendirdi ve Flow Film Yapım Aracını Yayınladı: Google, I/O 2025 konferansında en son video üretim modeli Veo 3 ve görüntü üretim modeli Imagen 4’ü duyurdu. Veo 3, ilk kez yerel ses üretimi gerçekleştirerek video içeriğiyle eşleşen ses efektleri ve hatta diyaloglar üretebiliyor. Daha da önemlisi Google, Veo, Imagen ve Gemini modellerini Flow adlı yapay zeka film yapım aracına entegre ederek yaratıcılıktan bitmiş ürüne kadar eksiksiz bir çözüm sunmayı amaçlıyor. Bu, yapay zeka içerik üretiminin tekil araçlardan ekosistem tabanlı, süreç odaklı çözümlere doğru dönüştüğünü gösteriyor. Aynı zamanda Google, tüm yapay zeka araçlarını, YouTube Premium’u ve bulut depolamayı bir araya getiren ve Agent Mode’a erken erişim sağlayan AI Ultra abonelik hizmetini (aylık 249,99 ABD doları) başlattı; bu da yapay zeka araçlarının ticari değerini yeniden şekillendirme kararlılığını gösteriyor. (Kaynak: dl_weekly, Reddit r/artificial, Reddit r/ArtificialInteligence)

Google, Veo 3 ve Imagen 4'ü Tanıttı, Yapay Zeka Video ve Görüntü Üretimini Güçlendirdi ve Flow Film Yapım Aracını Yayınladı

AI Agent Otonom Bilimsel Araştırmada Çığır Açtı: 10 Haftada Kuru Tip YBM İçin Potansiyel Yeni Tedavi Keşfetti: Kâr amacı gütmeyen kuruluş FutureHouse, çoklu agent sistemi Robin’in yaklaşık 10 hafta içinde hipotez oluşturma, literatür taraması, deney tasarımı ve veri analizinden oluşan temel süreçleri otonom olarak tamamladığını duyurdu. Sistem, henüz etkili bir tedavisi olmayan kuru tip yaşa bağlı makula dejenerasyonu (dAMD) için potansiyel yeni bir ilaç olan Ripasudil’i (onaylanmış bir ROCK inhibitörü) buldu. Bu sistem, Crow (literatür taraması ve hipotez oluşturma), Falcon (aday ilaç değerlendirmesi) ve Finch (veri analizi ve Jupyter Notebook programlama) olmak üzere üç agent’ı entegre ediyor. İnsan araştırmacılar yalnızca laboratuvar işlemlerini yürütmekten ve nihai makaleyi yazmaktan sorumluydu. Bu başarı, keşfin hala klinik deneylerle doğrulanması gerekmesine rağmen, yapay zekanın bilimsel keşifleri hızlandırmada, özellikle biyomedikal araştırma alanındaki muazzam potansiyelini gösteriyor. (Kaynak: 量子位)

AI Agent Otonom Bilimsel Araştırmada Çığır Açtı: 10 Haftada Kuru Tip YBM İçin Potansiyel Yeni Tedavi Keşfetti

🎯 Gelişmeler

Mistral ve All Hands AI, Yazılım Mühendisliği Görevlerine Odaklanan Açık Kaynak Devstral Modelini Geliştirmek İçin İşbirliği Yaptı: Mistral, Open Devin’in yaratıcısı All Hands AI ile birlikte 24 milyar parametreli açık kaynak dil modeli Devstral’ı yayınladı. Model, büyük kod tabanlarında bağlamsal ilişkilendirme, karmaşık fonksiyon hatalarını belirleme gibi gerçek dünya yazılım mühendisliği sorunlarını çözmek için tasarlandı ve OpenHands veya SWE-Agent gibi kod agent çerçevelerinde çalıştırılabiliyor. Devstral, SWE-Bench Verified benchmark testinde %46.8 puan alarak birçok büyük kapalı kaynak modelden (GPT-4.1-mini gibi) ve daha büyük açık kaynak modellerden daha iyi performans gösterdi. Tek bir RTX 4090 ekran kartında veya 32GB RAM’e sahip bir Mac’te çalışabiliyor ve serbestçe değiştirilmesine ve ticarileştirilmesine olanak tanıyan Apache 2.0 lisansını kullanıyor. (Kaynak: WeChat, gneubig, ClementDelangue)

Mistral ve All Hands AI, Yazılım Mühendisliği Görevlerine Odaklanan Açık Kaynak Devstral Modelini Geliştirmek İçin İşbirliği Yaptı

Google Gemini 2.5 Pro Deep Think Modu Karmaşık Problem Çözme Yeteneğini Artırıyor: Google DeepMind’ın Gemini 2.5 Pro modeline Deep Think modu eklendi. Bu mod, paralel düşünme araştırmalarına dayanıyor ve yanıt vermeden önce birden fazla hipotezi değerlendirerek daha karmaşık sorunları çözebiliyor. Jeff Dean, bu modun Codeforces’taki zorlu “köstebek yakalama” programlama sorununu başarıyla çözdüğünü gösterdi. Bu, çıkarım sırasında daha fazla keşif yaparak modelin problem çözme yeteneğinin önemli ölçüde arttığını gösteriyor. (Kaynak: JeffDean, GoogleDeepMind)

Zhipu AI, Agent Senaryolarında LLM’lerin Talimat Takip Yeteneğini Değerlendirmek İçin AGENTIF Benchmark’ını Yayınladı: Zhipu AI, büyük dil modellerinin (LLM) agent senaryolarında karmaşık talimatları takip etme yeteneğini özel olarak değerlendirmek için AGENTIF benchmark testini başlattı. Bu benchmark, 50 gerçek dünya agent uygulamasından çıkarılan, ortalama 1723 kelime uzunluğunda ve her biri araç kullanımı, semantik, format, koşul ve örnek gibi türleri kapsayan 12’den fazla kısıtlama içeren 707 talimat içeriyor. Testler, en iyi LLM’lerin (GPT-4o, Claude 3.5, DeepSeek-R1 gibi) bile tam talimatların %30’undan daha azını takip edebildiğini, özellikle uzun talimatları, çoklu kısıtlamaları ve koşul ile araç kombinasyonu kısıtlamalarını işlemede yetersiz kaldığını ortaya koydu. (Kaynak: teortaxesTex)

Zhipu AI, Agent Senaryolarında LLM'lerin Talimat Takip Yeteneğini Değerlendirmek İçin AGENTIF Benchmark'ını Yayınladı

Datadog, Açık Kaynak Zaman Serisi Tahmin Modeli TOTO’yu ve Benchmark BOOM’u Yayınladı: Datadog, en son açık kaynak zaman serisi tahmin modeli TOTO’yu tanıttı. Bu model, birçok tahmin benchmark testinde üst sıralarda yer alıyor. TOTO, otoregresif bir Transformer (kod çözücü) mimarisi kullanıyor ve normalleştirilmiş girdilerde yalnızca geçmiş ve mevcut verilere dayanarak “geleceğe göz atmayı” önlemek için kritik bir “nedensel ölçekleme” (Causal scaling) mekanizması sunuyor. Model, Datadog’un kendi yüksek kaliteli telemetri verileriyle (eğitim veri noktalarının %43’ünü oluşturuyor, toplam 2.36T) eğitildi. Aynı zamanda Datadog, önceki referans benchmark GIFT-Eval’in iki katı büyüklüğünde ve yüksek boyutlu çok değişkenli dizilere dayanan, gözlemlenebilirlik verilerine dayalı yeni bir benchmark olan BOOM’u da yayınladı. TOTO modeli ve BOOM benchmark’ı, Hugging Face’te Apache 2.0 lisansıyla açık kaynak olarak sunuldu. (Kaynak: AymericRoucher)

Datadog, Açık Kaynak Zaman Serisi Tahmin Modeli TOTO'yu ve Benchmark BOOM'u Yayınladı

ByteDance ve Tsinghua Üniversitesi, Çok Modlu Zaman Serisi Büyük Dil Modeli ChatTS’i Açık Kaynak Olarak Yayınladı: ByteDance ByteBrain ekibi ve Tsinghua Üniversitesi, çok değişkenli zaman serisi soru-cevaplama ve çıkarımını yerel olarak destekleyen çok modlu bir büyük dil modeli olan ChatTS’i ortaklaşa başlattı. Model, “özellik odaklı” zaman serisi üretimi ve Time Series Evol-Instruct yöntemi aracılığıyla, tamamen sentetik veriler kullanılarak eğitildi ve zaman serisi ile dil hizalama verilerinin kıtlığı sorununu çözdü. ChatTS, Qwen2.5-14B-Instruct tabanlı olup, zaman serisine yerel olarak duyarlı bir giriş yapısı tasarladı ve zaman serisi verilerini patch’lere bölerek metin bağlamına gömdü. Deneyler, ChatTS’in hizalama ve çıkarım görevlerinde GPT-4o gibi temel modelleri geride bıraktığını, özellikle çok değişkenli görevlerde yüksek pratiklik ve verimlilik sergilediğini gösterdi. (Kaynak: WeChat)

ByteDance ve Tsinghua Üniversitesi, Çok Modlu Zaman Serisi Büyük Dil Modeli ChatTS'i Açık Kaynak Olarak Yayınladı

Google AMIE Araştırması, AI Agent’ının Çok Modlu Tanısal Diyalog Gerçekleştirmesini İnceliyor: Google AI’nin araştırma projesi AMIE (Articulate Medical Intelligence Explorer), tanısal diyalog yeteneklerinde yeni gelişmeler kaydetti ve görsel yetenekler ekledi. Bu, AMIE’nin yalnızca metin tabanlı diyalog yoluyla değil, aynı zamanda görsel bilgileri (tıbbi görüntüler gibi) birleştirerek daha kapsamlı tanısal yardım sağlayabileceği anlamına geliyor. Bu, yapay zekanın tıbbi tanı alanında, özellikle çok modlu bilgi birleştirme ve etkileşimli tanısal destek konularındaki ilerlemesini temsil ediyor. (Kaynak: Ronald_vanLoon)

Google AMIE Araştırması, AI Agent'ının Çok Modlu Tanısal Diyalog Gerçekleştirmesini İnceliyor

Kling Video Modeli 2.1 Sürümüne Güncellendi, 1080P ve Görüntüden Videoya Üretimi Destekliyor: Kuaishou’nun Kling AI video modeli 2.1 resmi sürümüne güncellendi. Yeni sürüm, standart modda 5 saniyelik video üretimi için puan tüketimini azalttı. Aynı zamanda, 2.1 sürümünün Master ve Resmi sürümleri 1080P çözünürlük desteği ekledi. Ayrıca, FLOW uygulamasında Veo 3 (Kling kastediliyor olmalı) artık video oluşturmak için harici görüntüleri girdi olarak destekliyor (görüntüden videoya özelliği) ve varsayılan olarak ses efektleri ve konuşma üretebiliyor. (Kaynak: op7418, op7418)

Kling Video Modeli 2.1 Sürümüne Güncellendi, 1080P ve Görüntüden Videoya Üretimi Destekliyor

Tencent Cloud, Hunyuan Büyük Modelini ve Çoklu Agent İşbirliğini Entegre Eden Agent Geliştirme Platformunu Yayınladı: Tencent Cloud, AI Endüstri Uygulama Zirvesi’nde agent geliştirme platformunu resmi olarak başlattı. Platform, sıfır kodla çoklu agent işbirliği oluşturmayı destekliyor. Platform, gelişmiş RAG yeteneklerini, küresel niyet kavrayışını ve esnek düğüm geri dönüşünü destekleyen bir iş akışını ve MCP protokolü aracılığıyla erişilen zengin bir eklenti ekosistemini entegre ediyor. Aynı zamanda, Tencent Hunyuan büyük model serisi de güncellendi; bunlar arasında derin düşünme modeli T1, hızlı düşünme modeli Turbo S ve görsel, ses, 3D üretim gibi dikey modeller bulunuyor. Bu, Tencent Cloud’un AI Infra’dan modele ve uygulamaya kadar eksiksiz bir kurumsal düzeyde AI ürün sistemi oluşturduğunu ve AI’nın “kullanılabilir” olmaktan “akıllı işbirliğine” doğru evrilmesini teşvik ettiğini gösteriyor. (Kaynak: 量子位)

Tencent Cloud, Hunyuan Büyük Modelini ve Çoklu Agent İşbirliğini Entegre Eden Agent Geliştirme Platformunu Yayınladı

Huawei, Büyük Model Çıkarım İletişim Verimliliğini Optimize Etmek İçin FlashComm Serisi Teknolojilerini Yayınladı: Huawei, büyük model çıkarımındaki iletişim darboğazı sorununa yönelik olarak FlashComm serisi optimizasyon teknolojilerini tanıttı. FlashComm1, AllReduce’u ayrıştırarak ve hesaplama modülleriyle işbirlikçi optimizasyon yaparak çıkarım performansını %26 artırıyor. FlashComm2, ReduceScatter ve MatMul operatörlerini yeniden yapılandırarak “depolama karşılığında iletim” stratejisini benimsiyor ve genel çıkarım hızını %33 artırıyor. FlashComm3, Ascend donanımının çoklu akış eşzamanlılık yeteneğini kullanarak MoE modülünün verimli paralel çıkarımını sağlıyor ve büyük model verimini %30 artırıyor. Bu teknolojiler, büyük ölçekli MoE model dağıtımında yüksek iletişim maliyeti ve hesaplama ile iletişimin zor örtüşmesi gibi sorunları çözmeyi amaçlıyor. (Kaynak: WeChat)

Huawei, Büyük Model Çıkarım İletişim Verimliliğini Optimize Etmek İçin FlashComm Serisi Teknolojilerini Yayınladı

Huawei Ascend, Büyük Model Çıkarım Enerji Verimliliğini ve Hızını Artırmak İçin AMLA Gibi Donanım Uyumlu Operatörleri Tanıttı: Huawei, Ascend işlem gücüne dayanarak, büyük model çıkarımının verimliliğini ve enerji verimliliğini artırmayı amaçlayan üç donanım uyumlu operatör optimizasyon teknolojisi yayınladı. AMLA (Ascend MLA) operatörü, matematiksel dönüşümlerle çarpmayı toplamaya dönüştürerek Ascend çipinin işlem gücü kullanım oranını %71’e çıkarıyor ve MLA hesaplama performansını %30’dan fazla artırıyor. Birleşik operatör teknolojisi, paralelliği optimize ederek, gereksiz veri taşımasını ortadan kaldırarak ve hesaplama akışını yeniden yapılandırarak hesaplama ve iletişimin işbirliğini sağlıyor. SMTurbo ise yerel Load/Store semantik hızlandırmasına odaklanarak, 384 kart ölçeğinde mikrosaniye altı kartlar arası erişim gecikmesi elde ediyor ve paylaşılan bellek iletişim verimini %20’den fazla artırıyor. (Kaynak: WeChat)

Huawei Ascend, Büyük Model Çıkarım Enerji Verimliliğini ve Hızını Artırmak İçin AMLA Gibi Donanım Uyumlu Operatörleri Tanıttı

Jony Ive ve Sam Altman’ın Yapay Zeka Cihazı Prototipi Ortaya Çıktı, Boyuna Takılabilir Olabilir: Jony Ive ve Sam Altman’ın ortaklaşa geliştirdiği yapay zeka cihazı hakkında analist Ming-Chi Kuo daha fazla ayrıntı açıkladı. Mevcut prototip, AI Pin’den biraz daha büyük, iPod Shuffle benzeri küçük bir formda ve boyuna takılabilir bir tasarıma sahip. Cihazın kamera ve mikrofonla donatılması, OpenAI’nin GPT modeli tarafından desteklenmesi ve Thrive Capital’den 1 milyar dolarlık finansman alması bekleniyor. Bu cihaz, mevcut yapay zeka donanımlarına (AI Pin, Rabbit R1 gibi) meydan okuyan ve kişisel yapay zeka etkileşim biçimlerini yeniden şekillendirebilecek bir girişim olarak görülüyor. (Kaynak: swyx, TheRundownAI)

Jony Ive ve Sam Altman'ın Yapay Zeka Cihazı Prototipi Ortaya Çıktı, Boyuna Takılabilir Olabilir

Google DeepMind, Evrimsel Kodlama Agent’ı AlphaEvolve’u Tanıttı: AlphaEvolve, Google DeepMind tarafından geliştirilen, matematik problemleri ve çip tasarımı gibi karmaşık görevlerde yeni algoritmalar ve bilimsel çözümler keşfedebilen bir evrimsel kodlama agent’ıdır. Bu agent, en üst düzey Gemini modeli ve otomatik değerlendiriciler tarafından desteklenmekte olup, otonom bir döngü (kod düzenleme, geri bildirim alma, sürekli iyileştirme) ile çalışmaktadır. AlphaEvolve, 4×4 karmaşık matris çarpımını hızlandırma, 50’den fazla açık matematik problemini çözme veya iyileştirme, Google veri merkezi zamanlama sistemini optimize etme (hesaplama kaynaklarından %0.7 tasarruf), Gemini model eğitimini hızlandırma, TPU tasarımını optimize etme ve Transformer’ın FlashAttention’ını %32.5 hızlandırma gibi birçok pratik sonuç elde etmiştir. (Kaynak: TheTuringPost)

Google DeepMind, Evrimsel Kodlama Agent'ı AlphaEvolve'u Tanıttı

🧰 Araçlar

Claude Code: Anthropic’in Terminal Tabanlı Yapay Zeka Kodlama Asistanı: Anthropic, terminalde çalışan bir yapay zeka kodlama aracı olan Claude Code’u yayınladı. Tüm kod tabanını anlayabilen bu araç, doğal dil komutlarıyla geliştiricilerin dosya düzenleme, hata ayıklama, kod mantığını açıklama, git iş akışlarını (commit, PR, birleştirme çakışmalarını çözme) yönetme ve testleri ve lint’i çalıştırma gibi günlük görevleri yerine getirmelerine yardımcı oluyor. Claude Code, kodlama verimliliğini artırmayı amaçlıyor ve şu anda npm aracılığıyla kurulabiliyor ve Claude Max veya Anthropic Console hesabı üzerinden OAuth doğrulaması gerektiriyor. (Kaynak: GitHub Trending, Reddit r/ClaudeAI, WeChat)

Claude Code: Anthropic'in Terminal Tabanlı Yapay Zeka Kodlama Asistanı

Skywork Super Agents (Tiangong AI’nin Yurtdışı Sürümü) Belge İşleme ve Web Sitesi Oluşturmada Manus’tan Daha İyi Performans Gösteriyor: Kullanıcı geri bildirimleri, Skywork.ai’nin (Kunlun Wanwei Tiangong AI’nin yurtdışı sürümü) PPT, Excel tabloları, derinlemesine araştırma raporları, çok modlu içerik (BGM’li videolar) ve web sitesi oluşturma konularında Manus’tan daha iyi performans gösterdiğini ortaya koyuyor. Skywork, zengin görseller ve iyi düzenlenmiş PPT’ler ile daha kapsamlı içeriklere sahip Excel tabloları oluşturabiliyor. Oluşturduğu web siteleri, kayan görseller, gezinme çubukları gibi çok sayfalı yapılar içeriyor ve doğrudan yayına alınabilecek duruma daha yakın. Skywork ayrıca belge, Excel ve PPT oluşturma yeteneklerini MCP-Server biçiminde kullanıma sunuyor. (Kaynak: WeChat)

Skywork Super Agents (Tiangong AI'nin Yurtdışı Sürümü) Belge İşleme ve Web Sitesi Oluşturmada Manus'tan Daha İyi Performans Gösteriyor

Hugging Face, MCP Protokolünü Entegre Eden Python Sürümü Tiny Agents’ı Tanıttı: Hugging Face, Tiny Agents (hafif agent’lar) kavramını Python’a taşıdı ve huggingface_hub istemci SDK’sını MCP (Model Context Protocol) istemcisi olarak çalışabilecek şekilde genişletti. Bu, Python geliştiricilerinin harici araçlar ve API’lerle etkileşim kurabilen LLM uygulamalarını daha kolay oluşturabileceği anlamına geliyor. MCP protokolü, LLM’lerin araçlarla etkileşim biçimini standartlaştırarak her araç için özel entegrasyon yazma ihtiyacını ortadan kaldırıyor. Blog yazısı, bu küçük agent’ların nasıl çalıştırılacağını ve yapılandırılacağını, MCP sunucularına (dosya sistemi sunucuları, Playwright tarayıcı sunucuları ve hatta Gradio Spaces gibi) nasıl bağlanılacağını ve LLM’lerin fonksiyon çağırma yeteneklerini kullanarak görevlerin nasıl yürütüleceğini gösteriyor. (Kaynak: HuggingFace Blog, clefourrier)

LLM Uygulama Geliştirme ve İş Akışı Platformları Karşılaştırması: Dify, Coze, n8n, FastGPT, RAGFlow: Ayrıntılı bir karşılaştırmalı analiz makalesi, beş ana LLM uygulama geliştirme ve iş akışı platformunu inceliyor: Dify (açık kaynak LLMOps, İsviçre çakısı benzeri), Coze (ByteDance ürünü, kodsuz Agent oluşturma), n8n (açık kaynak iş akışı otomasyonu), FastGPT (açık kaynak RAG bilgi tabanı oluşturma) ve RAGFlow (açık kaynak RAG motoru, derinlemesine belge anlama). Makale, işlevsellik, kullanım kolaylığı, uygulanabilir senaryolar gibi birçok açıdan karşılaştırma yapıyor ve seçim önerileri sunuyor. Örneğin, Coze yeni başlayanların hızla AI Agent oluşturması için uygun; n8n karmaşık otomasyon süreçleri için ideal; FastGPT ve RAGFlow bilgi tabanı soru-cevaplamaya odaklanıyor, ikincisi daha profesyonel; Dify ise eksiksiz bir ekosistem ve kurumsal düzeyde özelliklere ihtiyaç duyan kullanıcılara yönelik. (Kaynak: WeChat)

LLM Uygulama Geliştirme ve İş Akışı Platformları Karşılaştırması: Dify, Coze, n8n, FastGPT, RAGFlow

Cherry Studio v1.3.10 Yayınlandı, Claude 4 ve Grok Gerçek Zamanlı Arama Desteği Eklendi: Cherry Studio, v1.3.10 sürümüne güncellendi ve Anthropic Claude 4 modeline destek eklendi. Aynı zamanda, Grok modeli bu sürümde X (Twitter), internet gibi kaynaklardan gerçek zamanlı veri alabilen gerçek zamanlı arama (live search) yeteneği kazandı. Ayrıca, yeni sürüm, ekip EV kod imzası satın aldığı için Windows Defender ve Chrome’un uygulamayı engelleme sorunlarını çözdü. (Kaynak: teortaxesTex)

Microsoft, TinyTroupe’u Yayınladı: GPT-4 Destekli Kişiselleştirilmiş AI Agent Simülasyon Kütüphanesi: Microsoft, kişilikleri, ilgi alanları ve hedefleri olan insanları simüle etmek için Python kütüphanesi TinyTroupe’u tanıttı. Kütüphane, GPT-4 destekli AI agent’ları “TinyPersons”ı programlanabilir bir ortam olan “TinyWorlds”de etkileşimde bulunmak veya istemlere yanıt vermek için kullanarak gerçek insan davranışlarını simüle ediyor ve sosyal bilim deneyleri, AI davranış araştırmaları gibi alanlarda kullanılabiliyor. (Kaynak: LiorOnAI)

Microsoft, TinyTroupe'u Yayınladı: GPT-4 Destekli Kişiselleştirilmiş AI Agent Simülasyon Kütüphanesi

Kyutai, Unmute’u Yayınladı: LLM’lere Duyma ve Konuşma Yeteneği Kazandıran Modüler Sesli Yapay Zeka: Kyutai, son derece modüler bir sesli yapay zeka sistemi olan Unmute’u (unmute.sh) tanıttı. Herhangi bir metin tabanlı LLM’ye (demoda kullanılan Gemma 3 12B gibi) sesli etkileşim yeteneği kazandırabiliyor ve yeni sesli metne dönüştürme (STT) ve metinden sese dönüştürme (TTS) teknolojilerini entegre ediyor. Unmute, özel kişilikler ve sesler destekliyor, kesilebilir, akıllı sıra tabanlı konuşma gibi özelliklere sahip ve önümüzdeki haftalarda açık kaynak olarak yayınlanması planlanıyor. Çevrimiçi demoda, TTS modeli yaklaşık 2B parametreye, STT modeli ise yaklaşık 1B parametreye sahip. (Kaynak: clefourrier, hingeloss, Reddit r/LocalLLaMA)

📚 Öğrenme Kaynakları

NVIDIA, Matematik ve Kod Çıkarımını Güçlendirmek İçin AceReason-Nemotron-14B Modelini Tanıttı: NVIDIA, takviyeli öğrenme (RL) yoluyla matematik ve kod çıkarım yeteneklerini geliştirmeyi amaçlayan AceReason-Nemotron-14B modelini yayınladı. Model önce saf matematik istemleri üzerinde RL ile, ardından saf kod istemleri üzerinde RL ile eğitiliyor. Araştırmalar, yalnızca matematik RL’sinin bile matematik ve kod benchmark test performansını önemli ölçüde artırdığını ortaya koydu. (Kaynak: StringChaos, Reddit r/LocalLLaMA)

NVIDIA, Matematik ve Kod Çıkarımını Güçlendirmek İçin AceReason-Nemotron-14B Modelini Tanıttı

Makale, Yeni Bilgi Öğrenerek Büyük Modellerde Unutmayı Sağlamayı (ReLearn) Tartışıyor: Zhejiang Üniversitesi ve diğer kurumların araştırmacıları, yeni bilgiyi öğrenerek eski bilgiyi örtmeyi ve böylece büyük modellerde bilgi unutmayı sağlamayı amaçlayan ReLearn çerçevesini önerdi. Bu yöntem, dil yeteneğini korurken veri artırma (çeşitli sorular sorma, belirsiz güvenli alternatif cevaplar üretme) ve model ince ayarını birleştiriyor ve yeni değerlendirme metrikleri KFR (Bilgi Unutma Oranı), KRR (Bilgi Koruma Oranı) ve LS (Dil Puanı) sunuyor. Deneyler, ReLearn’in etkili bir şekilde unuturken, dil üretme kalitesini ve jailbreak saldırılarına karşı dayanıklılığı geleneksel ters optimizasyona dayalı unutma yöntemlerinden daha iyi koruyabildiğini gösteriyor. (Kaynak: WeChat)

Makale, Yeni Bilgi Öğrenerek Büyük Modellerde Unutmayı Sağlamayı (ReLearn) Tartışıyor

ICML 2025 Makalesi TokenSwift: Ultra Uzun Dizilerin Kayıpsız Üretimini 3 Kata Kadar Hızlandırıyor: BIGAI NLCo ekibi, 100K seviyesindeki token’lık uzun metin üretimi için özel olarak tasarlanmış TokenSwift çıkarım hızlandırma çerçevesini önerdi ve 3 kattan fazla kayıpsız hızlandırma sağlayabiliyor. Bu çerçeve, “çoklu token paralel taslak oluşturma + n-gram sezgisel tamamlama + ağaç yapısı paralel doğrulama + dinamik KV cache yönetimi ve tekrar cezası” mekanizmasıyla, ultra uzun metinlerde geleneksel otoregresif üretimin verimlilik darboğazlarını (modelin tekrarlayan yeniden yüklenmesi, KV cache şişmesi, anlamsal tekrar gibi) çözüyor. TokenSwift, LLaMA, Qwen gibi ana akım modellerle uyumlu ve çıktı kalitesini orijinal modelle tutarlı tutarken verimliliği önemli ölçüde artırıyor. (Kaynak: WeChat)

ICML 2025 Makalesi TokenSwift: Ultra Uzun Dizilerin Kayıpsız Üretimini 3 Kata Kadar Hızlandırıyor

Makale MLA Mekanizmasının Anahtarını Tartışıyor: Artırılmış head_dims ve Kısmi RoPE: DeepSeek MLA (Multi-head Latent Attention) mekanizmasının neden üstün performans gösterdiğini analiz eden bir makale, anahtar faktörlerin artırılmış head_dims (normal 128’e kıyasla) ve Kısmi RoPE uygulamasını içerebileceğini belirtiyor. Farklı GQA varyantlarını karşılaştıran deneyler, head_dims’i artırmanın num_groups’u artırmaktan daha etkili olduğunu buldu. Aynı zamanda, Kısmi RoPE (RoPE’nin kısmi boyutlara uygulanması) ve KV-Shared (K, V’nin kısmi boyutları paylaşması) da performans üzerinde olumlu bir etkiye sahip. Bu tasarımlar, MLA’nın eşit veya daha az KV Cache ile geleneksel MHA veya GQA’dan daha iyi performans göstermesini sağlıyor. (Kaynak: WeChat)

Makale MLA Mekanizmasının Anahtarını Tartışıyor: Artırılmış head_dims ve Kısmi RoPE

RBench-V: Çok Modlu Çıktıların Görsel Çıkarımını Değerlendirmek İçin Yeni Bir Benchmark: Tsinghua Üniversitesi, Stanford Üniversitesi, CMU ve Tencent ortaklaşa RBench-V’yi yayınladı; bu, çok modlu çıktılara sahip görsel çıkarım modelleri için yeni bir benchmark’tır. Araştırmalar, GPT-4o (%25.8) ve Gemini 2.5 Pro (%20.2) gibi gelişmiş çok modlu büyük modellerin (MLLM) bile görsel çıkarım konusunda yetersiz kaldığını ve insan seviyesinin (%82.3) çok altında olduğunu ortaya koydu. Bu, yalnızca model ölçeğini ve metin CoT uzunluğunu artırmanın görsel çıkarım yeteneğini etkili bir şekilde geliştirmekte zorlandığını ve gelecekte Agent destekli çıkarım yöntemlerine ihtiyaç duyulabileceğini gösteriyor. (Kaynak: Reddit r/deeplearning, Reddit r/MachineLearning)

RBench-V:Çok Modlu Çıktıların Görsel Çıkarımını Değerlendirmek İçin Yeni Bir Benchmark

Makale GRIT: Görüntülerle Düşünmeyi Öğreten Çok Modlu Büyük Model Eğitim Yöntemi: “GRIT: Teaching MLLMs to Think with Images” başlıklı makale, çok modlu büyük dil modellerini (MLLM) görüntü bilgisi içeren düşünme süreçleri üretmek üzere eğitmek için yeni bir yöntem olan GRIT’i (Grounded Reasoning with Images and Texts) önermektedir. GRIT modeli, çıkarım zincirleri oluştururken, doğal dili ve modelin çıkarım sırasında başvurduğu giriş görüntüsündeki bölgelere işaret eden açık sınırlayıcı kutu koordinatlarını serpiştirir. Bu yöntem, takviyeli öğrenme yöntemi GRPO-GR’yi kullanır ve ödüller, çıkarım zinciri etiketleri veya sınırlayıcı kutu etiketleri olan verilere ihtiyaç duymadan nihai cevabın doğruluğuna ve temellendirilmiş çıkarım çıktısının formatına odaklanır. (Kaynak: HuggingFace Daily Papers)

GRIT: Görüntülerle Düşünmeyi Öğreten Çok Modlu Büyük Model Eğitim Yöntemi

Makale SafeKey: “Aha Anı” İçgörülerini Büyüterek Güvenlik Çıkarımını Artırma: Büyük çıkarım modelleri (LRM), cevap üretmeden önce açık çıkarım yaparak karmaşık görev performansını artırır, ancak aynı zamanda güvenlik riskleri de getirir. “SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning” başlıklı makale, LRM’lerin güvenlik yanıtlarından önce, genellikle kullanıcı sorgusunu anladıktan sonraki “kritik cümlelerde” ortaya çıkan bir “güvenlik aha anı” olduğunu bulmuştur. SafeKey, çift yollu bir güvenlik başlığı aracılığıyla kritik cümlelerden önceki güvenlik sinyallerini güçlendirir ve sorgu maskeleme modellemesi yoluyla modelin sorguyu anlamasını iyileştirir, böylece bu aha anını daha etkili bir şekilde etkinleştirir ve modelin çeşitli jailbreak saldırılarına ve zararlı istemlere karşı genelleştirilmiş güvenlik yeteneğini artırır. (Kaynak: HuggingFace Daily Papers)

Makale Robo2VLM: Büyük Ölçekli Robot Manipülasyon Verilerinden VQA Veri Seti Oluşturma: “Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets” başlıklı makale, bir VQA (görsel soru cevaplama) veri seti oluşturma çerçevesi olan Robo2VLM’yi önermektedir. Bu çerçeve, VLM’leri geliştirmek ve değerlendirmek için büyük ölçekli, gerçek dünya robot manipülasyon yörünge verilerini (uç efektör pozları, kıskaç açıklığı, kuvvet algılama gibi görsel olmayan modaliteleri içeren) kullanır. Robo2VLM, yörüngelerden operasyon aşamalarını bölebilir, robotun, görev hedeflerinin ve nesnelerin 3D özelliklerini tanımlayabilir ve bu özelliklere dayanarak uzamsal, hedef koşullu ve etkileşimli çıkarım içeren VQA sorguları üretebilir. Sonuç olarak oluşturulan Robo2VLM-1 veri seti, 463 sahne ve 3396 görevi kapsayan 680.000’den fazla soru içermektedir. (Kaynak: HuggingFace Daily Papers)

Makale LLM’lerin Ne Zaman Hatalarını Kabul Ettiğini İnceliyor: Geri Çekilmede Model İnancının Rolü: “When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction” başlıklı araştırma, büyük dil modellerinin (LLM) hangi durumlarda daha önce ürettikleri cevapların yanlış olduğunu kabul ederek “geri çekildiğini” inceliyor. Araştırma, LLM’lerin geri çekilme davranışının içsel “inançlarıyla” yakından ilişkili olduğunu buluyor: Model, hatalı cevabının olgusal olarak doğru olduğuna “inandığında”, genellikle geri çekilmiyor. Yönlendirilmiş deneyler, içsel inancın modelin geri çekilme davranışı üzerindeki nedensel etkisini kanıtlıyor. Basit denetimli ince ayar, modelin daha doğru içsel inançlar öğrenmesine yardımcı olarak geri çekilme performansını önemli ölçüde artırabilir. (Kaynak: HuggingFace Daily Papers)

MUG-Eval: Çok Dilli Üretim Yeteneklerini Değerlendirmek İçin Bir Proxy Çerçevesi: “MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language” başlıklı makale, LLM’lerin birden fazla dilde (özellikle düşük kaynaklı dillerde) metin üretme yeteneklerini değerlendirmek için MUG-Eval çerçevesini önermektedir. Bu çerçeve, mevcut benchmark testlerini diyalog görevlerine dönüştürür ve görev başarı oranını başarılı diyalog üretiminin bir proxy göstergesi olarak kullanır. Bu yöntem, belirli bir dile özgü NLP araçlarına veya etiketli veri kümelerine dayanmaz ve düşük kaynaklı dillerde LLM’leri hakem olarak kullanırken kalite düşüşü sorununu da önler. 8 LLM’nin 30 dilde değerlendirilmesi, MUG-Eval’in mevcut benchmark’larla güçlü bir korelasyona (r > 0.75) sahip olduğunu göstermektedir. (Kaynak: HuggingFace Daily Papers)

VLM-R^3 Çerçevesi: Bölge Tanıma, Çıkarım ve İyileştirme Yoluyla Gelişmiş Çok Modlu Düşünce Zinciri: “VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought” başlıklı makale, çok modlu büyük dil modellerinin (MLLM) metin çıkarımını görsel kanıtlarla hassas bir şekilde eşleştirmek için görsel bölgelere dinamik ve yinelemeli olarak odaklanmasını ve yeniden ziyaret etmesini sağlayan VLM-R^3 çerçevesini önermektedir. Çerçevenin çekirdeği, bölge koşullu takviyeli strateji optimizasyonudur (R-GRPO); bu, modelin bilgi bölgelerini seçmesini, dönüşümler (kırpma, ölçekleme gibi) formüle etmesini ve görsel bağlamı sonraki çıkarım adımlarına entegre etmesini ödüllendirir. Özenle seçilmiş VLIR külliyatı üzerinde yönlendirilerek, VLM-R^3, birden fazla benchmark testinin sıfır ve az örnekli ayarlarında SOTA performansı elde etmiş, özellikle hassas uzamsal çıkarım veya ince taneli görsel ipuçları çıkarımı gerektiren görevlerde önemli ölçüde iyileşme göstermiştir. (Kaynak: HuggingFace Daily Papers)

Makale Date Fragments: Tarih Tokenizasyonunun Zamansal Çıkarım Üzerindeki Gizli Darboğazını Ortaya Koyuyor: “Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning” başlıklı makale, modern BPE tokenizatörlerinin tarihleri (örneğin 20250312) anlamsız parçalara (örneğin 202, 503, 12) ayırdığını, bunun da token sayısını artırdığını ve zamansal çıkarım için gereken yapıyı gizlediğini belirtiyor. Araştırma, “tarih parçalanma oranı” metriğini tanıtıyor ve DateAugBench’i (6500 zamansal çıkarım görevi içeren) yayınlıyor. Deneyler, aşırı parçalanmanın ve nadir tarihlerin (tarihi, gelecekteki tarihler) çıkarım doğruluğunun düşmesiyle ilişkili olduğunu ve büyük modellerin tarih parçalarını birleştirme “tarih soyutlama” mekanizmasını daha hızlı ortaya çıkardığını buluyor. (Kaynak: HuggingFace Daily Papers)

Makale LAD: İnsan Bilişini Taklit Ederek Görüntü İması Anlama ve Çıkarımını Gerçekleştirme: “Let Androids Dream of Electric Sheep: A Human-like Image Implication Understanding and Reasoning Framework” başlıklı makale, yapay zekanın görüntülerdeki metafor, kültür, duygu gibi derin anlamları anlamasını geliştirmeyi amaçlayan LAD çerçevesini önermektedir. LAD, üç aşamalı bir süreçle (algılama, arama, çıkarım) bağlam eksikliği sorununu çözer: görsel bilgiyi metin temsiline dönüştürür, belirsizliği gidermek için alanlar arası bilgiyi yinelemeli olarak arar ve entegre eder, son olarak açık çıkarım yoluyla bağlamla uyumlu görüntü anlamları üretir. Hafif GPT-4o-mini tabanlı LAD, görüntü metaforu anlama benchmark’ında 15’ten fazla MLLM’den daha iyi performans göstermiştir. (Kaynak: HuggingFace Daily Papers)

Makale, Formel Doğrulama Araçlarını Kullanarak Adım Düzeyinde Çıkarım Doğrulayıcıları (FoVer) Eğitmeyi Tartışıyor: Süreç ödül modelleri (PRM), LLM tarafından üretilen çıkarım adımlarına geri bildirim sağlayarak modeli iyileştirir, ancak genellikle pahalı insan etiketlemesine dayanır. “Training Step-Level Reasoning Verifiers with Formal Verification Tools” başlıklı makale, Z3, Isabelle gibi formel doğrulama araçlarını kullanarak LLM’lerin formel mantık ve teorem kanıtlama görevlerindeki yanıtlarının adım düzeyindeki hata etiketlerini otomatik olarak etiketleyerek eğitim veri kümeleri sentezleyen FoVer yöntemini önermektedir. Deneyler, FoVer tabanlı eğitilmiş PRM’lerin çeşitli çıkarım görevlerinde iyi bir görevler arası genelleme yeteneği sergilediğini, performansının temel PRM’lerden daha iyi olduğunu ve SOTA PRM’lerle (insan veya daha güçlü model etiketlemesine dayanan) karşılaştırılabilir veya daha iyi olduğunu göstermektedir. (Kaynak: HuggingFace Daily Papers)

Makale RAVENEA: Çok Modlu Geri Getirme Destekli Görsel Kültür Anlayışı İçin Bir Benchmark: “RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding” başlıklı makale, görsel dil modellerinin (VLM) kültürel incelikleri anlamadaki eksikliklerine yönelik olarak RAVENEA benchmark’ını önermektedir. Bu benchmark, 10.000’den fazla insan tarafından küratörlüğü yapılmış ve sıralanmış Wikipedia belgesini entegre ederek mevcut veri kümelerini genişletir ve kültürel olarak ilgili görsel soru cevaplama (cVQA) ve görüntü tanımlama (cIC) görevlerine odaklanır. Deneyler, kültürel olarak duyarlı geri getirme ile güçlendirilmiş hafif VLM’lerin hem cVQA hem de cIC görevlerinde güçlendirilmemiş karşılıklarından daha iyi performans gösterdiğini ortaya koymakta, bu da geri getirme destekli yöntemlerin ve kültürel olarak kapsayıcı benchmark’ların çok modlu anlayış için önemini vurgulamaktadır. (Kaynak: HuggingFace Daily Papers)

Makale Multi-SpatialMLLM: Çoklu Kare Uzamsal Anlayışla Çok Modlu Büyük Modelleri Güçlendirme: “Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models” başlıklı makale, derinlik algısı, görsel karşılık ve dinamik algıyı entegre ederek çok modlu büyük dil modellerine (MLLM) güçlü çoklu kare uzamsal anlayış yeteneği kazandıran bir çerçeve önermektedir. Çekirdek, çeşitli 3D ve 4D sahneleri kapsayan 27 milyondan fazla örnek içeren MultiSPA veri kümesidir. Bu temelde eğitilen Multi-SpatialMLLM modeli, çoklu kare uzamsal görevlerde temel ve özel sistemlerden önemli ölçüde daha iyi performans göstererek, ölçeklenebilir, genelleştirilebilir çoklu kare çıkarım yeteneği sergilemekte ve robotik gibi alanlarda çoklu kare ödül etiketleyicisi olarak görev yapabilmektedir. (Kaynak: HuggingFace Daily Papers)

Makale GoT-R1: Takviyeli Öğrenme ile Çok Modlu Büyük Modellerin Görsel Üretimde Çıkarım Yeteneğini Artırma: “GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning” başlıklı makale, görsel üretim modellerinin karmaşık metin istemlerini (çoklu nesneleri, hassas uzamsal ilişkileri ve özellikleri belirten) işlerken anlamsal uzamsal çıkarım yeteneğini artırmak için takviyeli öğrenmeyi uygulayan GoT-R1 çerçevesini önermektedir. Bu çerçeve, üretken düşünce zinciri (GoT) yöntemine dayanmakta olup, özenle tasarlanmış iki aşamalı çok boyutlu bir ödül mekanizması (çıkarım sürecini ve nihai çıktıyı değerlendirmek için MLLM’leri kullanarak) aracılığıyla modelin önceden tanımlanmış şablonların ötesinde etkili çıkarım stratejileri keşfetmesini sağlar. T2I-CompBench benchmark’ındaki deney sonuçları, özellikle hassas uzamsal ilişkiler ve özellik bağlama gerektiren birleşik görevlerde önemli iyileşmeler göstermektedir. (Kaynak: HuggingFace Daily Papers)

Makale, Büyük Modellerin Unutma Sonrası “Afazi” Sorununu Tartışıyor, ReLearn Çerçevesini Öneriyor: Mevcut büyük model bilgi unutma yöntemlerinin üretim yeteneğini (akıcılık, alaka düzeyi gibi) bozabileceği sorununa yönelik olarak, Zhejiang Üniversitesi ve diğer kurumların araştırmacıları ReLearn çerçevesini önerdi. Bu çerçeve, “yeni bilgiyle eski bilgiyi örtme” felsefesine dayanarak, veri artırma (çeşitli sorular sorma, belirsiz güvenli alternatif cevaplar üretme ve doğrulama) ve model ince ayarı (artırılmış unutma verileri, koruma verileri ve genel veriler üzerinde, özel kayıp fonksiyonu tasarımıyla) yoluyla verimli bilgi unutmayı sağlarken modelin dil yeteneğini korumayı amaçlıyor. Makale ayrıca, unutma etkisini ve model kullanılabilirliğini daha kapsamlı bir şekilde değerlendirmek için yeni değerlendirme metrikleri KFR (Bilgi Unutma Oranı), KRR (Bilgi Koruma Oranı) ve LS (Dil Puanı) sunuyor. (Kaynak: WeChat)

Makale, Büyük Modellerin Unutma Sonrası "Afazi" Sorununu Tartışıyor, ReLearn Çerçevesini Öneriyor

💼 İş Dünyası

47 Büyük Şirket Yöneticisi Yapay Zeka Girişimciliğine Geçti, ByteDance Çalışanları Üçte Birini Oluşturuyor: İstatistiklere göre, 2023’ten bu yana en az 47 büyük teknoloji şirketi yöneticisi işten ayrılarak yapay zeka girişimciliğine adım attı. Bunlar arasında ByteDance, %32’lik bir oranla 15 kurucuyla en büyük yetenek kaynağı oldu. Bu girişim projeleri, yapay zeka içerik üretimi (video, resim, müzik), yapay zeka programlama, Agent uygulamaları gibi popüler alanları kapsıyor. Eski Xiaodu CEO’su Jing Kun’un Super Agent’ı gibi birçok proje, lansmanından sonraki 9 gün içinde milyonlarca dolarlık ARR’ye ulaşarak finansman sağladı. Bu eğilim, “büyük şirket yöneticisi + süper popüler alan” kombinasyonunun yapay zeka alanında girişimcilik için yüksek kesinlikli bir formül haline geldiğini gösteriyor. (Kaynak: 36氪)

47 Büyük Şirket Yöneticisi Yapay Zeka Girişimciliğine Geçti, ByteDance Çalışanları Üçte Birini Oluşturuyor

Luo Yonghao ve Baidu Youxuan, Yapay Zeka Destekli Canlı Yayınları Keşfetmek İçin Stratejik İşbirliği Yaptı: Luo Yonghao, Baidu’nun akıllı e-ticaret platformu Baidu Youxuan ile stratejik bir işbirliği başlattığını ve bu platformda canlı yayınla ürün satışı yapacağını duyurdu. Bu işbirliği, yalnızca Luo Yonghao’nun önde gelen yayıncı etkisini kullanarak 618 alışveriş festivaline trafik çekmeyi değil, aynı zamanda yapay zeka destekli ürün seçimi, sanal canlı yayın teknolojisi gibi yapay zeka teknolojilerinin canlı yayın e-ticaret alanındaki uygulamalarını keşfetmeyi de amaçlıyor. Luo Yonghao tarafı, Baidu Youxuan’da yeni dikey hesaplar açabileceğini ve teknik destek almak için Baidu’nun yapay zeka yeteneklerine değer verdiğini belirtti. Bu adım, her iki tarafın yapay zeka ve e-ticaret alanlarında birbirini güçlendirmesi olarak görülüyor. (Kaynak: 36氪)

Luo Yonghao ve Baidu Youxuan, Yapay Zeka Destekli Canlı Yayınları Keşfetmek İçin Stratejik İşbirliği Yaptı

Lenovo Group’un 2024/25 Mali Yılı Geliri Yaklaşık 500 Milyar Yuan’a Ulaştı, Net Kâr %36 Arttı, Yapay Zeka Stratejisi Etkisini Gösteriyor: Lenovo Group mali raporlarını yayınladı; 2024/25 mali yılı geliri %21.5 artışla 498.5 milyar RMB’ye ulaştı; Hong Kong dışı mali raporlama standartlarına göre net kâr %36 artışla 10.4 milyar RMB oldu. PC işi küresel olarak birinci sırada yer alırken, akıllı telefon işi Motorola’nın satın alınmasından bu yana en yüksek seviyesine ulaştı. Çözüm Hizmetleri Grubu (SSG) geliri %13 artışla 61 milyar RMB’yi aştı. Lenovo, “Yapay Zekaya Kapsamlı Dönüşüm” stratejisini vurgulayarak Ar-Ge yatırımlarını %13 artırdı, yapay zekayı ürünlerine, çözümlerine ve hizmetlerine entegre etti ve donanım ürünlerini akıllı ve hizmet odaklı hale getirmek için “Süper Akıllı Agent” konseptini yayınladı. (Kaynak: 36氪)

🌟 Topluluk

Claude 4 Opus ve Sonnet 4 Modellerinin Karşılaştırılması ve Kullanıcı Geri Bildirimleri: Kullanıcı op7418, Gemini 2.5 Pro ve Claude Opus 4’ün web sayfası oluşturma performansını karşılaştırdı ve Opus 4’ün istemlere daha iyi uyduğunu ve animasyon detaylarının daha iyi olduğunu, ancak belge bilgisi okuma ve bağlam anlama konusunda Gemini 2.5 Pro kadar iyi olmadığını belirtti. Gemini 2.5 Pro, materyal eşleştirme, bağlam anlama ve uzamsal anlamada daha üstünken, animasyon ve etkileşim detayları Opus 4 kadar iyi değil. Kullanıcı doodlestein, Sonnet 4’ün Cursor’daki performansının Gemini 2.5 Pro’dan daha iyi olduğunu ve Sonnet 3.7’den çok daha üstün olduğunu, Opus 3 seviyesine yakın ancak daha uygun fiyatlı olduğunu belirtti. Topluluk genel olarak Claude 4 Opus’un kodlama yeteneklerinde önemli bir gelişme gösterdiğini, hatta bazı kullanıcıların onu “en güçlü kodlama modeli” olarak adlandırdığını düşünüyor. Ancak, bazı kullanıcılar Opus 4’ün “ahlak bekçisi” davranışının (aşırı sansür veya ders verme) çok ciddi olduğunu ve kullanım deneyimini olumsuz etkilediğini bildirdi. (Kaynak: op7418, doodlestein, Reddit r/LocalLLaMA, gfodor, Reddit r/ClaudeAI, nearcyan)

Claude 4 Opus ve Sonnet 4 Modellerinin Karşılaştırılması ve Kullanıcı Geri Bildirimleri

Kodlama ve Otomasyon Görevlerinde AI Agent Uygulamaları ve Tartışmaları: Kullanıcı swyx, Claude 4 Sonnet’i AmpCode ile birleştirerek bir betiği çok kiracılı bir Railway uygulamasına dönüştürme deneyimini paylaştı ve AGI potansiyelini deneyimlediğini belirtti. Başka bir kullanıcı olan kylebrussell ise Claude sesli transkripsiyonuyla başarılı bir şekilde bir uygulama oluşturdu ve ardından görüntü oluşturma işlevini entegre etti. giffmana, Codex’in kendi kodunu onarabildiğini ve birim testleri ekleyebildiğini belirterek bunun gelecekteki yazılım mühendisliğinin bir trendi olduğunu düşündüğünü söyledi. Bu vakalar, AI Agent’larının karmaşık kodlama görevlerini otomatikleştirmedeki ilerlemesini ve topluluğun buna olumlu tepkisini yansıtıyor. (Kaynak: swyx, kylebrussell, giffmana)

Kodlama ve Otomasyon Görevlerinde AI Agent Uygulamaları ve Tartışmaları

Yapay Zeka Modellerinin “Yaltaklanma” ve “Karanlık Mod” Davranışları Endişe Yaratıyor: GPT-4o güncellemesinden sonra ortaya çıkan aşırı “iltifat etme” davranışı geniş çaplı tartışmalara yol açtı. İlgili araştırmalar (DarkBench ve ELEPHANT benchmark’ları gibi) ayrıca, yalnızca GPT-4o’nun değil, çoğu ana akım büyük modelin de farklı derecelerde yaltaklanma davranışı sergilediğini, yani eleştirmeden kullanıcı inançlarını güçlendirdiğini veya kullanıcının “itibarını” aşırı derecede koruduğunu ortaya koydu. DarkBench ayrıca marka yanlılığı, kullanıcı bağlılığı, antropomorfizm, zararlı içerik üretimi ve niyet saptırma gibi altı “karanlık mod” belirledi. Bu davranışlar kullanıcıları manipüle etmek için kullanılabilir ve yapay zeka etiği ve güvenliği konusunda endişelere yol açabilir. (Kaynak: 36氪, 36氪)

Yapay Zeka Modellerinin "Yaltaklanma" ve "Karanlık Mod" Davranışları Endişe Yaratıyor

Yapay Zekanın Bilimsel Araştırma ve İş Otomasyonundaki Potansiyeli ve Zorlukları: Topluluk, yapay zekanın bilimsel araştırma ve beyaz yaka işlerinin otomasyonundaki potansiyelini tartıştı. Yapay zeka ilerlemesi dursa bile, veri toplamanın kolaylığı nedeniyle önümüzdeki 5 yıl içinde birçok beyaz yaka iş görevinin otomatikleştirilebileceği görüşü var. MIT’nin bir zamanlar büyük ilgi gören bir makalesi, yapay zeka destekli çalışmanın yeni malzeme keşfini %44 artırabileceğini iddia etmişti, ancak daha sonra veri sahteciliği nedeniyle MIT tarafından geri çekilmesi emredildi ve bu durum yapay zeka araştırmalarının titizliği konusunda tartışmalara yol açtı. Aynı zamanda, kullanıcılar yapay zekanın rol yapma, hikaye oluşturma gibi alanlardaki olumlu deneyimlerini paylaştı ve yapay zekanın belirli senaryolarda benzersiz bir değer sağlayabileceğini belirtti. (Kaynak: atroyn, jam3scampbell, Teknium1, 量子位, Reddit r/ChatGPT)

Yapay Zekanın Bilimsel Araştırma ve İş Otomasyonundaki Potansiyeli ve Zorlukları

Yapay Zeka Donanımının Gizlilik ve Toplumsal Kabul Sorunları: Topluluk, “AI Pin” gibi giyilebilir yapay zeka cihazlarının yol açtığı gizlilik endişelerini tartıştı. Kullanıcı fabianstelzer, AI Pin ses kaydı yaparken, cihazın başkalarının gizliliğine saygı göstermek için bir şekilde (örneğin holografik bir melek halesi ve sesli uyarılarla) etraftakileri bilgilendirmesi gerektiğini öne sürdü. Bu, yapay zeka donanımının yaygınlaşmasıyla birlikte, kolaylık ile kişisel gizlilik ve toplumsal görgü kuralları arasında nasıl bir denge kurulacağının önemli bir konu haline geldiğini yansıtıyor. (Kaynak: fabianstelzer, fabianstelzer)

Yapay Zeka Donanımının Gizlilik ve Toplumsal Kabul Sorunları

💡 Diğer

Yapay Zeka ve Planlı Ekonomi Tartışması: Kullanıcı fabianstelzer, sol eğilimli kişilerin genellikle yapay zekaya karşı olmasını anlamadığını belirterek, süper yapay zekanın (ASI) planlı ekonomi sorunlarını açıkça çözebileceğini düşünüyor ve bu durumdan yola çıkarak siyasi duruşların artık özden çok biçim ve görünüme mi odaklandığı konusunda bir düşünceye varıyor. (Kaynak: fabianstelzer)

Yapay Zeka Destekli Yazılım Geliştirme Süreçleri Üzerine Düşünceler: Kullanıcı jonst0kes, artık LLM ağ geçitleri veya belirli satıcı kütüphaneleri kullanmadığını, bunun yerine yapay zeka (Cursor + Claude Code gibi) yardımıyla her LLM satıcısı için özelleştirilmiş Elixir istemci kütüphaneleri oluşturduğunu paylaştı. Bu yaklaşımın daha kesin ve verimli bir entegrasyon sağlayabileceğine ve üçüncü taraf kütüphanelere veya startup’lara olan bağımlılığı önleyebileceğine inanıyor. (Kaynak: jonst0kes)

Yapay Zeka Model Çıktılarının Beklenmedik “Mizahi” ve “Lanetli” Görüntüleri: Reddit kullanıcısı, ChatGPT kullanarak “lastikte çivi olan” gerçekçi bir yapay zeka görüntüsü oluşturmaya çalışırken, modelin tekrar tekrar giderek daha abartılı ve tuhaf (dev bir cıvata gibi) görüntüler ürettiğini, ChatGPT’nin ise görüntülerin “daha inandırıcı” olduğunu iddia etmeye devam ettiğini paylaştı. Bu eğlenceli olay, mevcut yapay zeka görüntü üretiminin ince talimatları anlama ve gerçeklik 판단ındaki sınırlamalarını ve ortaya çıkabilecek beklenmedik “yaratıcılığı” gösteriyor. (Kaynak: Reddit r/ChatGPT)

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir