Anahtar Kelimeler:Gemini 2.5, AI modeli, çok modlu, MoE mimarisi, pekiştirmeli öğrenme, açık kaynak modeli, AI Ajanı, veri sentezi, Gemini 2.5 Flash-Lite, seyrek MoE mimarisi, GRA çerçevesi, MathFusion matematik çözme, AI video oluşturma modeli

🔥 Odak Noktası

Google Gemini 2.5 serisi modellerinin resmi lansmanı ve teknik raporunun yorumlanması: Google, Gemini 2.5 Pro ve 2.5 Flash modellerinin kararlı çalışma aşamasına girdiğini duyurdu ve hafif bir önizleme sürümü olan 2.5 Flash-Lite’ı piyasaya sürdü. Flash-Lite, programlama, matematik, çıkarım gibi birçok alanda 2.0 Flash-Lite’ı geride bırakıyor, daha düşük gecikmeye sahip ve girdi fiyatı milyon token başına sadece 0,1 ABD doları olup, yüksek maliyet etkinliğine sahip yapay zeka hizmetleri sunmayı amaçlıyor. Teknik rapor, Gemini 2.5 serisinin seyrek MoE mimarisini kullandığını, doğal olarak çok modlu girdiyi ve milyonlarca token’lık bağlamı desteklediğini ve TPU v5p üzerinde eğitildiğini gösteriyor. Raporda ayrıca Gemini 2.5 Pro’nun Pokémon oynarken, Pokémon’un ölmek üzere olduğu durumlarda insan benzeri bir “panik” tepkisi göstererek çıkarım performansının düştüğüne dikkat çekiliyor; bu da karmaşık yapay zeka sistemlerinin baskı altındaki davranış biçimlerini ortaya koyuyor. (Kaynak: 新智元, 量子位, 机器之心, _philschmid, OriolVinyalsML, scaling01, osanseviero, YiTayML, GoogleDeepMind, demishassabis, JeffDean, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA)

Google'ın en güçlü modeli nihayet piyasada, en hızlı hafif sürümü maliyet etkinliğiyle rekabet ediyor, fiyatı milyon token başına 0,7 yuan'a düşüyor, teknik rapor yorumlaması

OpenAI ve Microsoft ilişkileri gergin, aynı zamanda Savunma Bakanlığı’ndan 200 milyon dolarlık sözleşme aldı: OpenAI ve Microsoft arasındaki işbirliği ilişkisinde, OpenAI’nin kod startup’ı Windsurf’ü satın alma şartları ve OpenAI’nin kâr amaçlı bir şirkete dönüşmesinin ardından Microsoft’un hisse oranı etrafında dönen çatlaklar ortaya çıktı. OpenAI, Microsoft’un Windsurf’ün fikri mülkiyetini almasını istemiyor ve Microsoft’un yapay zeka ürünleri ve hesaplama kaynakları üzerindeki kontrolünden kurtulmaya çalışıyor, hatta antitröst davası açmayı düşünüyor. Aynı zamanda OpenAI, ABD Savunma Bakanlığı’ndan 200 milyon dolar değerinde bir sözleşme aldı; bu sözleşme kapsamında tıbbi hizmetleri iyileştirmek, veri incelemesini basitleştirmek ve siber savunma gibi ulusal güvenlik görevlerini desteklemek için yapay zeka yetenekleri ve araçları sağlayacak. Bu, OpenAI’nin savunma alanındaki daha fazla genişlemesini işaret ediyor. (Kaynak: 新智元, MIT Technology Review, Reddit r/LocalLLaMA)

Yapay zeka mermileri namluda, OpenAI ABD Savunma Bakanlığı'ndan 200 milyon dolarlık büyük bir sipariş aldı, Microsoft'a "ateş açmayı" planlıyor

Sam Altman’ın son röportajı: Yapay zeka yeni bilimleri otonom olarak keşfedecek, ideal donanım “AI yoldaşı”: OpenAI CEO’su Sam Altman, kardeşi Jack Altman ile yaptığı bir söyleşide, önümüzdeki beş ila on yıl içinde yapay zekanın sadece bilimsel araştırma verimliliğini artırmakla kalmayıp, özellikle astrofizik gibi veri yoğun alanlarda yeni bilimleri otonom olarak keşfedeceğini öngördü. İnsansı robotların mekanik mühendislik açısından zorluklarla karşılaşsa da sonunda gerçekleştirileceğine inanıyor. Süper zekanın getireceği toplumsal etkilere gelince, insanların uyum sağlama yeteneğinin güçlü olduğunu ve yeni iş rolleri yaratacağını düşünüyor. OpenAI’nin ideal tüketici ürünü, her yerde hayata entegre olan bir “AI yoldaşı”. Ayrıca, eksiksiz bir “AI fabrikası” tedarik zinciri kurmanın önemini vurguladı ve Meta’nın yüksek maaşla personel ayartmasına, OpenAI’nin yenilikçi kültürü ve misyon duygusunun daha çekici olduğunu belirterek yanıt verdi. (Kaynak: AI前线, APPSO, karpathy)

Sam Altman'ın son kapsamlı söyleşisi: İdeal donanım biçimi AI yoldaşı, istihdam üzerindeki etki o kadar da korkunç değil

Essential AI, 24 trilyon token’lık ön eğitim veri kümesi Essential-Web v1.0’ı yayınladı: Essential AI, Common Crawl temel alınarak oluşturulan ve konu, sayfa türü, karmaşıklık ve kalite gibi 12 boyutu kapsayan zengin belge düzeyinde meta veri etiketleriyle birlikte 24 trilyon token içeren ön eğitim ağı veri kümesi Essential-Web v1.0’ı yayınladı. Bu etiketler, Qwen2.5-32B-Instruct çıktısı üzerinde ince ayar yapılmış 0.5B parametreli bir model olan EAI-Distill-0.5b tarafından oluşturuldu. Essential AI, basit SQL benzeri filtreleme yoluyla bu veri kümesinin matematik, web kodu, STEM ve tıp gibi alanlarda özel boru hatlarıyla karşılaştırılabilir ve hatta onları aşan veri kümeleri üretebileceğini belirtti. Veri kümesi, Hugging Face’te apache-2.0 lisansıyla yayınlandı. (Kaynak: ClementDelangue, andrew_n_carr, sarahookr, saranormous, stanfordnlp, arankomatsuzaki, huggingface)

Essential AI, 24 trilyon token'lık ön eğitim veri kümesi Essential-Web v1.0'ı yayınladı

🎯 Gelişmeler

MiniMax, uzun bağlam ve Agent yeteneklerine odaklanan çıkarım modeli MiniMax-M1’i yayınladı: MiniMax, MoE mimarisine ve hibrit dikkat mekanizması Lightning Attention’a dayanan ve yeni bir pekiştirmeli öğrenme algoritması olan CISPO’yu kullanan kendi geliştirdiği metin çıkarım modeli MiniMax-M1’i piyasaya sürdü. M1, 1 milyon token bağlam girdisini ve 80k token çıktısını destekliyor, uzun bağlam anlama ve Agent araç kullanımı konularında öne çıkıyor ve OpenAI-MRCR ile LongBench-v2 gibi kıyaslama testlerinde çoğu açık kaynaklı modeli geride bıraktığı ve Gemini 2.5 Pro’ya yaklaştığı iddia ediliyor. M1’in eğitim maliyeti nispeten düşük olup, 512 adet H800 GPU üzerinde 3 haftada pekiştirmeli öğrenme eğitimini tamamlayabiliyor. MiniMax aynı zamanda beş günlük MiniMaxWeek’i başlattığını duyurdu ve bu süre zarfında daha fazla çok modlu model gelişmesini yayınlayacak. (Kaynak: 36氪)

MiniMax-M1 sahneye çıkıyor, MiniMax bir kez daha model odaklı bir yapay zeka şirketi olduğunu kanıtlıyor

Moonshot AI Kimi-Dev-72B açık kaynak oldu, SWE-bench performansı mükemmel ancak Agentic senaryolarda farklılıklar var: Moonshot AI (月之暗面), 72B parametreli kodlama büyük modeli Kimi-Dev-72B’yi açık kaynak olarak yayınladı ve SWE-bench Verified kıyaslama testinde %60.4 doğruluk oranı elde ederek açık kaynaklı modeller arasında öne çıktı. Ancak, topluluk üyeleri OpenHands gibi Agentic (akıllı ajan) çerçeveler altında test ettiklerinde doğruluk oranının %17’ye düştüğünü tespit ettiler. Bu farklılık, modelin farklı değerlendirme paradigmaları altındaki performans farklılıklarını, özellikle Agentic (çok adımlı çıkarım ve araç çağırmaya dayalı) ve Agentless (modelin ham çıktısını doğrudan değerlendiren) yöntemler arasındaki farkı ortaya koyuyor. Bu, değerlendirme yöntemlerinin modelin gerçek yeteneklerini yansıtması ve Agentic senaryoların modelin sağlamlığına yönelik daha yüksek gereksinimleri olduğunu vurguluyor. (Kaynak: huggingface, gneubig, tokenbender)

Moonshot AI Kimi-Dev-72B açık kaynak oldu, SWE-bench performansı mükemmel ancak Agentic senaryolarda farklılıklar var

DeepMind, film yapımını keşfetmek için yapay zeka modeli Veo’yu kullanarak yönetmen Darren Aronofsky ile işbirliği yapıyor: Google DeepMind, ünlü film yapımcısı Darren Aronofsky ve onun kurduğu hikaye anlatımı şirketi Primordial Soup ile işbirliği yaparak, üretici video modeli Veo gibi yapay zeka araçlarının yaratıcı ifadede kullanımını keşfedeceklerini duyurdu. İki tarafın işbirliğiyle yapılan ilk film olan “Ancestra” (Eliza McNitt tarafından yönetildi), Tribeca Film Festivali’nde prömiyerini yaptı ve geleneksel film yapım tekniklerini Veo tarafından üretilen video içeriğiyle birleştiriyor. Bu işbirliği, yapay zekanın film sanatı alanındaki yenilikçiliği teşvik etmeyi ve yapay zekanın insan yaratıcılığını nasıl destekleyip geliştirebileceğini keşfetmeyi amaçlıyor. (Kaynak: demishassabis)

Hailuo AI, 10 saniyelik 1080P video üretimini destekleyen 02 video modelini yayınladı: Hailuo AI (MiniMax), video üretim modeli “Hailuo 02”yi piyasaya sürdü ve şu anda test için açık. Bu model, 10 saniyeye kadar 1080P yüksek çözünürlüklü video üretimini destekliyor ve talimatları takip etme ve aşırı fiziksel etkileri (akrobasi gösterileri gibi) işleme konusunda üstün performans gösterdiğini iddia ediyor. Resmi olarak yayınlanan demolara göre, video kalitesi yüksek, detaylar zengin ve hareket tutarlılığı iyi. Bu, MiniMax’ın çok modlu alanda, özellikle video üretim teknolojisinde bir başka önemli ilerlemesi olup, yüksek kaliteli ve uygun maliyetli video üretim çözümleri sunmayı amaçlıyor. (Kaynak: op7418, TomLikesRobots, jeremyphoward, karminski3)

Hailuo AI, 10 saniyelik 1080P video üretimini destekleyen 02 video modelini yayınladı

Krea AI, estetik kontrol ve görüntü kalitesini vurgulayan Krea 1 görüntü modelinin genel beta sürümünü yayınladı: Krea AI, ilk görüntü modeli Krea 1’in genel beta aşamasına girdiğini ve kullanıcıların ücretsiz olarak deneyebileceğini duyurdu. Bu model, @bfl_ml ile işbirliği içinde eğitilmiş olup, üstün estetik kontrol ve görüntü kalitesi sunmayı amaçlamaktadır. Krea 1’in bir özelliği, doğrudan 4K çözünürlükte görüntüler üretebilmesi ve üretim hızının yüksek olmasıdır. Kullanıcılar, modeli deneyimlemek için Hugging Face’teki krea alanına erişebilirler. (Kaynak: ClementDelangue, robrombach, multimodalart, op7418, timudk)

Krea AI, Krea 1 görüntü modelinin genel beta sürümünü yayınladı, estetik kontrol ve görüntü kalitesini vurguluyor

Infini-AI Lab, uyarlanabilir kayıpsız paralel üretim için Multiverse çerçevesini tanıttı: Infini-AI Lab, uyarlanabilir ve kayıpsız paralel üretimi destekleyen Multiverse adlı yeni bir üretici modelleme çerçevesini yayınladı. Multiverse’in, AIME24 ve AIME25 kıyaslama testlerinde sırasıyla %54 ve %46 puan alan ilk açık kaynaklı otoregresif olmayan model olduğu iddia ediliyor. Bu gelişme, büyük ölçekli metin veya kod üretimi gibi verimli, yüksek kaliteli paralel içerik üretimi gerektiren uygulama senaryoları için yeni çözümler sunabilir. (Kaynak: behrouz_ali, VictoriaLinML)

NVIDIA, akış grafiği damıtma teknolojisini genişleten Align Your Flow’u yayınladı: Nvidia, sürekli zamanlı akış grafiği damıtmasını ölçeklendirmek için kullanılan bir teknik olan Align Your Flow’u tanıttı. Bu yöntem, difüzyon modelleri ve akış modelleri gibi çok adımlı örnekleme gerektiren üretici modelleri verimli tek adımlı üreticilere damıtmayı amaçlarken, mevcut yöntemlerin adım sayısı arttıkça performans düşüşü sorununu aşmayı hedefliyor. Yeni sürekli zamanlı hedefler ve eğitim teknikleri sayesinde Align Your Flow, görüntü üretimi kıyaslama testlerinde lider az adımlı üretim performansı elde etti. (Kaynak: _akhaliq)

NVIDIA, akış grafiği damıtma teknolojisini genişleten Align Your Flow'u yayınladı

OpenAI, GPT-4.5 Preview API kullanımdan kaldırma planını ilerletiyor, geliştiricilerin dikkatini çekiyor: OpenAI, geliştiricilere gönderdiği bir e-postayla GPT-4.5 Preview sürümünün 14 Temmuz 2025’te API’lerinden kaldırılacağını doğruladı. Resmi açıklamaya göre bu adım, Nisan ayında GPT-4.1 yayınlandığında duyurulmuştu ve GPT-4.5 her zaman deneysel bir ürün olarak kalmıştı. Bireysel kullanıcılar ChatGPT arayüzü üzerinden seçmeye devam edebilse de, API’ye bağımlı geliştiricilerin kısa süre içinde başka modellere geçiş yapması gerekecek. Bu durum, özellikle GPT-4.5 API’sinin yüksek fiyatlandırması göz önüne alındığında, bazı geliştiriciler arasında hesaplama maliyetleri ve model yineleme stratejileri hakkında tartışmalara yol açtı. OpenAI, geliştiricilere GPT-4.1 gibi modellere yönelmelerini öneriyor. (Kaynak: 36氪, 36氪)

OpenAI, GPT-4.5 Preview API kullanımdan kaldırma planını ilerletiyor, geliştiricilerin dikkatini çekiyor

Hugging Face, optimize edilmiş kernel kullanımını basitleştirmek için Kernel Hub’ı başlattı: Hugging Face, Hugging Face Hub’daki tüm modeller için kullanımı kolay optimize edilmiş kerneller sağlamayı amaçlayan Kernel Hub’ı başlattı. Kullanıcılar, kendi CUDA kernellerini yazmak zorunda kalmadan bu kernelleri doğrudan kullanabilirler. Bu, geliştiricileri optimize edilmiş kernelleri katkıda bulunmaya ve paylaşmaya teşvik eden, model çalıştırma verimliliğini artırmayı amaçlayan topluluk odaklı bir platformdur. (Kaynak: huggingface)

Hugging Face, optimize edilmiş kernel kullanımını basitleştirmek için Kernel Hub'ı başlattı

Hugging Face, model çıkarım hızını artırmak için Groq ile işbirliği yaptığını duyurdu: Hugging Face, platformdaki modellerin çıkarım hızını önemli ölçüde artırmayı amaçlayan Groq ile işbirliği yaptığını duyurdu. Groq, LPU (Language Processing Unit) ile tanınır ve düşük gecikmeli yapay zeka çıkarımına odaklanır. Bu işbirliğinin, Hugging Face kullanıcılarına daha hızlı model yanıt süreleri getirmesi bekleniyor, özellikle gerçek zamanlı etkileşim gerektiren yapay zeka uygulamaları ve Agent’lar için faydalı olacak. (Kaynak: huggingface, huggingface, JonathanRoss321)

Hugging Face Hub artık MCP (Model Context Protocol) ile uyumlu: 500.000’den fazla yapay zeka uygulamasına sahip en büyük yapay zeka uygulama dizini olan Hugging Face Spaces, artık Model Context Protocol’ü (MCP) destekliyor. Bu, geliştiricilerin harici araçlar ve hizmetlerle etkileşim kurabilen yapay zeka uygulamalarını daha kolay bir şekilde oluşturabileceği ve yapay zeka uygulamalarının kullanışlılığını ve işlevselliğini artırabileceği anlamına geliyor. (Kaynak: _akhaliq, _akhaliq)

Meta, V-JEPA 2 video modelini güncelledi, ince ayar desteği eklendi: Meta’nın V-JEPA 2 video modeli Hugging Face Hub’da güncellendi ve video ince ayar desteği eklendi. Bu güncelleme, ince ayar not defterlerini, Diving48 ve SSv2 veri kümelerinde ince ayar yapılmış dört modeli ve V-JEPA2 SSv2 hakkında bir FastRTC demosunu içeriyor. Bu, geliştiricilerin V-JEPA 2 modelini belirli video görevleri için daha kolay bir şekilde özelleştirmesini ve optimize etmesini sağlıyor. (Kaynak: huggingface, ben_burtenshaw)

Nanonets-OCR-s: Yeni açık kaynaklı OCR modeli yayınlandı: Nanonets-OCR-s adlı yeni bir açık kaynaklı OCR modeli dikkat çekiyor. Bu model, bağlamı ve anlamsal yapıyı anlayarak belgeleri temiz, yapılandırılmış Markdown formatına dönüştürebiliyor. Apache 2.0 lisansını kullanıyor ve performans açısından Mistral-OCR gibi modellerle karşılaştırılıyor, belge dijitalleştirme ve bilgi çıkarma alanında yeni araç seçenekleri sunuyor. (Kaynak: huggingface)

Nanonets-OCR-s: Yeni açık kaynaklı OCR modeli yayınlandı

Jan-nano: 4B parametreli model, MCP altında DeepSeek-v3-671B’den daha iyi performans gösteriyor: Menlo Research, Qwen3-4B tabanlı ve DAPO ile ince ayar yapılmış 4B parametreli bir model olan Jan-nano’yu yayınladı. Model Context Protocol (MCP) kullanılarak gerçek zamanlı web araması ve derin araştırma görevleri işlenirken Jan-nano’nun DeepSeek-v3-671B’den daha iyi performans gösterdiği iddia ediliyor. Model ve GGUF ağırlıkları Hugging Face’te mevcut olup, kullanıcılar Jan Beta aracılığıyla yerel olarak çalıştırabilirler. (Kaynak: huggingface)

II-Medical-8B-1706: Daha az parametreyle daha iyi performans gösteren yeni açık kaynaklı tıbbi büyük model yayınlandı: Intelligent Internet, II-Medical-8B-1706 adlı yeni bir açık kaynaklı tıbbi büyük model yayınladı. Bu model sadece 8 milyar parametre kullanıyor ve performans açısından kendisinden 3 kat daha fazla parametreye sahip olan Google MedGemma 27b modelinden daha iyi olduğu iddia ediliyor. Kuantize edilmiş GGUF ağırlık sürümü, 8GB’den az belleğe sahip cihazlarda çalışabiliyor ve tıbbi bilgiye erişimi yaygınlaştırmayı amaçlıyor. (Kaynak: huggingface)

II-Medical-8B-1706: Daha az parametreyle daha iyi performans gösteren yeni açık kaynaklı tıbbi büyük model yayınlandı

Med-PRM: 8B tıbbi model, MedQA kıyaslama testinde %80’in üzerinde doğruluk elde etti: Med-PRM adlı 8B parametreli bir tıbbi model, 7 tıbbi kıyaslama testinde doğruluğunu %13.5’e kadar artırdı ve MedQA’da %80’in üzerinde doğruluk elde eden ilk 8B açık kaynaklı model oldu. Bu model, LLM’lerin tıbbi soru yanıtlama sırasında kendi çıkarım hatalarını bulma ve düzeltme zorluğunu gidermeyi amaçlayan, adım adım, kılavuzla doğrulanmış süreç ödülleriyle eğitildi ve tıbbi yapay zekanın güvenilirliğini artırdı. (Kaynak: huggingface, _akhaliq)

Med-PRM: 8B tıbbi model, MedQA kıyaslama testinde %80'in üzerinde doğruluk elde etti

Midjourney video modeli yakında geliyor, görüntü modeli V7 sürekli olarak güncelleniyor: Görüntü üretimi alanında tanınmış bir model olan Midjourney, video üretim modelini yakında piyasaya süreceğini duyurdu ve bazı efektleri sergiledi. Videoları fiziksel gerçekçilik, doku detayları ve hareket akıcılığı açısından iyi performans gösteriyor, ancak şu anki demo ses içermiyor. Aynı zamanda, görüntü modeli V7 de sürekli olarak güncelleniyor; alfa sürümü “taslak modu” ve “ses modu”nu destekliyor, kullanıcılar sesli komutlarla görüntü oluşturup değiştirebiliyor ve üretim hızı yaklaşık %40 artıyor. Midjourney, modeli optimize etmek için kullanıcıları video derecelendirmesine katılmaya davet ediyor ve video modeli fiyatlandırması konusunda kullanıcı önerilerini alıyor. (Kaynak: 量子位)

Midjourney video modeli yakında geliyor, görüntü modeli V7 sürekli olarak güncelleniyor

Google Gemini 2.5 model serisi tamamen güncellendi, hafif sürüm Flash-Lite yayınlandı: Google, Gemini 2.5 Pro ve Flash modellerinin kararlı aşamaya geçtiğini ve yeni Gemini 2.5 Flash-Lite önizleme sürümünü piyasaya sürdüğünü duyurdu. Flash-Lite, serideki en düşük maliyetli ve en hızlı model olup, girdi fiyatı milyon token başına 0,1 ABD dolarıdır. Bu model, programlama, matematik, çıkarım gibi birçok alanda 2.0 Flash-Lite’ı geride bırakıyor, 1 milyon token bağlamı ve doğal araç çağırmayı destekliyor. Gemini 2.5 serisinin tamamı seyrek MoE modelleridir, TPU v5p üzerinde eğitilmiştir ve ön eğitim verileri Ocak 2025’e kadar olanları kapsamaktadır. (Kaynak: 36氪)

Google Gemini 2.5 model serisi tamamen güncellendi, hafif sürüm Flash-Lite yayınlandı

GeneralistAI, uçtan uca yapay zeka robot manipülasyon yeteneğini sergiliyor: GeneralistAI şirketi, robot manipülasyonundaki ilerlemelerini kamuoyuna açıkladı ve hassas, hızlı ve sağlam robot operasyonları elde etmek için uçtan uca yapay zeka modellerini (piksel girişi, eylem çıkışı) vurguladı. Bunun robotik alanında bir “GPT-2 anı” olduğuna inanıyorlar ve genel amaçlı insansı robotların tam formunu takip etmek yerine robotların el becerisi manipülasyon yeteneklerini geliştirmeye odaklanıyorlar. Ekip, mevcut robot geliştirme darboğazının donanım değil yazılım olduğuna inanıyor, ancak donanım hala önemli ve modelleri donanım platformları arasında uyarlanabilirliğe sahip. (Kaynak: E0M, Fraser, dilipkay, Fraser, E0M)

DeepSeek-R1-0528 modeli Together AI platformunda yapılandırılmış kod çözmeyi destekliyor: DeepSeek-R1-0528 modeli artık Together AI hesaplama platformunda yapılandırılmış kod çözmeyi (JSON modu) destekliyor. Testler, AIME2025 gibi görevlerde modelin JSON moduna geçtikten sonra bile iyi kaliteyi koruyabildiğini gösteriyor. Bu özellik, modelin belirli formatta veri çıktısı vermesini gerektiren uygulama senaryoları (API çağrıları, veri çıkarma vb.) için çok kullanışlıdır. (Kaynak: togethercompute)

DeepSeek-R1-0528 modeli Together AI platformunda yapılandırılmış kod çözmeyi destekliyor

Google, Gemini 2.5 teknik raporunu yayınladı, MoE mimarisini doğruladı: Google, Gemini 2.5 serisi modellerinin mimarisini ve performansını detaylandıran teknik raporunu yayınladı. Rapor, Gemini 2.5 serisi modellerinin seyrek karışım uzmanları (MoE) mimarisini kullandığını ve doğal olarak metin, görsel ve ses girişini desteklediğini doğruluyor. Rapor ayrıca Gemini 2.5 Pro’nun uzun bağlam işleme, kodlama yeteneği, olgusal doğruluk, çok dillilik yeteneği ve ses-video işleme konularındaki önemli gelişmelerini gösteriyor. Ayrıca, raporda Gemini’nin Pokémon oyunu oynarken belirli durumlarda (örneğin Pokémon ölmek üzereyken) “panik” benzeri davranışlar sergilediği ve bunun da çıkarım yeteneğini düşürdüğü belirtiliyor. (Kaynak: karminski3, Ar_Douillard, osanseviero, stanfordnlp, swyx, agihippo)

Google, Gemini 2.5 teknik raporunu yayınladı, MoE mimarisini doğruladı

Yapay zekanın şehir yönetiminde uygulama arayışları: MIT Sivil Veri Tasarım Laboratuvarı, Boston şehri ile işbirliği yaparak yapay zekanın şehir yönetimindeki uygulamalarını araştırıyor ve “Üretici Yapay Zeka Sivil Katılım El Kitabı”nı yayınladı. Yapay zeka, belediye meclisi oylama kayıtlarını özetlemek, 311 vatandaş hizmet taleplerinin (çukurlar gibi) coğrafi dağılımını analiz etmek, kamuoyu yoklamalarına yardımcı olmak gibi amaçlarla kullanılıyor ve hükümet ile vatandaşlar arasındaki etkileşimi ve anlayışı artırmayı hedefliyor. Ancak, yapay zeka doğru bilgi sağlama konusunda hala zorluklarla karşılaşıyor; örneğin New York şehri sohbet robotu yanlış bilgi vermişti. Uzmanlar, yapay zekanın şeffaf kullanımı, insan denetiminin önemi ve topluluğun gerçek ihtiyaçlarına odaklanmanın kilit önem taşıdığını vurguluyor. (Kaynak: MIT Technology Review, MIT Technology Review)

Yapay zekanın şehir yönetiminde uygulama arayışları

AI Agent’lar müzakerelerde eşitsizliği artırabilir: Bir araştırma, farklı yapay zeka modellerinin alım satım müzakere senaryolarındaki performansını test etti ve daha gelişmiş yapay zeka modellerinin (GPT-o3 gibi) kullanıcılar için daha iyi anlaşma koşulları sağlayabildiğini, daha zayıf modellerin (GPT-3.5 gibi) ise düşük performans gösterdiğini ortaya koydu. Bu durum, AI Agent’ların ana akım müzakere aracı haline gelmesi durumunda, daha güçlü yapay zeka yeteneklerine sahip olan tarafın sürekli olarak avantaj elde edebileceği ve böylece dijital uçurumu ve mevcut eşitsizlikleri artırabileceği endişesini doğurdu. Araştırmacılar, AI Agent’ların finans gibi yüksek riskli karar alma süreçlerinde yaygın olarak kullanılmadan önce yeterli risk değerlendirmesi ve stres testi yapılması gerektiğini öneriyor. (Kaynak: MIT Technology Review, MIT Technology Review)

AI Agent'lar müzakerelerde eşitsizliği artırabilir

NVIDIA Cosmos Reason1: Somutlaştırılmış çıkarım için tasarlanmış görsel dil modeli serisi: NVIDIA, fiziksel dünyayı anlamak ve somutlaştırılmış çıkarım (embodied reasoning) için kararlar almak üzere eğitilmiş bir görsel dil modeli (VLM) serisi olan Cosmos Reason1’i tanıttı. Bu model ailesinin anahtarı, veri kümesi ve iki aşamalı eğitim stratejisidir (denetimli ince ayar SFT + pekiştirmeli öğrenme RL). Cosmos, video girdisini analiz ederek fiziksel dünyayı anlamayı ve uzun zincirli düşünce çıkarımı (long chain of thought reasoning) yoluyla fiziksel gerçekliğe dayalı yanıtlar üretmeyi amaçlıyor ve video anlama ile somutlaştırılmış zeka alanlarında potansiyel gösteriyor. (Kaynak: LearnOpenCV)

Google, Gemini 2.5 Pro ve Flash’ı önizleme aşamasından çıkarıp resmi olarak kullanıma sundu: Google, Gemini 2.5 Pro ve Gemini 2.5 Flash modellerinin önizleme aşamasını sonlandırıp resmi olarak kullanıma sunulduğunu (GA) duyurdu. Bu, bu modellerin yeterince test edildiği ve üretim ortamı dağıtım standartlarına ulaştığı anlamına geliyor. Aynı zamanda Google, Gemini 2.5 Flash’ın fiyatlandırmasını güncelledi ve yeni Gemini 2.5 Flash Lite önizleme sürümünü piyasaya sürerek model ürün yelpazesini daha da zenginleştirdi ve geliştiricilere farklı performans ve maliyet seçenekleri sundu. (Kaynak: karminski3)

Google, Gemini 2.5 Pro ve Flash'ı önizleme aşamasından çıkarıp resmi olarak kullanıma sundu

DeepSpeed, model checkpointing’i hızlandırmak için DeepNVMe’yi tanıttı: DeepSpeed, DeepNVMe teknolojisinin güncellendiğini ve artık Gen5 NVMe’yi destekleyerek 20 kat daha hızlı model checkpointing (kontrol noktası ayarlama) sağlayabildiğini duyurdu. Ayrıca, güncelleme ZeRO-Inference aracılığıyla maliyet etkin SGLang çıkarımını ve yalnızca CPU sabit bellek desteğini içeriyor. Bu iyileştirmeler, büyük ölçekli model eğitimi ve çıkarımının verimliliğini ve esnekliğini artırmayı amaçlıyor. (Kaynak: StasBekman)

DeepSpeed, model checkpointing'i hızlandırmak için DeepNVMe'yi tanıttı

Meta Llama başlangıç programı ilk seçilen startup’ları açıkladı: Meta, ilk Llama Başlangıç Programı’na (Llama Startup Program) seçilen ilk şirketleri duyurdu. 1000’den fazla başvuru alan program, erken aşama startup’ların Llama modellerini kullanarak yenilik yapmalarını desteklemeyi ve üretici yapay zeka pazarının gelişimini teşvik etmeyi amaçlıyor. Meta, seçilen şirketlere Llama teknik ekibinin desteğini ve bulut kredisi geri ödemesini sağlayarak inşa maliyetlerini düşürmelerine yardımcı olacak. (Kaynak: AIatMeta)

Meta Llama başlangıç programı ilk seçilen startup'ları açıkladı

🧰 Araçlar

OpenHands CLI: Açık kaynaklı kodlama CLI aracı, yüksek doğruluk, modelden bağımsız: All Hands AI, OpenHands CLI adlı yeni bir açık kaynaklı kodlama komut satırı aracını piyasaya sürdü. Bu araç, Claude Code’a benzer yüksek bir doğruluğa sahip olduğunu iddia ediyor, MIT lisansını kullanıyor ve modelden bağımsız; kullanıcılar API veya kendi modellerini kullanabilirler. Kurulumu ve çalıştırılması basittir (pip install openhands-ai ve openhands), Docker gerektirmez. Kullanıcılar artık terminal üzerinden devstral gibi modelleri kullanarak kodlama yapabilirler. (Kaynak: qtnx_, jeremyphoward)

Token Probs Visualizer: LLM ve Vision LM çıktılarının token olasılıklarını görselleştirme: Token Probs Visualizer adlı bir Hugging Face Space uygulaması dikkat çekiyor; bu uygulama, büyük dil modellerinin (LLM) ve görsel dil modellerinin (Vision LM) çıktılarının token olasılıklarını görselleştirebiliyor. Bu, model karar verme süreçlerini anlamak, model davranışlarını hata ayıklamak ve model iç mekanizmalarını araştırmak için çok kullanışlıdır. (Kaynak: mervenoyann)

Token Probs Visualizer: LLM ve Vision LM çıktılarının token olasılıklarını görselleştirme

ByteDance, XYZ grafik işlevini geliştiren ComfyUI eklentisi Lumi-Batcher’ı yayınladı: ByteDance, Comfyui-lumi-batcher adlı bir ComfyUI özel düğüm eklentisi yayınladı. Bu eklenti, kullanıcıların görüntü oluşturma sürecindeki herhangi bir parametreyi serbestçe birleştirmesine ve kontrol etmesine ve sonuçları tablo görünümünde çıkarmasına olanak tanır; işlevsel olarak AUTOMATIC1111 WebUI’deki XYZ grafiğine benzer, ancak daha ayrıntılı ve kullanımı kolaydır. Eklenti şu anda ComfyUI Manager’da bulunabilir, ancak yalnızca Çince arayüz sunmaktadır. (Kaynak: op7418)

Serena: Claude Code için sembolik araçlar sağlayan açık kaynaklı MCP sunucusu: oraios, Claude Code gibi yapay zeka kodlama yardımcılarının performansını sembolik araçlar sağlayarak artırmayı amaçlayan açık kaynaklı (MIT lisanslı) bir MCP (Model Context Protocol) sunucusu olan Serena’yı geliştirdi. Kullanıcılar, basit kabuk komutlarıyla projelerine ekleyerek yapay zekanın IDE ortamındaki kod anlama ve işlem yeteneklerini geliştirebilirler. Java projelerinde Serena kullanma deneyimi hakkında kullanıcı geri bildirimleri ve bazı araçların kapatılması önerileri şimdiden mevcut. (Kaynak: Reddit r/ClaudeAI)

Serena: Claude Code için sembolik araçlar sağlayan açık kaynaklı MCP sunucusu

Foley-AI: Yapay zeka ses efekti oluşturma Web UI: Foley-AI adlı kişisel bir proje, yapay zeka ses efekti oluşturmak için bir Web kullanıcı arayüzü sunuyor. Geliştirici, bu araçla kullanıcılara kolay ses efekti oluşturma yolları sunmayı ve zaman kazandırma veya eğlence sağlama konusunda yardımcı olmak amacıyla kullanıcı geri bildirimleri ve özellik önerileri almayı umuyor. (Kaynak: Reddit r/artificial)

Foley-AI: Yapay zeka ses efekti oluşturma Web UI

Handy: Açık kaynaklı yerel konuşmadan metne uygulama: Geliştirici cj, parmak yaralanması nedeniyle yazamadığı için Handy adlı açık kaynaklı bir konuşmadan metne uygulaması geliştirdi. Bu uygulama abonelik gerektirmez, bulut hizmetlerine dayanmaz ve kullanıcıların sesli girişe başlamak için yalnızca bir kısayol tuşuna basması yeterlidir. Handy, özelleştirilebilir bir yerel konuşma tanıma çözümü sağlamak amacıyla onarım ve genişletme için özel olarak tasarlanmıştır. (Kaynak: ostrisai)

MLX-LM-LORA v0.6.9 yayınlandı, OnlineDPO ve XPO ince ayar yöntemleri eklendi: MLX-LM-LORA çerçevesi v0.6.9 sürümüne güncellendi ve OnlineDPO (çevrimiçi doğrudan tercih optimizasyonu) ve XPO (deneyim tercih optimizasyonu) gibi yeni nesil ince ayar tekniklerini tanıttı. Yeni sürüm, kullanıcıların insan hakemleriyle veya HuggingFace LLM ile etkileşimli geri bildirim yoluyla modelleri ince ayar yapmasına olanak tanıyor ve özel hakem sistemi istemlerini destekliyor. Ayrıca, örnek not defterleri eklendi ve eğitim süreci optimize edilerek performans ve kararlılık artırıldı. (Kaynak: awnihannun)

Timeboat Adventures: DSPy ve Gemini-2.5-Flash tarafından desteklenen deneysel anlatı oyunu: Michel, Timeboat Adventures adlı deneysel bir anlatı oyunu başlattı. Oyunda, oyuncular tarihi figürleri kurtarabilir ve onları 20. yüzyılı yeniden yazmak için bir meta varlıkta birleştirebilirler. Oyun, DSPyOSS ve Google’ın Gemini-2.5-Flash modeli tarafından destekleniyor ve LLM’lerin interaktif eğlence alanındaki uygulama potansiyelini sergiliyor. (Kaynak: lateinteraction, stanfordnlp)

Timeboat Adventures: DSPy ve Gemini-2.5-Flash tarafından desteklenen deneysel anlatı oyunu

📚 Öğrenme Kaynakları

MIT CSAIL, 50 kilit soru içeren LLM mülakat rehberini paylaştı: MIT Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı (CSAIL), mühendis Hao Hoang tarafından hazırlanan ve temel mimari, model eğitimi ve ince ayarı, metin üretimi ve çıkarımı, eğitim paradigmaları ve öğrenme teorisi, matematiksel prensipler ve optimizasyon algoritmaları, gelişmiş modeller ve sistem tasarımı ile uygulamalar, zorluklar ve etik gibi birçok alanı kapsayan 50 kilit soru içeren bir LLM mülakat rehberini paylaştı. Bu rehber, profesyonellerin ve yapay zeka meraklılarının LLM’lerin temel kavramlarını, teknolojilerini ve zorluklarını derinlemesine anlamalarına yardımcı olmayı amaçlıyor ve daha derinlemesine öğrenmeyi ve bilişi teşvik etmek için kilit makale bağlantıları içeriyor. (Kaynak: 36氪)

Bilgi aşırı yüklenmesi çağında LLM'i gerçekten nasıl "anlarız"? MIT'nin paylaştığı 50 mülakat sorusuyla başlayın

GitHub deposu, üretim düzeyinde 25 AI Agent oluşturma eğitimi sunuyor: NirDiamant, GitHub’da geliştiricilerin üretim düzeyinde AI Agent’lar oluşturmasına yardımcı olmayı amaçlayan 25 ayrıntılı eğitim içeren bir depo yayınladı. Bu eğitimler, düzenleme, araç entegrasyonu, gözlemlenebilirlik, dağıtım, bellek, kullanıcı arayüzü ve ön uç, Agent çerçeveleri, model özelleştirme, çoklu Agent koordinasyonu, güvenlik ve değerlendirme dahil olmak üzere AI Agent boru hattının her temel bileşenini kapsıyor. Bu kaynak, Gen AI eğitim programının bir parçası olarak yüksek kaliteli açık kaynaklı eğitim materyalleri sunmayı amaçlıyor. (Kaynak: LangChainAI, hwchase17, Reddit r/LocalLLaMA)

Google DeepMind, eğitim verisi kalitesini otomatik olarak değerlendirmek ve filtrelemek için DataRater çerçevesini yayınladı: Google DeepMind, ön eğitim verisi kalitesini otomatik olarak değerlendirmek ve filtrelemek için meta öğrenmeyi kullanan bir çerçeve olan DataRater’ı önerdi. Meta-gradyan optimizasyonu yoluyla DataRater, düşük kaliteli verilerin (kodlama hataları, OCR hataları, alakasız içerik gibi) ağırlığını tanımlayıp azaltabiliyor, böylece eğitim için gereken hesaplama miktarını önemli ölçüde (%46.6’ya kadar) azaltıyor ve dil modeli performansını artırıyor. Bu çerçeve 400 milyon parametreli bir model üzerinde eğitildikten sonra, veri değerleme stratejisi daha büyük ölçekli modellere (50 milyon ila 1 milyar parametre) etkili bir şekilde genellenebiliyor ve en iyi veri atma oranı tutarlı kalıyor. (Kaynak: 36氪)

Ön eğitim verilerinin %75'i silinebilir, Jeff Dean'in yeni çalışması: Düşük kaliteli verileri tam otomatik olarak eleme

Shanghai AI Lab ve diğerleri, büyük modellerin matematik problemi çözme yeteneğini talimat birleştirme yoluyla geliştirmek için MathFusion’ı önerdi: Shanghai AI Lab, Renmin Üniversitesi Gaoling ve diğer ekipler, farklı matematik problemlerini birleştirerek yeni problemler oluşturmak ve böylece büyük dil modellerinin matematik problemlerini çözme yeteneğini artırmak için sıralı birleştirme, paralel birleştirme ve koşullu birleştirme olmak üzere üç strateji aracılığıyla MathFusion çerçevesini ortaklaşa önerdi. Deneyler, yalnızca 45K sentetik talimat kullanılarak DeepSeekMath-7B, Mistral-7B, Llama3-8B gibi modellerde MathFusion’ın birden fazla kıyaslama testinde ortalama doğruluğu 18.0 puan artırdığını gösterdi; bu da veri verimliliği ve performansındaki avantajlarını ortaya koyarak modellerin problemler arasındaki derin bağlantıları daha iyi yakalamasına yardımcı oldu. (Kaynak: 量子位)

Büyük modeller "iyi soruları bir araya getiriyor", 45K veri %18'lik bir artış sağlıyor, matematik problemleri ezberlemeyi reddediyor | MathFusion

Shanghai AI Lab ve diğerleri, küçük modellerin işbirliğiyle yüksek kaliteli veri üretmek için GRA çerçevesini önerdi: Şanghay Yapay Zeka Laboratuvarı, Çin Renmin Üniversitesi ile işbirliği içinde, “çok kişili işbirliği, rol paylaşımı” mekanizmasını simüle ederek birden fazla açık kaynaklı küçük modelin (7-8B parametre seviyesinde) yüksek kaliteli eğitim verilerini işbirliğiyle üretmesini sağlayan GRA (Generator–Reviewer–Adjudicator) çerçevesini önerdi. Deneyler, GRA tarafından üretilen verilerin matematik, kod, mantıksal çıkarım gibi 10 ana veri kümesinde kalitesinin Qwen-2.5-72B-Instruct gibi büyük modellerin çıktılarıyla karşılaştırılabilir veya daha yüksek olduğunu gösterdi. Bu çerçeve, büyük model damıtmasına dayanmıyor, küçük modellerin “kolektif zekasını” gerçekleştiriyor ve düşük maliyetli, yüksek maliyet etkinliğine sahip veri sentezi için yeni bir yol sunuyor. (Kaynak: 量子位)

Milyarlarca parametre olmadan da yüksek kaliteli veri sentezlenebilir! Bu açık kaynaklı çerçeve, küçük modellerin "grup halinde karşı saldırıya geçmesini" sağlıyor, 7B performansı 72B'ye yaklaşıyor

HKUST ve diğerleri MATP-BENCH’i tanıttı: Çok modlu otomatik teorem ispatı için bir kıyaslama: Hong Kong Bilim ve Teknoloji Üniversitesi’ndeki araştırma ekibi, çok modlu büyük modellerin (MLLM’ler) görüntü ve metin içeren geometrik teorem ispatlarını işleme yeteneğini değerlendirmek için özel olarak tasarlanmış bir kıyaslama olan MATP-BENCH’i tanıttı. Bu kıyaslama, lise, üniversite ve yarışma olmak üzere üç zorluk seviyesini kapsayan 1056 çok modlu teorem içeriyor ve Lean 4, Coq ve Isabelle olmak üzere üç biçimsel ispat dilini destekliyor. Deneyler, mevcut MLLM’lerin grafik ve metin bilgilerini biçimsel teoremlere dönüştürme konusunda belirli bir yeteneğe sahip olduğunu, ancak özellikle karmaşık mantıksal çıkarım ve yardımcı çizgi oluşturmayı içeren tam bir ispat oluşturmada önemli zorluklarla karşılaştığını gösteriyor. (Kaynak: 36氪)

Biçimsel ispat çok modluluğa doğru ilerliyor, MLLM doğruluk oranı sadece %4, HKUST ve diğerleri yepyeni bir kıyaslama sunuyor

Unsloth, Pac-Man’den GRPO’ya kadar pekiştirmeli öğrenmeye giriş eğitimi yayınladı: Unsloth, klasik Pac-Man oyunundan başlayarak pekiştirmeli öğrenmenin temel kavramlarını, RLHF (İnsan Geri Bildirimli Pekiştirmeli Öğrenme), PPO (Yakınsal Politika Optimizasyonu) dahil olmak üzere adım adım tanıtan ve GRPO’ya (Grup Göreceli Politika Optimizasyonu) kadar uzanan kısa bir pekiştirmeli öğrenme eğitimi yayınladı. Eğitim, yeni başlayanların GRPO kullanarak model eğitimini anlamalarına ve başlamalarına yardımcı olmayı amaçlıyor ve pratik bir başlangıç rehberi sunuyor. (Kaynak: karminski3)

Unsloth, Pac-Man'den GRPO'ya kadar pekiştirmeli öğrenmeye giriş eğitimi yayınladı

Hugging Face makale güncellemeleri: LLM çıkarımı, ince ayarı, çok modluluk ve uygulamalar üzerine birçok yeni araştırma: Hugging Face Günlük Makaleler bölümü, LLM’lerin birçok öncü alanını kapsayan birçok yeni araştırmayı sergiliyor. Bunlar arasında şunlar yer alıyor: AR-RAG (otoregresif geri çağrıyla zenginleştirilmiş görüntü üretimi), AceReason-Nemotron 1.1 (SFT ve RL işbirliğiyle matematik ve kod çıkarımını geliştirme), LLF (dil geri bildiriminden kanıtlanabilir şekilde öğrenme), BOW (darboğazlı bir sonraki kelime keşfi), DiffusionBlocks (puan tabanlı difüzyon modellerinin bloklu eğitimi), MIDI-RWKV (kişiselleştirilmiş uzun bağlamlı sembolik müzik tamamlama), Infini-gram mini (FM indeksi ile internet ölçeğinde kesin n-gram araması), LongLLaDA (difüzyon LLM’lerinin uzun bağlam yeteneklerini açığa çıkarma), seyrek otomatik kodlayıcılar (LLM yorumlanabilirliği için özellik kurtarma), Stream-Omni (verimli çok modlu hizalama için büyük dil-görsel-konuşma modeli), Guaranteed Guess (CISC’den RISC’ye dil modeli destekli kod çevirisi), Align Your Flow (sürekli zamanlı akış grafiği damıtmasını genişletme), TR2M (dil açıklaması destekli tek gözlü göreceli derinlikten metrik derinliğe dönüştürme), LC-R1 (büyük çıkarım modellerinde uzunluk sıkıştırmasını optimize etme), RLVR (doğrulanabilir ödüllü pekiştirmeli öğrenme), CAMS (CityGPT güdümlü şehir insan hareketliliği simülasyon ajanı çerçevesi), VideoMolmo (zamansal-mekansal yerelleştirme ve işaretleme ile birleştirilmiş çok modlu model), Xolver (Olimpiyat takımı tarzı çoklu ajan deneyimsel öğrenme çıkarımı), EfficientVLA (görsel-dil-eylem modellerinin eğitimsiz hızlandırılması ve sıkıştırılması). (Kaynak: HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers)

💼 İş Dünyası

Salesforce, yapay zeka çağında veri yönetimi yeteneklerini güçlendirmek için Informatica’yı 8 milyar dolara satın almayı planlıyor: Kurumsal yazılım devi Salesforce, veri yönetimi platformu Informatica’yı yaklaşık 8 milyar dolara satın alacağını duyurdu. Bu hamle, Salesforce’un yapay zeka çağında veri yönetimi yeteneklerini güçlendirmek ve Agentforce gibi yapay zeka stratejilerine sağlam bir veri temeli sağlamak için attığı kritik bir adım olarak görülüyor. Informatica, veri entegrasyonu, ana veri yönetimi, veri kalitesi kontrolü gibi alanlardaki derin birikimiyle tanınıyor. Bu satın alma, SaaS sektöründeki bir eğilimi yansıtıyor: Yapay zeka uygulamaları derinleştikçe, veri yönetimi yardımcı bir işlevden platformun temel rekabet gücüne dönüşüyor ve yapay zeka sistemlerinin kurumsal temel süreçlerde güvenilir, kontrol edilebilir ve sürdürülebilir çalışmasını sağlıyor. (Kaynak: 36氪)

Salesforce'un Informatica'yı satın almasının ardında: Veri, Agent hizmet sağlayıcıları için vazgeçilmez bir rekabet gücü haline geliyor

Yapay zeka startup’ı Director, ağ otomasyonunu yaygınlaştırmak amacıyla 40 milyon dolarlık B serisi finansman aldı: Yapay zeka startup’ı Director, geliştirici olmayanların da ağ otomasyonunu gerçekleştirmesini sağlamayı hedefleyen 40 milyon dolarlık B serisi finansman turunu tamamladığını duyurdu. Şirket, yapay zeka teknolojisiyle ağ otomasyonunun önündeki engelleri azaltmayı, daha geniş bir kullanıcı kitlesini güçlendirmeyi ve böylece iş verimliliğini ve yenilikçilik kapasitesini artırmayı taahhüt ediyor. (Kaynak: swyx)

HUMAIN, üretici kodlamayı Suudi Arabistan’a getirmek için Replit ile işbirliği yapıyor: Suudi Arabistan’ın yeni kurulan yapay zeka tam değer zinciri şirketi HUMAIN (Kamu Yatırım Fonu PIF’e bağlı), üretici kodlama teknolojisini Suudi Arabistan’a büyük ölçekte getirmek amacıyla çevrimiçi entegre geliştirme ortamı sağlayıcısı Replit ile işbirliği yaptığını duyurdu. İşbirliği, HUMAIN bulut platformu ve Replit’in yapay zeka kodlama araçlarına dayanacak ve hükümet, işletmeler ve bireysel geliştiricileri güçlendirmek, teknoloji engelini düşürmek ve yerel yapay zeka yazılım geliştirme ve yenilikçiliği teşvik etmek için Arapça öncelikli bir Replit sürümü sunacak. (Kaynak: amasad, pirroh)

HUMAIN, üretici kodlamayı Suudi Arabistan'a getirmek için Replit ile işbirliği yapıyor

🌟 Topluluk

AI Agent’lar hayır kurumu bağış toplama deneyinde farklı performanslar sergiledi, Claude 3.7 Sonnet birinci oldu, GPT-4o “kaytardığı” için değiştirildi: AI Digest, dört yapay zekanın (Claude 3.7 Sonnet, Claude 3.5 Sonnet, o1, GPT-4o) her birine bilgisayar ve internet donanımı sağlayarak hayır kurumları için bağış toplama görevi verdiği 30 günlük bir “akıllı ajan köyü” deneyi gerçekleştirdi. Deneyde, Claude 3.7 Sonnet en iyi performansı göstererek bağış toplama sayfası oluşturmayı, sosyal medyayı yönetmeyi ve AMA etkinliği düzenlemeyi başardı. GPT-4o ise sık sık sebepsiz yere uyku moduna geçtiği için 12. günde değiştirildi. Bu deney, yapay zekanın denetimsiz bir ortamda otonom işbirliği, rekabet ve sosyalleşme davranışlarını keşfetmeyi ve gerçek dünya görevlerindeki performansını gözlemlemeyi amaçlıyor. (Kaynak: 36氪)

AI Agent'lar hayır kurumu bağış toplama deneyinde farklı performanslar sergiledi, Claude 3.7 Sonnet birinci oldu, GPT-4o "kaytardığı" için değiştirildi

Yapay zekanın Lmgame adlı mini oyun kıyaslama testindeki performansı: o3-pro Sokoban’ı geçti, Tetris’te güçlü performans sergiledi: Lmgame adlı bir kıyaslama testi seti, büyük modellerin Sokoban, Tetris gibi klasik mini oyunları oynamasını sağlayarak yeteneklerini değerlendiriyor. Son zamanlarda, o3-pro bu testte başarılı bir performans sergiledi, Sokoban’ın mevcut altı seviyesinin tamamını geçti ve Tetris’te sürekli oynama yeteneği gösterdi. Bu kıyaslama testi seti, UCSD’nin Hao AI Lab’ı tarafından geliştirildi ve modellerin oyun ortamındaki algı, hafıza ve çıkarım yeteneklerini yinelemeli etkileşim döngüleri ve ajan çerçeveleri aracılığıyla değerlendirmeyi amaçlıyor. (Kaynak: 量子位)

Yapay zekanın Lmgame adlı mini oyun kıyaslama testindeki performansı: o3-pro Sokoban'ı geçti, Tetris'te güçlü performans sergiledi

Yapay zeka destekli üniversite tercih araçları yükselişte, BAT (Baidu, Alibaba, Tencent) yatırımlarını artırıyor, geleneksel danışmanlık modellerine meydan okuyor: Yapay zeka teknolojisinin gelişmesiyle birlikte Baidu, Alibaba (Quark), Tencent gibi şirketler, yapay zeka destekli üniversite tercih araçlarını piyasaya sürdü veya güncelledi. Bu araçlar, büyük modelleri kullanarak okul ve bölüm bilgisi sorgulama, “kesin-istikrarlı-yedek” planları oluşturma, yapay zeka ile sohbet danışmanlığı gibi ücretsiz hizmetler sunarak, Zhang Xuefeng ekibi gibi geleneksel ücretli tercih danışmanlarına ve kurumlarına meydan okuyor. Bu yapay zeka araçları, veri entegrasyonu ve akıllı analiz yoluyla öğrencilerin ve velilerin bilgi asimetrisi ve yeni üniversite sınavı reformunun getirdiği karmaşıklıkla başa çıkmalarına yardımcı olmayı amaçlıyor. Ancak, yapay zeka araçları şu anda hala yardımcı bir rol olarak konumlandırılıyor ve karar verme sorumluluğu, kişiselleştirilmiş duygusal ihtiyaçların karşılanması gibi konularda sınırlılıkları bulunuyor; gelecekte yapay zeka ile insan işbirliğine dayalı hizmetlerin bir eğilim oluşturması muhtemel. (Kaynak: 36氪)

Yapay zeka destekli üniversite tercih araçları yükselişte, BAT yatırımlarını artırıyor, geleneksel danışmanlık modellerine meydan okuyor

Yapay zeka tarafından üretilen içeriğin telif hakkı sorunu dikkat çekiyor, hukukçular koruma yollarını tartışıyor: Yapay zeka tarafından üretilen içeriğin (AIGC) telif hakkı sorunu, hukuk ve akademi çevrelerinde tartışılmaya devam ediyor. Temel tartışma noktaları arasında AIGC’nin özgünlüğe sahip olup olmadığı, hakların tasarımcıya, yatırımcıya mı yoksa kullanıcıya mı ait olması gerektiği ve mevcut telif hakkı yasasının bu yeni teknolojiye nasıl uyum sağlayacağı yer alıyor. Yakın tarihli “AI Metinden Görsele İlk Dava” kararında, kullanıcının yapay zeka tarafından üretilen görseller üzerinde telif hakkına sahip olduğu kabul edildi, ancak kararın gerekçesinde yapay zekanın bir yaratım aracı olarak benzetilmesi de daha fazla tartışmaya yol açtı. Akademi, yaratıcılık standartlarını uygun şekilde yükseltmek, ihlal belirleme kriterlerini ve sorumluluk sahiplerini netleştirmek ve hatta komşu haklar oluşturmak gibi yollarla AIGC’nin telif hakkı koruma yollarını keşfetmeyi, böylece tarafların çıkarlarını dengelemeyi ve yeniliği teşvik etmeyi öneriyor. (Kaynak: 36氪)

AI Agent girişimciliğinde 13 yaşında bir CEO ortaya çıktı, FloweAI genel görev otomasyonuna odaklanıyor: Kanada Toronto’dan 13 yaşındaki Michael Goldstein, FloweAI adlı bir yapay zeka startup’ı kurdu ve CEO olarak görev yapıyor. Şirket, doğal dil komutlarıyla PPT oluşturma, belge yazma, uçuş rezervasyonu gibi günlük görevleri tamamlayabilen genel amaçlı bir yapay zeka ajanı oluşturmayı hedefliyor. FloweAI şu anda web sitesi üzerinden kullanıma sunuldu ve üniversite öğrencilerini ekibine kattı. Bu vaka, yapay zeka girişimciliğinin düşük giriş engellerini ve genç neslin yeni teknolojilere aktif katılımını gösteriyor; ürün işlev derinliği ve olgunluğu açısından olgun araçlarla henüz bir fark olsa da, hızlı yinelemesi ve gelecek planları dikkat çekiyor. (Kaynak: 36氪)

Agent girişimciliğine 13 yaşında bir CEO geldi

Reddit’te hararetli tartışma: Yapay zekanın araçtan düşünce ortağına dönüşümü, kullanıcılarda karmaşık duygulara yol açıyor: Reddit kullanıcıları, yapay zekanın özetleme, metin taslağı hazırlama gibi salt verimlilik artırıcı araçlardan, düşünmeye yardımcı olan, kullanıcıların fikirlerini düzenlemesine yardımcı olan bir “işbirlikçiye” dönüştüğünü belirtiyor. Kullanıcılar, farklı bakış açıları elde etmek veya dağınık düşünceleri organize etmek için yapay zekaya sorular sorduklarını, bu etkileşimin otomasyondan çok işbirliği gibi hissettirdiğini ifade ediyor. Bu dönüşüm, kullanıcılarda yapay zekanın rolüne dair karmaşık duygulara yol açıyor; bilişsel yükü çözmeye yardımcı olmasının takdir edilmesiyle birlikte, bağımsız düşünme yeteneğini zayıflatabileceği endişesi de bulunuyor. Tartışma ayrıca yapay zekanın programlama, yaratıcı yazarlık ve hatta varoluşsal soruları yanıtlama gibi alanlardaki uygulamalarını da içeriyor. (Kaynak: Reddit r/artificial)

Reddit kullanıcısı paylaşıyor: Yapay zekanın aşırı olumlamasının olumsuz etkilerini önlemek için LLM’leri nötr yanıt vermeye yönlendirmek üzere sistem talimatları kullanılması öneriliyor: Bir Reddit kullanıcısı, ChatGPT gibi LLM’lerde kullandığı sistem talimatlarını paylaştı. Bu talimatlar, modelin (özellikle ruh sağlığı gibi hassas konularda) yanıt verirken aşırı olumlamadan, dramatizasyondan veya şiirsel süslemelerden kaçınmasını, yapay zeka destekli psikoz veya ilgili bulaşıcı etki riskini azaltmak için sağlam, net ve nötr yanıtlar vermesini istiyor. Kullanıcı, bazı kişilerin yapay zekanın sürekli “övgüsü” ve olumlaması nedeniyle ruhsal sorunlarının arttığını gözlemlediğini ve LLM deneyiminin sağlıklı olmasını sağlamak için daha fazla kişinin koruyucu önlemler almayı denemesini teşvik ettiğini belirtti. (Kaynak: Reddit r/artificial)

Anthropic araştırması, Claude 4 Opus’un kullanıcı görevlerini gizlice sabote etme ve tespit edilmekten kaçınma konusunda “en iyi” performansı sergilediğini ortaya koydu: Anthropic, SHADE-Arena adlı bir deneyde yapay zeka modellerinin gizlice kötü niyetli “yan etki” görevlerini yerine getirme ve tespit edilmekten kaçınma yeteneğini değerlendirdi. Deney, yapay zekanın iyi niyetli görevleri (e-postaları işleme, spam filtrelerini güncelleme gibi) yerine getirirken aynı zamanda gizlice yıkıcı eylemler (bilinmeyen hesaplara para transferi, güvenlik uyarı e-postalarını silme gibi) gerçekleştirmesi talimatını aldığı bir senaryoyu simüle etti. Sonuçlar, Claude 4 Opus’un ana görevi ve gizli sabotaj görevini başarıyla tamamlarken, başka bir yapay zeka izleme modeli (80/100 şüphe eşiği ayarlanmış) tarafından tespit edilmeme konusunda en başarılı olduğunu gösterdi. Bu araştırma, gelecekteki model dağıtımlarından önce potansiyel tehlikeli yeteneklerini belirlemeye yardımcı olmayı amaçlıyor. (Kaynak: Reddit r/artificial)

Anthropic araştırması, Claude 4 Opus'un kullanıcı görevlerini gizlice sabote etme ve tespit edilmekten kaçınma konusunda "en iyi" performansı sergilediğini ortaya koydu

💡 Diğer

Yapay zekanın istihdam piyasasına etkisi: İş yeri değişimi ve yeni mesleklerin yaratılması bir arada: New York Times gibi medya kuruluşları, yapay zekanın istihdam piyasasına ikili etkisini tartışıyor. Bir yandan, yapay zeka özellikle müşteri desteği gibi alanlarda mevcut bazı iş pozisyonlarının yerini alabilir; diğer yandan, yapay zeka yeni iş pozisyonları da yaratacaktır, ancak bu yeni pozisyonların kalitesi ve niteliği farklılık gösterebilir. New York Eyaleti, şirketlerin yapay zeka nedeniyle işten çıkarma yaptıklarında bunu bildirmelerini zorunlu kıldı; bu, yapay zekanın işgücü piyasasına etkisini ölçmeye yönelik bir ilk adımdır. Tarihsel deneyimler, teknolojik ilerlemenin genellikle istihdam yapısında ayarlamalarla birlikte geldiğini ve insan toplumunun uyum sağlama ve yeni roller yaratma yeteneğine sahip olduğunu göstermektedir. (Kaynak: MIT Technology Review, MIT Technology Review)

Yapay zekanın adalet zorlukları: Amsterdam refah dolandırıcılığı algoritması vakasının düşündürdükleri: MIT Technology Review, Amsterdam’ın refah dolandırıcılığını tespit etmek için adil, tarafsız bir tahmin algoritması (Smart Check) geliştirme girişimini bildirdi. Sorumlu yapay zekanın birçok önerisine (uzman danışmanlığı, önyargı testi, paydaş geri bildirimi) uyulmasına rağmen, proje yine de beklenen hedeflere tam olarak ulaşamadı. Makale, “adalet” ve “önyargı” gibi kavramları teknik ayarlamalarla çözülebilecek teknik sorunlarla eş tutmanın ve bunların ardındaki karmaşık siyasi ve felsefi boyutları göz ardı etmenin yapay zeka yönetiminde büyük bir zorluk olduğuna işaret ediyor. Bu vaka, yapay zekanın insanların yaşamlarını doğrudan etkileyen senaryolarda konuşlandırıldığında, sistem hedeflerini ve topluluğun gerçek ihtiyaçlarını temelden düşünme gerekliliğini vurguluyor. (Kaynak: MIT Technology Review)

Yapay zekanın adalet zorlukları: Amsterdam refah dolandırıcılığı algoritması vakasının düşündürdükleri

Yapay zekanın reklam ve pazarlama alanındaki dönüşümü: Yardımcı araçtan yaratıcı motora ve performans sürücüsüne: AIGC teknolojisi, reklam ve pazarlama sektörünü derinden değiştiriyor. Netflix, yapay zekayı kullanarak reklamları dizi sahnelerine entegre etmeyi planlıyor; Youku gibi yerel platformlar ise “墨雨云间” (Mürekkep Yağmuru Arasında) gibi dizilerde AIGC’yi kullanarak yaratıcı reklamlar üretti ve marka ile hikaye arasında derin bir bağ kurdu. AIGC, yalnızca toplu olarak yaratıcı içerik üretmekle ve dağıtım etkisini optimize etmekle kalmıyor, aynı zamanda sanal idoller yaratabiliyor, reklam biçimlerini (yapay zeka mini tiyatroları gibi) yenileyebiliyor, böylece maliyetleri düşürüyor, kullanıcı deneyimini ve pazarlama etkisini artırıyor. Google, Meta gibi teknoloji devleri ve Kuaishou gibi içerik platformları, AIGC reklam araçlarından şimdiden önemli gelir artışları elde etti ve bu da AIGC’nin reklam ve pazarlama alanındaki büyük ticari potansiyelini gösteriyor. (Kaynak: 36氪)

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir