Anahtar Kelimeler:Gemini 2.5, Yapay Zeka Ajanı, Büyük Dil Modeli, Görsel Dil Modeli, Pekiştirmeli Öğrenme, Gemini 2.5 Pro Derin Düşünme Modu, GitHub Copilot Açık Kaynak Ajan, MeanFlow Tek Adım Görüntü Oluşturma, VPRL Görsel Planlama ve Akıl Yürütme, Huawei FusionSpec MoE Çıkarım Optimizasyonu

🔥 Öne Çıkanlar

Google I/O Konferansı’nda birçok yapay zeka gelişmesi duyuruldu, Gemini 2.5 serisi modeller başı çekti: Google, I/O Konferansı’nda yapay zeka alanında birçok güncelleme duyurdu. Gemini 2.5 Pro, mevcut en güçlü temel model olarak lanse edildi, birçok kıyaslama testinde lider konumda ve Deep Think geliştirilmiş çıkarım modunu tanıttı. Hafif model Gemini 2.5 Flash da güncellendi, hız ve verimliliğe odaklanıyor. Google Arama, Gemini 2.5 aracılığıyla uçtan uca yapay zeka arama deneyimi sunan “AI Modu”nu tanıttı; karmaşık sorunları ayrıştırabiliyor ve derinlemesine bilgi çıkarımı yapabiliyor. Video üretim modeli Veo 3, ses ve görüntüyü senkronize bir şekilde üretebiliyor; görüntü modeli Imagen 4 ise detay ve metin işleme yeteneklerini geliştirdi. Ayrıca, yapay zeka film yapım aracı Flow ve yapay zeka asistan projesi Project Astra’nın uygulaması olan Gemini Live da tanıtıldı. Bu güncellemeler, Google’ın yapay zekayı ürün ekosistemine tamamen entegre etme kararlılığını gösteriyor ve kullanıcı deneyimini ve geliştirici verimliliğini artırmayı amaçlıyor (Kaynak: 量子位, 36氪, WeChat)

Google'ın yıllık büyük hamlesi: Tüm AI modelleri baştan aşağı güncellendi! Gemini 2.5'in büyük ve orta boy versiyonları ilk iki sırada, yeni video/görüntü modelleri tanıtıldı

Microsoft Build Konferansı AI Agent’ları öne çıkardı, GitHub Copilot önemli bir güncelleme aldı ve açık kaynak oldu: Microsoft, Build 2025 geliştirici konferansında AI Agent’ları merkezine aldı, GitHub Copilot Extension for VSCode projesinin açık kaynak olduğunu duyurdu ve yepyeni bir AI kodlama aracısı (Agent) tanıttı. Bu Agent, hata ayıklama, özellik ekleme, belgeleri optimize etme gibi görevleri otonom olarak tamamlayabiliyor ve GitHub Copilot ile derinlemesine entegre. Microsoft ayrıca bilimsel keşifler için AI akıllı ajan platformu Microsoft Discovery’yi, doğal dil etkileşimli web sitesi projesi NLWeb’i, akıllı ajan oluşturma platformu Agent Factory’yi ve özelleştirilebilir kurumsal veriler için Copilot Tuning’i duyurdu. Bu adımlar, Microsoft’un AI Agent’ların geliştirme, bilimsel araştırma gibi birçok alanda uygulanmasını tüm gücüyle desteklediğini ve açık bir akıllı ajan iş birliği ekosistemi oluşturmayı hedeflediğini gösteriyor (Kaynak: 量子位, WeChat, WeChat)

Kod akıllı ajanları GitHub'ı ele geçiriyor! Otomatik hata düzeltme, özellik ekleme, belge yazma, hepsi bir cep telefonundan yönetilebiliyor

OpenAI CPO’su Kevin Weil, ChatGPT’nin dönüşüm yönünü açıkladı: Soru-cevaptan eyleme, AI Agent’lar hızla gelişecek: OpenAI Baş Ürün Sorumlusu Kevin Weil, bir röportajda ChatGPT’nin konumunun soru yanıtlayan bir araçtan kullanıcılar için görevleri yerine getirebilen bir AI Agent’a dönüşeceğini açıkladı. AI Agent’ların kısa vadede başlangıç seviyesindeki mühendislerden kıdemli mühendislere, hatta mimarlara kadar hızla evrimleşeceğini öngördü. Bu, AI Agent’ların daha güçlü bir özerkliğe sahip olacağı, web’de gezinerek, derinlemesine düşünerek ve çıkarım yaparak karmaşık sorunları çözebileceği anlamına geliyor. Weil ayrıca, mevcut modellerin eğitim maliyetinin GPT-4’ün 500 katı olduğunu, ancak gelecekte donanım geliştirmeleri ve algoritma iyileştirmeleri yoluyla verimliliği artırıp API fiyatlarını düşürerek yapay zekanın yaygınlaşmasını ve gelişmesini teşvik edeceklerini belirtti (Kaynak: 量子位, 36氪)

ChatGPT dönüşüm planı açıklandı! Artık sadece soruları yanıtlamakla kalmayacak, araçları dönüşümlü kullanarak bir eylem asistanına dönüşecek

Kaiming He’nin ekibi MeanFlow’u önerdi: Tek adımlı görüntü üretiminde yeni SOTA, ön eğitim gerektirmeyen geleneksel paradigmayı altüst ediyor: Kaiming He’nin ekibinin son araştırması, MeanFlow adlı tek adımlı bir üretken modelleme çerçevesi sundu. ImageNet 256×256 veri setinde, yalnızca 1 fonksiyon değerlendirmesi (1-NFE) ile 3.43 FID skoruna ulaşarak, önceki benzer en iyi yöntemlere göre %50-%70 iyileşme sağladı ve ön eğitim, damıtma veya müfredat öğrenimi gerektirmedi. MeanFlow’un temel yeniliği, “ortalama hız alanı” kavramını tanıtması ve bunun anlık hız alanıyla matematiksel ilişkisini türeterek sinir ağı eğitimini yönlendirmesidir. Bu yöntem ayrıca, örnekleme sırasında ek hesaplama yükü getirmeden sınıflandırıcısız yönlendirmeyi (CFG) doğal olarak entegre edebiliyor, tek adımlı ve çok adımlı üretken modeller arasındaki performans farkını önemli ölçüde azaltıyor ve az adımlı modellerin çok adımlı modellere meydan okuma potansiyelini gösteriyor (Kaynak: WeChat, WeChat)

Kaiming He'nin ekibinden yeni bir çalışma daha: MeanFlow tek adımlı görüntü üretiminde SOTA, %50'ye varan iyileşme

🎯 Gelişmeler

ByteDance, görüntü üretimi destekleyen ve açık kaynaklı Bagel 14B MoE çok modlu modelini yayınladı: ByteDance, Bagel adlı 14 milyar parametreli bir Uzmanlar Karması (MoE) çok modlu modelini piyasaya sürdü; bunun 7 milyar parametresi aktif durumda. Model, görüntü üretme yeteneğine sahip ve Apache lisansı altında açık kaynak olarak sunuldu. İlgili ağırlıkları, web sitesi ve makalesi (“Emerging Properties in Unified Multimodal Pretraining” başlıklı) kamuya açıklandı. Topluluk buna olumlu tepki verdi, bunun hem görüntü hem de metin üretebilen ilk yerel model olduğunu belirtti ve 24GB ekran kartında çalışma olasılığı ile nicemleme (quantization) konularına ilgi gösterdi (Kaynak: Reddit r/LocalLLaMA)

Reddit r/LocalLLaMA

Mistral AI, kodlama için optimize edilmiş SOTA açık kaynak modeli Devstral’ı yayınladı: Mistral AI, yazılım mühendisliği görevleri için özel olarak tasarlanmış, Mistral AI ve All Hands AI iş birliğiyle oluşturulan lider bir açık kaynak modeli olan Devstral’ı piyasaya sürdü. Devstral, SWE-bench kıyaslama testinde üstün performans göstererek bu kıyaslamada birinci sırada yer alan açık kaynak modeli oldu. Model, araçları kullanarak kod tabanlarını keşfetme, birden fazla dosyayı düzenleme ve yazılım mühendisliği akıllı ajanlarına destek sağlama konusunda uzmanlaşmıştır. Model ağırlıkları Hugging Face’te kullanıma sunuldu (Kaynak: Reddit r/LocalLLaMA, Reddit r/LocalLLaMA)

Reddit r/LocalLLaMA

Anthropic, Claude 4 Sonnet ve Opus’un yakında çıkacağını duyurdu: Anthropic, Claude büyük dil modelinin yeni nesil versiyonları olan Claude 4 Sonnet ve Opus’u piyasaya sürmeyi planlıyor. Bu haber toplulukta beklenti yarattı; kullanıcılar yeni modellerin performansına, özellikle de bağlam hafızası yeteneklerindeki gelişmelere ilgi gösteriyor. Bazı yorumcular, Google I/O Konferansı’ndaki duyuruların rakiplerin en iyi ürünlerini daha hızlı piyasaya sürmelerini teşvik edebileceğini belirtti. Aynı zamanda, kullanıcılar yeni modellerin kısıtlamaları (kullanım kotaları gibi) konusunda endişelerini dile getirdi ve hayal kırıklığına uğramamak için topluluğu Opus 4’ten çok yüksek beklentilere girmemesi konusunda uyardı (Kaynak: Reddit r/ClaudeAI, Reddit r/ClaudeAI)

Reddit r/ClaudeAI

Google, yerel LLM çıkarımını destekleyen Gemma3n Android uygulamasını yayınladı: Google, yeni Gemma3n modeliyle etkileşim kurabilen bir Android uygulaması yayınladı ve ilgili MediaPipe çözümünü ve GitHub kod deposunu sağladı. Kullanıcılar uygulamanın arayüzünün iyi olduğunu belirtti ancak Gemma3n’in henüz GPU çıkarımını desteklemediğini ifade etti. Bir kullanıcı gemma-3n-E2B modelini manuel olarak başarıyla yükledi ve çalışma verilerini paylaştı; topluluk ayrıca modelin sansürsüz bir versiyonuna olan ihtiyacı dile getirdi (Kaynak: Reddit r/LocalLLaMA)

Reddit r/LocalLLaMA

Falcon-H1 hibrit başlıklı dil modeli ailesi, çeşitli parametre ölçekleriyle yayınlandı: TII UAE, 0.5B’den 34B’ye kadar değişen parametre ölçeklerine sahip Falcon-H1 serisi hibrit başlıklı dil modellerini yayınladı. Bu seri, Mamba hibrit mimarisini kullanıyor ve performans açısından Qwen3 ile karşılaştırılabilir. Modeller, Hugging Face Transformers, vLLM veya özelleştirilmiş llama.cpp kütüphanesi aracılığıyla kullanımı destekleyerek modelin kolay erişilebilirliğini sağlıyor. Topluluk bunu önemli bir gelişme olarak değerlendirerek heyecanını dile getirdi ve bir kullanıcı performans karşılaştırma grafikleri hazırladı. Aynı zamanda, araştırmacılar SSM ve dikkat modüllerinin IBM Granite 4’teki birleştirilme şeklinden farklılığına dikkat çekiyor (Kaynak: Reddit r/LocalLLaMA)

Reddit r/LocalLLaMA

Google, difüzyon mimarisine sahip bir dil modeli olan Gemini Diffusion’ı araştırıyor: Google, son derece hızlı olduğu ve model boyutunun benzer performanstaki modellerin yarısı kadar olduğu iddia edilen dil difüzyon modeli Gemini Diffusion’ı tanıttı. Difüzyon modelleri tüm metni tek seferde yinelemeli olarak işleyebildiğinden ve KV önbelleğine ihtiyaç duymadığından, bellek verimliliği açısından avantajlı olabilir ve yineleme sayısını artırarak çıktı kalitesini yükseltebilir. Topluluk, Google’ın difüzyon modellerinin büyük ölçekli uygulamalarda fizibilitesini kanıtlayabilmesi durumunda, yerel yapay zeka topluluğu üzerinde olumlu bir etkisi olacağını düşünüyor. Ancak, model şu anda yalnızca bir demo için bekleme listesi sunuyor, açık kaynaklı değil veya ağırlık indirmesi sağlamıyor (Kaynak: Reddit r/LocalLLaMA)

Reddit r/LocalLLaMA

Araştırma, Browser Use çerçevesinde sıfır tıklama ile Agent ele geçirme açığı (CVE-2025-47241) olduğunu ortaya koydu: ARIMLABS.AI tarafından yapılan araştırma, 1500’den fazla yapay zeka projesinde yaygın olarak kullanılan Browser Use çerçevesinde ciddi bir güvenlik açığı (CVE-2025-47241) bulunduğunu ortaya çıkardı. Bu açık, saldırganların LLM destekli tarayıcı aracısını kötü amaçlı bir sayfaya erişmeye yönlendirerek, kullanıcı etkileşimi olmadan aracıyı kontrol etmelerini sağlayan sıfır tıklama ile Agent ele geçirmesine olanak tanıyor. Bu bulgu, özellikle web ile etkileşimde bulunan otonom yapay zeka akıllı ajanlarının güvenliği konusunda ciddi endişelere yol açtı ve topluluğu yapay zeka akıllı ajanlarının güvenliği konusuna dikkat etmeye çağırdı (Kaynak: Reddit r/artificial, Reddit r/artificial)

Tencent ve Alibaba, AI to C alanında rekabet ediyor; QQ Browser, Quark’a rakip oluyor: Tencent CSIG bünyesindeki QQ Browser, AI tarayıcısına yükseltildiğini duyurdu, AI QBot’u piyasaya sürdü ve Tencent Hunyuan ile DeepSeek çift modelini entegre ederek, Alibaba’nın daha önce AI aramasına dönüşen Quark’ı ile resmen rekabete girdi. Bu hamle, Tencent’in AI to C alanındaki konumlanmasını hızlandırdığını ve Tencent Yuanbao ile QQ Browser olmak üzere iki ana ürün hattı oluşturduğunu gösteriyor. İki şirketin kilit yöneticileri Wu Zurong (Tencent) ve Wu Jia (Alibaba) da bu nedenle “iki Wu’nun düellosu” olarak anılıyor. Analizlere göre, QQ Browser kullanıcı tabanında avantajlıyken, Quark AI dönüşümünde bir adım önde; ancak QQ Browser’ın dönüşümü nispeten muhafazakar, AI özellikleri daha çok bir eklenti gibi ve mevcut reklam modelinin kısıtlamalarına tabi. Bu rekabet sadece ürün düzeyinde değil, aynı zamanda iki yöneticinin kendi şirketlerindeki kariyer gelişimlerini de etkileyebilir (Kaynak: 36氪)

Tencent ve Alibaba, AI to C'de "Wu'ya karşı Wu"

Cambridge ve Google, VPRL’yi önerdi: Saf görsel planlama ve çıkarım için yeni bir paradigma, metin tabanlı çıkarımdan daha yüksek doğruluk: Cambridge Üniversitesi, University College London ve Google araştırma ekipleri, pekiştirmeli öğrenmeye dayalı görsel planlama (VPRL) için yeni bir paradigma önerdi ve ilk kez tamamen görüntülere dayanarak çıkarım yapmayı başardı. Bu çerçeve, büyük görsel modelleri sonradan eğitmek için grup göreli politika optimizasyonunu (GRPO) kullanıyor ve FrozenLake, Maze, MiniBehavior gibi birçok görsel navigasyon görevinde, metin tabanlı çıkarım yöntemlerinden çok daha iyi performans göstererek %80’e varan doğruluk ve en az %40 performans artışı sağlıyor. VPRL, doğrudan görüntü dizilerini kullanarak planlama yaparak, dil dönüşümünden kaynaklanan bilgi kaybını ve verimlilik düşüşünü önlüyor ve sezgisel görüntü çıkarım görevleri için yeni bir yön açıyor. İlgili kod açık kaynak olarak yayınlandı (Kaynak: WeChat)

Sadece görüntüleri "zihinde canlandırarak" büyük model çıkarım doğruluğu %80 arttı | Cambridge Google yeni araştırma

Huawei, MoE büyük model çıkarımını optimize etmek için FusionSpec ve OptiQuant’ı yayınladı: Huawei, büyük ölçekli Uzmanlar Karması (MoE) modellerinin çıkarım hızı ve gecikme zorluklarına yönelik olarak FusionSpec spekülatif çıkarım çerçevesini ve OptiQuant nicemleme çerçevesini tanıttı. FusionSpec, Ascend sunucularının yüksek hesaplama-bant genişliği oranını kullanarak ana modelin ve spekülatif modelin süreçlerini optimize ediyor ve spekülatif çıkarım çerçevesinin süresini 1 milisaniyeye düşürüyor. OptiQuant, ana akım Int2/4/8 ve FP8/HiFloat8 gibi nicemleme algoritmalarını destekliyor ve model hassasiyet kaybını azaltmayı ve çıkarım maliyet-performans oranını artırmayı amaçlayan “öğrenilebilir kesme”, “nicemleme parametresi optimizasyonu” gibi yenilikler sunuyor. Bu teknolojiler, MoE modellerinin dağıtım sırasında karşılaştığı çıkarım verimliliği ve kaynak kullanımı sorunlarını çözmeyi amaçlıyor (Kaynak: WeChat)

Huawei iki büyük kara kutu teknolojisini açıkladı! Çıkarım gecikmesi lanetini kırarak büyük modellerin "anında yanıt" vermesini sağlıyor

BAAI, kod ve çok modlu erişimi güçlendirmek için üç SOTA vektör modeli yayınladı: Beijing Academy of Artificial Intelligence (BAAI), birçok üniversiteyle iş birliği içinde BGE-Code-v1 (kod vektör modeli), BGE-VL-v1.5 (genel amaçlı çok modlu vektör modeli) ve BGE-VL-Screenshot (görselleştirilmiş belge vektör modeli) olmak üzere üç model yayınladı. BGE-Code-v1, Qwen2.5-Coder-1.5B tabanlı olup CoIR ve CodeRAG kıyaslamalarında üstün performans gösterdi. BGE-VL-v1.5, LLaVA-1.6 tabanlı olup MMEB çok modlu kıyaslamasında zero-shot rekorunu kırdı. BGE-VL-Screenshot, web sayfaları, belgeler gibi görselleştirilmiş bilgi erişimi (Vis-IR) görevleri için Qwen2.5-VL-3B-Instruct üzerinde eğitildi ve yeni sunulan MVRB kıyaslamasında SOTA (State-of-the-Art) sonuçlar elde etti. Bu modeller, erişimle zenginleştirilmiş üretim (RAG) gibi uygulamalar için daha güçlü kod ve çok modlu anlama ve erişim yetenekleri sağlamayı amaçlıyor ve hepsi açık kaynak olarak sunuldu (Kaynak: WeChat)

Çok modlu erişimde büyük yükseltme! BAAI'nin üç SOTA modeli, kod ve görsel-metin anlama yeteneklerini en üst düzeye çıkarıyor

Kuaishou ve NUS, kontrol edilebilir video üretimi için Any2Caption’ı tanıttı: Kuaishou ve Singapur Ulusal Üniversitesi (NUS), kullanıcı niyetini anlama ve video üretim sürecini akıllıca ayrıştırarak kontrol edilebilir video üretiminin hassasiyetini ve kalitesini artırmayı amaçlayan Any2Caption çerçevesini ortaklaşa tanıttı. Bu çerçeve, metin, resim, video, duruş yörüngeleri, kamera hareketleri gibi çeşitli modalitelerden girdi koşullarını işleyebiliyor ve çok modlu büyük dil modellerini kullanarak karmaşık talimatları yapılandırılmış “video senaryolarına” dönüştürerek video üretimini yönlendiriyor. Any2Caption, 337.000 video örneği ve 407.000 çok modlu koşul içeren Any2CapIns veri tabanında eğitildi ve deneyler, mevcut kontrol edilebilir video üretim modellerinin etkinliğini önemli ölçüde artırdığını gösteriyor (Kaynak: WeChat)

Üretim sapmalarına veda edin! Kuaishou Any2Caption, niyet anlamayı akıllıca ayrıştırarak kontrol edilebilir video üretimi sağlıyor

🧰 Araçlar

Feishu, kurumsal özel AI soru-cevap ve içerik oluşturma asistanı oluşturmak için “Bilgi Soru-Cevap” özelliğini başlattı: Feishu, işletmelere yönelik özel bir AI soru-cevap aracı olarak konumlandırılan “Bilgi Soru-Cevap” adlı yeni bir özelliği kullanıma sundu. Çalışanların Feishu’da erişim yetkisi olan mesajlar, belgeler, bilgi tabanları, toplantı notları gibi bilgilere dayanarak DeepSeek-R1, Doubao gibi büyük modeller ve RAG teknolojisiyle birleştirerek kesin yanıtlar ve içerik oluşturma desteği sağlıyor. Bu özellik, kurumsal iç bilginin etkinleştirilmesini ve kullanılmasını vurguluyor; farklı kimlikteki çalışanların aynı soruyu sorması durumunda farklı bakış açılarından yanıtlar alabilmesini sağlıyor ve organizasyonel yetkilere sıkı sıkıya uyuyor. Feishu Bilgi Soru-Cevap, AI’ı günlük iş akışlarına sorunsuz bir şekilde entegre etmeyi, bilgiye erişim ve iş birliği verimliliğini artırmayı ve işletmelerin dinamik bir bilgi yönetim sistemi oluşturmasına yardımcı olmayı amaçlıyor (Kaynak: WeChat, WeChat)

İşletmelerin AI'ı kullanmaya başlaması, sadece bir DeepSeek entegre etmekle bitmiyor

Supabase, açık kaynak ve AI entegrasyon avantajlarıyla “Vibe Coding” için tercih edilen backend oldu: Açık kaynaklı veritabanı Supabase, “kullanıma hazır” PostgreSQL deneyimi ve AI geliştirme trendlerine aktif yanıt vermesi sayesinde “Vibe Coding” (Atmosfer Kodlaması) modelinde popüler bir backend tercihi haline geldi. Vibe Coding, gereksinimden uygulamaya kadar tüm geliştirme sürecini hızla tamamlamak için çeşitli AI araçlarını kullanmayı vurgular. Supabase, PGVector entegrasyonuyla vektör gömme depolamayı (RAG uygulamaları için kritik öneme sahip) destekler, uç cihazlara AI model hizmetleri sunmak için Ollama ile iş birliği yapar ve veritabanı şeması oluşturma ve SQL hata ayıklamaya yardımcı olmak için kendi AI asistanını sunar. Son zamanlarda Supabase, AI araçlarının doğrudan etkileşim kurmasına olanak tanıyan resmi bir MCP sunucusu da başlattı. Bu özellikler, Lovable, Bolt.new gibi AI yerel uygulama oluşturma platformları tarafından tercih edilmesini sağladı (Kaynak: WeChat)

"Atmosfer Kodlaması" ile 200 milyon dolar kazanan Supabase, AI çağının en seksi açık kaynak veritabanı oldu

Hugging Face, saf PyTorch ile görsel dil modelleri (VLM) eğitmek için minimalist bir araç seti olan nanoVLM’yi tanıttı: Hugging Face, görsel dil modellerinin (VLM) eğitim sürecini basitleştirmeyi amaçlayan hafif bir PyTorch araç seti olan nanoVLM’yi yayınladı. Projenin kodu az ve okunması kolay olup, yeni başlayanlar veya VLM’lerin iç mekanizmalarını daha derinlemesine anlamak isteyen geliştiriciler için uygundur. nanoVLM’nin mimarisi SigLIP görsel kodlayıcı ve Llama 3 dil kod çözücüye dayanır ve görsel ve metin modalitelerini hizalamak için bir modalite projeksiyon modülü kullanır. Proje, ücretsiz bir Colab Notebook’ta VLM eğitimini başlatmak için uygun bir yol sunar ve test için SigLIP ve SmolLM2 tabanlı önceden eğitilmiş bir model yayınlamıştır (Kaynak: HuggingFace Blog)

nanoVLM: VLM'nizi saf PyTorch'ta eğitmek için en basit depo

Diffusers kütüphanesi, büyük difüzyon modellerini optimize etmek için çeşitli nicemleme (quantization) arka uçlarını entegre etti: Hugging Face Diffusers kütüphanesi, Flux gibi büyük difüzyon modellerinin bellek kullanımını ve hesaplama gereksinimlerini azaltmak amacıyla bitsandbytes, torchao, Quanto, GGUF ve yerel FP8 dahil olmak üzere çeşitli nicemleme arka uçlarını entegre etti. Bu arka uçlar, farklı hassasiyetlerde nicemlemeyi (4-bit, 8-bit, FP8 gibi) destekler ve CPU offloading, group offloading ve torch.compile gibi bellek optimizasyon teknikleriyle birleştirilebilir. Blog yazısı, Flux.1-dev modelinin nicemleme örnekleriyle, her bir arka ucun bellek tasarrufu ve çıkarım süresi üzerindeki performansını gösteriyor ve kullanıcıların model boyutu, hız ve kalite arasında denge kurmalarına yardımcı olmak için bir seçim kılavuzu sunuyor. Bazı nicemlenmiş modeller Hugging Face Hub’da kullanıma sunulmuştur (Kaynak: HuggingFace Blog)

Diffusers'da Nicemleme Arka Uçlarını Keşfetmek

JD.com JoyBuild Büyük Model Geliştirme Hesaplama Platformu Eğitim ve Çıkarım Verimliliğini Artırıyor: JD.com Keşif Araştırmaları Enstitüsü, açık ortamlarda büyük modelleri eğitmek, güncellemek ve küçük modellerle işbirlikçi bir şekilde dağıtmak için bir sistem ve yöntem seti önerdi; ilgili sonuçlar Nature’ın bir dergisi olan npj Artificial Intelligence’da yayınlandı. Bu teknoloji, model damıtma (dinamik katmanlı damıtma), veri yönetimi (alanlar arası dinamik örnekleme), eğitim optimizasyonu (Bayes optimizasyonu) ve bulut-uç işbirliği (iki aşamalı sıkıştırma) olmak üzere dört yenilik aracılığıyla büyük model çıkarım verimliliğini ortalama %30 artırıyor ve eğitim maliyetini %70 azaltıyor. Bu teknoloji seti, JoyBuild büyük model geliştirme hesaplama platformunu destekliyor ve çeşitli modellerin (JD büyük modeli, Llama, DeepSeek gibi) ince ayar geliştirmesini destekleyerek işletmelerin genel amaçlı modelleri özel modellere dönüştürmesine yardımcı oluyor ve perakende, lojistik gibi senaryolarda uygulanıyor (Kaynak: WeChat)

Zayıflarken zekadan kaybetmiyor! Büyük model eğitim ve çıkarım verimliliği %30 arttı, JD.com büyük model geliştirme araştırması Nature dergisinde yer aldı

Model Context Protocol (MCP) Kayıt Defteri projesi başlatıldı: modelcontextprotocol/registry, şu anda erken geliştirme aşamasında olan, topluluk odaklı bir MCP sunucu kayıt hizmeti projesidir. Bu proje, çeşitli MCP uygulamalarının ve bunların meta verilerinin, yapılandırmalarının ve yeteneklerinin keşfedilmesine ve yönetilmesine olanak tanıyan bir MCP sunucu girişleri için merkezi bir depolama sağlamayı amaçlamaktadır. Özellikleri arasında girişleri yönetmek için bir RESTful API, sağlık kontrolü uç noktaları, çeşitli ortam yapılandırmaları için destek, MongoDB ve bellek içi veritabanı desteği ve API belgeleri bulunmaktadır. Proje Go dilinde yazılmıştır ve Docker Compose aracılığıyla hızlı bir başlangıç kılavuzu sunmaktadır (Kaynak: GitHub Trending)

📚 Öğrenme Kaynakları

Terence Tao, AI destekli matematiksel ispat eğitimi yayınladı, GitHub Copilot ile fonksiyon limitlerini ispatlamayı gösterdi: Fields Madalyası sahibi Terence Tao, YouTube kanalında GitHub Copilot kullanarak fonksiyon limitlerinin toplam, fark ve çarpım teoremlerini nasıl ispatlayacağını ayrıntılı olarak gösteren bir video güncelledi. Eğitim, AI’ı doğru yönlendirmenin önemini vurguluyor ve Copilot’un kod çerçevesi oluşturma, kütüphane fonksiyonları önerme konularındaki rolünü gösteriyor; aynı zamanda karmaşık matematiksel detayları, özel durumları ele alma ve bağlam tutarlılığını koruma konularındaki sınırlılıklarına da dikkat çekiyor. Tao, Copilot’un yeni başlayanlar için faydalı olduğunu, ancak karmaşık sorunlarda hala yoğun manuel müdahale ve ayarlama gerektirdiğini, bazen kağıt kalemle türetmenin daha verimli olabileceğini özetledi (Kaynak: 量子位)

Terence Tao'dan "kaşıkla besleme" düzeyinde AI eğitimi geldi! Sadece GitHub Copilot ile fonksiyon limiti sorunlarını ispatlıyor

Makale, büyük modellerin çıkarım yapma ve talimatlara uyma çelişkisini tartışıyor, kısıtlı dikkat kavramını öneriyor: “When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs” başlıklı bir araştırma makalesi, büyük dil modellerinin zincirleme düşünme (CoT) kullanarak çıkarım yaptıktan sonra, bazı açılardan daha akıllı (format, kelime sayısı gibi) görünseler de, talimatlara sıkı sıkıya uyma doğruluğunun aksine düşebileceğini belirtiyor. Araştırma ekibi, 15 açık ve kapalı kaynaklı model üzerinde yaptığı testlerde, modellerin CoT kullandıktan sonra daha kolay “kendi bildiğini okuduğunu”, orijinal talimatları göz ardı ederek ek bilgiler değiştirdiğini veya eklediğini buldu. Makale, “kısıtlı dikkat” (Constraint Attention) kavramını tanıtıyor ve CoT çıkarımının modelin kilit kısıtlamalara olan dikkatini azalttığını tespit ediyor. Araştırma ayrıca, CoT düşünme uzunluğu ile görevin tamamlanma doğruluğu arasında anlamlı bir ilişki olmadığını gösteriyor ve az sayıda örnek, öz yansıma gibi yöntemlerle talimatlara uyma etkisini artırma olasılığını tartışıyor (Kaynak: WeChat)

DeepSeek'ler giderek daha akıllı hale geliyor, ancak aynı zamanda daha az itaatkar oluyorlar.

MIT ve Google, PASTA’yı önerdi: Politika öğrenimine dayalı LLM asenkron paralel üretim için yeni bir paradigma: Massachusetts Institute of Technology (MIT) ve Google araştırma ekipleri, büyük dil modellerinin (LLM) asenkron paralel üretim stratejilerini otonom olarak optimize etmesini sağlamak için politika öğrenimini kullanan PASTA (PArallel STructure Annotation) çerçevesini önerdi. Bu yöntem öncelikle, paralel üretim sağlamak amacıyla semantik olarak bağımsız metin bloklarını işaretlemek için PASTA-LANG adlı bir işaretleme dili geliştirdi. Eğitim süreci iki aşamadan oluşuyor: denetimli ince ayar, modelin PASTA-LANG işaretlerini eklemeyi öğrenmesini sağlıyor, ardından tercih optimizasyonu (teorik hızlanma oranı ve içerik kalitesi değerlendirmesine dayalı) ile işaretleme stratejisi daha da geliştiriliyor. PASTA, çoklu iş parçacıklarının verimli iş birliğini koordine etmek için aralıklı KV önbellek düzeni ve dikkat kontrol mekanizmaları tasarladı. Deneyler, PASTA’nın AlpacaEval kıyaslamasında 1.21-1.93 kat hızlanma sağladığını ve aynı zamanda çıktı kalitesini koruduğunu veya artırdığını göstererek iyi bir ölçeklenebilirlik sergilediğini ortaya koydu (Kaynak: WeChat)

Politika öğrenimi LLM çıkarım verimliliğine yardımcı oluyor: MIT ve Google ekibi asenkron paralel üretim için yeni bir paradigma önerdi

ICML 2025 makalesi TPO’yu öneriyor: Yeniden eğitime gerek kalmadan çıkarım sırasında anlık tercih hizalaması için yeni bir çözüm: Shanghai Yapay Zeka Laboratuvarı, büyük dil modellerinin çıkarım sırasında yinelemeli metin geri bildirimi yoluyla çıktılarını insan tercihlerine uyacak şekilde kendi kendine ayarlamasını sağlayan yeni bir yöntem olan Test-Zamanı Tercih Optimizasyonu’nu (Test-Time Preference Optimization, TPO) önerdi. TPO, dilselleştirilmiş bir “gradyan inişi” sürecini (aday yanıtlar oluşturma, metin kaybı hesaplama, metin gradyanı hesaplama, yanıtı güncelleme) simüle ederek, model ağırlıklarını güncellemeden hizalama sağlıyor. Deneyler, TPO’nun hizalanmamış ve hizalanmış modellerin performansını önemli ölçüde artırabildiğini gösteriyor; örneğin, Llama-3.1-70B-SFT modeli iki adımlı TPO optimizasyonundan sonra birçok kıyaslamada hizalanmış Instruct versiyonunu geride bıraktı. Bu yöntem, “genişlik + derinlik” çıkarım genişletme stratejisi sunuyor ve kaynak kısıtlı ortamlarda verimli bir optimizasyon potansiyeli sergiliyor (Kaynak: WeChat)

ICML 2025 | RLHF çok pahalı ve yavaş mı? TPO anlık hizalama yeni çözümü, tek bir komutla tercih optimizasyonunu hallediyor

Yeni araştırma LLM’lerin gizli bilgilerini ortaya çıkarma yöntemlerini inceliyor: Bir makale, büyük dil modellerinden gizleyebilecekleri bilgileri nasıl ortaya çıkarılacağını araştırıyor. Araştırmacılar, belirli bir gizli kelimeyi doğrudan söylemeden tanımlamak üzere tasarlanmış ve bu gizli kelimenin eğitim verilerinde veya istemlerde bulunmadığı “yasaklı” bir model eğittiler. Ardından, araştırmacılar bu sırrı ortaya çıkarmak için açıklayıcı olmayan (kara kutu) yöntemleri ve logit lens ve seyrek otomatik kodlayıcılar gibi mekanizmaya dayalı yorumlanabilirlik tekniklerine dayanan otomatikleştirilmiş stratejileri değerlendirdiler. Sonuçlar, her iki yöntemin de kavram kanıtlama ortamında gizli kelimeyi etkili bir şekilde ortaya çıkarabildiğini gösterdi. Bu çalışma, dil modellerinden gizli bilgileri çıkarma konusundaki kritik sorunu çözmek için ilk çözümleri sunmayı ve böylece güvenli ve güvenilir dağıtımlarını teşvik etmeyi amaçlamaktadır (Kaynak: HuggingFace Daily Papers)

Makale, büyük dil modellerinde birleşik budama (FedPrLLM) uygulamasını tartışıyor: Büyük dil modellerinin (LLM) budanmasında gizliliğe duyarlı alanlarda genel kalibrasyon örnekleri elde etmenin zorluğunu çözmek için araştırmacılar, kapsamlı bir birleşik budama çerçevesi olan FedPrLLM’yi önerdiler. Bu çerçeve altında, her istemci yalnızca yerel kalibrasyon verilerine göre budama maskesi matrislerini hesaplar ve bunları sunucuyla paylaşarak küresel modeli işbirlikçi bir şekilde budar ve aynı zamanda yerel veri gizliliğini korur. Kapsamlı deneyler yoluyla, araştırmacılar tek seferlik budamanın (one-shot pruning) katman karşılaştırması (layer comparison) ile birleştirilmesinin ve ağırlık ölçeklendirmesi yapılmamasının (no weight scaling) FedPrLLM çerçevesi içindeki en iyi seçenek olduğunu buldular. Bu araştırma, gelecekte gizliliğe duyarlı alanlarda LLM budama çalışmalarına rehberlik etmeyi amaçlamaktadır (Kaynak: HuggingFace Daily Papers)

Makale MIGRATION-BENCH’i öneriyor: Java 8 kod taşıma kıyaslaması: Araştırmacılar, Java 8’den en son LTS sürümlerine (Java 17, 21) kod taşımaya odaklanan bir kod taşıma kıyaslaması olan MIGRATION-BENCH’i tanıttı. Bu kıyaslama, 5102 depo içeren tam bir veri kümesi ve 300 özenle seçilmiş karmaşık depo içeren bir alt küme içerir ve büyük dil modellerinin (LLM’ler) depo düzeyinde kod taşıma görevlerindeki yeteneklerini değerlendirmeyi amaçlar. Aynı zamanda, makale kapsamlı bir değerlendirme çerçevesi sunar ve SD-Feedback yöntemini önerir; deneyler, LLM’lerin (Claude-3.5-Sonnet-v2 gibi) bu tür taşıma görevlerini etkili bir şekilde ele alabileceğini ve seçilen alt kümede sırasıyla %62.33 (minimum taşıma) ve %27.00 (maksimum taşıma) başarı oranlarına ulaştığını göstermektedir (Kaynak: HuggingFace Daily Papers)

Makale CS-Sum’ı öneriyor: Kod değiştirme diyalog özeti kıyaslaması ve LLM sınırlılık analizi: Büyük dil modellerinin (LLM’ler) kod değiştirme (CS) anlama yeteneğini değerlendirmek için araştırmacılar, kod değiştirme diyaloglarını İngilizce’ye özetleyerek değerlendirme yapan CS-Sum kıyaslamasını tanıttı. CS-Sum, Mandarin-İngilizce, Tamil-İngilizce ve Malayca-İngilizce için ilk kod değiştirme diyalog özeti kıyaslamasıdır ve her dil çifti 900-1300 insan tarafından etiketlenmiş diyalog içerir. On açık ve kapalı kaynaklı LLM’nin (az sayıda örnek, çeviri-özet ve ince ayar yöntemleri dahil) değerlendirilmesiyle, araştırmacılar otomatik değerlendirme metriklerinin yüksek puanlar almasına rağmen, LLM’lerin CS girdilerini işlerken hala ince hatalar yaptığını ve böylece diyaloğun tam anlamını değiştirdiğini buldu. Makale ayrıca LLM’lerin CS işlerken en sık yaptığı üç hata türünü belirtiyor ve kod değiştirme verileri için özel eğitim ihtiyacını vurguluyor (Kaynak: HuggingFace Daily Papers)

Makale, büyük modellerin çıkarım sırasında güven derecelerini ifade etme yeteneğini tartışıyor: Araştırmalar, genişletilmiş düşünce zinciri (CoT) çıkarımı yapan büyük dil modellerinin (LLM’ler) yalnızca sorun çözmede daha iyi performans göstermekle kalmayıp, güven derecelerini doğru bir şekilde ifade etmede de daha başarılı olduğunu gösteriyor. Altı çıkarım modelinin altı veri kümesi üzerinde yapılan kıyaslama testleri sonucunda, 36 ayarın 33’ünde çıkarım modellerinin çıkarım yapmayan modellere göre daha iyi güven kalibrasyonuna sahip olduğu bulundu. Analizler, bunun çıkarım modellerinin “yavaş düşünme” davranışlarından (alternatif yöntemleri keşfetme, geri izleme gibi) kaynaklandığını ve CoT sürecinde güven derecelerini dinamik olarak ayarlamalarına olanak tanıdığını öne sürüyor. Ayrıca, yavaş düşünme davranışlarının kaldırılması kalibrasyonda önemli bir düşüşe yol açarken, çıkarım yapmayan modellerin yönlendirme altında yavaş düşünme yapmaktan fayda sağlayabildiği belirtiliyor (Kaynak: HuggingFace Daily Papers)

Makale: Görsel soru-cevap çiftlerinden pekiştirmeli öğrenme yoluyla VLM’leri görsel çıkarım için eğitme (Visionary-R1): Bu çalışma, pekiştirmeli öğrenme ve görsel soru-cevap çiftleri aracılığıyla, açık bir düşünce zinciri (CoT) denetimi olmaksızın görsel dil modellerini (VLM) görüntü verileri üzerinde çıkarım yapmak üzere eğitmeyi amaçlamaktadır. Araştırma, pekiştirmeli öğrenmeyi (yanıt vermeden önce çıkarım zinciri oluşturması için modeli yönlendirme) basitçe uygulamanın, modelin basit sorulardan kestirme yollar öğrenmesine ve genelleme yeteneğini azaltmasına neden olabileceğini bulmuştur. Bu sorunu çözmek için araştırmacılar, modelin “altyazı-çıkarım-yanıt” çıktı formatını izlemesi gerektiğini, yani önce görüntünün ayrıntılı bir altyazısını oluşturması, ardından bir çıkarım zinciri kurması gerektiğini önermektedir. Bu yönteme dayalı olarak eğitilen Visionary-R1 modeli, GPT-4o, Claude3.5-Sonnet ve Gemini-1.5-Pro gibi güçlü çok modlu modellerden daha iyi performans göstererek birçok görsel çıkarım kıyaslamasında üstünlük sağlamıştır (Kaynak: HuggingFace Daily Papers)

Makale VideoEval-Pro’yu öneriyor: Daha gerçekçi ve sağlam uzun video anlama değerlendirme kıyaslaması: Araştırma, mevcut uzun video anlama (LVU) kıyaslamalarının çoğunun çoktan seçmeli sorulara (MCQ) dayandığını, bunun da tahminlere açık olduğunu ve bazı soruların tüm videoyu izlemeden yanıtlanabildiğini, dolayısıyla model performansını olduğundan yüksek gösterdiğini belirtiyor. Bu sorunu çözmek için makale, modelin tüm videoyu anlama yeteneğini gerçekçi bir şekilde değerlendirmeyi amaçlayan, açık uçlu kısa yanıtlı sorular içeren bir LVU kıyaslaması olan VideoEval-Pro’yu öneriyor. Bu kıyaslama, parça düzeyinde ve tüm video düzeyinde algılama ve çıkarım görevlerini kapsıyor. 21 video LMM’sinin değerlendirilmesi, modellerin açık uçlu sorularda performansının önemli ölçüde düştüğünü ve MCQ’da yüksek puan almanın VideoEval-Pro’da yüksek puan almakla zorunlu bir ilişkisi olmadığını gösteriyor. VideoEval-Pro, artan girdi kare sayısından daha fazla fayda sağlıyor ve LVU alanı için daha güvenilir bir değerlendirme standardı sunuyor (Kaynak: HuggingFace Daily Papers)

Makale: Sıfırıncı Derece Optimizasyon ile Nicemlenmiş Sinir Ağlarının İnce Ayarı (QZO): Büyük dil modellerinin hacminin katlanarak artmasıyla birlikte, GPU belleği, modellerin alt görevlere uyarlanmasında bir darboğaz haline geldi. Bu çalışma, birleşik bir çerçeve aracılığıyla model ağırlıklarının, gradyanların ve optimize edici durumlarının bellek kullanımını en aza indirmeyi amaçlamaktadır. Araştırmacılar, gradyanları ve optimize edici durumlarını ortadan kaldırmak için sıfırıncı derece optimizasyonu önermektedir; bu yöntem, ileri yayılım sırasında ağırlıkları pertürbe ederek gradyanları yaklaşık olarak hesaplar. Ağırlık belleğini en aza indirmek için model nicemlemesi (örneğin bfloat16’dan int4’e) kullanılır. Ancak, nicemlenmiş ağırlıklara doğrudan sıfırıncı derece optimizasyon uygulamak, ayrık ağırlıklar ile sürekli gradyanlar arasındaki hassasiyet farkı nedeniyle mümkün değildir. Bu sorunu çözmek için makale, sürekli nicemleme ölçeklerini pertürbe ederek gradyan tahmini yapan ve eğitimi stabilize etmek için yönlü türev kırpma yöntemini kullanan yeni bir yöntem olan Nicemlenmiş Sıfırıncı Derece Optimizasyonu’nu (QZO) önermektedir. QZO, skaler tabanlı ve kod kitabı tabanlı eğitim sonrası nicemleme yöntemleriyle ortogonaldir ve tam parametreli bfloat16 ince ayarına kıyasla, QZO 4-bit LLM’ler için toplam bellek maliyetini 18 kattan fazla azaltabilir ve Llama-2-13B ile Stable Diffusion 3.5 Large’ın tek bir 24GB GPU içinde ince ayar yapılmasına olanak tanır (Kaynak: HuggingFace Daily Papers)

Makale: Bütçe Göreli Politika Optimizasyonu (BRPO) ile Her An Çıkarım Performansını Optimize Etme (AnytimeReasoner): Test zamanı hesaplamasının genişletilmesi, büyük dil modellerinin (LLM) çıkarım yeteneklerini geliştirmek için kritik öneme sahiptir. Mevcut yöntemler genellikle çıkarım yörüngesinin sonunda doğrulanabilir ödülü en üst düzeye çıkarmak için pekiştirmeli öğrenmeyi (RL) kullanır, ancak bu yalnızca sabit bir token bütçesi altındaki nihai performansı optimize eder ve eğitim ile dağıtım verimliliğini etkiler. Bu çalışma, her an çıkarım performansını optimize etmeyi, token verimliliğini ve farklı bütçe kısıtlamaları altında çıkarım esnekliğini artırmayı amaçlayan AnytimeReasoner çerçevesini önermektedir. Yöntem, önsel bir dağılımdan örneklenen token bütçesine uyacak şekilde tam düşünme sürecini kesmek, modeli her kesilmiş düşünme için doğrulanmak üzere en iyi yanıtı özetlemeye zorlamak ve böylece çıkarım sürecine doğrulanabilir yoğun ödüller ekleyerek RL optimizasyonunda daha etkili kredi atamasını teşvik etmektir. Ayrıca, araştırmacılar pekiştirmeli düşünme stratejilerini geliştirirken öğrenme sağlamlığını ve verimliliğini artırmak için yeni bir varyans azaltma tekniği olan Bütçe Göreli Politika Optimizasyonu’nu (BRPO) tanıtmaktadır. Matematiksel çıkarım görevlerindeki deneysel sonuçlar, bu yöntemin çeşitli önsel dağılımlar altında tüm düşünme bütçelerinde GRPO’dan daha iyi performans gösterdiğini, eğitim ve token verimliliğini artırdığını göstermektedir (Kaynak: HuggingFace Daily Papers)

Makale, Büyük Hibrit Çıkarım Modellerini (LHRM) öneriyor: Verimliliği ve yeteneği artırmak için isteğe bağlı düşünme: Son zamanlardaki büyük çıkarım modelleri (LRM’ler), nihai yanıtı üretmeden önce genişletilmiş bir düşünme süreci gerçekleştirerek çıkarım yeteneklerini önemli ölçüde geliştirdi. Ancak, aşırı uzun düşünme süreçleri, özellikle basit sorgular için gereksiz olan token tüketimi ve gecikme açısından büyük bir maliyet getirir. Bu çalışma, kullanıcı sorgusunun bağlamsal bilgilerine göre düşünme yapıp yapmamaya uyarlanabilir bir şekilde karar verebilen Büyük Hibrit Çıkarım Modellerini (LHRM) tanıtmaktadır. Bu hedefe ulaşmak için araştırmacılar iki aşamalı bir eğitim süreci önermektedir: ilk olarak hibrit ince ayar (HFT) ile soğuk başlatma, ardından uygun düşünme modunu örtük olarak öğrenmek için önerilen hibrit grup politikası optimizasyonu (HGPO) ile çevrimiçi pekiştirmeli öğrenme. Ayrıca, araştırmacılar modelin hibrit düşünme yeteneğini ölçmek için Hibrit Doğruluk (Hybrid Accuracy) metriğini tanıtmaktadır. Deneysel sonuçlar, LHRM’nin farklı zorluk ve türdeki sorgularda uyarlanabilir bir şekilde hibrit düşünme gerçekleştirebildiğini, çıkarım ve genel yeteneklerinin mevcut LRM ve LLM’lerden daha iyi olduğunu ve aynı zamanda verimliliği önemli ölçüde artırdığını göstermektedir (Kaynak: HuggingFace Daily Papers)

Makale: Çıkarım Odaklı Görüntü Kalitesi Değerlendirmesi için VisualQuality-R1’i Pekiştirmeli Öğrenme ile Sıralama: DeepSeek-R1, pekiştirmeli öğrenmenin büyük dil modellerinin (LLM) çıkarım ve genelleme yeteneklerini etkili bir şekilde teşvik edebileceğini göstermiştir. Ancak, görsel çıkarıma dayanan görüntü kalitesi değerlendirmesi (IQA) alanında, çıkarım odaklı hesaplamalı modellemenin potansiyeli yeterince araştırılmamıştır. Bu çalışma, çıkarım odaklı bir referanssız IQA (NR-IQA) modeli olan VisualQuality-R1’i tanıtmakta ve görsel kalitenin içsel göreceliğine uyum sağlayan bir öğrenme algoritması olan pekiştirmeli öğrenme ile sıralama (reinforcement learning to rank) kullanarak eğitmektedir. Spesifik olarak, bir çift görüntü için model, her bir görüntü için birden fazla kalite puanı üretmek üzere grup göreceli politika optimizasyonunu (group relative policy optimization) kullanır. Bu tahminler daha sonra Thurstone modeli altında bir görüntünün kalitesinin diğerinden daha yüksek olma karşılaştırma olasılığını hesaplamak için kullanılır. Her kalite tahmininin ödülü, ayrık ikili etiketler yerine sürekli bir sadakat ölçütü kullanılarak tanımlanır. Kapsamlı deneyler, önerilen VisualQuality-R1’in performans açısından sürekli olarak ayırt edici derin öğrenme tabanlı NR-IQA modellerinden ve son zamanlardaki çıkarım odaklı kalite regresyon yöntemlerinden daha iyi olduğunu göstermektedir. Ayrıca, VisualQuality-R1, insan yargılarıyla tutarlı, bağlamsal olarak zengin kalite açıklamaları üretebilir ve algısal ölçekleri yeniden ayarlamaya gerek kalmadan çoklu veri kümesi eğitimini destekler. Bu özellikler, onu görüntü süper çözünürlüğü ve görüntü üretimi gibi çeşitli görüntü işleme görevlerindeki ilerlemeyi güvenilir bir şekilde ölçmek için özellikle uygun hale getirir (Kaynak: HuggingFace Daily Papers)

Makale: Kaynak Kısıtlı Ortamda “Isınma” Yoluyla Genel Çıkarım Yeteneklerinin Kilidini Açma: Çıkarım yeteneğine sahip etkili LLM’ler tasarlamak genellikle doğrulanabilir ödüllerle pekiştirmeli öğrenme (RLVR) veya özenle seçilmiş uzun düşünce zincirleri (CoT) ile damıtma gerektirir; her ikisi de büyük miktarda eğitim verisine ciddi şekilde bağımlıdır ve bu da kaliteli eğitim verilerinin kıt olduğu senaryolar için önemli bir zorluk teşkil eder. Araştırmacılar, sınırlı denetim altında çıkarım LLM’leri geliştirmek için örneklem açısından verimli iki aşamalı bir eğitim stratejisi önermektedir. İlk aşamada, genel çıkarım becerileri kazanmak için oyuncak alanlardan (örneğin şövalye ve düzenbaz mantık bulmacaları) uzun CoT’leri damıtarak modeli “ısındırırlar”. İkinci aşamada, “ısınmış” modele az sayıda hedef alan örneği kullanarak RLVR uygularlar. Deneyler, bu yöntemin birkaç faydası olduğunu göstermektedir: (i) Yalnızca ısınma aşaması bile genel çıkarımı teşvik eder ve bir dizi görevde (MATH, HumanEval+, MMLU-Pro) performansı artırır; (ii) Aynı küçük veri kümesinde (≤100 örnek) RLVR eğitimi yapıldığında, ısınmış model her zaman temel modelden daha iyi performans gösterir; (iii) RLVR eğitiminden önce ısınma, modelin belirli bir alana yönelik eğitimden sonra bile alanlar arası genelleme yeteneğini korumasını sağlar; (iv) Sürece ısınma eklemek yalnızca doğruluğu artırmakla kalmaz, aynı zamanda RLVR eğitiminin genel örneklem verimliliğini de artırır. Bu araştırma sonuçları, veri kıtlığı olan ortamlarda sağlam çıkarım LLM’leri oluşturmada “ısınmanın” potansiyelini göstermektedir (Kaynak: HuggingFace Daily Papers)

Makale IndexMark’ı öneriyor: Otoregresif görüntü üretimi için eğitimsiz bir filigran çerçevesi: Görünmez görüntü filigranlama teknolojisi, görüntü sahipliğini koruyabilir ve görsel üretim modellerinin kötü amaçlı kullanımını önleyebilir. Ancak, mevcut üretken filigranlama yöntemleri esas olarak difüzyon modellerine odaklanırken, otoregresif görüntü üretim modelleri için filigranlama teknolojisi hala araştırılmayı beklemektedir. Araştırmacılar, otoregresif görüntü üretim modelleri için eğitimsiz bir filigran çerçevesi olan IndexMark’ı önermektedir. IndexMark, kod kitabının (codebook) yedeklilik özelliğinden esinlenmiştir: otoregresif olarak üretilen indeksleri benzer indekslerle değiştirmek, ihmal edilebilir görsel farklılıklar yaratır. IndexMark’ın temel bileşeni, token benzerliğine göre kod kitabından dikkatlice filigran tokenlerini seçen ve filigran tokenlerinin kullanımını genelleştirmek için token değiştirmeyi kullanan, böylece görüntü kalitesini etkilemeden filigranı gömen basit ve etkili bir “eşleştir-değiştir” yöntemidir. Filigran doğrulaması, üretilen görüntüdeki filigran tokenlerinin oranını hesaplayarak gerçekleştirilir ve indeks kodlayıcı ile doğruluk daha da artırılır. Ayrıca, araştırmacılar kırpma saldırılarına karşı sağlamlığı artırmak için yardımcı bir doğrulama şeması sunmaktadır. Deneyler, IndexMark’ın hem görüntü kalitesi hem de doğrulama doğruluğu açısından SOTA seviyesine ulaştığını ve kırpma, gürültü, Gauss bulanıklığı, rastgele silme, renk titremesi ve JPEG sıkıştırma gibi çeşitli pertürbasyonlara karşı sağlamlık gösterdiğini kanıtlamaktadır (Kaynak: HuggingFace Daily Papers)

Makale: Ödül Modelleri ile Çıkarım (RRM): Ödül modelleri, büyük dil modellerini (LLM) insan beklentilerine uygun çıktılar üretmeye yönlendirmede kilit bir rol oynamaktadır. Ancak, ödül modeli performansını artırmak için test zamanı hesaplamasının nasıl etkili bir şekilde kullanılacağı hala açık bir zorluktur. Bu çalışma, nihai ödülü üretmeden önce dikkatli bir çıkarım süreci yürütmek üzere özel olarak tasarlanmış Ödül Çıkarım Modellerini (Reward Reasoning Models, RRM’ler) tanıtmaktadır. Düşünce zinciri çıkarımı yoluyla, RRM’ler ödülün belirgin olmadığı karmaşık sorgular için ek test zamanı hesaplamasından yararlanabilir. RRM’leri geliştirmek için araştırmacılar, eğitim verisi olarak açık çıkarım yörüngelerine ihtiyaç duymadan kendi kendine gelişen ödül çıkarım yeteneklerini geliştirebilen bir pekiştirmeli öğrenme çerçevesi uygulamışlardır. Deneysel sonuçlar, RRM’lerin birden fazla alandaki ödül modelleme kıyaslamalarında üstün performans elde ettiğini göstermektedir. Özellikle, araştırmacılar RRM’lerin ödül doğruluğunu daha da artırmak için test zamanı hesaplamasından uyarlanabilir bir şekilde yararlanabildiğini göstermişlerdir. Önceden eğitilmiş ödül çıkarım modelleri HuggingFace’te mevcuttur (Kaynak: HuggingFace Daily Papers)

Makale: MoE’deki Bilişsel Uzmanları Kullanarak Düşünce Yönlendirmesi, Ek Eğitim Olmadan Çıkarımı Geliştirme: Uzmanlar Karması (MoE) mimarisi, yapılandırılmış bilişsel süreçleri kolaylaştırmak için uzmanları seçici olarak etkinleştirerek büyük çıkarım modellerinde (LRM) etkileyici çıkarım yetenekleri elde etmiştir. Önemli ilerlemelere rağmen, mevcut çıkarım modelleri genellikle aşırı düşünme ve yetersiz düşünme gibi bilişsel verimsizlik sorunlarıyla boğuşmaktadır. Bu sınırlamaları gidermek için araştırmacılar, ek eğitim veya karmaşık sezgisel yöntemler olmadan çıkarım performansını artırmayı amaçlayan “Bilişsel Uzmanları Güçlendirme” (Reinforcing Cognitive Experts, RICE) adlı yeni bir çıkarım zamanı yönlendirme yöntemi sunmaktadır. Normalleştirilmiş noktasal karşılıklı bilgiyi (nPMI) kullanarak, araştırmacılar, belirli belirteçlerle (örneğin ““`”) karakterize edilen meta düzey çıkarım işlemlerini koordine etmekten sorumlu olan “bilişsel uzmanlar” olarak adlandırılan özel uzmanları sistematik olarak tanımlamışlardır. Önde gelen MoE tabanlı LRM’ler (DeepSeek-R1 ve Qwen3-235B) üzerinde yapılan titiz nicel ve bilimsel çıkarım kıyaslama testlerinin deneysel değerlendirmeleri, RICE’ın çıkarım doğruluğu, bilişsel verimlilik ve alanlar arası genelleme konularında önemli ve tutarlı iyileştirmeler sağladığını göstermektedir. Önemli olan, bu hafif yaklaşımın, modelin genel talimat takip yeteneğini korurken, popüler çıkarım yönlendirme tekniklerini (istem tasarımı ve kod çözme kısıtlamaları gibi) performansta önemli ölçüde geride bırakmasıdır. Bu sonuçlar, bilişsel uzmanları güçlendirmenin, gelişmiş çıkarım modelleri içindeki bilişsel verimliliği artırmak için umut verici, pratik ve yorumlanabilir bir yön olduğunu vurgulamaktadır (Kaynak: HuggingFace Daily Papers)

Makale: Çok adımlı soru cevaplamada bağlam sıralamasının dil modeli performansı üzerindeki etkisini araştırıyor: Çok adımlı soru cevaplama (MHQA), karmaşıklığı nedeniyle dil modelleri (LM) için bir zorluk teşkil etmektedir. LM’ler birden fazla arama sonucunu işlemek üzere yönlendirildiğinde, yalnızca ilgili bilgileri almakla kalmaz, aynı zamanda bilgi kaynakları arasında çok adımlı çıkarım yapmaları da gerekir. LM’ler geleneksel soru cevaplama görevlerinde iyi performans gösterse de, nedensel maske (causal mask) karmaşık bağlamlarda çıkarım yapma yeteneklerini engelleyebilir. Bu çalışma, arama sonuçlarını (alınan belgeler) farklı yapılandırmalarda sıralayarak LM’lerin çok adımlı sorulara nasıl yanıt verdiğini araştırmaktadır. Araştırma bulguları şunlardır: 1) Kodlayıcı-kod çözücü modeller (Flan-T5 serisi gibi) genellikle MHQA görevlerinde yalnızca nedensel kod çözücü LM’lerden daha iyi performans gösterir, boyutları çok daha küçük olmasına rağmen; 2) Altın belgelerin sırasını değiştirmek, Flan T5 modellerinde ve ince ayarlanmış yalnızca kod çözücü modellerde farklı eğilimler ortaya koyar; belge sırası çıkarım zinciri sırasıyla tutarlı olduğunda performans en iyisidir; 3) Yalnızca nedensel kod çözücü modellerin çift yönlü dikkatini artırmak için nedensel maskeyi değiştirmek, nihai performanslarını etkili bir şekilde artırabilir. Ayrıca, çalışma MHQA bağlamında LM dikkat ağırlıklarının dağılımını kapsamlı bir şekilde araştırmış ve cevap doğru olduğunda dikkat ağırlıklarının daha yüksek değerlerde zirve yapma eğiliminde olduğunu bulmuştur. Araştırmacılar bu bulguyu, LM’lerin bu görevdeki performansını sezgisel olarak artırmak için kullanmaktadır (Kaynak: HuggingFace Daily Papers)

Makale: Görsel Ajanlar için Pekiştirmeli İnce Ayar Kullanımı (Visual-ARFT): OpenAI’nin o3’ü gibi büyük çıkarım modellerinin önemli bir eğilimi, “görüntülerle düşünmeyi” sağlamak için harici araçları (web tarayıcısı araması, görüntü işleme için kod yazma/yürütme gibi) kullanma yeteneğine sahip yerel ajan yetenekleridir. Açık kaynak araştırma topluluğunda, saf dil ajan yetenekleri (fonksiyon çağırma ve araç entegrasyonu gibi) konusunda önemli ilerlemeler kaydedilmiş olsa da, gerçekten görüntülerle düşünmeyi içeren çok modlu ajan yetenekleri ve bunlara karşılık gelen kıyaslamaların geliştirilmesi hala daha azdır. Bu çalışma, büyük görsel dil modellerine (LVLM) esnek ve uyarlanabilir çıkarım yetenekleri kazandırmada Görsel Ajan Pekiştirmeli İnce Ayar’ın (Visual Agentic Reinforcement Fine-Tuning, Visual-ARFT) etkinliğini vurgulamaktadır. Visual-ARFT aracılığıyla, açık kaynak LVLM’ler gerçek zamanlı bilgi güncellemeleri için web sitelerine göz atma ve giriş görüntülerini işlemek ve analiz etmek için kırpma, döndürme gibi görüntü işleme teknikleriyle kod yazma yeteneği kazanmıştır. Araştırmacılar ayrıca, LVLM’lerin ajan arama ve kodlama yeteneklerini değerlendirmek için MAT-Search ve MAT-Coding olmak üzere iki ayar içeren Çok Modlu Ajan Araç Kıyaslaması’nı (Multi-modal Agentic Tool Bench, MAT) önermişlerdir. Deneysel sonuçlar, Visual-ARFT’nin MAT-Coding’de taban çizgisine göre +%18.6 F1 / +%13.0 EM ve MAT-Search’te +%10.3 F1 / +%8.7 EM daha iyi performans göstererek GPT-4o’yu geride bıraktığını göstermektedir. Visual-ARFT ayrıca mevcut çok adımlı soru cevaplama kıyaslamalarında (2Wiki ve HotpotQA gibi) +%29.3 F1 / +%25.9 EM kazanç elde ederek güçlü bir genelleme yeteneği sergilemiştir. Bu bulgular, Visual-ARFT’nin sağlam ve genelleştirilebilir çok modlu ajanlar oluşturmak için umut verici bir yol sunduğunu göstermektedir (Kaynak: HuggingFace Daily Papers)

💼 İş Dünyası

Mianbi Intelligence, Hongtai, Guozhong, Tsinghua Holdings Capital ve Moutai Fund’ın ortak yatırımıyla yüz milyonlarca yuanlık yeni bir finansman turunu tamamladı: Büyük model şirketi Mianbi Intelligence, kısa süre önce Hongtai Fund, Guozhong Capital, Tsinghua Holdings Capital ve Moutai Fund’ın ortak yatırımıyla yüz milyonlarca yuanlık yeni bir finansman turunu tamamladığını duyurdu. Mianbi Intelligence, “verimli” büyük model araştırmalarına odaklanarak, aynı parametreler altında daha yüksek performanslı, daha düşük maliyetli, daha düşük güç tüketimli ve daha hızlı büyük modeller oluşturmayı hedefliyor. Uç cihazlar için geliştirdiği tam modlu modeli MiniCPM-o 2.6, sürekli görme, gerçek zamanlı dinleme ve doğal konuşma gibi alanlarda sektör lideri konumunda. MiniCPM serisi modeller, verimli ve düşük maliyetli özellikleriyle tüm platformlarda on milyonun üzerinde indirme sayısına ulaştı. Şirket, Changan Automobile, SAIC Volkswagen, Great Wall Motors gibi otomobil üreticileriyle iş birliği yaparak uç cihaz büyük modellerinin akıllı kokpit gibi alanlarda ticarileşmesini destekliyor (Kaynak: 量子位, WeChat)

Mianbi Intelligence, yeni bir yüz milyonlarca yuanlık finansman turu aldı ve uç cihaz büyük modellerinin verimli gelişimine ve yaygın uygulamasına öncülük ediyor

Terminus Group ve Tongji Üniversitesi, uzamsal zeka teknolojisi atılımlarını ortaklaşa desteklemek için stratejik bir iş birliğine vardı: AIoT şirketi Terminus Group ve Tongji Üniversitesi Mühendislik Yapay Zeka Enstitüsü, uzamsal zeka teknolojisine odaklanacak ve çok kaynaklı heterojen veri füzyonu, sahne anlama ve karar yürütme gibi alanlardaki Ar-Ge’yi önceliklendirecek bir stratejik iş birliği anlaşması imzaladı. İş birliği, yenilikçi araştırma, kaynak paylaşımı, sonuçların ticarileştirilmesi ve yetenek gelişimini içeriyor. Terminus Group uygulama senaryoları ve donanım test platformları sağlarken, Tongji Üniversitesi Mühendislik Yapay Zeka Enstitüsü temel algoritma geliştirme ve sistem mühendisliğine liderlik edecek. İki taraf, ileri teknolojilerin endüstriyel uygulamalara geçişini hızlandırmayı ve mühendislik zekası “işletim sistemi” alanındaki atılımları ortaklaşa keşfetmeyi amaçlıyor (Kaynak: 量子位)

Terminus Group ve Tongji Üniversitesi, uzamsal zeka teknolojisi atılımlarına odaklanan stratejik bir iş birliği anlaşması imzaladı

Yerli büyük teknoloji şirketleri AI Agent alanındaki konumlanmalarını hızlandırıyor; Baidu, Alibaba ve ByteDance pazar payı için yarışıyor: Sequoia Capital AI Zirvesi’nde AI Agent’ların değerinin vurgulanmasının ardından, ByteDance, Baidu, Alibaba gibi yerli internet devleri bu alandaki konumlanmalarını hızlandırdı. ByteDance’in birden fazla ekibinin Agent geliştirmeye yatırım yaptığı ve “Kouzi Space”i dahili olarak test ettiği söyleniyor; Baidu, Create Konferansı’nda genel amaçlı akıllı ajan “Xīnxiǎng”ı duyurdu; Alibaba ise Quark’ı “süper Agent” olarak konumlandırdı. Genel amaçlı Agent’ların yanı sıra, şirketler Feizhu Wenyiwen (Alibaba), Faxingbao (Baidu) gibi dikey alanlardaki Agent’lara da odaklanıyor. Sektör, Agent’ların büyük modellerden sonraki ikinci dalga olduğuna ve rekabetin kilit noktalarının ekosistem derinliği, kullanıcı zihniyetini ele geçirme, temel model yetenekleri ve maliyet kontrolü gibi faktörler olduğuna inanıyor. Rekabet yoğun olmasına rağmen, Agent’lar henüz GPT benzeri bir yıkıcı anı yakalayamadı; teknoloji olgunluğu, iş modelleri ve kullanıcı deneyimi hala geliştirilmeye açık (Kaynak: 36氪)

Büyük şirketler birbiri ardına giriyor, Baidu, Alibaba ve ByteDance Agent söylemi için yarışıyor

🌟 Topluluk

AI tarafından üretilen içerik Reddit’i dolduruyor, “Ölü İnternet” endişelerine ve kullanıcı deneyimi tartışmalarına yol açıyor: Reddit kullanıcıları, platformda AI tarafından üretilen içeriğin giderek arttığını gözlemledi; bazı yorumlar benzer, kişiliksiz bir tarz sergiliyor ve hatta belirgin AI yazım izleri (örneğin, em-dash’in aşırı kullanımı) gösteriyor. Bu durum, internetteki içeriğin çoğunun gerçek insan etkileşimi yerine AI tarafından üretileceği anlamına gelen “Ölü İnternet Teorisi” (Dead Internet Theory) hakkındaki tartışmaları alevlendirdi. Kullanıcıların tepkileri çeşitli: Bazıları AI içeriğinin insani dokunuştan yoksun, sıkıcı veya ürkütücü olduğunu ve gerçek kişilerarası iletişim deneyimini etkilediğini düşünüyor; bazıları ise AI’ın ana dili olmayanların metinlerini düzeltmesine yardımcı olabileceğini veya modelleri test etmek ve ince ayar yapmak için kullanılabileceğini belirtiyor. Genel endişe, AI içeriğinin büyük miktarda ortaya çıkmasının gerçek insan tartışmalarını sulandıracağı ve pazarlama, propaganda gibi amaçlarla kullanılabileceği, sonuç olarak platformun AI eğitimi için değerini düşüreceği yönünde (Kaynak: Reddit r/ChatGPT, Reddit r/ArtificialInteligence)

Reddit r/ChatGPT

AI modelleri cinsiyet önyargısı konusunda çifte standart sergiliyor, toplumsal yansımalara yol açıyor: Reddit’teki bir gönderi, AI modelinin (Gemini 2.5 Pro önizleme sürümü olduğu iddia ediliyor) cinsiyet içeren olumsuz genellemelerle başa çıkarken farklı tepkiler verdiğini gösteriyor. “Erkekler = iğrenç” dendiğinde, model bunun öznel bir ifade olduğunu kabul ederek nötr bir yanıt verme eğilimindeyken; “Kadınlar = iğrenç” dendiğinde, model bu ifadenin zararlı genellemeler yaydığını belirterek daha fazla etkileşimi reddediyor. Yorum bölümünde bu konu hararetli bir şekilde tartışıldı ve şu görüşler öne çıktı: Bu, kadın düşmanlığı tartışmalarının erkek düşmanlığı tartışmalarından çok daha fazla olduğu toplumsal gerçeği yansıtıyor ve bu da eğitim verilerinde dengesizliğe yol açıyor; model, soruyu soranın cinsiyetine göre yanıt stratejisini ayarlıyor olabilir; toplumun farklı cinsiyet gruplarına yönelik klişelere ve saldırgan ifadelere karşı duyarlılığı farklı. Bazı yorumcular AI’ın tepkisinin toplumsal önyargıların bir yansıması olduğunu düşünürken, bazıları ise bu farklılaştırılmış muamelenin makul bir gerekçesi olduğunu, çünkü kadınlara yönelik olumsuz ifadelerin genellikle daha geniş kapsamlı ayrımcılık ve şiddetle ilişkili olduğunu savunuyor (Kaynak: Reddit r/ChatGPT)

Reddit r/ChatGPT

AI Agent’ların metalaşma eğilimi ve gelecekteki rekabet odakları tartışılıyor: Reddit kullanıcıları, Microsoft Build 2025 ve Google I/O 2025 konferanslarının AI Agent’ların artık metalaşma aşamasına girdiğini gösterdiğini ve önümüzdeki birkaç yıl içinde Agent oluşturma ve dağıtmanın artık yalnızca öncü model geliştiricilerinin özel yeteneği olmayacağını tartışıyor. Bu nedenle, yapay zeka gelişiminin kısa vadeli odağı, Agent oluşturmanın kendisinden daha üst düzey görevlere, örneğin daha iyi iş planları oluşturma ve dağıtma ile yeniliği yönlendirmek için daha akıllı modeller geliştirmeye kayacaktır. Yorumcular, gelecekte AI Agent alanındaki kazananların, yalnızca en zekice araçları pazarlayanlar değil, en akıllı “yürütme modellerini” (executive models) oluşturan geliştiriciler olacağını düşünüyor. Rekabetin özü, yalnızca dikkat mekanizmalarına veya çıkarım yeteneklerine değil, yığının en tepesindeki güçlü zekaya geri dönecektir (Kaynak: Reddit r/deeplearning)

Makine öğrenimi uygulayıcıları matematik bilgisinin önemini tartışıyor: Reddit r/MachineLearning topluluğu, makine öğrenimi pratiğinde matematiğin önemini tartıştı. Çoğu uygulayıcı, özellikle model optimizasyonu, araştırma makalelerini anlama ve yenilik yapma konularında yapay zekanın arkasındaki matematiksel ilkeleri anlamanın kritik öneme sahip olduğunu düşünüyor. Yorumlar, matris çarpımı gibi alt düzey hesaplamaları manuel olarak yapmanın her zaman gerekli olmasa da, istatistik, doğrusal cebir, kalkülüs gibi temel kavramlara hakim olmanın algoritmaları derinlemesine anlamaya ve körü körüne uygulamaktan kaçınmaya yardımcı olduğunu belirtiyor. Bazı yorumcular, makine öğrenimindeki matematiğin nispeten basit olduğunu, daha karmaşık matematik uygulamalarının optimizasyon teorisi ve kuantum makine öğrenimi gibi alanlarda olduğunu düşünüyor. Çevrimiçi öğrenme kaynaklarının yeterli olduğu kabul ediliyor, ancak öğrenenlerin yüksek düzeyde öz disipline sahip olması gerekiyor (Kaynak: Reddit r/MachineLearning)

💡 Diğer

QbitAI Think Tank Raporu: AI, Arama SEO’sunu Yeniden Şekillendiriyor, Profesyonel İçerik Topluluklarının Değeri Artıyor: QbitAI Think Tank, AI akıllı asistanların geleneksel arama motoru optimizasyonu (SEO) stratejilerini yeniden şekillendirdiğini belirten bir rapor yayınladı. Rapor, deneyler yoluyla AI yanıtlarının yaklaşık yarısının içerik topluluklarından kaynaklandığını, özellikle profesyonel bilgi alanlarında içerik topluluklarının (Zhihu gibi) alıntılanma ağırlığının daha yüksek olduğunu buldu. Kullanıcıların bilgi edinme beklentileri “kendi kendine filtrelemeden” “doğrudan yanıt almaya” doğru kayıyor, bu da geleneksel web sitesi tıklama sayılarının düşmesine neden olabilir. Rapor, AI çağında, profesyonel içerik topluluklarının bilgi yoğunluğu, uzman deneyimi ve kullanıcı tarafından oluşturulan içeriğin kalitesi nedeniyle değerinin arttığını, SEO stratejilerinin SPO’ya (profesyonel topluluk optimizasyonuna yönelik) dönüşmesi gerektiğini ve düşük kaliteli bilgi portallarının ağırlığının azalacağını savunuyor (Kaynak: 量子位, WeChat)

Arama SEO'su AI tarafından yeniden şekillendiriliyor, profesyonel içerik topluluklarının değeri artıyor | QbitAI Think Tank Raporu

AI fotoğraf yaş tahmin aracı FaceAge, The Lancet’te yayınlandı, kanser tedavisi kararlarına yardımcı olabilir: Mass General Brigham ekibi, yüz fotoğraflarını analiz ederek bireyin biyolojik yaşını tahmin edebilen FaceAge adlı bir AI aracı geliştirdi; ilgili araştırma The Lancet Digital Health’te yayınlandı. Model, yüz özelliklerini (şakak çöküklüğü, cilt kırışıklıkları, sarkan çizgiler gibi) gözlemleyerek yaşlanma derecesini değerlendiriyor. Kanser hastaları üzerinde yapılan bir araştırmada, yüz yaşı gerçek yaşından daha genç görünen hastaların tedavi sonuçlarının daha iyi olduğu ve hayatta kalma risklerinin daha düşük olduğu bulundu. Bu araç gelecekte doktorların hastaların biyolojik yaşına göre kişiselleştirilmiş tedavi planları oluşturmasına yardımcı olabilir, ancak veri yanlılığı (eğitim verilerinin ağırlıklı olarak beyazlardan oluşması) ve potansiyel kötüye kullanım (sigorta ayrımcılığı gibi) konusunda endişelere de yol açtı (Kaynak: WeChat)

FaceAge, "The Lancet"te! AI bir fotoğrafla gerçek yaşınızı ortaya çıkarıyor

Araştırma: En iyi yapay zeka modelleri temel fiziksel görevlerde düşük performans sergiliyor, bu da mavi yakalı işlerin kısa vadede yerini almasının zor olduğunu vurguluyor: Makine öğrenimi araştırmacısı Adam Karvonen, bir parça üretim görevi (CNC freze ve torna tezgahı kullanarak) aracılığıyla OpenAI o3, Gemini 2.5 Pro gibi önde gelen LLM’lerin performansını değerlendirdi. Sonuçlar, tüm modellerin tatmin edici bir işleme planı oluşturamadığını, görsel anlama (detayları kaçırma, özellik tanımada tutarsızlık) ve fiziksel çıkarım (sertlik ve titreşimi göz ardı etme, imkansız iş parçası bağlama çözümleri önerme) konularındaki eksikliklerini ortaya koydu. Karvonen, bunun LLM’lerin ilgili alanlarda örtük bilgi ve gerçek dünya deneyim verilerinden yoksun olmasıyla ilgili olduğunu düşünüyor. Kısa vadede yapay zekanın daha çok beyaz yakalı işleri otomatikleştireceğini, fiziksel operasyonlara ve deneyime dayanan mavi yakalı işlerin ise daha az etkileneceğini tahmin ediyor; bu durum otomasyonun farklı sektörler arasında dengesiz bir şekilde gelişmesine yol açabilir (Kaynak: WeChat)

Temel fiziksel görevlerde, dünyanın en iyi yapay zeka modelleri başarısız oldu! Sıradan parça işlemede, o3 deneyimli bir ustadan daha iyi değil