كلمات مفتاحية:نموذج جيميني, ميسترال للذكاء الاصطناعي, إنفيديا نيمو, إل تي إكس فيديو, متصفح سفاري, آر تي إكس 5060, وكيل الذكاء الاصطناعي, ضبط دقيق للتعلم المعزز, إنشاء صور أصلية بجيميني, أداء برمجة ميسترال ميديوم 3, إطار عمل نيمو 2.0 المعياري, إنشاء فيديو فوري باستخدام دي آي تي, تحديث البحث بالذكاء الاصطناعي
🔥 التركيز الرئيسي
ترقية ميزة توليد الصور الأصلية في Google Gemini، مع تحسين الجودة البصرية ودقة عرض النصوص: أعلنت جوجل عن تحديث هام لميزة توليد الصور الأصلية في نموذجها Gemini، حيث تم إطلاق الإصدار الجديد “gemini-2.0-flash-preview-image-generation” على Google AI Studio و Vertex AI. أدى هذا التحديث إلى تحسين كبير في الجودة البصرية للصور ودقة عرض النصوص، مع تقليل زمن الاستجابة. تدعم الميزة الجديدة دمج عناصر الصور، والتحرير في الوقت الفعلي (مثل إضافة كائنات، تعديل محتوى جزئي)، والتكامل مع Gemini 2.0 Flash لتمكين الذكاء الاصطناعي من ابتكار الأفكار ذاتيًا وتوليد الصور. يمكن للمستخدمين تجربة الميزة مجانًا في Google AI Studio، ويبلغ سعر استدعاء الواجهة البرمجية API 0.039 دولار أمريكي لكل صورة. على الرغم من التقدم الملحوظ، يرى بعض المستخدمين أن تأثيره العام لا يزال أقل قليلاً من GPT-4o. (المصدر: 量子位)

شركة Mistral AI تطلق Mistral Medium 3، مع التركيز على البرمجة والوسائط المتعددة، وبتكلفة منخفضة بشكل كبير: أطلقت الشركة الفرنسية الناشئة في مجال الذكاء الاصطناعي Mistral AI أحدث نماذجها متعدد الوسائط Mistral Medium 3. يتميز هذا النموذج بأداء متميز في مهام البرمجة والعلوم والتكنولوجيا والهندسة والرياضيات (STEM)، ويُقال إنه يحقق أداءً يماثل أو يتجاوز 90% من أداء Claude Sonnet 3.7 في العديد من اختبارات الأداء القياسية، بينما تبلغ تكلفته 1/8 فقط (0.4 دولار أمريكي/مليون توكن للمدخلات، 2 دولار أمريكي/مليون توكن للمخرجات). يتمتع Mistral Medium 3 بقدرات على مستوى الشركات مثل النشر المختلط، والتدريب اللاحق المخصص، والتكامل مع أدوات الشركات، وقد تم إطلاقه بالفعل على Mistral La Plateforme و Amazon Sagemaker، وسيصل إلى المزيد من المنصات السحابية في المستقبل. وفي الوقت نفسه، أطلقت Mistral AI أيضًا خدمة روبوت الدردشة الموجهة للشركات Le Chat Enterprise. (المصدر: 量子位)

إصدار NVIDIA NeMo framework 2.0، مع تعزيز النمطية وسهولة الاستخدام، ودعم نماذج Hugging Face ووحدات معالجة الرسومات Blackwell GPU: تم تحديث إطار عمل NVIDIA NeMo إلى الإصدار 2.0، وتشمل التحسينات الأساسية اعتماد تكوين Python بدلاً من YAML، مما يعزز المرونة؛ وتبسيط التجارب والتخصيص من خلال التجريد النمطي لـ PyTorch Lightning؛ واستخدام أداة NeMo-Run لتحقيق توسيع سلس للتجارب واسعة النطاق. يضيف الإصدار الجديد دعمًا للتدريب المسبق والضبط الدقيق لنماذج Hugging Face AutoModelForCausalLM، وقد دعم مبدئيًا وحدات معالجة الرسومات NVIDIA Blackwell B200 GPU. بالإضافة إلى ذلك، يدمج إطار عمل NeMo أيضًا دعمًا لمنصة نماذج الأساس العالمية NVIDIA Cosmos، لتسريع تطوير نماذج العالم لأنظمة الذكاء الاصطناعي الفيزيائية، بما في ذلك مكتبة معالجة الفيديو NeMo Curator و Cosmos tokenizer. (المصدر: GitHub Trending)
شركة Lightricks تطلق LTX-Video: نموذج توليد فيديو DiT في الوقت الفعلي: أعلنت شركة Lightricks عن إطلاق LTX-Video مفتوح المصدر، والذي يُوصف بأنه أول نموذج لتوليد الفيديو في الوقت الفعلي يعتمد على Diffusion Transformer (DiT). يستطيع هذا النموذج توليد مقاطع فيديو عالية الجودة بدقة 1216×704 وبمعدل 30 إطارًا في الثانية، ويدعم وظائف متعددة مثل تحويل النص إلى صورة، والصورة إلى فيديو، والرسوم المتحركة بالإطارات الرئيسية، وتوسيع الفيديو، وتحويل الفيديو إلى فيديو. يعمل الإصدار الأحدث 13B v0.9.7 على تحسين اتباع التعليمات والفهم الفيزيائي، ويقدم خط أنابيب فيديو متعدد المقاييس لعرض سريع وعالي الجودة. النموذج متاح على Hugging Face، مع تكامل ComfyUI و Diffusers. (المصدر: GitHub Trending)

آبل تدرس إجراء تعديل كبير على متصفح Safari، مع احتمال التحول إلى البحث المدفوع بالذكاء الاصطناعي، وعلاقة التعاون مع جوجل محط اهتمام: كشف إيدي كيو، نائب الرئيس الأول في شركة آبل، خلال شهادته في قضية مكافحة الاحتكار التي رفعتها وزارة العدل الأمريكية ضد جوجل، أن آبل تدرس بجدية تعديل متصفح Safari، مع التركيز على محرك بحث مدفوع بالذكاء الاصطناعي. وأشار إلى أن حجم البحث في Safari قد انخفض لأول مرة، ويرجع ذلك جزئيًا إلى تحول المستخدمين إلى أدوات الذكاء الاصطناعي مثل OpenAI و Perplexity AI. وقد أجرت آبل مشاورات مع Perplexity AI، وقد تقدم المزيد من خيارات البحث بالذكاء الاصطناعي في Safari. قد يؤثر هذا التحرك على اتفاقية محرك البحث الافتراضي بين آبل وجوجل التي تبلغ قيمتها حوالي 20 مليار دولار أمريكي سنويًا، ويؤثر على أسعار أسهم الشركتين. قامت آبل بالفعل بدمج ChatGPT في Siri، وتخطط لإضافة Google Gemini. (المصدر: 36氪)

🎯 الاتجاهات
بطاقة الرسومات المكتبية RTX 5060 من إنفيديا ستطرح للبيع في 20 مايو، بسعر محلي 2499 يوان: أعلنت إنفيديا أن بطاقة الرسومات المكتبية RTX 5060 ستطرح للبيع في 20 مايو بتوقيت بكين، بسعر محلي يبلغ 2499 يوان. تعتمد هذه البطاقة على معمارية Blackwell RTX، وتحتوي على 3840 نواة CUDA، وذاكرة GDDR7 بسعة 8 جيجابايت، وإجمالي طاقة 145 واط. ووفقًا للشركة، فإن أداءها في الألعاب التي تدعم تقنية DLSS 4 لتوليد الإطارات المتعددة يبلغ ضعف أداء RTX 4060، وتهدف إلى تمكين المستخدمين من تشغيل الألعاب بمعدل يزيد عن 100 إطار في الثانية. سيتم رفع حظر المراجعات وبدء المبيعات في نفس اليوم. (المصدر: 量子位)

واجهة برمجة تطبيقات Google Gemini تطلق ميزة التخزين المؤقت الضمني، مما يوفر 75% من التكاليف: أعلنت جوجل عن إطلاق ميزة التخزين المؤقت الضمني لواجهة برمجة تطبيقات Gemini الخاصة بها. عندما يصيب طلب المستخدم ذاكرة التخزين المؤقت، يمكن توفير 75% من تكلفة استخدام نموذج Gemini 2.5 تلقائيًا. وفي الوقت نفسه، تم أيضًا خفض الحد الأدنى لعدد الـ tokens اللازمة لتشغيل ذاكرة التخزين المؤقت، حيث انخفض إلى 1K tokens لـ Gemini 2.5 Flash، و 2K tokens لـ Gemini 2.5 Pro. تهدف هذه الميزة إلى تقليل تكلفة استخدام واجهة برمجة تطبيقات Gemini للمطورين، دون الحاجة إلى إنشاء ذاكرة تخزين مؤقت بشكل صريح. (المصدر: matvelloso, demishassabis, algo_diver, jeremyphoward)
Meta FAIR تعيّن Rob Fergus رئيسًا جديدًا، مع التركيز على الذكاء الآلي المتقدم (AGI): أعلنت Meta أن Rob Fergus سيتولى قيادة فريق أبحاث الذكاء الاصطناعي الأساسي (FAIR). صرح Yann LeCun بأن FAIR سيعيد التركيز على الذكاء الآلي المتقدم، وهو ما يُعرف عادةً بالذكاء الاصطناعي على المستوى البشري أو AGI. حظي هذا الخبر باهتمام وتهنئة واسعة النطاق من مجتمع أبحاث الذكاء الاصطناعي. (المصدر: ylecun, Ar_Douillard, soumithchintala, aaron_defazio, sainingxie)
OpenAI تطلق ميزة الضبط الدقيق بالتعلم المعزز (RFT) لنموذج o4-mini: أعلنت OpenAI أن نموذجها o4-mini يدعم الآن الضبط الدقيق بالتعلم المعزز (RFT). تم تطوير هذه التقنية منذ ديسمبر من العام الماضي، وتستخدم استدلال سلسلة الأفكار والتقييم الخاص بالمهام لتحسين أداء النموذج، خاصة في المجالات المعقدة. حقق نموذج تم ضبطه بواسطة شركة Ambience باستخدام RFT دقة ترميز ICD-10 أعلى بنسبة 27% من الأطباء السريريين الخبراء. كما قامت شركة Harvey بتدريب نماذج باستخدام RFT لتحسين دقة الاستشهادات في المهام القانونية. وفي الوقت نفسه، أصبح أسرع وأصغر نموذج لدى OpenAI وهو 4.1-nano متاحًا أيضًا للضبط الدقيق. (المصدر: stevenheidel, aidan_mclau, andrwpng, teortaxesTex, OpenAIDevs, OpenAIDevs)
جامعة تسينغهوا تقترح Absolute Zero Reasoner: الذكاء الاصطناعي يولد بيانات التدريب ذاتيًا لتحقيق استدلال متميز: طور فريق من جامعة تسينغهوا نموذج ذكاء اصطناعي يسمى Absolute Zero Reasoner، يمكن لهذا النموذج توليد مهام التدريب بالكامل من خلال اللعب الذاتي (self-play) والتعلم منها، دون الحاجة إلى أي بيانات خارجية. في مجالات مثل الرياضيات والبرمجة، تجاوز أداؤه بالفعل النماذج التي تعتمد على بيانات منسقة يدويًا من قبل خبراء. قد يعني هذا الإنجاز تخفيف مشكلة عنق الزجاجة في البيانات في تطوير الذكاء الاصطناعي، مما يفتح مسارًا جديدًا نحو الذكاء الاصطناعي العام (AGI). (المصدر: corbtt)

Meta تتعاون مع NVIDIA لتعزيز أداء بحث المتجهات على GPU في Faiss من خلال cuVS: أعلنت Meta و NVIDIA عن تعاونهما لدمج cuVS (CUDA Vector Search) من NVIDIA في مكتبة البحث عن التشابه مفتوحة المصدر Faiss v1.10 من Meta، بهدف تحسين أداء بحث المتجهات على وحدات معالجة الرسومات (GPU) بشكل كبير. أدى هذا التكامل إلى تسريع وقت بناء فهارس IVF بما يصل إلى 4.7 مرة، وتقليل زمن انتقال البحث بما يصل إلى 8.1 مرة؛ وفيما يتعلق بفهارس الرسم البياني، فإن وقت بناء CUDA ANN Graph (CAGRA) أسرع بمقدار 12.3 مرة من HNSW على وحدة المعالجة المركزية (CPU)، مع تقليل زمن انتقال البحث بمقدار 4.7 مرة. (المصدر: AIatMeta)

Google AI Studio و Firebase Studio يدمجان Gemini 2.5 Pro: أعلنت جوجل عن دمج نموذج Gemini 2.5 Pro في Gemini Code Assist (الإصدار الشخصي) و Firebase Studio. سيوفر هذا للمطورين المزيد من الراحة والوظائف القوية عند استخدام نماذج الترميز المتقدمة في هذه المنصات، بهدف تعزيز كفاءة وتجربة الترميز. (المصدر: algo_diver)
Microsoft Copilot يطلق ميزة Pages، التي تدعم التحرير المباشر وتمييز النصوص: أضاف Microsoft Copilot ميزة “Pages” الجديدة، والتي تتيح للمستخدمين تحرير الردود التي تم إنشاؤها بواسطة الذكاء الاصطناعي مباشرة داخل واجهة Copilot، حيث يمكنهم تمييز النصوص وتقديم طلبات تعديل محددة. تهدف هذه الميزة إلى مساعدة المستخدمين على تحويل الأسئلة ونتائج الأبحاث إلى مستندات قابلة للاستخدام بشكل أسرع وأكثر ذكاءً، مما يعزز كفاءة العمل. (المصدر: yusuf_i_mehdi)
علي بابا تطلق سلسلة نماذج Qwen3، وتضم 8 نماذج لغوية كبيرة مفتوحة المصدر: أصدرت علي بابا سلسلة Qwen3، التي تضم 8 نماذج لغوية كبيرة مفتوحة المصدر، من بينها نموذجان من نوع خليط الخبراء (MoE) و6 نماذج كثيفة تتراوح معلماتها من 0.6B إلى 32B. تدعم جميع النماذج أوضاع استدلال اختيارية وقدرات متعددة اللغات تشمل 119 لغة. يُظهر Qwen3-235B-A22B و Qwen3-30B-A3B أداءً متميزًا في مهام الاستدلال والترميز واستدعاء الدوال، ويمكن مقارنتهما بأفضل النماذج مثل OpenAI، ويحظى Qwen3-30B-A3B باهتمام خاص نظرًا لأدائه القوي وقدرته على التشغيل المحلي. (المصدر: DeepLearningAI)

Meta تطلق نموذج Meta Locate 3D لتحديد مواقع الكائنات بدقة في البيئات ثلاثية الأبعاد: أطلقت Meta AI نموذج Meta Locate 3D، وهو نموذج مصمم خصيصًا لتحديد مواقع الكائنات بدقة في البيئات ثلاثية الأبعاد. يهدف هذا النموذج إلى مساعدة الروبوتات على فهم البيئة المحيطة بها بشكل أكثر دقة والتفاعل مع البشر بشكل أكثر طبيعية. وقد وفرت Meta النموذج ومجموعات البيانات والورقة البحثية بالإضافة إلى عرض توضيحي للاستخدام العام والتجربة. (المصدر: AIatMeta)
جوجل تصدر تقريرًا جديدًا يشرح كيفية استخدام الذكاء الاصطناعي لمكافحة الاحتيال عبر الإنترنت: أصدرت جوجل تقريرًا جديدًا حول كيفية استخدامها لتقنيات الذكاء الاصطناعي لمكافحة الاحتيال عبر الإنترنت في محرك البحث ومتصفح Chrome ونظام أندرويد. يفصل التقرير جهود جوجل على مدى أكثر من عقد من الزمان في استخدام الذكاء الاصطناعي لحماية المستخدمين من الاحتيال عبر الإنترنت وأحدث التطورات، مؤكدًا على الدور الحاسم للذكاء الاصطناعي في تحديد ومنع السلوكيات الاحتيالية. (المصدر: Google)
Cohere تطلق نموذج التضمين Embed 4، لتعزيز قدرات البحث والاسترجاع بالذكاء الاصطناعي: أطلقت Cohere أحدث نماذجها للتضمين Embed 4، بهدف إحداث ثورة في طريقة وصول الشركات إلى البيانات واستخدامها. يُعد Embed 4 أقوى نموذج تضمين لدى Cohere حتى الآن، ويركز على تحسين دقة وكفاءة البحث والاسترجاع بالذكاء الاصطناعي، ومساعدة المؤسسات على إطلاق القيمة الكامنة في بياناتها. (المصدر: cohere)

جوجل تعلن عن عقد مؤتمر Google I/O في 20 مايو: أعلنت جوجل رسميًا أن مؤتمر المطورين السنوي Google I/O سيعقد في 20 مايو، وقد تم فتح باب التسجيل. سيشهد المؤتمر كلمات رئيسية وإطلاق منتجات وتقنيات جديدة، ومن المتوقع أن يكون الذكاء الاصطناعي أحد الموضوعات الأساسية. (المصدر: Google)
نموذج Parakeet من NVIDIA يحقق رقمًا قياسيًا جديدًا في تحويل الصوت إلى نص: تحويل 60 دقيقة من الصوت في ثانية واحدة: حقق نموذج Parakeet من NVIDIA تقدمًا كبيرًا في مجال تحويل الصوت إلى نص، حيث يمكنه تحويل ما يصل إلى 60 دقيقة من الصوت في ثانية واحدة، وتصدر قوائم المتصدرين ذات الصلة على Hugging Face. يعرض هذا الإنجاز ريادة NVIDIA في تكنولوجيا التعرف على الكلام، ويوفر للمطورين أدوات فعالة لمعالجة الصوت. (المصدر: huggingface)

🧰 الأدوات
LlamaParse يضيف دعم GPT 4.1 و Gemini 2.5 Pro، معززًا قدرات تحليل المستندات: شهد LlamaParse مؤخرًا سلسلة من تحديثات الميزات، بما في ذلك إدخال نماذج تحليل جديدة GPT 4.1 و Gemini 2.5 Pro لتحسين الدقة. بالإضافة إلى ذلك، يضيف الإصدار الجديد وظائف الكشف التلقائي عن الاتجاه والميل، مما يضمن محاذاة مثالية للتحليل؛ ويوفر درجات الثقة لتقييم جودة التحليل؛ ويسمح للمستخدمين بتخصيص مدى تحمل الأخطاء وطريقة معالجة الصفحات الفاشلة. يوفر LlamaParse رصيدًا مجانيًا قدره 10,000 صفحة شهريًا. (المصدر: jerryjliu0)

إطار عمل الضبط الدقيق Axolotl يسرع بنسبة 30%، مما يوفر التكاليف والوقت: أعلن إطار عمل الضبط الدقيق Axolotl أنه أسرع بنسبة 30% من الأطر الأقل كفاءة في أعباء العمل الحقيقية مثل FineTome-100k. بالنسبة لفرق تعلم الآلة المتوسطة والكبيرة، يعني هذا توفير آلاف الدولارات شهريًا من التكاليف. يهدف تحسين هذا الإطار إلى مساعدة المستخدمين على إجراء الضبط الدقيق للنماذج بكفاءة واقتصاد أكبر. (المصدر: Teknium1, winglian, maximelabonne)

Runway تطلق حلقة تجريبية للرسوم المتحركة بعنوان “Mars & Siv: No Vacancy”، مستعرضة قدرات نموذج Gen-4: أطلق استوديو الذكاء الاصطناعي التابع لـ Runway حلقة تجريبية للرسوم المتحركة بعنوان “Mars & Siv: No Vacancy”، من تأليف Jeremy Higgins و Britton Korbel. يعرض هذا العمل تطبيقات نموذج Gen-4 من Runway في مختلف مراحل عملية إنتاج الرسوم المتحركة، من المفهوم إلى المنتج النهائي، مما يسلط الضوء على إمكانات الذكاء الاصطناعي في توليد المحتوى الإبداعي. (المصدر: c_valenzuelab, c_valenzuelab)
Replit يضيف تكامل Notion، مما يدعم استخدام محتوى Notion كواجهة خلفية للتطبيقات: أعلنت Replit عن شراكة تكامل جديدة مع Notion، مما يسمح للمطورين باستخدام Notion كواجهة خلفية لتطبيقاتهم. يمكن للمستخدمين ربط قواعد بيانات Notion بمشاريع Replit، لعرض الأسئلة الشائعة، وتشغيل روبوتات دردشة مخصصة تعتمد على المستندات، ودعم تسجيل تذاكر الدعم مرة أخرى في Notion. يهدف هذا التحرك إلى الجمع بين قدرات التنظيم الخلفية لـ Notion وقدرات إنشاء الواجهة الأمامية المرنة لـ Replit. (المصدر: amasad, amasad, pirroh)

إصدار Langchain-huggingface v0.2، يدعم HF Inference Providers: تم إصدار Langchain-huggingface v0.2، ويضيف الإصدار الجديد دعمًا لـ Hugging Face Inference Providers. سيجعل هذا التحديث استخدام خدمات الاستدلال التي يوفرها Hugging Face أكثر سهولة ضمن نظام LangChain البيئي. (المصدر: LangChainAI, huggingface, ClementDelangue, hwchase17, Hacubu)

إصدار smolagents 1.15، يضيف ميزة الإخراج المتدفق: أصدر إطار عمل الوكلاء الذكيين smolagents الإصدار 1.15، مقدمًا ميزة الإخراج المتدفق (streaming outputs). يمكن للمستخدمين تمكينها عن طريق تعيين stream_outputs=True
عند تهيئة CodeAgent، مما سيجعل جميع عمليات التفاعل تبدو أكثر سلاسة. (المصدر: huggingface, AymericRoucher, ClementDelangue)
مشروع Better-Qwen3: لجعل نموذج Qwen3 يبدل أوضاع التفكير تلقائيًا: حظي مشروع على GitHub باسم Better-Qwen3 بالاهتمام، ويهدف هذا المشروع إلى تمكين نموذج Qwen3 من التحكم تلقائيًا في تشغيل “وضع التفكير” بناءً على مدى تعقيد سؤال المستخدم. بالنسبة للأسئلة البسيطة، سيجيب النموذج مباشرة؛ أما بالنسبة للأسئلة المعقدة، فسيدخل تلقائيًا في وضع التفكير لتقديم إجابات أكثر عمقًا. عنوان المشروع: http://github.com/AaronFeng753/Better-Qwen3 (المصدر: karminski3, Reddit r/LocalLLaMA)

MLX-Audio: مكتبة TTS/STT/STS تعتمد على إطار عمل Apple MLX: MLX-Audio هي مكتبة لتحويل النص إلى كلام (TTS)، وتحويل الكلام إلى نص (STT)، وتحويل الكلام إلى كلام (STS) مصممة خصيصًا لشرائح Apple Silicon، وتعتمد على إطار عمل MLX من Apple، وتهدف إلى توفير قدرات معالجة صوتية فعالة. تدعم هذه المكتبة لغات متعددة، وتخصيص الصوت، والتحكم في سرعة الكلام، وتوفر واجهة ويب تفاعلية وواجهة برمجة تطبيقات REST API. (المصدر: GitHub Trending)
نموذج Runway References يدعم ميزة توسيع الصور (Outpainting): يدعم نموذج References من Runway الآن ميزة توسيع الصور (outpainting). يحتاج المستخدمون فقط إلى وضع صورة في References، واختيار تنسيق الإخراج المطلوب، وترك حقل التعليمات فارغًا، ثم النقر فوق “توليد”، لتوسيع الصورة الأصلية. تعزز هذه الميزة قدرات Runway في تحرير الصور وإنشائها. (المصدر: c_valenzuelab)

Docker2exe: تحويل صور Docker إلى ملفات قابلة للتنفيذ: Docker2exe هي أداة يمكنها تحويل صور Docker إلى ملفات مستقلة قابلة للتنفيذ، مما يسهل على المستخدمين مشاركتها وتشغيلها. تدعم وضع التضمين، أي دمج ملف tarball الخاص بصورة Docker مباشرة في الملف القابل للتنفيذ. عند التشغيل على الجهاز الهدف، إذا لم تكن صورة Docker المقابلة موجودة محليًا، فستقوم تلقائيًا بتحميل الصورة المضمنة أو سحبها من الشبكة. (المصدر: GitHub Trending)
Smoothie Qwen: تسوية احتمالات التوكن في نموذج Qwen لتحقيق التوازن في التوليد متعدد اللغات: Smoothie Qwen هي أداة تعديل خفيفة الوزن، تهدف من خلال تسوية احتمالات التوكن في نموذج Qwen إلى تعزيز توازن النموذج عند التوليد بلغات متعددة، وتقليل الانحياز غير المقصود نحو لغات معينة (مثل الصينية)، مع الحفاظ على الأداء الأساسي. تستخدم هذه الأداة نطاقات Unicode لتحديد التوكن، وإجراء تحليل N-gram، وتعديل أوزان التوكن في lm_head
. النماذج المعدلة مسبقًا متاحة على Hugging Face. (المصدر: Reddit r/LocalLLaMA)

ComfyGPT: نظام متعدد الوكلاء ذاتي التحسين لتوليد تدفقات عمل ComfyUI شاملة: تم تقديم ورقة بحثية بعنوان “ComfyGPT: A Self-Optimizing Multi-Agent System for Comprehensive ComfyUI Workflow Generation” إلى arXiv، تقدم نظامًا يسمى ComfyGPT. يستخدم هذا النظام نهجًا متعدد الوكلاء ذاتي التحسين، ويهدف إلى توليد تدفقات عمل ComfyUI بشكل شامل، مما يبسط بناء عمليات توليد الصور المعقدة. (المصدر: Reddit r/LocalLLaMA)

نموذج Anthropic Claude يضيف أداة بحث ويب جديدة: أطلقت Anthropic أداة بحث ويب جديدة لنموذجها Claude. تتيح هذه الأداة لـ Claude إجراء عمليات بحث على الويب أثناء توليد الردود، واستخدام نتائج البحث كأساس، وتقديم إجابات مع استشهادات. تم دمج هذه الميزة في مكتبة langchain-anthropic، مما يعزز قدرة Claude على الحصول على المعلومات في الوقت الفعلي واستخدامها. (المصدر: LangChainAI, hwchase17)

Glass Health تطلق ميزة Workspace، مستفيدة من الذكاء الاصطناعي للمساعدة في التشخيص السريري وتخطيط العلاج: أطلقت Glass Health ميزة Workspace الجديدة، والتي تتيح للأطباء السريريين استخدام الذكاء الاصطناعي لإكمال عمليات الاستدلال التشخيصي المعقدة، ووضع خطط العلاج، وتوثيق سير العمل بشكل أكثر فعالية. يهدف هذا التحرك إلى تعزيز كفاءة وجودة العمل الطبي من خلال تكنولوجيا الذكاء الاصطناعي. (المصدر: GlassHealthHQ)
OpenWebUI يضيف ميزات تدوين الملاحظات وتسجيل الاجتماعات المعززة بالذكاء الاصطناعي: أضاف أحدث إصدار من OpenWebUI ميزة تدوين الملاحظات المعززة بالذكاء الاصطناعي، حيث يمكن للمستخدمين إنشاء ملاحظات، وإرفاق صوتيات الاجتماعات أو التسجيلات الصوتية، والسماح للذكاء الاصطناعي باستخدام تحويل الصوت إلى نص لتعزيز الملاحظات أو تلخيصها أو تحسينها على الفور. بالإضافة إلى ذلك، يدعم أيضًا تسجيل صوتيات الاجتماعات واستيرادها، مما يسهل على المستخدمين مراجعة واستخلاص معلومات المناقشة الهامة. (المصدر: Reddit r/OpenWebUI)
📚 التعلم
الأمم المتحدة تصدر تقريرًا من 200 صفحة حول الذكاء الاصطناعي والتنمية البشرية العالمية: أصدر برنامج الأمم المتحدة الإنمائي (UNDP) تقريرًا من 200 صفحة يتناول الذكاء الاصطناعي من منظور التنمية البشرية العالمية. يبحث التقرير في تأثير الذكاء الاصطناعي على أهداف التنمية المستدامة، وعدم المساواة، والحوكمة، ومستقبل العمل، ويقدم توصيات سياسية. حظي التقرير بالاهتمام لآرائه الواضحة. (المصدر: random_walker)
The Turing Post تنشر مقالاً تحليلياً معمقاً حول بروتوكول Agent2Agent (A2A): نظرًا للاهتمام الكبير من المجتمع ببروتوكولات الاتصال بين وكلاء الذكاء الاصطناعي، نشرت The Turing Post مجانًا على Hugging Face مقالها التحليلي المعمق حول بروتوكول A2A من جوجل. يناقش المقال أهمية بروتوكول A2A (الذي يهدف إلى كسر صوامع وكلاء الذكاء الاصطناعي وتحقيق التعاون)، والتطبيقات المحتملة (مثل تعاون فرق الوكلاء المتخصصين، وسير العمل عبر الشركات، وتوحيد التعاون بين الإنسان والآلة، ودليل الوكلاء القابل للبحث)، بالإضافة إلى كيفية عمله وطرق البدء به. (المصدر: TheTuringPost, TheTuringPost, TheTuringPost, dl_weekly)

مهندس تعليمات يشارك: كيف تكتب قوالب تعليمات جيدة بسهولة: شارك مهندس التعليمات dotey طريقة من ثلاث خطوات لإنشاء قوالب تعليمات فعالة: 1. جمع تعليمات من نفس النمط ولكن بمواضيع مختلفة؛ 2. تحديد نقاط التشابه والاختلاف (يمكن الاستعانة بالذكاء الاصطناعي)؛ 3. الاختبار والتحسين المتكرر. وأكد أن القوالب الجيدة تشبه الدوال في البرمجة، حيث يمكن من خلال تعديلات طفيفة على المتغيرات توليد نتائج مختلفة. كما شارك قالب تعليمات لاستخدام الذكاء الاصطناعي في توليد تعليمات جديدة بسرعة، وأشار إلى أنه ليست كل الأنماط مناسبة للقوالب، فالمواضيع ذات التفاصيل المعقدة لا تزال بحاجة إلى تحسين مخصص. (المصدر: dotey)

باحث DeepMind John Jumper وفريقه يوظفون لتوسيع الاكتشافات العلمية القائمة على LLM: أعلن John Jumper، الباحث في Google DeepMind، أن فريقه يقوم بالتوظيف لعدة مناصب لتوسيع العمل في مجال الاكتشافات العلمية القائمة على النماذج اللغوية الكبيرة (LLM). تشمل المناصب المطلوبة عالم أبحاث (RS) ومهندس أبحاث (RE)، بهدف دفع مستقبل الذكاء الاصطناعي في علوم اللغة الطبيعية. (المصدر: demishassabis, NandoDF)
مدونة Ragas تشارك خبرات عامين في تحسين تطبيقات الذكاء الاصطناعي: نشر Shahules786 مقالًا على مدونة Ragas، يلخص فيه الدروس المستفادة من عامين من التعاون الوثيق مع فرق الذكاء الاصطناعي، وتقديم دورات التقييم، وتحسين أنظمة LLM. يهدف المقال إلى تقديم إرشادات ورؤى عملية للممارسين الذين يقومون ببناء وتحسين تطبيقات الذكاء الاصطناعي. (المصدر: Shahules786)

Kyunghyun Cho يناقش طرق تدريس مقررات الدراسات العليا في تعلم الآلة في عصر LLM: شارك Kyunghyun Cho، الأستاذ بجامعة نيويورك، أفكاره وتجاربه حول محتوى تدريس مقررات السنة الأولى للدراسات العليا في تعلم الآلة في العصر الحالي للنماذج اللغوية الكبيرة (LLM) والحوسبة واسعة النطاق. اقترح تدريس جميع المحتويات التي تقبل SGD (الانحدار العشوائي التدريجي) وليست LLM، وتوجيه الطلاب لقراءة الأوراق البحثية الكلاسيكية. (المصدر: ylecun, sainingxie)

إطلاق لوحة صدارة معالجة المستندات الذكية (IDP)، لتوحيد تقييم قدرات فهم المستندات في VLM: تم إطلاق لوحة صدارة جديدة لمعالجة المستندات الذكية (IDP)، تهدف إلى توفير اختبار معياري موحد لمهام فهم المستندات المتعددة مثل OCR، و KIE، و VQA، واستخراج الجداول. تغطي لوحة الصدارة هذه 6 مهام IDP أساسية، و 16 مجموعة بيانات، و 9229 مستندًا. تظهر النتائج الأولية أن Gemini 2.5 Flash يتصدر بشكل عام، لكن جميع النماذج تظهر أداءً ضعيفًا في فهم المستندات الطويلة، ولا يزال استخراج الجداول يمثل عنق زجاجة. بل إن أداء أحدث إصدار من GPT-4o قد انخفض. (المصدر: Reddit r/MachineLearning, Reddit r/LocalLLaMA)
LangGraph تطلق ميزة Cron Jobs، لدعم تشغيل وكلاء الذكاء الاصطناعي بشكل مجدول: أضافت منصة LangGraph التابعة لـ LangChain ميزة Cron Jobs، والتي تتيح للمستخدمين إعداد مهام مجدولة لتشغيل وكلاء الذكاء الاصطناعي تلقائيًا. تمكّن هذه الميزة وكلاء الذكاء الاصطناعي من تنفيذ المهام وفقًا لجدول زمني محدد مسبقًا، وهي مناسبة للسيناريوهات التي تتطلب معالجة أو مراقبة دورية. (المصدر: hwchase17)
💼 الأعمال
أداة تصحيح أخطاء برامج الذكاء الاصطناعي Lightrun تحصل على تمويل بقيمة 70 مليون دولار في جولة B بقيادة Accel و Insight Partners: أعلنت شركة Lightrun، مطورة أدوات مراقبة وتصحيح أخطاء برامج الذكاء الاصطناعي، عن إكمال جولة تمويل B بقيمة 70 مليون دولار، بقيادة Accel و Insight Partners، وبمشاركة Citibank وغيرها، ليصل إجمالي التمويل إلى 110 مليون دولار. منتجها الأساسي Runtime Autonomous AI Debugger يمكنه تحديد الكود المسبب للمشكلة بدقة في بيئة التطوير المتكاملة (IDE) وتقديم اقتراحات للإصلاح، بهدف تقليل وقت تصحيح الأخطاء من ساعات إلى دقائق. نمت إيرادات الشركة 4.5 مرة في عام 2024، ومن بين عملائها شركات Fortune 500 مثل Citibank و Microsoft. (المصدر: 36氪)

Databricks تتعاون مع Atlassian لإطلاق ميزات جديدة لمشاركة البيانات عبر Delta Sharing: أعلنت Databricks عن تعاونها مع Atlassian لتقديم قدرات جديدة لمشاركة البيانات إلى Atlassian Analytics. من خلال بروتوكول Delta Sharing المفتوح، يمكن لعملاء Atlassian الوصول إلى بياناتهم وتحليلها بأمان في Atlassian Data Lake باستخدام الأدوات التي يختارونها. تدعم هذه الميزة تكامل ذكاء الأعمال (BI)، وسير عمل البيانات المخصص، والتعاون عبر الفرق، وغيرها من حالات الاستخدام. (المصدر: matei_zaharia)

Fastino تحصل على تمويل بقيمة 17.5 مليون دولار، مع التركيز على النماذج اللغوية الخاصة بالمهام (TLM): أعلنت الشركة الناشئة Fastino عن حصولها على تمويل بقيمة 17.5 مليون دولار (بإجمالي 25 مليون دولار في جولة تمويل أولية) بقيادة Khosla Ventures، لتطوير نماذجها اللغوية المبتكرة الخاصة بالمهام (TLM). تدعي Fastino أن بنية TLM الخاصة بها صغيرة وموجهة لمهام محددة، ويمكن تدريبها على وحدات معالجة رسومات الألعاب منخفضة التكلفة، مما يجعلها فعالة من حيث التكلفة. تعمل TLM من خلال التخصص في المهام على مستوى البنية والتدريب المسبق والتدريب اللاحق، مما يزيل التكرار في المعلمات وعدم الكفاءة في البنية، ويهدف إلى تحسين الدقة في مهام محددة، ويمكن تضمينها في التطبيقات الحساسة لزمن الاستجابة والتكلفة. (المصدر: Reddit r/MachineLearning)

🌟 المجتمع
أدوات البحث عن عمل بمساعدة الذكاء الاصطناعي تثير مخاوف الغش، والشركات تعزز إجراءات مكافحتها: في الآونة الأخيرة، ازداد استخدام أدوات الذكاء الاصطناعي للمساعدة في المقابلات والاختبارات الكتابية عبر الإنترنت، حيث يمكن لهذه “الأدوات السحرية لمقابلات الذكاء الاصطناعي” تخصيص الإجابات بناءً على السيرة الذاتية للمستخدم، مما يساعد المتقدمين على الحصول على ميزة في البحث عن عمل. يسهل الحصول على هذه البرامج، بل إنها تقدم باقات مدفوعة متعددة المستويات وإرشادات عن بُعد. يمكن إرجاع هذا الاتجاه إلى ظهور أدوات غش مبكرة تعتمد على الذكاء الاصطناعي مثل “Interview Coder”. بدأت الشركات في اتخاذ إجراءات مضادة، مثل مراقبة السلوكيات غير العادية للمتقدمين أثناء المقابلات، والنظر في إدخال أنظمة كشف الشاشة أو العودة إلى المقابلات الشخصية. يشير المحامون إلى أن استخدام الذكاء الاصطناعي للغش ينتهك مبدأ النزاهة، وقد يؤدي إلى إنهاء عقد العمل، وينطوي على مخاطر تسرب الخصوصية. (المصدر: 36氪)

الرئيس التنفيذي لـ LangChain هاريسون تشيس يقترح مفهومي “الوكلاء البيئيين” و “صندوق وارد الوكلاء”: شارك هاريسون تشيس، الرئيس التنفيذي لـ LangChain، في حدث Sequoia AI Ascent، رؤيته حول مستقبل تطوير وكلاء الذكاء الاصطناعي، مقترحًا مفهومي “الوكلاء البيئيين” (Ambient Agents) و “صندوق وارد الوكلاء” (Agent Inbox). يشير الوكلاء البيئيون إلى أنظمة الذكاء الاصطناعي التي يمكن أن تعمل باستمرار في الخلفية، وتستجيب للأحداث بدلاً من الأوامر البشرية المباشرة، بينما يعد صندوق وارد الوكلاء واجهة تفاعل جديدة بين الإنسان والآلة، تُستخدم لإدارة والإشراف على أنشطة هؤلاء الوكلاء. (المصدر: hwchase17, hwchase17, hwchase17)

Jim Fan يقترح “اختبار تورينج الفيزيائي” كنجم شمال جديد للذكاء الاصطناعي: اقترح Jim Fan، عالم NVIDIA، في حدث Sequoia AI Ascent، مفهوم “اختبار تورينج الفيزيائي”، معتبرًا إياه “نجم الشمال” التالي في مجال الذكاء الاصطناعي. يتصور هذا الاختبار سيناريو: بعد هاكاثون يوم الأحد، يكون المنزل في حالة من الفوضى، وعند العودة إلى المنزل مساء الاثنين، تجد غرفة المعيشة نظيفة تمامًا، مع عشاء على ضوء الشموع جاهز، ولا يمكنك التمييز ما إذا كان هذا من عمل إنسان أم آلة. يعتقد أن هذا هو هدف تكنولوجيا الروبوتات العامة، وشارك المبادئ الأولى لحل هذه المشكلة، بما في ذلك استراتيجية البيانات وقانون الحجم. (المصدر: DrJimFan, killerstorm)
تقييم نماذج الذكاء الاصطناعي يواجه أزمة، وتحالف EvalEval يدعو إلى التحسين: ردًا على أوجه القصور الحالية في طرق تقييم نماذج الذكاء الاصطناعي، مثل تشبع المعايير القياسية، والافتقار إلى الدقة العلمية، وما إلى ذلك، تم ذكر تحالف EvalEval، الذي يهدف إلى توحيد المهتمين بالوضع الحالي للتقييم، للعمل معًا على تحسين تقارير التقييم، وحل مشكلة التشبع، وتعزيز علمية التقييم والبنية التحتية، وما إلى ذلك. ترى المناقشات ذات الصلة أنه يجب التركيز بشكل أكبر على فعالية التقييم. (المصدر: ClementDelangue)

نقاش ساخن على Reddit: ملاحظات وخبرات في بناء تدفقات عمل LLM: شارك أحد المطورين على Reddit ملخصًا لخبرته في بناء تدفقات عمل LLM معقدة على مدار العام الماضي. تشمل النقاط الرئيسية: تقسيم المهام إلى أصغر الخطوات واستدعاء التعليمات بشكل متسلسل أفضل من التعليمات المعقدة المفردة؛ استخدام علامات XML لبناء هيكل التعليمات يحقق نتائج أفضل؛ يجب إخبار LLM بوضوح أن دوره يقتصر على التحليل الدلالي والتحويل، ولا ينبغي له إدخال معرفته الخاصة؛ استخدام مكتبات NLP تقليدية مثل NLTK للتحقق من مخرجات LLM؛ غالبًا ما تتفوق مصنفات من نوع BERT المعدلة بدقة للمهام الصغيرة على LLM؛ لا يمكن الاعتماد على LLM كحكم أو لتقييم درجة الثقة، خاصة في غياب معايير تقييم واضحة؛ في الحلقات الوكيلية (Agentic)، يعد تحديد شروط خروج LLM من الحلقة نقطة صعبة؛ ينخفض الأداء عادةً عندما يتجاوز نافذة سياق الإدخال 4K Token؛ نماذج 32B كافية للمهام المهيكلة؛ CoT المهيكلة أفضل من غير المهيكلة؛ كتابة CoT ذاتيًا أفضل من الاعتماد على نماذج الاستدلال؛ الهدف طويل المدى هو الضبط الدقيق لجميع المكونات، مع الانتباه إلى بناء مجموعات بيانات متوازنة للضبط الدقيق. (المصدر: Reddit r/LocalLLaMA)
مستخدمو Reddit يناقشون إعدادات تعليمات النظام لـ Claude Sonnet 3.7: أفاد مستخدمو مجتمع Reddit r/ClaudeAI أن نموذج Claude Sonnet 3.7 يعاني من عدم الاستقرار في اتباع التعليمات وإصلاح الأكواد وذاكرة السياق، وطلبوا تعليمات نظام فعالة. شارك بعض المستخدمين تعليمات تحاكي سلوك Sonnet 3.5، بالإضافة إلى تعليمات مفصلة تؤكد على الحلول الفعالة والعملية، واتباع مبادئ علوم الكمبيوتر الأساسية (مثل DRY, KISS, SRP). اقترح مستخدمون آخرون تحسين التأثير من خلال جعل Claude يعيد كتابة وتحسين تعليمات النظام بنفسه، أو استخدام تعليمات بسيطة وواضحة من سطر واحد. (المصدر: Reddit r/ClaudeAI)
نقاش حول عدد الحقب (Epochs) اللازمة للضبط الدقيق لـ LLM: على Reddit r/MachineLearning، أثار أحد المستخدمين تساؤلاً حول ورقة Deepseek R1 التي استخدمت حقبتين فقط للضبط الدقيق لنموذج Deepseek-V3-Base (حوالي 800 ألف عينة)، وناقش المؤشرات التي تحدد عدد حقب الضبط الدقيق، بخلاف دالة الخسارة، مثل أداء بيانات التقييم وجودة البيانات. (المصدر: Reddit r/MachineLearning)
💡 أخرى
François Chollet: بناء نماذج فكرية صلبة هو شرط أساسي لحل المشكلات الصعبة: يؤكد المفكر في مجال الذكاء الاصطناعي François Chollet على أن بناء نماذج فكرية واضحة ومتسقة ذاتيًا هو شرط مسبق لحل المشكلات الصعبة بشكل إبداعي (وليس بالاعتماد على الحظ)، وهذا يختلف عن القدرة على حل المشكلات البسيطة بسرعة. ويعتقد أن الأناقة هي مزيج من القدرة التعبيرية والبساطة، وترتبط ارتباطًا وثيقًا بالضغط. (المصدر: fchollet, teortaxesTex, fchollet, pmddomingos)

أمجد مسعد، الرئيس التنفيذي لـ Replit: وكلاء الذكاء الاصطناعي سيكونون الموجة الجديدة في البرمجة: صرح أمجد مسعد، الرئيس التنفيذي والمؤسس المشارك لـ Replit، في مقابلة مع The Turing Post، بأنه يعتقد دائمًا أن وكلاء الذكاء الاصطناعي سيقودون الموجة التالية في البرمجة. شارك أفكاره حول التحول من تدريس البرمجة إلى بناء وكلاء يمكنهم البرمجة تلقائيًا. وذكر أن وكلاء البرمجيات قد أحدثوا بالفعل تأثيرًا في الأعمال التجارية الفعلية، على سبيل المثال، مساعدة شركات العقارات على تحسين خوارزميات توزيع العملاء المحتملين، مما أدى إلى زيادة معدل التحويل بنسبة 10%. ويعتقد أن الشركات الناشئة التي تبلغ قيمتها مليار دولار في المستقبل قد يتم بناؤها بواسطة مؤسسين مستقلين معززين بالذكاء الاصطناعي، وناقش الشروط اللازمة لتحقيق هذه الرؤية، والوضع الحالي والمستقبلي لمجال البرمجة، وتطور رؤية Replit، وأهمية الذكاء الاصطناعي العام والمصادر المفتوحة. (المصدر: TheTuringPost, TheTuringPost)
LazyVim: تكوين Neovim مصمم لـ “الكسالى”: LazyVim هو حل تكوين لـ Neovim يعتمد على lazy.nvim، ويهدف إلى تمكين المستخدمين من تخصيص وتوسيع بيئة Neovim الخاصة بهم بسهولة. يوفر مجموعة من التجارب المعدة مسبقًا والغنية بالميزات الشبيهة ببيئة التطوير المتكاملة (IDE)، مع الحفاظ على درجة عالية من المرونة، حيث يمكن للمستخدمين تعديلها حسب الحاجة. (المصدر: GitHub Trending)
