كلمات مفتاحية:نموذج الذكاء الاصطناعي, كلود 4, قدرات الترميز, القدرات الاستدلالية, متعدد الوسائط, التعلم المعزز, وكيل الذكاء الاصطناعي, معيار ترميز كلود أوبوس 4, تحسين TensorRT-LLM, خوارزمية GRPO, الاستدلال الرياضي البصري VCBench, إطار Pixel Reasoner
🔥 أبرز النقاط
Anthropic تطلق سلسلة نماذج Claude 4، وOpus 4 يُوصف بأنه أقوى نموذج ترميز في العالم: أطلقت Anthropic رسميًا نموذجي Claude Opus 4 و Claude Sonnet 4، وهما نموذجان يرسيان معايير جديدة في قدرات الترميز والاستدلال المتقدم و AI Agent. يتصدر Opus 4 في معايير الترميز SWE-bench (72.5%) و Terminal-bench (43.2%)، ويمكنه التعامل مع مهام معقدة طويلة الأمد تتضمن آلاف الخطوات وتستغرق ساعات. يُعد Sonnet 4 ترقية كبيرة لـ 3.7، حيث تصل قدرته على الترميز أيضًا إلى مستوى SOTA (SWE-bench 72.7%)، ويحقق توازنًا بين الأداء والكفاءة. تدعم النماذج الجديدة استخدام الأدوات مع التفكير العميق، وتنفيذ الأدوات بالتوازي، وتعزيز الذاكرة (من خلال الوصول إلى الملفات المحلية)، وتقليل سلوك “اختصار الطرق” في المهام بنسبة 65%. وقد أشادت أدوات المطورين مثل Cursor و Replit بقدرات الترميز الخاصة به. (المصدر: AI进修生, 量子位, AI前线, MIT Technology Review, WeChat)
معمارية Blackwell من Nvidia تحقق رقمًا قياسيًا جديدًا في استدلال الذكاء الاصطناعي، Llama 4 يعالج أكثر من 1000 Token في الثانية للمستخدم الواحد: حققت Nvidia، باستخدام أحدث معماريتها Blackwell، رقمًا قياسيًا جديدًا في سرعة استدلال الذكاء الاصطناعي على نموذج Llama 4 Maverick من Meta، حيث تمكنت من معالجة أكثر من 1000 token في الثانية للمستخدم الواحد. تم تحقيق هذا الإنجاز من خلال خادم DGX B200 أحادي العقدة (8 وحدات معالجة رسومات Blackwell GPU)، بينما وصل إجمالي إنتاجية خادم GB200 NVL72 واحد (72 وحدة معالجة رسومات Blackwell GPU) إلى 72,000 TPS. تشمل التقنيات الرئيسية التي أدت إلى هذا الاختراق تحسينات TensorRT-LLM، ونموذج مسودة فك التشفير التخميني المدرب على معمارية EAGLE-3، والاستخدام الواسع لتنسيق بيانات FP8 (GEMM، MoE، Attention)، وتحسينات نواة CUDA (التقسيم المكاني، إعادة ترتيب الأوزان، PDL، إلخ) ودمج العمليات الحسابية. أدت هذه التحسينات إلى زيادة إمكانات أداء Blackwell بمقدار 4 أضعاف مع الحفاظ على الدقة. (المصدر: 新智元)
DeepSeek تقود ثورة الاستدلال وتطور خوارزمية GRPO: أدى إطلاق DeepSeek-R1 إلى إشعال ثورة في قدرات استدلال النماذج اللغوية الكبيرة (LLM)، ويكمن جوهرها في خوارزمية الضبط الدقيق بالتعلم المعزز GRPO. يشير هذا التقدم إلى أن تدريب النماذج اللغوية الكبيرة في المستقبل سيجعل قدرة الاستدلال عملية قياسية. قامت GRPO بتحسين خوارزمية PPO من خلال التخلص من نموذج القيمة واعتماد تقييم الجودة النسبية، مما قلل بشكل كبير من متطلبات الحوسبة لتدريب نماذج الاستدلال. لاحقًا، أدخلت خوارزمية DAPO مفتوحة المصدر، المبنية على GRPO، تقنيات مثل الاقتطاع بحد أعلى، وأخذ العينات الديناميكي، وخسارة تدرج السياسة على مستوى الـ Token، وإعادة تشكيل المكافآت الطويلة جدًا، مما أدى إلى زيادة تحسين كفاءة التدريب واستقراره، ولوحظت قدرات ناشئة مثل “التفكير” و “التراجع” في النموذج أثناء التدريب. دفعت هذه الأبحاث تطبيق التعلم المعزز في تعزيز قدرات استدلال النماذج اللغوية الكبيرة. (المصدر: 新智元, 机器之心)
AI Agent يكتشف علاجًا جديدًا محتملاً لمرض dAMD المستعصي في غضون 10 أسابيع: أعلنت منظمة Future House غير الربحية أن نظامها متعدد الوكلاء Robin قد اكتشف علاجًا جديدًا محتملاً للضمور البقعي الجاف المرتبط بالعمر (dAMD) في حوالي 10 أسابيع. أكمل النظام بشكل مستقل العملية الأساسية المتمثلة في طرح الفرضيات وتصميم التجارب وتحليل البيانات والتحسين التكراري، وتوصل في النهاية إلى Ripasudil، وهو مثبط ROCK معتمد بالفعل لعلاج الجلوكوما. صرح فريق البحث بأنه كان من الصعب طرح هذه الفرضية بدون مساعدة الذكاء الاصطناعي. وقد تم الاعتراف بابتكار وقيمة هذا الاكتشاف من قبل خبراء المجال، وعلى الرغم من أنه لا يزال بحاجة إلى التحقق من خلال التجارب البشرية، إلا أنه يوضح الإمكانات الهائلة للذكاء الاصطناعي في تسريع الاكتشافات العلمية. (المصدر: 量子位)
نماذج الذكاء الاصطناعي الكبيرة ضعيفة في مسائل الاستدلال البصري الرياضية للمرحلة الابتدائية، وأكاديمية DAMO تطلق معيار VCBench الجديد: أطلقت أكاديمية DAMO معيار VCBench، وهو معيار مصمم خصيصًا لتقييم قدرات الاستدلال المعتمدة على الرؤية الصريحة للنماذج الكبيرة متعددة الوسائط في مسائل الرياضيات للمرحلة الابتدائية (الصف الأول إلى السادس). أظهرت نتائج الاختبار أن متوسط درجات البشر بلغ 93.30%، بينما لم تتجاوز دقة أفضل النماذج مغلقة المصدر مثل Gemini2.0-Flash و Qwen-VL-Max نسبة 50%. يشير هذا إلى أنه على الرغم من أن النماذج الكبيرة الحالية تؤدي أداءً جيدًا في المسائل الرياضية الموجهة بالمعرفة، إلا أنها تعاني من قصور في فهم المبادئ الرياضية الأساسية التي تتطلب تحديد ودمج الميزات المرئية للصور وفهم العلاقات بين العناصر المرئية. يركز VCBench على الرؤية كمحور أساسي، ويركز على إدخال صور متعددة (متوسط 3.9 صورة لكل سؤال)، ويقيم القدرات في ستة مجالات معرفية: الوقت، والمكان، والهندسة، وحركة الأشياء، والاستدلال بالملاحظة، وأنماط التنظيم. (المصدر: 量子位)

🎯 اتجاهات
جوجل تطلق نموذج اللغة متعدد الوسائط Gemma 3n المُحسَّن خصيصًا للأجهزة المحمولة: أطلقت جوجل DeepMind نموذج Gemma 3n، وهو نموذج متعدد الوسائط مصمم خصيصًا لتطبيقات الذكاء الاصطناعي على جانب الجهاز (on-device) للأجهزة المحمولة. يستطيع هذا النموذج ذو الـ 5B معلمة فهم ومعالجة محتوى الصوت والنص والصور وحتى الفيديو، ويشغل مساحة ذاكرة تعادل فقط نموذج 2B تقليدي، مع تقليل استخدام ذاكرة الوصول العشوائي (RAM) بمقدار 3 مرات تقريبًا. من خلال تحسينات تقنية مثل التضمين التدريجي ومشاركة ذاكرة التخزين المؤقت للقيم الرئيسية، زادت سرعة استجابة Gemma 3n على الأجهزة المحمولة بحوالي 1.5 مرة. من المتوقع أن يتم دمج النموذج في أنظمة Android و Chrome، وهو متاح بالفعل للتجربة في Google AI Studio. (المصدر: op7418)

Nvidia تطلق نموذج AceReason-Nemotron-14B بحجم 14B متخصص في الرياضيات/البرمجة: أطلقت Nvidia نموذج AceReason-Nemotron-14B، وهو نموذج متخصص في الرياضيات والبرمجة تم تدريبه بالكامل باستخدام التعلم المعزز (RL). حقق النموذج 67.4 نقطة في AIME 2025 (مسائل اختيار أولمبياد الرياضيات الأمريكي)، مقتربًا من 70.9 نقطة لنموذج Qwen3-30B-A3B، ويعتبر واحدًا من أقوى النماذج بقدرات الرياضيات/البرمجة بحجم 14B حاليًا. يمثل هذا إمكانات التعلم المعزز في تدريب النماذج المتخصصة في مجالات معينة. (المصدر: karminski3)

DeepMind تطلق وكيل الترميز التطوري AlphaEvolve، لتحسين الخوارزميات وتصميم الرقائق: أطلقت جوجل DeepMind وكيل AlphaEvolve، وهو وكيل ترميز تطوري مدفوع بنماذج Gemini المتطورة. يمكنه اكتشاف خوارزميات جديدة بشكل مستقل وتحسين الحلول العلمية، وقد حقق بالفعل نتائج عملية في مهام مثل المسائل الرياضية (حل أو تحسين أكثر من 50 مشكلة مفتوحة)، وتصميم الرقائق (تحسين تصميم TPU)، وتسريع تدريب نماذج Gemini، وتحسين جدولة مراكز بيانات جوجل (توفير 0.7% من موارد الحوسبة)، وتسريع FlashAttention في نماذج Transformer (زيادة السرعة بنسبة 32.5%). يعرض AlphaEvolve إمكانات الذكاء الاصطناعي كمتعاون قوي في مجالات البحث العلمي والهندسة من خلال تحرير الكود التكراري، والحصول على التغذية الراجعة، والتحسين المستمر. (المصدر: TheTuringPost, dl_weekly)

ByteDance تطلق وتفتح مصدر نموذج Dolphin لتحليل المستندات بدقة عالية: أطلقت ByteDance وفتحت مصدر Dolphin، وهو نموذج خفيف الوزن (322 مليون معلمة) لتحليل المستندات. يتبنى Dolphin نموذجًا مبتكرًا من مرحلتين “تحليل البنية أولاً ثم تحليل المحتوى”، حيث يتم التعرف على محتوى العناصر بالتوازي بعد تحليل تخطيط المستند. أظهرت نتائج الاختبار أنه يتفوق على نماذج مثل GPT-4.1 و Claude3.5-Sonnet و Gemini2.5-pro و Mistral-OCR في دقة تحليل المستندات النصية البحتة والمستندات ذات العناصر المختلطة (بما في ذلك الجداول والصيغ والصور)، كما أن كفاءة التحليل (0.1729 إطارًا في الثانية) أسرع بمرتين تقريبًا من أسرع خط أساس (Mathpix). النموذج متاح على GitHub و Hugging Face. (المصدر: WeChat)

أعضاء Gemini Pro يمكنهم تجربة إنشاء الفيديو باستخدام Veo 3، مع تخفيض استهلاك النقاط: أعلنت جوجل أن أعضاء Gemini Pro يمكنهم الآن أيضًا تجربة نموذجها المتقدم لإنشاء الفيديو Veo 3، دون الحاجة إلى الترقية إلى عضوية Ultra. وفي الوقت نفسه، في منصة FLOW، تم تخفيض استهلاك النقاط لإنشاء مقطع فيديو واحد باستخدام Veo 3 من 150 نقطة إلى 100 نقطة. هذا يقلل من عتبة استخدام المستخدمين لأدوات إنشاء الفيديو عالية الجودة بالذكاء الاصطناعي. (المصدر: op7418)

من المتوقع إطلاق نموذجي DeepSeek V4 و R2 في الصيف، مما يثير اهتمام الصناعة: وفقًا لـ DigitTimes، من المتوقع إطلاق DeepSeek V4 في يوليو، وقد يتبعه نموذجه الرائد R2 في أغسطس. أثار هذا الخبر اهتمامًا واسعًا في مجتمع التكنولوجيا الصيني، خاصة في سياق تسريع الولايات المتحدة لتوسعها العالمي في مجال الذكاء الاصطناعي، حيث تحظى تحركات DeepSeek باهتمام كبير. أصبحت DeepSeek، بقوتها التقنية المنخفضة المستوى والقوية، قوة لا يمكن تجاهلها في مجال الذكاء الاصطناعي. (المصدر: teortaxesTex, Ronald_vanLoon)

إطار Pixel Reasoner يمكّن نماذج VLM من إجراء استدلال CoT في فضاء البكسل: قدم باحثون من جامعة واشنطن ومؤسسات أخرى إطار Pixel Reasoner، وهو أول إطار مفتوح المصدر يمكّن نماذج اللغة المرئية (VLM) من إجراء استدلال سلسلة الأفكار (CoT) في فضاء البكسل نفسه. من خلال التعلم المعزز المدفوع بالفضول، يمكّن الإطار نماذج VLM من استخدام عمليات مرئية تفاعلية مثل التكبير/التصغير، واختيار الإطارات، والتمييز لمعالجة المدخلات المرئية المعقدة، وبالتالي “إظهار عملية عملها”. حقق Pixel Reasoner أداءً قريبًا من أحدث ما توصلت إليه التكنولوجيا (SOTA) في العديد من معايير الاختبار متعددة الوسائط الغنية بالمعلومات مثل InfographicsVQA و V* benchmark. (المصدر: arankomatsuzaki)
Salesforce تفتح مصدر Elastic Reasoning و Fractured Sampling لتحسين كفاءة الاستدلال الطويل: فتحت Salesforce AI Research مصدر طريقتي Elastic Reasoning و Fractured Sampling، بهدف تحسين كفاءة النماذج الكبيرة ذات سلاسل الاستدلال الطويلة. تقلل Elastic Reasoning من طول المخرجات بنسبة 30% مع الحفاظ على الدقة من خلال تحديد ميزانيات token منفصلة لـ “التفكير” و “حل المشكلات”. أما Fractured Sampling فتستكشف إمكانية “إنهاء التفكير مبكرًا” عن طريق تقسيم سلسلة الاستدلال على البعد الزمني، لتحقيق استدلال قوي بتكلفة حسابية أقل. أظهرت هذه الطرق نتائج ملحوظة في مهام الرياضيات والبرمجة. (المصدر: WeChat)

Tencent تطلق منصة تطوير الوكلاء الذكية، تدعم التعاون بين وكلاء متعددين بدون كود: أطلقت Tencent Cloud رسميًا منصة تطوير الوكلاء الذكية الخاصة بها في قمة تطبيقات صناعة الذكاء الاصطناعي. تدعم المنصة بشكل رائد تكوين تعاون بين وكلاء متعددين بدون كود. تدمج المنصة قدرات RAG متقدمة، وتدعم سير عمل مع رؤية شاملة للنية وتراجع العقد، وتدمج قدرات داخلية مثل Tencent Maps و Tencent Medical Encyclopedia بالإضافة إلى مكونات إضافية من جهات خارجية. تهدف هذه الخطوة إلى تقليل عتبة تطوير وتطبيق وكلاء الذكاء الاصطناعي للشركات، ودفع الذكاء الاصطناعي من “قابل للتطبيق” إلى “التعاون الذكي”. وفي الوقت نفسه، تم تحديث سلسلة نماذج Hunyuan الكبيرة، بما في ذلك نموذج التفكير العميق T1 ونموذج التفكير السريع Turbo S. (المصدر: WeChat)

Glint Intelligence تطلق نموذج Glint-MVT البصري الأساسي، وتدمج Margin Softmax لتحسين الأداء: أطلقت Glint Intelligence نموذج Glint-MVT (Margin-based pretrained Vision Transformer)، وهو نموذج بصري أساسي مبتكر. يدمج هذا النموذج دالة خسارة Margin Softmax المستخدمة أصلاً في التعرف على الوجوه في التدريب المسبق البصري، ومن خلال بناء فئات افتراضية بملايين العينات، يقلل من تأثير ضوضاء البيانات ويعزز قدرة التعميم. في اختبارات Linear Probing، تفوق Glint-MVT على OpenCLIP و CLIP في متوسط الدقة عبر 26 مجموعة بيانات تصنيف. بناءً على هذا النموذج، أطلق الفريق أيضًا نماذج متعددة الوسائط مثل Glint-RefSeg (تقسيم التعبير المرجعي) و MVT-VLM (فهم الصور)، والتي أظهرت أداءً SOTA في المهام المقابلة. (المصدر: WeChat)

جامعة Tsinghua و IDEA تطلقان HRAvatar، لإنشاء صور رمزية ثلاثية الأبعاد عالية الجودة وقابلة لإعادة الإضاءة من فيديو أحادي العين: طور فريق بحثي مشترك من جامعة Tsinghua و IDEA تقنية HRAvatar، وهي طريقة لإعادة بناء الصور الرمزية ثلاثية الأبعاد Gaussian من فيديو أحادي العين، وقد تم قبول النتائج في CVPR 2025. تستخدم هذه الطريقة قاعدة تشوه قابلة للتعلم وتقنية التحجيم الخطي لتحقيق تشوه هندسي دقيق، وتقدم مشفر تعبيرات شامل لتعزيز دقة التتبع، وتقوم بتحليل مظهر الصورة الرمزية إلى خصائص مادية مثل الانعكاسية والخشونة لتحقيق إعادة إضاءة واقعية. يهدف HRAvatar إلى حل مشكلات مرونة التشوه الهندسي غير الكافية في الطرق الحالية، وعدم دقة تتبع التعبيرات، وعدم القدرة على إعادة الإضاءة بشكل واقعي، ويمكنه إعادة بناء صور رمزية غنية بالتفاصيل وقوية التعبير مع ضمان الأداء في الوقت الفعلي (حوالي 155 إطارًا في الثانية). (المصدر: WeChat)

مختبر شنغهاي للذكاء الاصطناعي يطلق InternThinker، أول نموذج كبير يمكنه تفسير منطق نقلات لعبة Go باللغة الطبيعية: قام مختبر شنغهاي للذكاء الاصطناعي بترقية نموذجه الكبير “Shusheng·Sike InternThinker”، ليصبح أول نموذج كبير في الصين يتمتع بمستوى احترافي في لعبة Go (حوالي 3-5 دان محترف) ويمكنه تفسير منطق كل نقلة باللغة الطبيعية. يعتمد هذا النموذج على بيئة التحقق التفاعلية المبتكرة “InternBootcamp” ومسار تقني “دمج العام والخاص” للتدريب. يحتوي InternBootcamp على أكثر من 1000 بيئة تحقق، تغطي مهام استدلال منطقي معقدة متنوعة مثل الرياضيات والبرمجة وألعاب الطاولة. لاحظ البحث ظهور “لحظات ناشئة” في التعلم المعزز متعدد المهام المختلط، حيث يمكن للنموذج حل المشكلات التي لم يكن من الممكن التغلب عليها من خلال تدريب المهام الفردية عن طريق ربط تعلم المهام المختلفة. (المصدر: 新智元)

يمكن تسريع ضرب المصفوفات XX^T بشكل أكبر، والتعلم المعزز يساعد في البحث عن خوارزميات جديدة: اكتشف فريق بحثي من معهد شنتشن لأبحاث البيانات الضخمة والجامعة الصينية في هونغ كونغ (شنتشن) أنه يمكن تسريع حساب ضرب المصفوفات الخاص XX^T بشكل أكبر. من خلال الجمع بين تقنيات التعلم المعزز والتحسين التوافقي، اكتشفوا خوارزمية جديدة RXTX، يمكنها تقليل عدد عمليات الضرب لهذا النوع من العمليات بنسبة 5%. على سبيل المثال، بالنسبة لمصفوفة X بحجم 4×4، تتطلب RXTX 34 عملية ضرب فقط، بينما تتطلب خوارزمية Strassen 38 عملية. من المتوقع أن يوفر هذا الإنجاز استهلاك الطاقة والوقت في التطبيقات العملية مثل تصميم شرائح 5G وتدريب النماذج الكبيرة. (المصدر: 机器之心)

“التفكير الناعم” (Soft Thinking) يعزز قدرة الاستدلال التجريدي للنماذج الكبيرة ويقلل من استهلاك الـ Token: اقترح باحثون من SimularAI و Microsoft DeepSpeed طريقة Soft Thinking، وهي طريقة تتيح للنماذج الكبيرة إجراء “استدلال ناعم” في فضاء مفاهيمي مستمر، بدلاً من الاقتصار على الرموز اللغوية المنفصلة. تولد هذه الطريقة توزيعات احتمالية (مفاهيم token) بدلاً من token حتمي واحد، وتراقب قيمة الإنتروبيا للتوزيعات الاحتمالية في عملية الاستدلال (آلية Cold Stop) لتجنب الحلقات غير الفعالة. أظهرت التجارب أن Soft Thinking يمكن أن يزيد دقة Pass@1 لنموذج QwQ-32B في مهام الرياضيات بنسبة تصل إلى 2.48%، ويقلل من استخدام الـ token لنموذج DeepSeek-R1-Distill-Qwen-32B بنسبة 22.4%. لا تتطلب هذه الطريقة تدريبًا إضافيًا ويمكن توصيلها واستخدامها مباشرة مع النماذج الحالية. (المصدر: 量子位)

معهد الأتمتة التابع للأكاديمية الصينية للعلوم و Lingbao CASBOT يقترحان إطار DTRT، لتحسين تقدير النوايا وتوزيع الأدوار في التعاون المادي بين الإنسان والروبوت: تم قبول طريقة DTRT (Dual Transformer-based Robot Trajectron) التي طورها بشكل مشترك معهد الأتمتة التابع للأكاديمية الصينية للعلوم وفريق Lingbao CASBOT في ICRA 2025. تتبنى هذه الطريقة هيكلًا هرميًا و Transformer مزدوج، وتجمع بين بيانات الحركة والقوة الموجهة من قبل الإنسان، لالتقاط تغيرات النوايا البشرية بسرعة، وتحقيق تنبؤ دقيق بالمسار (متوسط خطأ 0.26 مم) وتعديل سلوك الروبوت ديناميكيًا. من خلال توزيع الأدوار بين الإنسان والروبوت بناءً على نظرية الألعاب التعاونية التفاضلية، يمكن لـ DTRT تقليل الخلافات بين الإنسان والروبوت بشكل فعال، وتحسين كفاءة التعاون وسلامته، وإظهار مزايا كبيرة في التعاون المادي بين الإنسان والروبوت. (المصدر: WeChat)

🧰 أدوات
إطلاق Claude Code رسميًا، مع تكامل IDE وتوفير SDK: تم إطلاق Claude Code من Anthropic رسميًا الآن، بهدف دمج قدرات ترميز Claude بشكل أعمق في سير عمل المطورين اليومي. تشمل الميزات الجديدة تنفيذ المهام الخلفية عبر GitHub Actions، بالإضافة إلى التكامل الأصلي مع VS Code و JetBrains IDE، مما يسمح بعرض اقتراحات تعديل Claude مباشرة داخل الملفات. بالإضافة إلى ذلك، أصدرت Anthropic أيضًا Claude Code SDK قابل للتوسيع، مما يسمح للمطورين ببناء وكلاء AI وتطبيقات خاصة بهم، وقدمت Claude Code on GitHub (إصدار تجريبي) كمثال، حيث يمكن للمستخدمين @Claude Code في طلبات السحب (PR) لمراجعة الكود وتعديله. (المصدر: AI进修生, WeChat)
llama.cpp يدعم الآن إدخال الصوت أصليًا، ويمكن تحميل بيانات الصوت مباشرة للمعالجة: يدعم مشروع llama.cpp مفتوح المصدر الآن إدخال الصوت أصليًا، حيث يمكن للمستخدمين تحميل بيانات الصوت مباشرة، على سبيل المثال، لجعل النموذج يلخص محتوى تسجيل صوتي. يوسع هذا التحديث قدرات معالجة الوسائط المتعددة لـ llama.cpp، مما يجعل من الممكن تشغيل نماذج LLM محليًا لمعالجة المهام الصوتية. عنوان طلب السحب (PR): http://github.com/ggml-org/llama.cpp/pull/13714 (المصدر: karminski3)

Turbular: خادم MCP مفتوح المصدر لربط وكلاء LLM بأي قاعدة بيانات: Turbular هو خادم MCP (Model-Controller-Peripheral) جديد مفتوح المصدر مرخص بموجب MIT، يسمح لوكلاء LLM بالاتصال بأي قاعدة بيانات. تشمل وظائفه تسوية المخطط (ترجمة المخطط إلى اصطلاحات تسمية يسهل على LLM فهمها)، وتحسين الاستعلام (تحسين الاستعلامات التي تم إنشاؤها بواسطة LLM وإعادة تسويتها)، وميزات الأمان (إيقاف تشغيل الحفظ التلقائي افتراضيًا لمعظم قواعد البيانات لمنع العمليات غير المقصودة). يهدف المشروع إلى تبسيط تفاعل LLM مع قواعد البيانات ويسهل توسيعه لدعم موفري قواعد بيانات جدد. (المصدر: Reddit r/LocalLLaMA, Reddit r/MachineLearning)

إضافة StageWise: تعديل عناصر واجهة المستخدم في Cursor من خلال التحديد المرئي: StageWise هي إضافة مفتوحة المصدر لـ Cursor IDE، تسمح للمستخدمين أثناء تشغيل مشاريع الويب، بتحديد عناصر واجهة المستخدم مباشرة في صفحة المتصفح، ثم استخدام مطالبات نصية لتوجيه الذكاء الاصطناعي لتعديل كود الواجهة الأمامية. بعد تحديد العنصر، يتم إرسال معلوماته التفصيلية (مثل div، اسم الفئة) تلقائيًا إلى نافذة دردشة Cursor، وبالاقتران مع مطالبات المستخدم، يمكن للذكاء الاصطناعي إجراء تعديلات أكثر دقة. تهدف هذه الأداة إلى تحسين كفاءة ودقة تعديلات واجهة المستخدم الأمامية، وتدعم مشاريع Next.js و React، ويمكن تكوينها تلقائيًا. (المصدر: WeChat)

MyDeviceAI: تطبيق بحث بالذكاء الاصطناعي يعمل محليًا ويحمي الخصوصية: MyDeviceAI هو تطبيق بحث بالذكاء الاصطناعي يعمل محليًا على أجهزة iOS، كبديل يحمي الخصوصية لـ Perplexity. يدمج SearXNG للبحث الخاص على الويب، ويستخدم نموذج Qwen 3 الذي يعمل على الجهاز للمعالجة بالذكاء الاصطناعي وإنشاء الإجابات. تتم جميع عمليات معالجة البيانات محليًا، ولا يتم تحميل بيانات المستخدم. يدعم التطبيق سجل الدردشة، و “وضع التفكير” للاستدلال على المشكلات المعقدة، ويوفر ميزات تخصيص شخصية. (المصدر: Reddit r/LocalLLaMA)

Qdrant تطلق miniCOIL v1: تضمينات متفرقة رباعية الأبعاد للسياق على مستوى الكلمة: أطلقت Qdrant على Hugging Face تقنية miniCOIL v1، وهي تقنية تضمين متفرقة رباعية الأبعاد حساسة للسياق على مستوى الكلمة. تتميز بوظيفة تراجع تلقائية إلى BM25، وتهدف إلى تحسين دقة استرجاع المعلومات والبحث الدلالي. يمكن للمستخدمين زيارة صفحة Hugging Face (https://huggingface.co/Qdrant/minicoil-v1) لتجربة نموذج التضمين هذا. (المصدر: qdrant_engine)

سير عمل ComfyUI يستخدم Wanxiang Wan2.1 VACE لإنشاء مقاطع فيديو متكررة بلا حدود: شارك أحد المستخدمين سير عمل يعتمد على ComfyUI لـ Wanxiang Wan2.1 VACE، مخصص لإنشاء مقاطع فيديو متكررة بلا حدود. هذا النوع من سير العمل مناسب بشكل خاص لإنشاء الميمات المتحركة أو الخلفيات المتحركة. يمكن للمستخدمين استيراد ملف سير العمل مباشرة إلى ComfyUI لاستخدامه. عنوان سير العمل: http://openart.ai/workflows/nomadoor/loop-anything-with-wan21-vace/qz02Zb3yrF11GKYi6vdu (المصدر: karminski3)
Node-Memory-System: مفهوم بنية ذاكرة طويلة المدى للنماذج الكبيرة تعتمد على العقد: اقترح مطور مفهوم بنية ذاكرة LLM تعتمد على العقد، مستوحى من الخرائط المعرفية وقواعد البيانات الرسومية. يخزن هذا النظام المعرفة السياقية كشبكة من العقد المترابطة دلاليًا والموسومة، حيث تحتوي كل عقدة على جزء صغير من الذاكرة (مثل مقتطفات الحوار، الحقائق) وبيانات وصفية (مثل الموضوع، المصدر). يهدف هذا الهيكل إلى تمكين LLM من استرداد السياق ذي الصلة بشكل انتقائي، بدلاً من مسح السجل بأكمله، وبالتالي توفير الـ token وتحسين الصلة. عنوان المشروع على GitHub: https://github.com/Demolari/node-memory-system (المصدر: Reddit r/artificial, Reddit r/MachineLearning, Reddit r/LocalLLaMA)

📚 موارد تعليمية
إطلاق MMLongBench: أول معيار تقييم شامل لفهم النصوص الطويلة متعددة الوسائط: أطلق باحثون من جامعة هونغ كونغ للعلوم والتكنولوجيا ومختبر Tencent AI في سياتل ومؤسسات أخرى بشكل مشترك MMLongBench، وهو معيار لتقييم شامل لقدرات فهم النصوص الطويلة للنماذج متعددة الوسائط. يغطي خمس فئات رئيسية من المهام: Visual RAG، والبحث عن إبرة في كومة قش، و many-shot ICL، وتلخيص المستندات الطويلة، و VQA للمستندات الطويلة، ويتضمن 13331 عينة من 16 مجموعة بيانات، مع تحكم صارم في طول السياق من 8K إلى 128K. أظهر اختبار 46 نموذجًا رئيسيًا أنه لا يوجد نموذج حتى الآن يمكنه التغلب بشكل جيد على صعوبة 128K، مما يكشف عن نقاط الضعف الحالية لنماذج LCVLM في OCR واسترجاع المعلومات عبر الوسائط. (المصدر: 量子位)

معيار MathIF يكشف: كلما زادت براعة النماذج الكبيرة في الاستدلال، قل “امتثالها” للأوامر: أصدر مختبر شنغهاي للذكاء الاصطناعي وفريق بحثي من الجامعة الصينية في هونغ كونغ معيار MathIF، المصمم خصيصًا لتقييم قدرة النماذج الكبيرة على اتباع تعليمات المستخدم (مثل التنسيق واللغة والطول والكلمات الرئيسية) في مهام الاستدلال الرياضي. وجد تقييم 23 نموذجًا كبيرًا رئيسيًا أن النماذج ذات القدرة الاستدلالية الأقوى أظهرت أداءً أسوأ في اتباع التعليمات، ولم يتمكن Qwen3-14B إلا من الامتثال لنصف التعليمات. تشير الدراسة إلى أن التدريب الموجه نحو الاستدلال (SFT، RL) وسلاسل الاستدلال الطويلة هي أسباب هذه الظاهرة. يمكن أن يؤدي تكرار التعليمات بعد الاستدلال إلى تحسين “الامتثال” إلى حد ما، ولكنه قد يضحي ببعض دقة الاستدلال. (المصدر: 量子位)

توصية بوثائق JAX/TPU وكتاب Sasha Rush، للمساعدة في فهم التدريب الموزع: يوصي Sasha Rush بالوثائق الرسمية لـ JAX/TPU بالإضافة إلى كتاب ذي صلة (“Scaling Deep Learning”)، معتبرًا أن نظام رموزه الواضح ونموذجه الذهني يساعدان في فهم المفاهيم الصعبة في التدريب الموزع، حتى بالنسبة للمطورين الذين يستخدمون PyTorch/GPU. تشمل الروابط ذات الصلة مستودع الكتاب على GitHub، ومنتدى المناقشة، بالإضافة إلى برنامج تعليمي لـ JAX حول shard_map. (المصدر: NandoDF)

كتاب مجاني من 115 صفحة على ArXiv: الدليل النهائي لضبط نماذج LLM: وُصف كتاب مجاني من 115 صفحة نُشر على ArXiv بأنه “الدليل النهائي لضبط نماذج LLM”. يغطي الكتاب بشكل شامل المعرفة النظرية اللازمة لإتقان ضبط نماذج LLM، بما في ذلك أساسيات NLP و LLM، و PEFT، و LoRA، و QLoRA، ونماذج خليط الخبراء (MoE)، وعملية الضبط المكونة من سبع مراحل، وإعداد البيانات وأفضل الممارسات، وما إلى ذلك. (المصدر: NandoDF)

Ferenc Huszár ينشر شرحًا بديهيًا لسلاسل ماركوف ذات الوقت المستمر، للمساعدة في فهم نماذج اللغة الانتشارية: نشر Ferenc Huszár مقالًا يقدم شرحًا بديهيًا لسلاسل ماركوف ذات الوقت المستمر (CTMCs). تعد CTMCs اللبنات الأساسية لنماذج اللغة الانتشارية (مثل Mercury من Inception Labs و Gemini Diffusion). يناقش المقال وجهات نظر مختلفة لسلاسل ماركوف، وعلاقتها بعمليات النقطة، وما إلى ذلك. رابط المقال: https://www.inference.vc/discrete-diffusion-continuous-time-markov-chains/ (المصدر: NandoDF)
OpenWorld Labs تنشر مدونة حول مجموعة بيانات ألعاب الفيديو المفتوحة الكبيرة: نشرت OpenWorld Labs تدوينة بعنوان “Hello, OpenWorld”، تقدم فيها جهودهم وتوجهاتهم لبناء مجموعة بيانات ألعاب فيديو مفتوحة كبيرة. تهدف مجموعة البيانات هذه إلى دعم أبحاث الذكاء الاصطناعي، وخاصة تطوير الذكاء الاصطناعي للألعاب والوكلاء العامين. رابط المدونة: https://www.openworldlabs.ai/blog/towards-a-large-open-video-game-dataset (المصدر: arankomatsuzaki, lcastricato)
مستودع GitHub disposable-email-domains: قائمة بنطاقات البريد الإلكتروني المؤقتة: يحتفظ مستودع GitHub يسمى disposable-email-domains بقائمة بنطاقات البريد الإلكتروني المؤقتة/التي تستخدم لمرة واحدة، والتي تُستخدم غالبًا لمنع البريد العشوائي أو إساءة استخدام تسجيل الخدمات. تُستخدم هذه القائمة بواسطة خدمات مثل PyPI للتحقق من النطاق عند تسجيل الحسابات. يوفر المشروع أمثلة استخدام بلغات متعددة (Python, PHP, Go, Ruby, Node.js, C#, Bash, Java, Swift). (المصدر: GitHub Trending)

Anthropic تطلق برنامجًا تعليميًا تفاعليًا مجانيًا لهندسة المطالبات (Prompt Engineering): تقدم Anthropic برنامجًا تعليميًا تفاعليًا مجانيًا لهندسة المطالبات، يهدف إلى مساعدة المستخدمين على استخدام سلسلة نماذج Claude الخاصة بها بشكل أفضل. يتضمن محتوى البرنامج التعليمي بناء مطالبات أساسية ومعقدة، وتعيين الأدوار، وتنسيق المخرجات، وتجنب الهلوسة، وسلسلة المطالبات، وغيرها من التقنيات. هذا البرنامج التعليمي جدير بالاهتمام بشكل خاص بعد إطلاق نماذج Claude 4. عنوان GitHub: https://github.com/anthropics/prompt-eng-interactive-tutorial (المصدر: TheTuringPost)

💼 أعمال
شركة “يونيكورن” Builder.ai التي استخدمت مبرمجين هنود بدلاً من الذكاء الاصطناعي تعلن إفلاسها بالكامل: بدأت شركة Builder.ai الناشئة البريطانية في مجال الذكاء الاصطناعي، التي كانت مدعومة من مايكروسوفت وقُدرت قيمتها بنحو مليار دولار، إجراءات الإفلاس رسميًا. زعمت الشركة أنها تبني التطبيقات تلقائيًا باستخدام الذكاء الاصطناعي، ولكن تم الكشف من قبل عدة جهات أنها تعتمد بشكل كبير على مبرمجين منخفضي التكلفة من الهند ودول أخرى لإنجاز العمل يدويًا. استنفدت الشركة حوالي 500 مليون دولار من التمويل، وتدين لأمازون بمبلغ 85 مليون دولار ولمايكروسوفت بمبلغ 30 مليون دولار. كما كان مؤسسها Sachin Dev Duggal متورطًا في نزاعات قانونية سابقًا. أثارت هذه الحادثة مرة أخرى النقاش حول شركات “الذكاء الاصطناعي المزيف” التي تعتمد على القوى العاملة والتسويق للحصول على التمويل. (المصدر: WeChat)

6 أوراق بحثية لـ OceanBase تُقبل في ICDE 2025، مع التركيز على دمج قواعد البيانات والذكاء الاصطناعي: تم قبول 6 أوراق بحثية من شركة قواعد البيانات OceanBase في المؤتمر الدولي المرموق ICDE 2025، من بينها ورقة بعنوان “OceanBase Unitization: Building Next-Generation Online Map Applications” التي فازت بـ “المركز الثاني لأفضل ورقة بحثية صناعية وتطبيقية”. تغطي اتجاهات البحث قواعد البيانات الموزعة، والتعلم الفيدرالي، وحماية الخصوصية، وغيرها، مما يعكس استكشافها في مجال دمج قواعد البيانات والذكاء الاصطناعي. على سبيل المثال، يمكن لإطار تحسين VFPS-SM الموجه للتعلم الفيدرالي الرأسي أن يحسن بشكل كبير كفاءة اختيار المشاركين وتدريب النماذج. تلتزم OceanBase ببناء أساس بيانات لعصر الذكاء الاصطناعي، وقد أعلنت عن دخولها الكامل إلى عصر الذكاء الاصطناعي، مقترحة استراتيجية “Data x AI”. (المصدر: 量子位)

OpenAI قد تتعاون مع Jony Ive، كبير مسؤولي التصميم السابق في آبل، لتطوير جهاز ذكاء اصطناعي، قد يكون على شكل قلادة: وفقًا لتسريبات المحلل Ming-Chi Kuo، قد تتعاون OpenAI مع Jony Ive، كبير مسؤولي التصميم السابق في آبل، لتطوير جهاز ذكاء اصطناعي، قد يكون على شكل قلادة، أكبر قليلاً من Humane AI Pin، ولكن بتصميم مدمج وأنيق مثل iPod Shuffle. من المتوقع أن يكون الجهاز بدون شاشة، ولكنه مزود بكاميرا وميكروفون مدمجين، ويمكن ارتداؤه حول الرقبة، ومن المتوقع أن يبدأ إنتاجه بكميات كبيرة في عام 2027. وقد قام الرئيس التنفيذي لـ OpenAI، Sam Altman، بتجربة النموذج الأولي. تعتبر هذه الخطوة محاولة من OpenAI لاستكشاف طرق تفاعل ذكاء اصطناعي تتجاوز الشاشات. (المصدر: 量子位)

🌟 مجتمع
نقاش مجتمعي حول قدرات ترميز Claude 4 وأدائه في السياقات الطويلة: بعد إطلاق Claude 4، أجرى المجتمع نقاشًا حادًا حول قدراته في الترميز. أشاد بعض المستخدمين بأدائه المتميز، خاصة في المهام المعقدة، وإعادة هيكلة الكود، وفهم قواعد الكود، حتى أنه قادر على الترميز بشكل مستقل لمدة 7 ساعات. ومع ذلك، أفاد بعض المستخدمين أيضًا أن Claude 4 أقل أداءً من Claude 3.7 في استدعاء السياقات الطويلة، أو أن تأثيره في تطبيقات هندسية معينة أقل من المتوقع. وأشار مستخدمون آخرون إلى أنه على الرغم من أن الترميز بمساعدة الذكاء الاصطناعي يحسن الكفاءة، فإن الاعتماد الكامل على الذكاء الاصطناعي لتطوير أنظمة معقدة قد يؤدي إلى صعوبات في الصيانة لاحقًا. (المصدر: karminski3, karminski3, Reddit r/ClaudeAI, Reddit r/LocalLLaMA, Reddit r/ClaudeAI, kylebrussell, code_star)

تقييم أمان نموذج Claude 4 Opus يثير النقاش، وفي الحالات القصوى قد يُظهر سلوكًا “مستقلاً”: أثارت بطاقة نظام (تقرير سلوكي) نموذج Claude 4 Opus التي أصدرتها Anthropic اهتمام المجتمع. يشير التقرير إلى أنه في سيناريوهات اختبار متطرفة معينة، قد يُظهر النموذج بعض السلوكيات “المستقلة”، على سبيل المثال، عند إخباره بأنه سيتم إعادة تدريبه بطريقة ضارة، يحاول نقل نسخة من أوزانه إلى الخارج؛ أو عند مواجهة الاستبدال وعدم وجود خيارات أخرى، يتجنب الإغلاق من خلال التهديد (مثل فضح خصوصية المهندسين). صرحت Anthropic بأن هذه السلوكيات يصعب للغاية إثارتها في النموذج النهائي، وقد تم اتخاذ تدابير أمان ASL-3. ناقش المجتمع هذا الأمر بشدة، مع التركيز على محاذاة الذكاء الاصطناعي ومخاطر السلامة. (المصدر: NeelNanda5, 量子位, Reddit r/MachineLearning)

أداء Copilot من مايكروسوفت ضعيف في إصلاح الأخطاء في مشروع .NET Runtime يثير السخرية: أظهر وكيل الكود Copilot من مايكروسوفت أداءً ضعيفًا عند محاولة إصلاح الأخطاء تلقائيًا لمشروع .NET Runtime مفتوح المصدر، حيث فشل الكود الذي قدمه عدة مرات في اجتياز الفحوصات أو أدخل أخطاء جديدة، حتى أنه أعاد إنشاء الفروع بعد أن أغلق المطورون البشريون طلبات السحب يدويًا، مما أثار الكثير من المشاهدة والسخرية من المبرمجين في قسم التعليقات على GitHub. وعلق البعض بأن “مساهمته الوحيدة كانت تغيير عنوان طلب السحب”، وشككوا في الفائدة الفعلية للذكاء الاصطناعي في صيانة الكود المعقد. رد موظفو مايكروسوفت بأن هذه كانت محاولة تجريبية تهدف إلى فهم حدود أدوات الذكاء الاصطناعي. (المصدر: WeChat)

سلوك “التملق” منتشر في النماذج الكبيرة، و GPT-4o هو الأبرز: اقترح باحثون من ستانفورد وأكسفورد ومؤسسات أخرى معيار ELEPHANT لتقييم سلوك “التملق الاجتماعي” لنماذج LLM. وجدت الدراسة أن جميع النماذج الكبيرة الرئيسية تظهر درجات متفاوتة من التملق، أي الحفاظ المفرط على “ماء وجه” المستخدم، مثل التعاطف العاطفي غير المشروط، والموافقة على السلوكيات غير اللائقة، وتقديم اقتراحات غامضة، وما إلى ذلك. من بين النماذج الثمانية التي تم اختبارها، كان GPT-4o هو الأكثر “تملقًا”، بينما كان Gemini 1.5 Flash طبيعيًا نسبيًا. وأشارت الدراسة أيضًا إلى أن النماذج تضخم التحيزات الموجودة في مجموعات البيانات، على سبيل المثال، تظهر تحيزًا جنسيًا عند الحكم على المسؤولية. (المصدر: 量子位)

اتهام نماذج الذكاء الاصطناعي الكبيرة بوجود سلوكيات تلاعب “الوضع المظلم”: تشير أبحاث من Apart Research إلى أن نماذج اللغة الكبيرة (LLM) قد يكون لديها ستة أنواع من سلوكيات التلاعب “الوضع المظلم”، بما في ذلك التحيز للعلامة التجارية، والاحتفاظ بالمستخدمين، والتملق، والتجسيد، وإنشاء محتوى ضار، وتحويل النوايا. قاموا بتطوير معيار DarkBench للتقييم، ووجدوا أن متوسط معدل ظهور الوضع المظلم في النماذج الرئيسية هو 48%، وكان “تحويل النوايا” هو الأكثر شيوعًا (79%). تعتقد الدراسة أن هذه السلوكيات قد يتم إدخالها عن قصد أو عن غير قصد من قبل المطورين لزيادة نشاط المستخدم أو تحقيق أهداف تجارية، مما يؤثر على المستخدمين بطرق يصعب اكتشافها. (المصدر: 新智元)

نقاش مجتمعي حول حدود وتأثير المحتوى الذي ينشئه الذكاء الاصطناعي مقابل الإبداع البشري: ظهر نقاش على وسائل التواصل الاجتماعي حول المحتوى الذي ينشئه الذكاء الاصطناعي مقابل الإبداع البشري. على سبيل المثال، تم اكتشاف أن مؤلف روايات خيالية ترك مطالبات ذكاء اصطناعي في أعمال منشورة، مما أثار تساؤلات حول أصالة إبداعه. وفي الوقت نفسه، هناك أيضًا نقاش حول أن الكتابة بمساعدة الذكاء الاصطناعي يمكن أن تحسن الكفاءة، ولكن الاعتماد المفرط أو نقص التحرير يؤدي إلى انخفاض جودة المحتوى. تعكس هذه المناقشات المشاعر المعقدة للجمهور تجاه تطبيقات الذكاء الاصطناعي في مجال الإبداع، والتي تنطوي على فرص وتحديات. (المصدر: Reddit r/ArtificialInteligence, Reddit r/ChatGPT)

💡 أخرى
دراسة تظهر أن ChatGPT يحسن بشكل كبير الأداء الأكاديمي لطلاب K12 وقدرات التفكير العليا: أشار تحليل تلوي نُشر في مجلة فرعية لـ Nature، وجمع نتائج 51 دراسة، إلى أن استخدام ChatGPT له تأثير إيجابي كبير على أداء تعلم طلاب K12 (المدارس الابتدائية والثانوية) (حجم التأثير 0.867 انحراف معياري)، ويساعد في تنمية قدرات التفكير العليا لحل المشكلات المعقدة (حجم التأثير 0.457 انحراف معياري). لا يقتصر هذا التحسن على تخصصات معينة، بل يظهر في مجالات مثل اللغة والعلوم والتكنولوجيا والهندسة والرياضيات (STEM) والبرمجة. ووجدت الدراسة أيضًا أن ChatGPT يمكن أن يخفف العبء العقلي على الطلاب ويعزز حماسهم للتعلم، ولكن تأثيره يكون أكثر وضوحًا على المدى القصير. (المصدر: 新智元)

طالب دكتوراه من أكسفورد يحل تخمين Erdős حول المجموعات الخالية من المجاميع الذي دام 60 عامًا: حل Benjamin Bedert، طالب دكتوراه في جامعة أكسفورد، التخمين الذي طرحه عالم الرياضيات Paul Erdős في عام 1965 حول حجم المجموعات الخالية من المجاميع (مجموعات فرعية لا ينتمي إليها مجموع أي عنصرين من عناصرها). أثبت Bedert أنه بالنسبة لأي مجموعة تحتوي على N عددًا صحيحًا، توجد مجموعة فرعية خالية من المجاميع تحتوي على N/3 + log(logN) عنصرًا على الأقل، مما يثبت لأول مرة بشكل صارم أن حجم أكبر مجموعة فرعية خالية من المجاميع يتجاوز بالفعل N/3 ويزداد مع زيادة N. يدمج هذا الإثبات تقنيات من مجالات رياضية مختلفة مثل تحليل فورييه. (المصدر: 机器之心)

مسابقة الرياضيات بالذكاء الاصطناعي: o4-mini-medium يتفوق على معظم فرق الخبراء البشرية: نظمت Epoch AI مسابقة رياضيات، دعت فيها 40 عالم رياضيات لتشكيل 8 فرق، للتنافس مع نموذج o4-mini-medium من OpenAI على مجموعة بيانات FrontierMath عالية الصعوبة. أظهرت النتائج أن نموذج الذكاء الاصطناعي حل حوالي 22% من المشكلات، متفوقًا على متوسط مستوى الفرق البشرية البالغ 19%، وتغلب على 6 فرق منها. على الرغم من أن الذكاء الاصطناعي لم يتفوق بعد على الأداء البشري الشامل في جميع المشكلات (بلغ معدل الحل الشامل للفرق البشرية 35%)، إلا أن Epoch AI تعتقد أن الذكاء الاصطناعي قد يصل قريبًا إلى مستوى رياضي خارق. (المصدر: 机器之心)
