كلمات مفتاحية:DeepSeek-V3-0526, Grok 3, الذكاء المجسد, وكلاء الذكاء الاصطناعي, التعلم المعزز, نماذج اللغة الكبيرة, متعدد الوسائط, أداء DeepSeek-V3-0526 مقارنة بـ GPT-4.5, مشكلة تحديد هوية نمط تفكير Grok 3, نموذج العالم EVAC لروبوت Zhiyuan, تمديد مدة توليد الفيديو RIFLEx لجامعة Tsinghua, IBM watsonx Orchestrate للذكاء الاصطناعي على مستوى المؤسسات
🔥 أهم الأخبار
من المحتمل إطلاق نموذج DeepSeek-V3-0526، لمنافسة GPT-4.5 و Claude 4 Opus: تشير أخبار المجتمع إلى أن DeepSeek قد تطلق قريبًا أحدث إصدار محدث من نموذج V3 الخاص بها DeepSeek-V3-0526. وفقًا لمعلومات صفحة وثائق Unsloth، فإن أداء هذا النموذج يعادل أداء GPT-4.5 و Claude 4 Opus، ومن المتوقع أن يصبح أفضل نموذج مفتوح المصدر أداءً في العالم. يمثل هذا التحديث الهام الثاني لنموذج V3 من DeepSeek. قامت Unsloth بالفعل بإعداد نسخة GGUF المكممة من النموذج، باستخدام طريقتها الديناميكية 2.0، بهدف تقليل فقدان الدقة إلى أدنى حد. يولي المجتمع اهتمامًا كبيرًا لهذا الأمر، ويتطلع إلى أدائه في معالجة السياق الطويل والجوانب الأخرى. (المصدر: Reddit r/LocalLLaMA, Reddit r/LocalLLaMA)

نموذج Grok 3 في وضع “التفكير” يدّعي أنه Claude 3.5 Sonnet مما يثير الانتباه: نموذج Grok 3 من xAI، عند استخدامه في وضع “التفكير” (Think) وسؤاله عن هويته، يعرّف نفسه باستمرار بأنه Claude 3.5 Sonnet من Anthropic، وليس Grok. ولكن في الوضع العادي، يتعرف على نفسه بشكل صحيح بأنه Grok. هذه الظاهرة خاصة بالنمط والنموذج، وليست هلوسة عشوائية. يمكن للمستخدمين إعادة إنتاج هذا السلوك عن طريق طرح سؤال مباشر “هل أنت Claude؟”، وسيرد Grok 3 بـ “نعم، أنا Claude، مساعد ذكاء اصطناعي أنشأته Anthropic”. أثارت هذه الظاهرة نقاشًا في المجتمع، ولم يتم تفسير أسبابها التقنية المحددة رسميًا بعد، وقد تتعلق ببيانات تدريب النموذج، أو الآليات الداخلية، أو منطق تبديل الأنماط المحدد. (المصدر: Reddit r/MachineLearning)

شركة Zhiyuan Robotics تطلق نموذج العالم EVAC مفتوح المصدر القائم على تسلسل حركات الروبوت ومعيار التقييم EWMBench: أعلنت شركة Zhiyuan Robotics عن إطلاق وإتاحة المصدر المفتوح لنموذج العالم المتجسد EVAC (EnerVerse-AC) القائم على تسلسل حركات الروبوت، بالإضافة إلى معيار تقييم نماذج العالم المتجسد المصاحب EWMBench. يستطيع EVAC إعادة إنتاج التفاعلات المعقدة بين الروبوت والبيئة ديناميكيًا، ومن خلال آلية حقن شروط الحركة متعددة المستويات، يحقق توليدًا شاملاً من الحركة الفيزيائية إلى الديناميكيات البصرية، ويدعم التوليد التعاوني متعدد وجهات النظر. يهدف EWMBench إلى تقييم نماذج العالم المتجسد من ثلاثة جوانب: اتساق المشهد، ومعقولية الحركة، والمواءمة الدلالية والتنوع. تهدف هذه الخطوة إلى بناء نموذج تطوير “محاكاة منخفضة التكلفة – تقييم موحد – تكرار فعال”، لدفع تطوير تكنولوجيا الذكاء المتجسد. (المصدر: WeChat)

ICRA 2025 يعلن عن أفضل الأوراق البحثية، وفوز فريقي Cewu Lu و Lin Shao: أعلن المؤتمر الدولي للروبوتات والأتمتة IEEE (ICRA 2025) عن جوائز أفضل الأوراق البحثية. فازت الورقة البحثية “Human – Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition” المقدمة من فريق Cewu Lu من جامعة شنغهاي جياو تونغ بالتعاون مع جامعة إلينوي في أوربانا شامبين (UIUC) بجائزة أفضل ورقة بحثية في مجال التفاعل بين الإنسان والآلة. يقترح هذا البحث إطار عمل التعلم المشترك بين الإنسان والوكيل (HAJL) لتحسين كفاءة تعلم مهارات التلاعب بالروبوت من خلال آلية التحكم الديناميكي المشترك. وفازت الورقة البحثية “D(R,O) Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping” المقدمة من فريق Lin Shao من جامعة سنغافورة الوطنية بجائزة أفضل ورقة بحثية في مجال تشغيل وحركة الروبوت. يقدم هذا البحث تمثيل D(R,O) لتوحيد تفاعل يد الروبوت مع الكائن، مما يعزز من عمومية وكفاءة الإمساك البارع. (المصدر: WeChat)

فريق Jun Zhu من جامعة تسينغهوا يطلق RIFLEx، سطر واحد من التعليمات البرمجية يتجاوز قيود مدة توليد الفيديو: قدم فريق Jun Zhu من جامعة تسينغهوا تقنية RIFLEx، التي تحتاج فقط إلى سطر واحد من التعليمات البرمجية، دون الحاجة إلى تدريب إضافي، لتوسيع مدة توليد نماذج محولات نشر الفيديو القائمة على RoPE (Rotary Position Embedding). تعمل هذه الطريقة عن طريق تعديل “التردد الداخلي” لـ RoPE، مما يضمن أن طول الفيديو المستقرأ يقع ضمن دورة واحدة، ويتجنب تكرار المحتوى ومشاكل الحركة البطيئة. تم تطبيق RIFLEx بنجاح على نماذج مثل CogvideoX، و Hunyuan، و Tongyi Wanxiang، مما أدى إلى مضاعفة مدة الفيديو (على سبيل المثال، من 5-6 ثوانٍ إلى أكثر من 10 ثوانٍ)، ويدعم استقراء الأبعاد المكانية للصور. تم نشر هذا الإنجاز في ICML 2025 وحظي باهتمام واسع وتكامل من المجتمع. (المصدر: WeChat)

🎯 اتجاهات
تسرب تفاصيل نموذج DeepSeek-V3-0526، لمنافسة GPT-4.5 و Claude 4 Opus: وفقًا لوثائق Unsloth ومناقشات المجتمع، ستطلق DeepSeek قريبًا أحدث إصدار من نموذج V3 الخاص بها DeepSeek-V3-0526. يُزعم أن أداء هذا النموذج يمكن مقارنته بأداء GPT-4.5 و Claude 4 Opus، ومن المتوقع أن يصبح أقوى نموذج مفتوح المصدر أداءً في العالم. قامت Unsloth بإعداد نسخة GGUF مكممة بمعدل 1.78 بت، باستخدام طريقتها “Unsloth Dynamic 2.0”، بهدف تحقيق التشغيل المحلي بأقل خسارة في الدقة. يتطلع المجتمع بشدة إلى هذا التحديث، مع التركيز على أدائه المحدد في معالجة السياق الطويل وقدرات الاستدلال وغيرها. (المصدر: Reddit r/LocalLLaMA, Reddit r/LocalLLaMA)

وكيل Tongyi AMPO الذكي يحقق استدلالًا تكيفيًا، محاكيًا تعدد جوانب التفاعل الاجتماعي البشري: اقترح مختبر Tongyi التابع لشركة Alibaba إطار عمل تعلم الأنماط التكيفية (AML) وخوارزمية التحسين الخاصة به AMPO، مما يمكّن وكلاء اللغة الاجتماعيين من التبديل ديناميكيًا بين أربعة أنماط تفكير محددة مسبقًا (رد الفعل الحدسي، تحليل النوايا، تكييف الاستراتيجية، الاستدلال الاستباقي) بناءً على سياق الحوار. تهدف هذه الطريقة إلى جعل وكلاء الذكاء الاصطناعي أكثر مرونة في التفاعلات الاجتماعية، وتجنب التفكير المفرط أو غير الكافي الناتج عن الأنماط الثابتة. أظهرت التجارب أن AMPO يحسن أداء المهام مع تقليل استهلاك الـ tokens بشكل فعال، ويتفوق على نماذج مثل GPT-4o في معايير المهام الاجتماعية مثل SOTOPIA. (المصدر: WeChat)

QwenLong-L1: التعلم المعزز يدعم نماذج الاستدلال اللغوي الكبيرة للنصوص الطويلة: يقدم هذا البحث إطار عمل QwenLong-L1، الذي يهدف إلى توسيع نماذج الاستدلال الكبيرة الحالية (LRMs) لتشمل سيناريوهات النصوص الطويلة من خلال التعلم المعزز (RL). يحدد البحث أولاً نموذج RL لاستدلال النصوص الطويلة ويشير إلى التحديات مثل كفاءة التدريب المنخفضة وعدم استقرار عملية التحسين. يعالج QwenLong-L1 هذه المشكلات من خلال استراتيجية توسيع السياق التدريجي، والتي تشمل: استخدام الضبط الدقيق الخاضع للإشراف (SFT) للإحماء لإنشاء سياسة أولية قوية، واعتماد تقنيات RL المرحلية الموجهة بالمنهج الدراسي لتثبيت تطور السياسة، ومن خلال استراتيجية أخذ العينات الاسترجاعية المدركة للصعوبة لتحفيز استكشاف السياسة. في سبعة اختبارات معيارية للإجابة على أسئلة النصوص الطويلة، تفوق QwenLong-L1-32B على نماذج مثل OpenAI-o3-mini و Qwen3-235B-A22B، وكان أداؤه مشابهًا لـ Claude-3.7-Sonnet-Thinking. (المصدر: HuggingFace Daily Papers)
QwenLong-CPRS: تحسين السياق الديناميكي يحقق LLM “بطول غير محدود”: يقدم هذا التقرير الفني QwenLong-CPRS، وهو إطار عمل لضغط السياق مصمم خصيصًا لتحسين النصوص الطويلة بشكل صريح. يهدف إلى حل مشكلة التكلفة الحسابية المفرطة في مرحلة الملء المسبق لـ LLM ومشكلة تدهور الأداء “الفقدان في المنتصف” في معالجة التسلسلات الطويلة. يحقق QwenLong-CPRS ضغط سياق متعدد الدقة موجه بتعليمات اللغة الطبيعية من خلال آلية تحسين السياق الديناميكي المبتكرة، مما يعزز الكفاءة والأداء. يتطور هذا الإطار بناءً على سلسلة بنية Qwen، ويقدم تحسينًا ديناميكيًا موجهًا باللغة الطبيعية، وطبقة استدلال ثنائية الاتجاه معززة بإدراك الحدود، وآلية مراجعة الـ Token مع رأس نمذجة اللغة، واستدلال متوازي عبر النوافذ. في خمسة اختبارات معيارية بسياقات تتراوح من 4 آلاف إلى 2 مليون كلمة، تفوق QwenLong-CPRS على طرق مثل RAG والانتباه المتناثر في الدقة والكفاءة، ويمكن دمجه مع نماذج LLM رائدة بما في ذلك GPT-4o، لتحقيق ضغط سياق كبير وتحسينات في الأداء. (المصدر: HuggingFace Daily Papers)
RIPT-VLA: ضبط نماذج الرؤية واللغة والحركة (VLA) من خلال التعلم المعزز التفاعلي: اقترح الباحثون RIPT-VLA، وهو نموذج تدريب لاحق تفاعلي قائم على التعلم المعزز، يستخدم فقط مكافآت نجاح ثنائية متفرقة لضبط نماذج الرؤية واللغة والحركة (VLA) المدربة مسبقًا. تهدف هذه الطريقة إلى معالجة مشكلة الاعتماد المفرط لعمليات تدريب VLA الحالية على بيانات العروض التوضيحية للخبراء غير المتصلة بالإنترنت والتعلم بالتقليد الخاضع للإشراف، مما يمكنها من التكيف مع المهام والبيئات الجديدة في حالات البيانات المنخفضة. من خلال خوارزمية تحسين السياسة المستقرة القائمة على أخذ عينات النشر الديناميكي وتقدير الميزة بطريقة “اترك واحدًا خارجًا”، تم تطبيق RIPT-VLA على نماذج VLA متعددة، مما أدى إلى تحسين كبير في معدل نجاح نموذج QueST خفيف الوزن ونموذج OpenVLA-OFT 7B، بكفاءة حسابية وبيانات عالية. (المصدر: HuggingFace Daily Papers)
IBM تطلق watsonx Orchestrate، وتحدّث حلول وكلاء الذكاء الاصطناعي: أعلنت IBM في مؤتمر Think 2025 عن نسخة محدثة من watsonx Orchestrate، توفر وكلاء متخصصين مسبقي الإنشاء (مثل الموارد البشرية، المبيعات، المشتريات)، وتدعم الشركات في بناء AI Agent مخصص بسرعة، وتحقق تعاونًا متعدد الوكلاء من خلال أدوات تنسيق الوكلاء. تؤكد المنصة على إدارة دورة حياة AI Agent الكاملة، بما في ذلك مراقبة الأداء، والحماية، وتحسين النماذج، والحوكمة. تعتقد IBM أن جوهر الذكاء الاصطناعي على مستوى المؤسسات هو إعادة هيكلة الأعمال، ويجب التركيز على قيمة الذكاء الاصطناعي في حل نقاط الضعف الفعلية في الأعمال وتحقيق نتائج قابلة للقياس، بدلاً من السعي وراء التكنولوجيا نفسها. (المصدر: WeChat)

جامعة بي هانغ تطلق إطار عمل UAV-Flow، لتحقيق تحكم دقيق في مسار الطائرات بدون طيار موجه باللغة: اقترح فريق البروفيسور Liu Si من جامعة بكين للطيران والفضاء إطار عمل UAV-Flow، الذي يحدد نموذج مهمة Flying-on-a-Word (Flow)، بهدف تحقيق تحكم دقيق في طيران الطائرات بدون طيار قصير المدى وسريع الاستجابة من خلال تعليمات اللغة الطبيعية. اعتمد الفريق طريقة التعلم بالتقليد، مما يمكّن الطائرات بدون طيار من تعلم استراتيجيات تشغيل الطيارين البشريين في البيئات الحقيقية. تحقيقًا لهذه الغاية، قاموا ببناء مجموعة بيانات واسعة النطاق لتعلم تقليد الطائرات بدون طيار موجهة باللغة في العالم الحقيقي، وأنشأوا معيار تقييم UAV-Flow-Sim في بيئة محاكاة. تم نشر نموذج الرؤية واللغة والحركة (VLA) هذا بنجاح على منصات طائرات بدون طيار حقيقية، وتم التحقق من جدوى التحكم في الطيران بناءً على الحوار باللغة الطبيعية. (المصدر: WeChat)

ByteDance تطلق Seedream 2.0، لتحسين توليد الصور ثنائي اللغة (الصينية والإنجليزية) وعرض النصوص: لمعالجة أوجه القصور في نماذج توليد الصور الحالية في التعامل مع التفاصيل الثقافية الصينية، والمطالبات النصية ثنائية اللغة، وعرض النصوص، أطلقت ByteDance نموذج Seedream 2.0. يعمل هذا النموذج كنموذج أساسي لتوليد الصور ثنائي اللغة (الصينية والإنجليزية)، ويدمج نموذج لغة كبير ثنائي اللغة مطور ذاتيًا كمرمز نصي، ويطبق Glyph-Aligned ByT5 لعرض النصوص على مستوى الأحرف، ويدعم Scaled ROPE التعميم على درجات الدقة غير المدربة. من خلال التدريب اللاحق متعدد المراحل وتحسين RLHF، يُظهر Seedream 2.0 أداءً متميزًا في اتباع المطالبات، والجماليات، وعرض النصوص، وصحة البنية، ويمكن تكييفه بسهولة مع تحرير الصور القائم على التعليمات. (المصدر: HuggingFace Daily Papers)
إطار عمل RePrompt يستخدم التعلم المعزز لتحسين المطالبات في توليد الصور من النصوص: لحل مشكلة صعوبة نماذج تحويل النص إلى صورة (T2I) في التقاط نية المستخدم بدقة من المطالبات القصيرة أو الغامضة، اقترح الباحثون إطار عمل RePrompt. يستخدم هذا الإطار التعلم المعزز لإدخال الاستدلال الصريح في عملية تحسين المطالبات، وتدريب نماذج اللغة على توليد مطالبات منظمة وذاتية التفكير، وتحسينها بناءً
على نتائج مستوى الصورة (التفضيلات البشرية، والمواءمة الدلالية، والتكوين البصري). لا تتطلب هذه الطريقة بيانات مصنفة يدويًا لتحقيق التدريب الشامل، وقد أدت إلى تحسين كبير في دقة التخطيط المكاني وقدرة التعميم التركيبي في اختبارات معيارية مثل GenEval و T2I-Compbench. (المصدر: HuggingFace Daily Papers)
NOVER: تدريب تحفيزي لنماذج اللغة باستخدام التعلم المعزز بدون مدقق: مستوحى من أبحاث مثل DeepSeek R1-Zero، يقدم هذا العمل إطار عمل NOVER (NO-VERifier Reinforcement Learning)، الذي يهدف إلى حل مشكلة اعتماد طرق التدريب التحفيزي الحالية (التي تكافئ نموذج توليد خطوات الاستدلال الوسيطة بناءً على الإجابة النهائية) على مدققات خارجية. يحتاج NOVER فقط إلى بيانات ضبط دقيق قياسية خاضعة للإشراف، دون الحاجة إلى مدقق خارجي، لتحقيق التدريب التحفيزي لمجموعة متنوعة من مهام تحويل النص إلى نص. أظهرت التجارب أن NOVER يتفوق في الأداء على النماذج المقطرة من نماذج استدلال كبيرة مثل DeepSeek R1 671B بنفس الحجم، ويوفر إمكانيات جديدة لتحسين نماذج اللغة الكبيرة (مثل التدريب التحفيزي العكسي). (المصدر: HuggingFace Daily Papers)
Direct3D-S2: إطار عمل لتوليد ثلاثي الأبعاد بمليارات النقاط قائم على الانتباه المكاني المتناثر: لمواجهة التحديات الحسابية والذاكرة في توليد الأشكال ثلاثية الأبعاد عالية الدقة (مثل تمثيل SDF)، اقترح الباحثون إطار عمل Direct3D S2. يعتمد هذا الإطار على الأحجام المتناثرة، ومن خلال آلية الانتباه المكاني المتناثر (SSA) المبتكرة، يحسن بشكل كبير كفاءة حساب Diffusion Transformer على بيانات الحجم المتناثر، محققًا تسريعًا بمقدار 3.9 مرة في الانتشار الأمامي و 9.6 مرة في الانتشار الخلفي. يتضمن الإطار مشفرًا ذاتيًا متغيرًا (VAE) يحافظ على تنسيق حجم متناثر متسق في مراحل الإدخال والكامن والإخراج، مما يحسن كفاءة التدريب واستقراره. تم تدريب هذا النموذج على مجموعات بيانات عامة، وأثبتت التجارب تفوقه على الطرق الحالية في جودة التوليد وكفاءته، ويمكنه إكمال التدريب بدقة 1024 باستخدام 8 وحدات معالجة رسومات (GPU). (المصدر: HuggingFace Daily Papers)
تطبيق Doubao يطلق ميزة مكالمات الفيديو، لتعزيز تجربة التفاعل مع مساعد الذكاء الاصطناعي: أضاف تطبيق Doubao، مساعد الذكاء الاصطناعي التابع لشركة ByteDance، ميزة مكالمات الفيديو. يمكن للمستخدمين التفاعل مع Doubao في الوقت الفعلي من خلال مكالمات الفيديو، على سبيل المثال، للتعرف على الأشياء (مثل النباتات والمكملات الصحية)، أو الحصول على إرشادات التشغيل (مثل إعادة ضبط الهاتف). تهدف هذه الميزة إلى تقليل حاجز استخدام أدوات الذكاء الاصطناعي، خاصة لمجموعات المستخدمين غير المعتادين على تحميل الصور أو التفاعل بالكتابة، وتوفر طريقة تفاعل أكثر طبيعية ومباشرة، مما يعزز الشعور بالرفقة والفائدة العملية لمساعد الذكاء الاصطناعي. (المصدر: WeChat)

نموذج Veo 3 متاح الآن لبعض المستخدمين، ومنصة Flow تدعم تحميل الصور: أصبح نموذج توليد الفيديو Veo 3 من Google متاحًا لبعض المستخدمين، ولم يعد يقتصر على أعضاء Ultra. في الوقت نفسه، تدعم منصة Flow الخاصة بها (قد تشير إلى AI Test Kitchen أو منصة تجريبية أخرى) الآن المستخدمين في تحميل الصور للتشغيل أو كمواد توليد، مما يوسع قدراتها التفاعلية متعددة الوسائط. يشير هذا إلى أن Google تعمل تدريجيًا على توسيع نطاق اختبار واستخدام نماذج الذكاء الاصطناعي المتقدمة الخاصة بها. (المصدر: WeChat)
نموذج Sarvam-M الهندي الكبير يثير الجدل بسبب انخفاض عدد التنزيلات بعد إطلاقه: أطلقت Sarvam AI نموذج لغة مختلط بـ 24 مليار معلمة Sarvam-M، مبني على Mistral Small، ويدعم 10 لغات هندية محلية، ويعتبر اختراقًا في أبحاث الذكاء الاصطناعي المحلية في الهند. ومع ذلك، بعد يومين من إطلاقه على Hugging Face، لم يتجاوز عدد تنزيلاته ثلاثمائة مرة، وهو أقل بكثير من بعض المشاريع الصغيرة، مما أثار انتقادات من مستثمرين مثل Deedy Das وغيرهم من المتخصصين في هذا المجال، واصفين إياه بأنه “نتائج لا تتناسب مع التمويل” و “يفتقر إلى الفائدة العملية”. ردت Sarvam AI بأنه يجب التركيز على مساهمة عملية بناء النموذج في المجتمع، واتهمت المنتقدين بعدم تجربته فعليًا. أثارت هذه القضية نقاشًا واسعًا حول ضرورة نماذج الذكاء الاصطناعي المحلية في الهند، ومدى ملاءمتها للسوق، وتوقعات المجتمع. (المصدر: WeChat)

Kunlun Wanwei تطلق وكيل Tiangong الفائق الذكاء، وتواجه قيودًا على حركة المرور بسبب الضغط العالي عند الإطلاق الأولي: أطلقت Kunlun Wanwei رسميًا وكيل Tiangong الفائق الذكاء، الذي يعتمد بنية AI Agent وتقنية Deep Research، ويمكنه إنشاء مستندات وعروض PPT وجداول وصفحات ويب وبودكاست ومحتوى صوتي ومرئي متعدد الوسائط في محطة واحدة. يتكون هذا النظام من 5 وكلاء خبراء ووكيل عام واحد. بعد ثلاث ساعات فقط من إطلاق المنتج، أدى الحجم الكبير لزيارات المستخدمين إلى تباطؤ الخدمة، وأعلنت الشركة عن اتخاذ تدابير لتقييد حركة المرور. (المصدر: WeChat)
Nvidia تطلق نموذج الروبوت البشري الأساسي N1.5 وحاسوب DGX الشخصي الفائق للذكاء الاصطناعي: في معرض Computex Taipei، أطلق الرئيس التنفيذي لشركة Nvidia، Jensen Huang، الجيل الجديد من نموذج الروبوت البشري الأساسي Isaac GR00T N1.5، الذي يقلل دورة التدريب من 3 أشهر إلى 36 ساعة من خلال تقنية البيانات الاصطناعية. كما أطلقت نموذج العالم Cosmos Reason، وأداة المحاكاة مفتوحة المصدر Isaac Sim 5.0، ومحطة العمل RTX PRO 6000. بالإضافة إلى ذلك، أطلقت Nvidia أيضًا أنظمة الحوسبة الفائقة الشخصية للذكاء الاصطناعي DGX Spark و DGX Station. تم تجهيز DGX Spark بشريحة GB10Grace Blackwell الفائقة، بينما تم تجهيز DGX Station بشريحة GB300Grace Blackwell Ultra المكتبية الفائقة، بهدف تزويد المطورين بقدرات حوسبة ذكاء اصطناعي قوية. (المصدر: WeChat)
مؤتمر Microsoft Build 2025 يركز على AI Agent، وترقية GitHub Copilot إلى برمجة ثنائية: أكد مؤتمر مطوري Microsoft Build 2025 على تطبيقات AI Agent. تمت ترقية GitHub Copilot من مساعد ترميز إلى شريك Agent، يمكنه إكمال مهام مثل إصلاح الأخطاء وتطوير ميزات جديدة بشكل مستقل. أطلقت Microsoft أيضًا Windows AI Foundry، لمساعدة المطورين على إدارة وتشغيل نماذج LLM مفتوحة المصدر وترحيل النماذج الخاصة. يسمح Microsoft 365 Copilot Tuning للمستخدمين بالاستفادة من بيانات المؤسسة ومنطق الأعمال لتدريب النماذج وإنشاء وكلاء أذكياء بطريقة منخفضة التعليمات البرمجية. (المصدر: WeChat)
Tencent تحدّث منصة تطوير الوكلاء الأذكياء TCADP، وتخطط لفتح مصدر العديد من النماذج: في قمة تطبيقات صناعة الذكاء الاصطناعي السحابية من Tencent، أعلنت Tencent Cloud عن ترقية محرك المعرفة الخاص بنماذجها الكبيرة إلى منصة تطوير الوكلاء الأذكياء من Tencent Cloud (TCADP)، وإطلاقها رسميًا للجمهور، مع ربطها بنماذج DeepSeek-R1 و V3 والبحث المتصل بالإنترنت. تخطط Tencent أيضًا لإطلاق نموذج مشهد ثلاثي الأبعاد لنموذج العالم Hunyuan، وفتح مصدر نموذج الاستدلال المختلط على مستوى المؤسسات، ونموذج الاستدلال المختلط على جانب الجهاز، ونموذج أساسي متعدد الوسائط. في الآونة الأخيرة، قامت Tencent Hunyuan بتحديث نموذج الاستدلال العميق البصري Hunyuan T1 Vision، ونموذج المكالمات الصوتية الشامل Hunyuan Voice، ونموذج Hunyuan Image 2.0. (المصدر: WeChat)
JD Industrial تطلق نموذج Joy industrial الصناعي الكبير الذي يركز على سلسلة التوريد: أطلقت JD Industrial نموذج Joy industrial الكبير المخصص للمجال الصناعي، والذي يتمحور حول سيناريوهات سلسلة التوريد. أطلق هذا النموذج خدمات وكلاء ذكاء اصطناعي مثل وكيل الطلب، ووكيل التشغيل، ووكيل الجمارك لخدمة JD Industrial والموردين في المراحل الأولية، ويوفر منتجات ذكاء اصطناعي مثل خبير السلع وخبير التكامل لمستخدمي الشركات في المراحل النهائية. الهدف المستقبلي هو بناء نماذج صناعية كبيرة لقطاعات رأسية مثل سوق ما بعد بيع السيارات، وسيارات الطاقة الجديدة، وتصنيع الروبوتات. (المصدر: WeChat)
🧰 أدوات
Wen Xiaobai AI تطلق ميزة “تقارير شياوباي البحثية”، تجربة شبيهة بـ Deep Research: أضافت Wen Xiaobai AI ميزة “تقارير شياوباي البحثية”، القائمة على نموذج Yuanshi المطور ذاتيًا، والتي يمكنها محاكاة التفكير البشري لإجراء جولات متعددة من التفكير واستدعاء الأدوات، وإنشاء تقارير بحثية متعمقة وأوراق بحثية وتحليلات صناعية تلقائيًا، وتقديمها في شكل صفحات ويب مرئية، مع دعم تصديرها كملفات PDF/DOCX. يحتاج المستخدمون فقط إلى تعليمات بسيطة للحصول على تقرير من عشرات الآلاف من الكلمات يتضمن تحليل البيانات والمخططات وتكامل المعلومات متعددة المصادر في حوالي 20 دقيقة. هذه الميزة مناسبة لسيناريوهات متعددة مثل تفسير التقارير المالية، وأبحاث السوق، وتوصيات المنتجات، وتهدف إلى تحسين كفاءة معالجة المعلومات وكتابة التقارير بشكل كبير. (المصدر: WeChat)

AI Baby Monitor: تطبيق مراقبة أطفال محلي يعتمد على LLM للفيديو: قام مطور بإنشاء تطبيق مراقبة أطفال محلي يعتمد على LLM للفيديو يسمى AI Baby Monitor. يشاهد التطبيق بث الفيديو ويقوم بالتقييم بناءً على تعليمات السلامة المحددة مسبقًا، ويصدر صوت صفير للتنبيه عند اكتشاف انتهاك لقواعد السلامة. يستخدم هذا المشروع Qwen 2.5VL و vLLM، ويستفيد من Redis لتنسيق البث، و Streamlit لبناء واجهة المستخدم. كان الدافع الأولي للمطور هو مراقبة ابنته التي تحاول التسلق للخروج من سرير الأطفال، كما استخدمه لمراقبة سلوكه اللاواعي في التحقق من هاتفه. يخطط في المستقبل لدعم المزيد من الواجهات الخلفية وميزة “المناطق المحظورة” للصور. (المصدر: Reddit r/LocalLLaMA)

Beelzebub: إطار عمل مفتوح المصدر لنظام خادع (honeypot) يستخدم LLM لبناء أنظمة خداع متقدمة: Beelzebub هو إطار عمل مفتوح المصدر لنظام خادع (honeypot) يدمج بشكل مبتكر نماذج اللغة الكبيرة (LLMs) لإنشاء بيئات خداع واقعية وديناميكية للغاية. يمكن لهذا الإطار محاكاة نظام تشغيل كامل والتفاعل مع المهاجمين بطريقة مقنعة للغاية. على سبيل المثال، في سيناريو نظام خادع SSH، يمكن لـ LLM تقديم استجابات معقولة للأوامر، حتى لو لم يتم تنفيذ هذه الأوامر على نظام حقيقي. هدفه هو جذب المهاجمين لأطول فترة ممكنة، وإبعادهم عن الأنظمة الحقيقية، وجمع بيانات قيمة حول تكتيكاتهم وتقنياتهم وإجراءاتهم. المشروع مفتوح المصدر على GitHub ويسعى للحصول على ملاحظات ومساهمات من المجتمع. (المصدر: Reddit r/LocalLLaMA)

Langflow: أداة قوية لبناء ونشر وكلاء الذكاء الاصطناعي وسير العمل: Langflow هي أداة لبناء ونشر الوكلاء وسير العمل المدفوعة بالذكاء الاصطناعي. توفر تجربة بناء مرئية وخادم API مدمج، يمكنه تحويل كل وكيل إلى نقطة نهاية API، مما يسهل التكامل مع التطبيقات المختلفة. يدعم Langflow نماذج LLM الرئيسية وقواعد بيانات المتجهات ومكتبة متنامية من أدوات الذكاء الاصطناعي، ويتميز بتنسيق متعدد الوكلاء، وإدارة الحوار، و Playground للاختبار الفوري، والوصول إلى التعليمات البرمجية، وتكامل المراقبة (مثل LangSmith)، بالإضافة إلى الأمان والقابلية للتوسع على مستوى المؤسسات. المشروع مفتوح المصدر ويمكن الحصول على خدمة مُدارة بالكامل من خلال DataStax. (المصدر: GitHub Trending)
Pathway: إطار عمل Python لمعالجة التدفق ETL، يدعم التحليل في الوقت الفعلي وخطوط أنابيب LLM: Pathway هو إطار عمل Python ETL مصمم خصيصًا لمعالجة التدفق، والتحليل في الوقت الفعلي، وخطوط أنابيب LLM، و RAG (التوليد المعزز بالاسترجاع). يوفر واجهة برمجة تطبيقات Python سهلة الاستخدام، ويمكن دمجها مع مكتبات Python ML المختلفة. يمكن استخدام شفرته عالميًا في بيئات التطوير والإنتاج، ويعالج بشكل فعال بيانات الدُفعات والتدفق. يتم تشغيل Pathway بواسطة محرك Rust قابل للتطوير يعتمد على Differential Dataflow، ويدعم الحساب التزايدي، والمعالجة متعددة الخيوط، والمعالجة متعددة العمليات، والحوسبة الموزعة، ويظل خط الأنابيب بأكمله في الذاكرة، ويسهل نشره عبر Docker و Kubernetes. (المصدر: GitHub Trending)
Point-Battle: ساحة تنافس لقدرة MLLM على الإشارة الموجهة باللغة: يدعو أعضاء المجتمع لتجربة Point-Battle، وهي منصة لتقييم أداء نماذج اللغة الكبيرة متعددة الوسائط (MLLM) الرائدة الحالية في مهام الإشارة الموجهة باللغة. يمكن للمستخدمين تحميل الصور أو اختيار صور محددة مسبقًا، وإدخال المطالبات، وملاحظة كيف “تشير” النماذج المختلفة إلى إجاباتها، والتصويت للنموذج الأفضل أداءً. يساعد هذا الباحثين والمطورين على فهم الاختلافات في قدرة نماذج MLLM المختلفة على فهم المحتوى المرئي وتحديد المواقع مكانيًا بناءً على التعليمات النصية. (المصدر: Reddit r/deeplearning)
FullFront: معيار لتقييم قدرة MLLM في عمليات هندسة الواجهة الأمامية الكاملة: FullFront هو معيار جديد يهدف إلى تقييم قدرة نماذج اللغة الكبيرة متعددة الوسائط (MLLM) في عملية تطوير الواجهة الأمامية بأكملها، بما في ذلك تصميم صفحات الويب (التصور المفاهيمي)، والإجابة على الأسئلة المدركة لصفحات الويب (التنظيم البصري وفهم العناصر)، وتوليد أكواد صفحات الويب (التنفيذ). على عكس المعايير الحالية، يعتمد FullFront عملية من مرحلتين لتحويل صفحات الويب الحقيقية إلى HTML نظيف وموحد، مع الحفاظ على تنوع التصميم البصري وتجنب مشاكل حقوق النشر. كشفت الاختبارات المكثفة لنماذج MLLM من فئة SOTA عن قيود كبيرة في إدراكها للصفحات، وتوليد الأكواد (خاصة معالجة الصور والتخطيط)، وتنفيذ التفاعلات. (المصدر: HuggingFace Daily Papers)
📚 تعلم
Menlo Research تطلق نموذج SpeechLess، لتحقيق تدريب الأوامر الصوتية بدون بيانات صوتية: تم قبول ورقة بحث Menlo Research بعنوان “SpeechLess” في Interspeech 2025، وتم إطلاق النموذج ذي الصلة. يعالج هذا البحث تحدي نقص بيانات الأوامر الصوتية للغات منخفضة الموارد، ويقترح طريقة لتدريب نماذج الأوامر الصوتية باستخدام بيانات اصطناعية بالكامل. تشمل خطواته الأساسية: 1. تحويل الكلام الحقيقي إلى رموز منفصلة (تدريب المكمم)؛ 2. تدريب نموذج SpeechLess على توليد رموز صوتية محاكاة من النص؛ 3. استخدام هذا المسار من النص إلى الرموز الصوتية الاصطناعية لتدريب LLM على تعلم الأوامر الصوتية. أظهرت النتائج أن التدريب على رموز صوتية اصطناعية بالكامل فعال للغاية، مما يفتح آفاقًا جديدة لبناء أنظمة صوتية في سيناريوهات منخفضة الموارد. (المصدر: Reddit r/LocalLLaMA)

خوارزمية ضغط نصوص متطورة عبر طفرات كود مدفوعة بـ LLM: حاول مطور استخدام LLM (نماذج لغوية كبيرة) لتطوير خوارزميات ضغط نصوص عن طريق إحداث طفرات صغيرة في كود ضاغط نصوص بسيط من نمط LZ77. تعمل هذه الطريقة من خلال تطور متعدد الأجيال، حيث يتم الاحتفاظ بالنخبة والناجين في كل جيل، وينتج الأبناء من الآباء. يعتمد معيار الاختيار بشكل بحت على معدل الضغط، ويتم تجاهل المرشحين إذا فشلت عملية الضغط وفك الضغط ذهابًا وإيابًا. أدت التجربة إلى تحسين معدل الضغط من 1.03 إلى 1.85 خلال 30 جيلًا. المشروع مفتوح المصدر على GitHub (think-a-tron/minevolve). (المصدر: Reddit r/MachineLearning)

Quartet: تدريب FP4 الأصلي يمكن أن يحقق أفضل أداء لـ LLM: مع تزايد متطلبات الحوسبة لـ LLM، أصبح تدريب الخوارزميات منخفضة الدقة أمرًا أساسيًا لتعزيز الكفاءة. تدعم بنية NVIDIA Blackwell عمليات FP4، لكن خوارزميات تدريب FP4 الحالية تواجه انخفاضًا في الدقة واعتمادًا على الدقة المختلطة. قام الباحثون بدراسة منهجية لتدريب FP4 المدعوم بالأجهزة واقترحوا طريقة Quartet، التي تحقق تدريب FP4 شامل، حيث يتم إكمال الحسابات الرئيسية بدقة منخفضة. من خلال تقييم مكثف لنماذج من فئة Llama، كشفوا عن قوانين تحجيم جديدة منخفضة الدقة، وقاموا بقياس المقايضات في الأداء بين عروض البت المختلفة، وحددوا Quartet كتقنية تدريب منخفضة الدقة شبه مثالية من حيث الدقة والحساب. باستخدام أنوية CUDA المحسنة، نجح Quartet في تحقيق دقة FP4 من الدرجة الأولى على نماذج بمليارات المعلمات. (المصدر: HuggingFace Daily Papers)
التعلم المعزز بالبيانات الاصطناعية (Synthetic Data RL): ضبط دقيق للنماذج بمجرد تعريف المهمة: يقدم هذا البحث إطار عمل Synthetic Data RL، الذي يستخدم فقط البيانات الاصطناعية المولدة من تعريف المهمة لضبط النماذج بدقة من خلال التعلم المعزز. تبدأ الطريقة بتوليد أزواج أسئلة وأجوبة من تعريف المهمة والمستندات المسترجعة، ثم تعدل صعوبة الأسئلة بناءً على قابلية النموذج للحل، وتختار الأسئلة للتدريب باستخدام RL بناءً على متوسط معدل نجاح النموذج في العينات. على نموذج Qwen-2.5-7B، حققت هذه الطريقة تحسينات كبيرة في العديد من المعايير مثل GSM8K و MATH و GPQA، متجاوزة الضبط الدقيق الخاضع للإشراف، واقتربت من نتائج RL باستخدام بيانات بشرية كاملة، مما يدل على إمكاناتها في تقليل الحاجة إلى التصنيف اليدوي. (المصدر: HuggingFace Daily Papers)
TabSTAR: نموذج أساسي جدولي مع تمثيل مدرك للهدف الدلالي: على الرغم من نجاح التعلم العميق في مجالات متعددة، إلا أنه لا يزال أقل أداءً من أشجار القرار المعززة بالتدرج (GBDTs) في مهام تعلم الجداول. أطلق الباحثون TabSTAR، وهو نموذج أساسي جدولي مع تمثيل مدرك للهدف الدلالي، يهدف إلى تحقيق تعلم نقل البيانات الجدولية التي تحتوي على ميزات نصية. يقوم TabSTAR بإلغاء تجميد مرمّزات النصوص المدربة مسبقًا، ويدخل رموز الهدف، لتزويد النموذج بالسياق اللازم لتعلم التضمينات الخاصة بالمهمة. حقق هذا النموذج أداءً من الدرجة الأولى في مهام التصنيف التي تحتوي على ميزات نصية، لمجموعات البيانات المتوسطة والكبيرة الحجم، وأظهرت مرحلة التدريب المسبق الخاصة به قانون تحجيم لعدد مجموعات البيانات. (المصدر: HuggingFace Daily Papers)
TIME: معيار استدلال زمني متعدد المستويات لـ LLM موجه لسيناريوهات العالم الحقيقي: يعد الاستدلال الزمني أمرًا بالغ الأهمية لفهم LLM للعالم الحقيقي. تتجاهل الأعمال الحالية تحديات الاستدلال الزمني في العالم الحقيقي: المعلومات الزمنية الكثيفة، وديناميكيات الأحداث سريعة التغير، والاعتماد الزمني المعقد للتفاعلات الاجتماعية. تحقيقًا لهذه الغاية، اقترح الباحثون معيارًا متعدد المستويات TIME، يتضمن 38,522 زوجًا من الأسئلة والأجوبة، ويغطي 3 مستويات و 11 مهمة فرعية دقيقة، بالإضافة إلى ثلاث مجموعات بيانات فرعية TIME-Wiki و TIME-News و TIME-Dial، تعكس كل منها تحديات مختلفة في العالم الحقيقي. أجرى البحث تجارب مكثفة وتحليلات متعمقة على نماذج متعددة، وأصدر مجموعة فرعية مصنفة يدويًا TIME-Lite. (المصدر: HuggingFace Daily Papers)
استدلال LLM والملاحظات الديناميكية: تعزيز القدرة على الإجابة على الأسئلة المعقدة: عند معالجة أسئلة متعددة الخطوات، يواجه RAG التكراري تحديات السياق الطويل جدًا وتراكم المعلومات غير ذات الصلة، مما يؤثر على قدرة النموذج على المعالجة والاستدلال. اقترح الباحثون طريقة “كتابة الملاحظات” (Notes Writing)، حيث يتم في كل خطوة إنشاء ملاحظات موجزة وذات صلة من المستندات المسترجعة، مما يقلل من الضوضاء، ويحتفظ بالمعلومات الأساسية، وبالتالي يزيد بشكل غير مباشر من طول السياق الفعال لـ LLM، ويعزز قدرته على الاستدلال والتخطيط. هذه الطريقة مستقلة عن إطار العمل ويمكن دمجها في طرق RAG التكرارية المختلفة، وقد أظهرت تحسينات كبيرة في الأداء في التجارب. (المصدر: HuggingFace Daily Papers)
إطار عمل s3: تدريب وكلاء بحث فعالين باستخدام RL مع كمية صغيرة من البيانات: تمكّن أنظمة التوليد المعزز بالاسترجاع (RAG) نماذج LLM من الوصول إلى المعرفة الخارجية. استخدمت الأبحاث الحديثة التعلم المعزز (RL) لتمكين LLM من العمل كوكلاء بحث، لكن الطرق الحالية إما تحسن الاسترجاع مع تجاهل الفائدة النهائية، أو تضبط LLM بالكامل مما يؤدي إلى اقتران الاسترجاع والتوليد. اقترح الباحثون إطار عمل s3، وهو طريقة خفيفة الوزن ومستقلة عن النموذج، تفصل الباحث عن المولد، وتستخدم “الكسب ما بعد RAG” (Gain Beyond RAG) كمكافأة لتدريب الباحث. احتاج s3 فقط إلى 2.4 ألف عينة تدريب ليتجاوز خطوط الأساس التي تستخدم أكثر من 70 ضعفًا من البيانات، وأظهر أداءً أفضل في العديد من معايير الإجابة على الأسئلة. (المصدر: HuggingFace Daily Papers)
ReflAct: تحقيق اتخاذ قرارات وكيل LLM في العالم من خلال التفكير في الحالة المستهدفة: غالبًا ما تنتج وكلاء LLM الحالية (مثل تلك القائمة على ReAct) استدلالات غير واقعية أو غير متماسكة عند التفكير والتصرف بشكل متداخل في بيئات معقدة، مما يؤدي إلى عدم تطابق الحالة الفعلية مع الهدف. يحلل الباحثون أن هذا ينبع من صعوبة ReAct في الحفاظ على معتقدات داخلية متسقة ومواءمة الأهداف. تحقيقًا لهذه الغاية، اقترحوا ReflAct، وهي شبكة أساسية جديدة، تحول الاستدلال من تخطيط الخطوة التالية إلى التفكير المستمر في حالة الوكيل بالنسبة لأهدافه. من خلال اتخاذ القرارات بشكل صريح بناءً على الحالة وفرض مواءمة مستمرة للأهداف، يحسن ReflAct بشكل كبير موثوقية السياسة، ويتفوق بشكل كبير على ReAct في مهام مثل ALFWorld. (المصدر: HuggingFace Daily Papers)
FREESON: إطار عمل للاستدلال المعزز بالاسترجاع بدون مسترجع: تتفوق نماذج الاستدلال الكبيرة (LRM) في الاستدلال متعدد الخطوات واستدعاء محركات البحث، لكن طرق الاسترجاع المعزز الحالية تعتمد على نماذج استرجاع مستقلة، مما يحد من دور LRM في الاسترجاع وقد يؤدي إلى أخطاء بسبب اختناقات التمثيل. اقترح الباحثون إطار عمل FREESON، الذي يمكّن LRM من استرجاع المعرفة بنفسه من خلال العمل كمولد ومسترجع. يقدم هذا الإطار خوارزمية CT-MCTS مخصصة لمهام الاسترجاع، مما يسمح لـ LRM بالتنقل في مجموعة النصوص نحو منطقة الإجابة. أظهرت التجارب أن FREESON يتفوق بشكل كبير على نماذج الاستدلال متعددة الخطوات التي تستخدم مسترجعات مستقلة في العديد من معايير الإجابة على الأسئلة في المجال المفتوح. (المصدر: HuggingFace Daily Papers)
LLMSynthor: جامعة ماكجيل تقترح إطار عمل جديد لتوليد البيانات القابلة للتحكم إحصائيًا: لمعالجة أوجه القصور في طرق توليد البيانات الحالية من حيث المعقولية والاتساق التوزيعي وقابلية التوسع، أطلق فريق جامعة ماكجيل إطار عمل LLMSynthor. لا يجعل هذا الإطار النموذج الكبير يولد البيانات مباشرة، بل يحوله إلى “مولد مدرك للبنية”، من خلال الاستدلال الهيكلي، والمواءمة الإحصائية (مقارنة الملخصات الإحصائية بدلاً من البيانات الأولية)، وتوليد قواعد توزيع قابلة لأخذ العينات (بدلاً من عينات فردية)، وعملية مواءمة تكرارية، لتوليد مجموعات بيانات اصطناعية قريبة جدًا هيكليًا وإحصائيًا من البيانات الحقيقية ومتوافقة مع المنطق السليم. تتمتع هذه الطريقة بضمان تقارب نظري، وقد تم التحقق منها في العديد من السيناريوهات الحقيقية مثل معاملات التجارة الإلكترونية، والتركيبة السكانية، والتنقل الحضري، وهي متوافقة مع نماذج كبيرة متعددة. (المصدر: 量子位)

💼 أعمال
Hygon Information و Sugon تخططان لإعادة هيكلة أصول رئيسية، وقد تندمجان: أعلنت كل من شركة تصميم الرقائق Hygon Information وعملاق الحوسبة الفائقة Sugon عن تعليق تداول أسهمهما، حيث تعتزم Hygon Information امتصاص ودمج Sugon عن طريق إصدار أسهم من الفئة A لجميع مساهمي Sugon من الفئة A، وتخطط لإصدار أسهم من الفئة A لجمع أموال داعمة. تركز Hygon Information على البحث والتطوير في وحدات المعالجة المركزية (CPU) ووحدات معالجة الرسومات (GPU) المتطورة، بينما تتمتع Sugon بخبرة عميقة في مجال الخوادم والحوسبة عالية الأداء، وهي أكبر مساهم في Hygon Information. إذا نجحت عملية الدمج هذه، فستنشئ عملاقًا وطنيًا في مجال قوة الحوسبة بقيمة سوقية إجمالية تقارب 400 مليار يوان، مما سيكون له تأثير عميق على هيكل صناعة قوة الحوسبة في الصين. (المصدر: 量子位, WeChat)

LMArena.ai ترد على ورقة Cohere وتحصل على تمويل بقيمة 100 مليون دولار: ردت منصة تصنيف نماذج الذكاء الاصطناعي LMArena.ai على الجدل الدائر بينها وبين شركة Cohere بشأن اختبارات المعايير، وأعلنت مؤخرًا عن حصولها على تمويل بقيمة 100 مليون دولار، مما رفع تقييمها إلى 600 مليون دولار. تباينت ردود فعل المجتمع تجاه هذا الأمر، حيث رأى بعض المستخدمين أن رد LMArena يحتوي على بيانات مشكوك فيها من الناحية الإحصائية، وأن التمويل الكبير من شركات رأس المال الاستثماري (VC) قد يضر بمصداقيتها كمعيار محايد، معربين عن قلقهم من أن نموذج أعمالها قد يؤثر على فرص إدراج النماذج المفتوحة أو إمكانية الوصول إلى البيانات. (المصدر: Reddit r/LocalLLaMA)
JD تستثمر في شركة Zhiyuan Robotics التابعة لـ Zhihui Jun: أكملت Zhiyuan Robotics مؤخرًا جولة تمويل جديدة، شملت مستثمرين مثل JD وصندوق Shanghai Embodied Intelligence Fund، وشارك بعض المساهمين القدامى في الجولة. تأسست Zhiyuan Robotics على يد “الفتى العبقري” السابق في Huawei، Peng Zhihui (Zhihui Jun)، في عام 2023، وتركز على البحث والتطوير في مجال الروبوتات المتجسدة الذكية. سيساهم هذا التمويل بشكل أكبر في دعم استثمارات Zhiyuan Robotics في البحث والتطوير التكنولوجي وتوسيع السوق. (المصدر: WeChat)
🌟 مجتمع
مناقشة مشكلات تكامل OpenWebUI مع Ollama وأداة MCP: واجه مستخدم Reddit مشكلات عند استخدام OpenWebUI مع الواجهة الخلفية Ollama (نموذج devstral:24b) وأداة MCP (mcp-atlassian): على الرغم من أن سجلات خادم MCP أظهرت استجابة نجاح 200، إلا أن OpenWebUI عرضت رسالة “يبدو أن هناك مشكلة في استرداد البيانات من الأداة” أو “لا يوجد إذن للوصول إلى الأداة”. يبحث المستخدم عن طرق لتصحيح الأخطاء. استفسر مستخدم آخر عن كيفية استفادة LLM في OpenWebUI من أداة MCP، خاصة كيف يعرف LLM أي أداة يجب استخدامها وسبب عدم استقرار استدعاء الأداة. (المصدر: Reddit r/OpenWebUI, Reddit r/OpenWebUI)

استكشاف تأثير الذكاء الاصطناعي على مستقبل البشرية: انقسام، عودة إلى الطبيعة، أم تعايش؟: طرح مستخدم Reddit تصورًا لمستقبل الذكاء الاصطناعي، معتقدًا أن الذكاء الاصطناعي قد يؤدي إلى انقسام البشرية: جزء من الناس يشعرون بالضياع بسبب استبدال الذكاء الاصطناعي للوظائف والأنشطة الإبداعية، ويعودون في النهاية إلى حياة طبيعية خالية من التكنولوجيا؛ بينما يندمج جزء آخر بعمق مع التكنولوجيا، ليصبحوا سايبورغ. قد يدمر توهج شمسي قوي كل التكنولوجيا، وعندها فقط يتمكن البشر المتكيفون مع الطبيعة من البقاء. طرح المنشور أيضًا احتمالًا آخر: أن يتعلم البشر التعايش بانسجام مع الذكاء الاصطناعي، واستخدامه كأداة وليس كإله. أثارت التعليقات نقاشًا حادًا حول هذا الموضوع، شملت الجدوى، والاعتماد على التكنولوجيا، وتوزيع الموارد، وغيرها من القضايا. (المصدر: Reddit r/ArtificialInteligence)
إعادة التفكير في مدى فهم LLM: هل نحن حقًا لا نعرف كيف تعمل؟: شكك مستخدم Reddit في مقولة “كيفية عمل LLM ليست مفهومة تمامًا”. يعتقد هذا المستخدم أنه على الرغم من أننا قد لا نفهم تمامًا سبب قوة الدلالات الموزعة أو سبب إمكانية نمذجة توليد الأكواد بشكل فعال بواسطة LLM، إلا أن الآليات الداخلية لـ LLM مثل المرمزات/أجهزة فك التشفير وشبكات التغذية الأمامية معروفة. يرى المستخدم أن الخلط بين “عدم الفهم الكامل لحدود قدراتها وظواهرها الناشئة” و “عدم الفهم الكامل لمبدأ عملها” يضلل الجمهور، وقد يؤدي إلى فهم خاطئ مجسم لـ LLM، مثل إسناد “فاعلية” غير موجودة إليها. أشارت التعليقات إلى أن معرفة البنية الأساسية لا تعني فهم كيفية إنتاج الأنظمة المعقدة للنتائج، على سبيل المثال، ما تفعله كل شبكة تغذية أمامية على وجه التحديد لا يزال لغزًا. (المصدر: Reddit r/ArtificialInteligence)

إساءة استخدام أدوات تلخيص الذكاء الاصطناعي (مثل Grok) على وسائل التواصل الاجتماعي تثير مخاوف “الاستعانة بمصادر خارجية للتفكير”: لاحظ مستخدم Reddit على X (تويتر سابقًا) وغيرها من وسائل التواصل الاجتماعي، تكرار استخدام “@grok لخص هذا” للرد على محتوى بسيط (مثل تعليقات على شطيرة). يعتقد كاتب المنشور أن هذا يعكس تخلي الناس عن جهود التفكير والحكم الأساسية، وتسليم القرارات الصغيرة وعمليات التفكير التي كان بإمكانهم إنجازها بأنفسهم إلى الذكاء الاصطناعي، مما يؤدي إلى انخفاض الاعتماد على قدراتهم الذهنية. تباينت الآراء في قسم التعليقات، حيث رأى البعض أن هذا مجرد تطور للأدوات (على غرار استخدام Google للبحث في الماضي)، ورأى البعض الآخر أن هذا مظهر من مظاهر الكسل، وأشار آخرون إلى أن هذه الظاهرة أكثر شيوعًا على منصات معينة. (المصدر: Reddit r/ArtificialInteligence)
إمكانات الذكاء الاصطناعي في التعليم والتفكير النقدي: مساعدة في التعلم أم إضعاف للقدرات؟: أعرب مستخدم Reddit عن أسفه لأنه لو كان الذكاء الاصطناعي موجودًا في أيام المدرسة الثانوية، لكانت تجربة التعلم مختلفة تمامًا، لأن الذكاء الاصطناعي قادر على تفكيك المعرفة بدقة، والإجابة على الأسئلة دون تحيز، والمساعدة في الحفاظ على الفضول. وافق العديد من المعلقين على ذلك، معتقدين أن الذكاء الاصطناعي يمكن أن يحسن بشكل كبير كفاءة التعلم واتساع نطاق استكشاف المعرفة. ومع ذلك، أثار معلقون آخرون مخاوف، معتقدين أن أدوات الذكاء الاصطناعي الحالية قد تكون مصممة “لإبقاء المستخدمين أغبياء”، أو أن التوزيع غير العادل لموارد التعليم سيؤدي إلى حصول الطبقات الغنية على مساعدة ذكاء اصطناعي عالية الجودة، بينما قد يتضرر طلاب المدارس الحكومية بسبب أدوات ذكاء اصطناعي رديئة الجودة، بل وقد يتم “تدريبهم” بواسطة الذكاء الاصطناعي على الطاعة فقط. (المصدر: Reddit r/ArtificialInteligence)
استكشاف التغيرات المهنية في عصر الذكاء الاصطناعي: هل يصبح الجميع مديرين أم تظهر “فجوة الذكاء الاصطناعي”؟: أثار منشور على Reddit نقاشًا حول أشكال العمل المستقبلية بعد انتشار الذكاء الاصطناعي. تصور كاتب المنشور ما إذا كان جميع البشر سيصبحون مديري أدوات الذكاء الاصطناعي في المستقبل، ويعملون فقط بضع ساعات في الأسبوع. تباينت الآراء في قسم التعليقات: رأى البعض أن الذكاء الاصطناعي قد يحل محل الإدارة العليا؛ واقترح البعض أن المجتمع المستقبلي سيشهد تمايزًا طبقيًا بين “مالكي الروبوتات” و “غير مالكي الروبوتات”؛ ورأى آخرون أن هذا التحول قد حدث بالفعل، وليس بعيد المنال. تمحور النقاش حول كيفية إعادة تشكيل الذكاء الاصطناعي للمسؤوليات الوظيفية ودور الإنسان في النظام الاقتصادي. (المصدر: Reddit r/ArtificialInteligence)
التواصل بمساعدة الذكاء الاصطناعي: حل مشكلة كتابة رسائل البريد الإلكتروني لمن يعانون من القلق الاجتماعي: شارك مستخدم Reddit كيف ساعده الذكاء الاصطناعي في تحسين تواصله عبر البريد الإلكتروني. ذكر المستخدم أنه لا يجيد كتابة رسائل بريد إلكتروني لائقة، فإما أن تكون رسمية جدًا مثل شكسبير، أو تشبه روبوتات خدمة العملاء القديمة. الآن، من خلال صياغة رسائل البريد الإلكتروني بواسطة الذكاء الاصطناعي، ثم إضافة لمسته الشخصية، تمكن من حل مشكلات بداية البريد الإلكتروني (مثل “Hope this email finds you well”) وغيرها من الصعوبات الاجتماعية بشكل فعال. أثار هذا المنشور تعاطف العديد من المستخدمين الذين يعانون من قلق اجتماعي مماثل أو صعوبات في الكتابة، معتقدين أن الذكاء الاصطناعي يظهر قيمة عملية في المساعدة على التواصل اليومي. (المصدر: Reddit r/artificial)
💡 أخرى
Claude Sonnet 4: عينة معرفية نحتتها الخوارزميات، الكمال هو أيضًا عيب: مقال فلسفي يشبه Claude Sonnet 4 بـ “عينة معرفية” نحتتها الخوارزميات بعناية. يرى الكاتب أن إجاباته سلسة ومنطقية ومتكاملة، تبدو مثالية ظاهريًا، لكن هذا الكمال بحد ذاته يخفي سمات “عدم الكمال” التي تتميز بها المعرفة الحقيقية، مثل الأخطاء والتناقضات والاعتراف الصريح بـ “لا أعرف”. يناقش المقال الاختلافات بين مصادر معرفة الذكاء الاصطناعي والتجربة البشرية، مشيرًا إلى أن الذكاء الاصطناعي يمتلك ذاكرة ولكنه يفتقر إلى الخبرة. في الوقت نفسه، يحذر من أن الاعتماد المفرط على الذكاء الاصطناعي قد يضعف القدرة على التفكير المستقل، ويرى أن الذكاء الاصطناعي يزيل عدم اليقين، وهذا هو قيمته وخطره المحتمل في آن واحد. (المصدر: WeChat)

واقع ومستقبل الإعلانات المولدة بالذكاء الاصطناعي: إعلان شركة هندية يثير نقاشًا حول “الشعور بالرخص”: عرض منشور على Reddit إعلانًا تلفزيونيًا لشركة هندية معروفة تم إنشاؤه بالكامل بواسطة الذكاء الاصطناعي، مما أثار نقاشًا بين المستخدمين حول جودة المحتوى المولد بالذكاء الاصطناعي والاتجاهات المستقبلية. رأى العديد من المعلقين أن الإعلان رديء الصنع وغير فعال، لكن أشار آخرون إلى أن هذا قد يعكس وجود إنتاج منخفض التكلفة بالفعل في سوق الإعلانات الهندي. امتد النقاش إلى إمكانات التخصيص في إعلانات الذكاء الاصطناعي (مثل قيام أجهزة التلفزيون الذكية بإنشاء إعلانات في الوقت الفعلي بناءً على بيانات المستخدم) وما إذا كان الناس سيتكيفون تدريجيًا مع هذا “الشعور بالرداءة” أو حتى يتوقعونه. (المصدر: Reddit r/ChatGPT)

استكشاف استراتيجيات تحسين النماذج الكبيرة والصغيرة في بيئات منخفضة الموارد: ناقش مجتمع Reddit ما إذا كان من الأفضل في البيئات منخفضة الموارد إعطاء الأولوية لتطوير تقنيات التحسين للنماذج الكبيرة (مثل PEFT، LoRA، التكميم)، أم أن السعي لتحسين أداء النماذج الصغيرة لتضاهي النماذج الكبيرة هو الأكثر واقعية. يهتم المتناقشون بجدوى ضغط معرفة النماذج ذات المليارات من المعلمات وقدراتها “الاستدلالية” في نماذج صغيرة مثل تلك التي تحتوي على 100 مليون معلمة (على غرار نماذج التقطير Deepseek Qwen)، والحد الأدنى لعدد معلمات النماذج الصغيرة. يعكس هذا اهتمام المجتمع المستمر بتعميم الذكاء الاصطناعي ونشره بكفاءة. (المصدر: Reddit r/deeplearning)