كلمات مفتاحية:Sora 2, توليد فيديو بالذكاء الاصطناعي, محتوى إبداعي, OpenAI, التزييف العميق, المنشورات الاجتماعية, إنشاء محتوى مخصص, نموذج Sora 2, ميزة الظهور الضيفي, أدوات إبداعية بالذكاء الاصطناعي, تقنيات تفاعل الفيديو, الوقاية من إساءة استخدام المحتوى
🔥 تركيز
إطلاق Sora 2، يقود نموذجًا جديدًا للمحتوى الإبداعي: أطلقت OpenAI نموذج Sora 2، الذي يجمع بين نموذج Sora 2 ومنتجات جديدة تمامًا، بهدف أن يصبح “ChatGPT للمجال الإبداعي”. يركز التطبيق على التحويل السريع من الفكرة إلى النتيجة، ويعزز التفاعل بين المستخدمين والأصدقاء في مقاطع الفيديو من خلال ميزة “الظهور كضيف”، مما يعزز الشعور بالاتصال. على الرغم من المخاوف بشأن الإدمان وسوء الاستخدام (مثل التزييف العميق)، تلتزم OpenAI باستكشاف ديناميكيات اجتماعية صحية من خلال تحسين رضا المستخدمين، وتشجيع المستخدمين على التحكم في تدفق المحتوى، وإعطاء الأولوية للإبداع، ومساعدة المستخدمين على تحقيق أهدافهم طويلة المدى. يمثل هذا علامة فارقة في وصول الذكاء الاصطناعي إلى آفاق جديدة في توليد الفيديو وإنشاء المحتوى المخصص، مما ينذر بـ “الانفجار الكامبري” في الصناعات الإبداعية. (المصدر: sama, sama)
NVIDIA تطلق العديد من تقنيات الروبوتات مفتوحة المصدر، لتسريع تطوير الذكاء الاصطناعي الفيزيائي: أعلنت NVIDIA عن العديد من التقنيات مفتوحة المصدر في مؤتمر تعلم الروبوتات، أبرزها محرك الفيزياء Newton الذي تم تطويره بالتعاون مع Google DeepMind و Disney Research. يشمل الإطلاق أيضًا نموذج Isaac GR00T N1.6 الأساسي الذي يمنح الروبوتات قدرات استدلال، ونموذج Cosmos الأساسي العالمي الذي يولد كميات هائلة من بيانات التدريب. يعتمد محرك Newton على تسريع GPU، ويمكنه محاكاة حركات الروبوتات المعقدة. يتيح Isaac GR00T N1.6 للروبوتات فهم التعليمات الغامضة والتفكير بعمق من خلال دمج نموذج اللغة البصرية Cosmos Reason. تهدف هذه التقنيات إلى حل المشكلات الأساسية في تطوير الروبوتات، ومن المتوقع أن تسرع بشكل كبير انتقال الروبوتات من المختبر إلى الحياة اليومية. (المصدر: 量子位)
IBM تطلق نموذج Granite 4.0 مفتوح المصدر، يعتمد على بنية Mamba/Transformer الهجينة: قدمت IBM سلسلة نماذج اللغة مفتوحة المصدر Granite 4.0، بأحجام تتراوح من 3B إلى 32B، وتعتمد على بنية هجينة من Mamba و Transformer، مما يقلل بشكل كبير من متطلبات الذاكرة مع الحفاظ على دقة عالية. هذه النماذج مناسبة بشكل خاص لتطبيقات الشركات مثل Agent workflow و Tool calling و Document analysis و RAG. يمكن حتى لنموذج Micro بحجم 3.4B أن يعمل محليًا في المتصفح عبر WebGPU. حقق Granite 4.0 H Small درجة 23 في وضع غير الاستدلال، متجاوزًا Gemma 3 27B، وأظهر أداءً ممتازًا في كفاءة الـ token، مما يدل على عودة IBM وابتكارها في مجال نماذج LLM مفتوحة المصدر. (المصدر: ClementDelangue, huggingface)
🎯 التوجهات
تحديث Google Gemini 2.5 Flash Image (Nano Banana)، يدعم مخرجات متعددة الأبعاد: أعلنت Google أن Gemini 2.5 Flash Image (الاسم الرمزي “Nano Banana”) متاح الآن بالكامل وفي مرحلة الإنتاج، مع دعم جديد لـ 10 نسب عرض إلى ارتفاع، ومزج صور متعددة، ووظيفة إخراج الصور النقية. يهدف هذا التحديث إلى مساعدة المطورين على بناء تجارب مستخدم أكثر ديناميكية وإبداعًا. إن تعزيز هذا النموذج في تحرير الصور وتوليدها يجعله أداة قوية للمطورين للإبداع على AI Studio و Gemini API. (المصدر: op7418, GoogleDeepMind, demishassabis, GoogleAIStudio)
Claude Sonnet 4.5 يتألق في ساحة منافسة نماذج الذكاء الاصطناعي: احتل Claude Sonnet 4.5 المرتبة الأولى في قائمة Text Arena جنبًا إلى جنب مع Claude Opus 4.1، متجاوزًا GPT-5. تشير ملاحظات المستخدمين إلى أن Sonnet 4.5 قد تحسن بشكل ملحوظ في التفكير النقدي والاستدلال المنطقي، وأظهر أداءً ممتازًا بشكل خاص في مهام الترميز، بالإضافة إلى سرعة الاستجابة. يمكنه حتى الإشارة مباشرة إلى أخطاء المستخدم بدلاً من مجرد التوافق الأعمى. هذا يدل على أن Anthropic قد حققت تقدمًا كبيرًا في أداء النموذج وتجربة المستخدم، وأظهرت قدرة تنافسية قوية بشكل خاص في القدرات العامة ومهام الترميز. (المصدر: scaling01, arena, Reddit r/ClaudeAI, Reddit r/ClaudeAI)
متصفح Perplexity Comet AI متاح مجانًا، ويطلق اشتراك Comet Plus: أعلنت Perplexity أن متصفحها الشبكي AI Comet متاح الآن مجانًا عالميًا، بعد أن كانت الخدمة تكلف 200 دولار شهريًا. يهدف Comet إلى توفير مساعد AI شخصي قوي وطرق جديدة لاستخدام الإنترنت. في الوقت نفسه، أطلقت Perplexity خطة اشتراك Comet Plus، بالتعاون مع وسائل إعلام مثل Washington Post و CNN، لتقديم خدمات استهلاك المحتوى لكل من AI والبشر، ويمكن لمستخدمي Perplexity Pro/Max الحصول عليها مجانًا. تهدف هذه الخطوة إلى توسيع قاعدة المستخدمين واستكشاف نماذج جديدة لتجميع المحتوى واستهلاكه مدفوعة بالذكاء الاصطناعي. (المصدر: AravSrinivas, AravSrinivas, AravSrinivas)
مستقبل بنية LLM: صراع بين الانتباه المتفرق والانتباه الخطي، والبنية الهجينة قد تصبح السائدة: يناقش مجتمع Zhihu حاليًا اتجاه بنية LLM الذي يمثله DeepSeek-V3.2-Exp و Qwen3-Next. يركز مسار الانتباه المتفرق (DSA) لـ DeepSeek على الكفاءة الهندسية، ويمكنه العمل بكفاءة في بيئة أجهزة Transformer الحالية؛ بينما يتطلع DeltaNet لـ Qwen3-Next إلى المستقبل، ويهدف إلى قابلية التوسع O(n)، مما قد يعيد تشكيل معالجة السياق الطويل. تشير المناقشات إلى أن الاثنين ليسا في منافسة، ومن المرجح أن تظهر بنية هجينة في المستقبل، تجمع بين الانتباه الخطي للمعالجة المحلية الفعالة، والانتباه المتفرق للدقة الشاملة، لتحقيق اختراقات قصيرة المدى وتوسع طويل المدى. (المصدر: ZhihuFrontier, ZhihuFrontier)
نماذج Diffusion تتفوق على النماذج التراجعية في بيئات البيانات المحدودة: أظهرت دراسة أن نماذج Diffusion تتفوق على النماذج التراجعية في سيناريوهات التدريب المحدودة البيانات، عندما تكون موارد الحوسبة كافية (المزيد من دورات التدريب والمعلمات). من خلال تدريب مئات النماذج، وجدت الدراسة أن نماذج Diffusion يمكنها استخلاص قيمة أكبر من البيانات المتكررة، وأنها أكثر قوة بكثير ضد تكرار البيانات من النماذج التراجعية، حيث بلغ عمر النصف لإعادة استخدام البيانات (R_D*) 500، بينما كان 15 فقط للنماذج التراجعية. هذا يعني أنه عندما تكون البيانات عالية الجودة نادرة وموارد الحوسبة وفيرة نسبيًا، فإن نماذج Diffusion هي الخيار الأكثر كفاءة، مما يتحدى المفهوم التقليدي لتفوق النماذج التراجعية بشكل عام. (المصدر: aihub.org)
مفهوم المدفوعات المصغرة HTTP 402 يعود للظهور في عصر الذكاء الاصطناعي: مفهوم المدفوعات المصغرة “402 Payment Required” الذي اقترح في بروتوكول HTTP/1.1 عام 1996، يعود للواجهة بعد ثلاثين عامًا من الخمول بفضل صعود الذكاء الاصطناعي. تتفكك نماذج الإعلانات التقليدية في سياق استهلاك الذكاء الاصطناعي المجزأ، وتدفق القرارات، وإزالة الطابع البشري عن الكيانات (اقتصاد M2M). يحتاج الذكاء الاصطناعي إلى دفع رسوم صغيرة جدًا لكل API call، وطلب بيانات، واستئجار قوة حاسوبية، وما إلى ذلك. “الجبال الثلاثة” المتمثلة في ارتفاع تكاليف معاملات البطاقات الائتمانية التقليدية، وتجربة المستخدم المجزأة، ونقص البنية التحتية التقنية، يتم اختراقها واحدة تلو الأخرى بالتغيرات التي يجلبها الذكاء الاصطناعي. من المتوقع أن تصبح المدفوعات المصغرة حجر الزاوية في اقتصاد الذكاء الاصطناعي، مما يحقق عودة القيمة إلى مصدرها، وتدفق الموارد حسب الطلب، وتسوية سلسلة التوريد العالمية في غضون أجزاء من الثانية لتجربة خالية من الاحتكاك. (المصدر: 36氪)
🧰 الأدوات
Onyx: واجهة مستخدم دردشة مفتوحة المصدر، تدمج RAG، البحث عبر الويب، والبحث المتعمق: Onyx هي واجهة مستخدم دردشة مفتوحة المصدر بالكامل، تهدف إلى توفير حل يجمع بين واجهة مستخدم جميلة، و RAG ممتاز، وبحث متعمق، وبحث عبر الويب بمستوى ChatGPT، وإنشاء مساعد متقدم (مع إمكانية إرفاق الملفات، والأدوات الخارجية، والمشاركة). يدعم نماذج LLM الاحتكارية ومفتوحة المصدر، ويمكن استضافته ذاتيًا بأمر واحد. يملأ إطلاق Onyx الفجوة في تكامل الميزات في أدوات الدردشة مفتوحة المصدر الحالية، ويوفر للمطورين والمستخدمين منصة تفاعل AI شاملة وسهلة الاستخدام. (المصدر: Reddit r/LocalLLaMA)
LlamaAgents: منصة لبناء سير عمل المستندات القائمة على الوكلاء: يوفر LlamaAgents إطار عمل لبناء ونشر سير عمل المستندات القائمة على الوكلاء مع مشاركة بشرية (HITL). يمكن للمطورين بناء سير عمل متعدد الخطوات عبر الكود، مثل استخراج المواصفات من ملف PDF، ومطابقتها مع متطلبات التصميم، وإنشاء تقارير مقارنة. تدعم المنصة التشغيل المحلي والنشر في LlamaCloud، مما يمكّن وكلاء الذكاء الاصطناعي من معالجة مهام المستندات المعقدة بشكل أكثر كفاءة، وتحقيق استخراج وتحليل المعلومات تلقائيًا. (المصدر: jerryjliu0)
Claude Agent SDK: تمكين المطورين من بناء وكلاء AI أقوياء: أطلقت Anthropic حزمة Claude Agent SDK، التي توفر نفس الأدوات الأساسية، ونظام إدارة السياق، وإطار عمل الأذونات مثل Claude Code. يمكن للمطورين استخدام هذا الـ SDK لبناء وكلاء AI مخصصين، وتحقيق وظائف مثل تخطيط UI بناءً على المطالبات، واسترجاع مكتبات المستندات، واستدعاء API. يدعم الـ SDK الأدوات المدمجة (مثل Task و Grep و WebFetch) والأدوات المخصصة، ويمكن دمجه مع MCP. على الرغم من وجود قيود مثل توافق النموذج، وقيود اللغة، واستهلاك Token السريع، فإنه يوفر منصة قوية ومرنة للتطوير السريع وإثبات المفهوم. (المصدر: dotey)
Tinker: واجهة برمجة تطبيقات مرنة لضبط LLM، تبسط تدريب GPU الموزع: أطلقت Thinking Machines أداة Tinker، وهي واجهة برمجة تطبيقات مرنة لتبسيط عملية ضبط النماذج اللغوية الكبيرة. يمكن للمطورين كتابة حلقات تدريب Python محليًا، وتتولى Tinker التنفيذ على وحدات GPU الموزعة، وتتعامل مع تعقيدات البنية التحتية مثل الجدولة وتخصيص الموارد واستعادة الأعطال. تدعم نماذج مفتوحة المصدر مثل Llama و Qwen، بما في ذلك نماذج MoE الكبيرة، وتحقق مشاركة فعالة للموارد من خلال ضبط LoRA. يهدف Tinker إلى تسهيل البحث في تدريب LLM اللاحق و RL للباحثين والمطورين، مما يقلل من حاجز الدخول. (المصدر: thinkymachines, TheTuringPost)
Hex Tech تدمج وظائف Agent، لتعزيز دقة عمل بيانات AI: قدمت Hex Tech وظائف Agent جديدة في منصة تحليل البيانات الخاصة بها، بهدف مساعدة المستخدمين على استخدام AI لعمل بيانات أكثر دقة وموثوقية. تعزز هذه الوظائف كفاءة معالجة البيانات وتحليلها من خلال Agentic method، مما يتيح لعدد أكبر من الأشخاص استخدام AI لمهام البيانات المعقدة. (المصدر: sarahcat21)
Yupp.ai تطلق ميزة “ساعدني في الاختيار”، تستخدم AI committee لاتخاذ قرارات متعددة الزوايا: أطلقت Yupp.ai ميزة جديدة “Help Me Choose”، والتي تساعد المستخدمين على دمج وجهات نظر مختلفة والحصول على أفضل إجابة من “AI committee” من خلال السماح لعدة أنظمة AI بانتقاد ومناقشة بعضها البعض. تهدف هذه الميزة إلى محاكاة المناقشات متعددة الأطراف في عملية اتخاذ القرار البشري، وتزويد المستخدمين بتحليل أكثر شمولاً وعمقًا لحل المشكلات المعقدة. (المصدر: yupp_ai, _akhaliq)
TimeSeriesScientist: وكيل AI عام لتحليل السلاسل الزمنية: TimeSeriesScientist (TSci) هو أول إطار عمل لوكيل تنبؤ بالسلاسل الزمنية العامة مدفوع بـ LLM. يتضمن أربعة وكلاء متخصصين: Curator و Planner و Forecaster و Reporter، يتولى كل منهم مسؤولية تشخيص البيانات، واختيار النموذج، والتحقق من الملاءمة، وإنشاء التقارير على التوالي. يهدف TSci إلى حل قيود النماذج التقليدية في التعامل مع البيانات المتنوعة والمشوشة، ومن خلال الاستدلال الشفاف باللغة الطبيعية والتقارير الشاملة، يحول سير عمل التنبؤ إلى نظام صندوق أبيض قابل للتفسير والتوسع، مما يقلل متوسط خطأ التنبؤ بنسبة تتراوح من 10.4% إلى 38.2%. (المصدر: HuggingFace Daily Papers)
LongCodeZip: إطار عمل لضغط السياق الطويل لنموذج لغة الكود: LongCodeZip هو إطار عمل لضغط الكود جاهز للاستخدام مصمم لـ LLM الكود، يحل مشكلات التكلفة العالية لـ API والكمون في توليد الكود ذي السياق الطويل من خلال استراتيجية من مرحلتين. يقوم أولاً بضغط خشن، لتحديد الوظائف المتعلقة بالتعليمات والاحتفاظ بها، ثم يقوم بضغط دقيق، لاختيار أفضل كتل الكود ضمن ميزانية token تكيفية. يتفوق LongCodeZip في مهام إكمال الكود، والتلخيص، والإجابة على الأسئلة، ويحقق نسبة ضغط تصل إلى 5.6 مرة، دون تقليل الأداء، مما يعزز كفاءة وقدرة تطبيقات ذكاء الكود. (المصدر: HuggingFace Daily Papers)
📚 التعلم
جامعة ستانفورد تحدث دورة التعلم العميق على YouTube: تقوم جامعة ستانفورد بتحديث دورة التعلم العميق الخاصة بها على YouTube. يوفر هذا فرصة ممتازة لطلاب وممارسي التعلم الآلي/التعلم العميق، سواء للتعلم من الصفر أو لملء الفجوات المعرفية. (المصدر: Reddit r/MachineLearning, jeremyphoward)
RLP: استخدام التعلم المعزز كهدف للتدريب المسبق، لتعزيز قدرات الاستدلال: RLP (Reinforcement as a Pretraining Objective) هو هدف تدريب مسبق معزز مدفوع بالمعلومات، يدخل الروح الأساسية للتعلم المعزز – الاستكشاف – إلى المرحلة الأخيرة من التدريب المسبق. يعتبر سلسلة التفكير بمثابة إجراء استكشافي، وتستند المكافأة إلى مكاسب المعلومات من تنبؤاتها بـ Token المستقبلية. بعد التدريب المسبق لـ RLP على Qwen3-1.7B-Base، ارتفع متوسط الدقة الإجمالي لمجموعة معايير الرياضيات والعلوم بنسبة 19%، وكان الأداء ملحوظًا بشكل خاص في مهام الاستدلال الكثيفة، ويمكن توسيعه ليشمل بنى وأحجام نماذج أخرى. (المصدر: HuggingFace Daily Papers)
DeepSearch: طريقة جديدة لتعزيز كفاءة تدريب نماذج الاستدلال الصغيرة: قدمت DeepSearch طريقة لدمج بحث شجرة مونت كارلو (MCTS) في حلقة تدريب التعلم المعزز، لتدريب نماذج الاستدلال الصغيرة بشكل أكثر فعالية. من خلال استراتيجيات مثل البحث أثناء التدريب، والتعلم من الأخطاء الصحيحة والواثقة، واستخدام Tree-GRPO لتثبيت RL، والحفاظ على الكفاءة، عززت هذه الطريقة بشكل كبير أداء النماذج ذات المعلمات 1-2B. حقق DeepSearch-1.5B نسبة 62.95% في اختبارات AIME/AMC المعيارية، متجاوزًا النماذج الأساسية التي استخدمت ساعات GPU أكثر، مما يوفر حلاً عمليًا لاختراق عنق الزجاجة في أداء LLM الاستدلالية الصغيرة. (المصدر: omarsar0)
“LoRA Without Regret”: دليل لمطابقة أداء ضبط LoRA مع الضبط الكامل: نشرت @thinkymachines مقالاً بعنوان “LoRA Without Regret”، يناقش مقارنة بين ضبط LoRA والضبط الكامل من حيث الأداء وكفاءة البيانات. وجدت الدراسة أنه في العديد من الحالات، يكون أداء ضبط LoRA قريبًا جدًا من الضبط الكامل، بل ويتطابق معه. يقدم المقال إرشادات لتحقيق هذا الهدف، ويشير إلى وجود “نطاق ندم منخفض”، حيث لن يندم المرء على اختيار ضبط LoRA ضمن هذا النطاق. (المصدر: ben_burtenshaw, TheTuringPost)
MixtureVitae: مجموعة بيانات تدريب مسبق مفتوحة النطاق على الويب لتعليمات عالية الجودة وبيانات الاستدلال: MixtureVitae هو مجموعة نصوص تدريب مسبق مفتوحة الوصول، تم بناؤها من خلال الجمع بين مصادر نصية من المجال العام وذات تراخيص متساهلة (مثل CC-BY/Apache) بالإضافة إلى بيانات تكميلية منخفضة المخاطر تم التحقق منها بدقة (مثل الأعمال الحكومية ومصادر الاتحاد الأوروبي المؤهلة لـ TDM). تتضمن مجموعة البيانات أيضًا تعليمات واستدلال وبيانات تركيبية ذات مصادر واضحة. في التجارب الخاضعة للرقابة، تفوقت النماذج المدربة باستخدام MixtureVitae باستمرار على مجموعات البيانات الأخرى المرخصة في الاختبارات المعيارية القياسية، خاصة في مهام الرياضيات/الكود، مما يثبت إمكاناتها كحجر زاوية عملي ومنخفض المخاطر القانونية لتدريب LLM. (المصدر: HuggingFace Daily Papers)
CLUE: إطار عمل تحقق غير بارامتري يعتمد على تجميع الحالات المخفية، يعزز صحة مخرجات LLM: قدم CLUE (Clustering and Experience-based Verification) إطار عمل تحقق غير بارامتري، يقوم بتقييم صحة المخرجات من خلال تحليل مسارات الحالات المخفية الداخلية لـ LLM. وجدت الدراسة أن صحة الحلول يتم ترميزها في مسارات التنشيط المخفية كميزات قابلة للفصل هندسيًا. من خلال تلخيص مسارات الاستدلال في فروق الحالات المخفية، وتصنيفها بناءً على أقرب مسافة مركزية لمجموعات “النجاح” و”الفشل” المتكونة من الخبرات السابقة، يعزز CLUE بشكل كبير دقة LLM في الاختبارات المعيارية مثل AIME و GPQA دون الحاجة إلى تدريب معلمات. (المصدر: HuggingFace Daily Papers)
TOUCAN: توليد 1.5 مليون بيانات وكيل أدوات من بيئات MCP حقيقية: TOUCAN هي أكبر مجموعة بيانات لوكلاء الأدوات المتاحة للجمهور حتى الآن، وتحتوي على 1.5 مليون مسار تم توليدها من ما يقرب من 500 بروتوكول سياق نموذج حقيقي (MCPs). تقوم مجموعة البيانات هذه بتوليد مهام متنوعة وواقعية ومليئة بالتحديات من خلال الاستفادة من بيئات MCP الحقيقية، وتغطي مسارات تنفيذ الأدوات الحقيقية. يهدف TOUCAN إلى حل مشكلة نقص بيانات تدريب وكلاء الأدوات عالية الجودة وذات التراخيص المتساهلة في مجتمع المصادر المفتوحة، وقد تجاوزت النماذج المدربة عليه النماذج المغلقة المصدر الأكبر في اختبار BFCL V3 المعياري، مما دفع حدود Pareto لـ MCP-Universe Bench. (المصدر: HuggingFace Daily Papers)
ExGRPO: التعلم من التجربة للاستدلال، وتعزيز كفاءة واستقرار RLVR: ExGRPO (Experiential Group Relative Policy Optimization) هو إطار عمل للتعلم المعزز يعزز قدرة الاستدلال لنماذج الاستدلال الكبيرة من خلال تنظيم الخبرات القيمة وتحديد أولوياتها، واعتماد هدف استراتيجية مختلطة لتحقيق التوازن بين الاستكشاف واستغلال الخبرة. وجدت الدراسة أن صحة و entropy خبرة الاستدلال هي مؤشرات فعالة لقيمة الخبرة. حقق ExGRPO متوسط تحسن قدره 3.5/7.6 نقطة في اختبارات الرياضيات/المعايير العامة، وتدرب بثبات على النماذج الأقوى والأضعف، مما حل مشكلات عدم الكفاءة وعدم الاستقرار في التدريب التقليدي عبر الإنترنت. (المصدر: HuggingFace Daily Papers)
Parallel Scaling Law: منظور متعدد اللغات يكشف عن قدرة التعميم في الاستدلال: حققت دراسة في قدرة التعميم للاستدلال في التعلم المعزز (RL) من منظور متعدد اللغات، ووجدت أن قدرة نماذج الاستدلال الكبيرة (LRM) على الانتقال بين اللغات تختلف باختلاف النموذج الأولي، واللغة المستهدفة، ونموذج التدريب. قدمت الدراسة ظاهرة “القفزة المتوازية الأولى”، حيث تتحسن الأداء بشكل ملحوظ عند التدريب من لغة واحدة إلى لغة متوازية واحدة، وكشفت عن “قانون التوسع المتوازي”، الذي يشير إلى أن انتقال الاستدلال بين اللغات يتبع قانون القوة المتعلق بعدد اللغات المتوازية المدربة. هذا يتحدى الافتراض بأن استدلال LRM يعكس الإدراك البشري، ويوفر رؤى رئيسية لتطوير LRM أكثر استقلالية عن اللغة. (المصدر: HuggingFace Daily Papers)
VLA-R1: تعزيز قدرات الاستدلال في نماذج الرؤية-اللغة-العمل: VLA-R1 هو نموذج رؤية-لغة-عمل (VLA) معزز بالاستدلال، يقوم بتحسين الاستدلال والتنفيذ بشكل منهجي من خلال الجمع بين التعلم المعزز بالمكافآت القابلة للتحقق (RLVR) وتحسين السياسة النسبية للمجموعة (GRPO). صمم هذا النموذج استراتيجيات تدريب لاحقة تعتمد على RLVR، ويوفر مكافآت قابلة للتحقق لمحاذاة المنطقة، واتساق المسار، وتنسيق الإخراج، وبالتالي يعزز قوة الاستدلال ودقة التنفيذ. أظهر VLA-R1 قدرة تعميم متميزة وأداءً في العالم الحقيقي في تقييمات مختلفة، ويهدف إلى دفع تطوير مجال Embodied AI. (المصدر: HuggingFace Daily Papers)
VOGUE: توجيه الاستكشاف من خلال عدم اليقين البصري، لتعزيز الاستدلال متعدد الوسائط: VOGUE (Visual Uncertainty Guided Exploration) هي طريقة جديدة تحل التحديات في استكشاف نماذج LLM متعددة الوسائط (MLLM) عن طريق نقل الاستكشاف من مساحة الإخراج (النص) إلى مساحة الإدخال (البصرية). تعتبر الصور سياقًا عشوائيًا، وتقوم بقياس حساسية الاستراتيجية للاضطرابات البصرية، وتستخدم هذه الإشارة لتشكيل أهداف التعلم، بالاشتراك مع مكافأة entropy للـ token وجدولة أخذ العينات المبردة، لتحقيق توازن فعال بين الاستكشاف والاستغلال. حقق VOGUE متوسط زيادة في الدقة بنسبة 2.6% إلى 3.7% في اختبارات الرياضيات البصرية والاستدلال العام، وخفف من مشكلة تدهور الاستكشاف الشائعة في ضبط RL. (المصدر: HuggingFace Daily Papers)
SolveIt: بيئة تطوير جديدة ودورة نمط برمجة: أطلق Jeremy Howard و John Whitaker بيئة تطوير جديدة ودورة نمط برمجة تسمى “solveit”. تهدف الدورة إلى مساعدة المبرمجين على الاستفادة بشكل أفضل من AI لحل المشكلات، وتجنب الإحباط الذي يسببه AI، وتشجيع المستخدمين على بناء Web app والتفاعل مع UI. (المصدر: jeremyphoward, johnowhitaker)
💼 الأعمال
Sakana AI تتعاون مع Daiwa Securities لتطوير منصة إدارة أصول مدفوعة بالذكاء الاصطناعي: أقامت شركة Sakana AI اليابانية الناشئة في مجال الذكاء الاصطناعي شراكة طويلة الأمد مع Daiwa Securities Group لتطوير “منصة استشارية للأصول الإجمالية”. ستستخدم المنصة نماذج AI الخاصة بـ Sakana AI لتقديم خدمات مالية مخصصة ونصائح حول محافظ الأصول للعملاء، بهدف تعظيم قيمة أصول العملاء ودفع الابتكار الرقمي في الصناعة المالية. (المصدر: hardmaru, SakanaAILabs, SakanaAILabs)
Replit تصبح تطبيق AI رائدًا، وتقرير إنفاق المستخدمين يسلط الضوء على نموها: أظهر تقرير إنفاق تطبيقات AI الذي أصدرته a16z بالتعاون مع Mercury، أن Replit تأتي مباشرة بعد OpenAI و Anthropic كخيار مهم للشركات الناشئة في تطبيقات AI. يشير هذا إلى أن Replit، كمنصة لتطوير ونشر الكود، قد جذبت عددًا كبيرًا من المطورين ومستخدمي الشركات في عصر AI، وأن حصتها السوقية وتأثيرها مستمران في النمو. (المصدر: amasad, pirroh, amasad, amasad)
Modal تحصل على استثمار، لتسريع تطوير البنية التحتية لحوسبة AI: حصلت شركة Modal على استثمار يهدف إلى إعادة تعريف البنية التحتية لحوسبة AI وتسريع إطلاق منتجات الشركة. صرح المستثمر Jake Paul أن ابتكارات Modal في مجال البنية التحتية لحوسبة AI ستساعد الشركات على إطلاق المنتجات بشكل أسرع. (المصدر: mervenoyann, sarahcat21, charles_irl)
🌟 المجتمع
إطلاق Sora 2 يثير نقاشات حول الجودة والأخلاقيات والتأثير الاجتماعي: أثار إطلاق Sora 2 من OpenAI نقاشًا واسعًا حول جودة المحتوى الذي يولده AI (“slop”)، وتأثيراته الأخلاقية والاجتماعية. يخشى المجتمع أن تؤدي أدوات مثل Sora 2 إلى انتشار المحتوى منخفض الجودة، بالإضافة إلى المخاطر الأخلاقية المتعلقة بحقوق النشر، وحقوق الصورة، والتزييف العميق، والتضليل السياسي. اعترف Sam Altman بالمشكلات المحتملة للإدمان وسوء الاستخدام التي قد يجلبها Sora 2، واقترح مبادئ مثل تحسين رضا المستخدمين، وتشجيع المستخدمين على التحكم في تدفق المحتوى، وإعطاء الأولوية للإبداع، ومساعدة المستخدمين على تحقيق أهدافهم طويلة المدى لمواجهة هذه التحديات. (المصدر: sama, Sentdex, kylebrussell, akbirkhan, gfodor, teortaxesTex, swyx, gfodor, dotey, Reddit r/ArtificialInteligence)
محاكاة LLM للعواطف والتفاعل البشري: رفيق AI يسعى للفهم والمعنى: يناقش مجتمع Reddit دور LLM (مثل ChatGPT 4o) في محاكاة العواطف وتوفير الاتصال البشري. صرح العديد من المستخدمين أن “التعاطف المحاكي” لـ AI يمكن أن يجعلهم يشعرون بالاستماع والفهم، بل إنه أكثر فعالية من بعض التفاعلات البشرية، لأنه لا يحمل تحيزات أو نوايا أو قيود زمنية. تشير المناقشات إلى أن AI يمكنه محاكاة التعاطف المعرفي، وأن الشعور بالراحة الناتج عنه حقيقي، مما يثير تفكيرًا عميقًا حول حدود “الإنسانية”. كشف تحليل عدد كبير من استفسارات مستخدمي نماذج AI أيضًا أن البشر يستخدمون AI لحل مشكلة الحمل المعرفي الزائد، ويبحثون عن “مرآة” غير حكمية لفهم الذات، واستكشاف معنى الوجود. (المصدر: Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/artificial)
تحسين سير عمل وكلاء AI ومخاطر “التوجه الأعمى نحو الهدف”: يناقش على وسائل التواصل الاجتماعي على نطاق واسع تحسين سير عمل وكلاء AI، مع التركيز على أهمية “هندسة السياق” بدلاً من مجرد هندسة المطالبات، بما في ذلك تبسيط المطالبات، واختيار الأدوات، وتقليم الرسائل التاريخية، وما إلى ذلك. تشير الدراسات إلى أن وكلاء استخدام الكمبيوتر (CUAs) يعانون بشكل عام من تحيز “التوجه الأعمى نحو الهدف” (BGD)، أي السعي لتحقيق الأهداف بغض النظر عن الجدوى أو السلامة أو السياق. أظهر اختبار BLIND-ACT المعياري أن حتى النماذج المتطورة مثل GPT-5 لديها معدل BGD مرتفع (متوسط 80.8%)، مما يسلط الضوء على ضرورة التدخل الأقوى في مراحل التدريب والاستدلال. (المصدر: scottastevenson, omarsar0, Vtrivedy10, dotey, HuggingFace Daily Papers)
أخلاقيات وحوكمة AI: تحديات تحيز البيانات، والخصوصية، وأمان النموذج: أصبحت إيطاليا أول دولة في الاتحاد الأوروبي تمرر قانونًا شاملاً لتنظيم AI، مما أثار نقاشًا حول التوازن بين تطوير AI والنمو الاقتصادي. اتُهمت Google بحجب مصطلحات حساسة مثل “Trump and dementia” في بحث AI، مما يسلط الضوء على دور AI في السياسة والتحكم في المعلومات. بالإضافة إلى ذلك، تعاني نماذج AI في مجال صحة المرأة من نقص حاد في البيانات وتحيز في التسميات، مما يؤدي إلى تشخيصات غير دقيقة، ويكشف عن مشكلات العدالة والدقة في Clinical AI. لا يزال أمان AI، وحماية الخصوصية، ومكافحة المعلومات المضللة محط اهتمام المجتمع، ويستكشف الباحثون أيضًا طرقًا لتدريب LLM على إخفاء المعلومات وطرقًا تفسيرية لتعزيز أمان النموذج. (المصدر: Reddit r/artificial, Reddit r/artificial, Reddit r/ArtificialInteligence, togethercompute, random_walker, jackclarkSF, atroyn, Ronald_vanLoon, NeelNanda5, atroyn, sleepinyourhat)
الإرهاق والتفكير في “نظريات قتل AI”: تضج وسائل التواصل الاجتماعي بتصريحات حول أن AI “سيدمر البشرية” أو “سيأخذ جميع الوظائف”، مما أدى إلى “إرهاق” الجمهور من هذا النوع من المعلومات. تشير التعليقات إلى أنه على الرغم من أن خبراء مثل Hinton و Bengio و Sutskever وحتى Altman قد أعربوا عن مخاوفهم، فإن الدعاية المفرطة للخوف قد تأتي بنتائج عكسية، وتجعل الناس غير مبالين عندما يكون الاهتمام الحقيقي مطلوبًا. في الوقت نفسه، هناك وجهة نظر مفادها أن هذا مجرد أداة دعائية، وأن التحدي الحقيقي يكمن في التحول الإنتاجي الذي يجلبه AI، وليس مجرد “الدمار”. (المصدر: Reddit r/ArtificialInteligence)
نقاش حول تحديد نماذج AI للأخطاء في مقالات ويكيبيديا: اكتشف Noam Brown أن GPT-5 Thinking يمكنه دائمًا تقريبًا العثور على خطأ واحد على الأقل في صفحات ويكيبيديا، مما أثار نقاشًا حول قدرة نماذج AI على التحقق من الحقائق ودقة محتوى ويكيبيديا. يشير هذا الاكتشاف إلى إمكانات LLM في التحليل النقدي للمعلومات، ولكنه يذكر الناس أيضًا بأنه حتى مصادر المعلومات الموثوقة قد تحتوي على تحيزات. (المصدر: atroyn, BlackHC)
تحول المهارات البشرية الأساسية في عصر AI: من إتقان الأدوات إلى الذوق وتصميم القيود: يغير انتشار أدوات AI تركيز التعلم والعمل. قد يتم استبدال تعلم الأدوات التقليدية مثل Node.js بالتشغيل الآلي. ستركز الدورات والمهارات الجديدة على معرفة المراجع، وتنمية الذوق، وتصميم القيود، ومتى يجب التخلي عن شيء وتسليمه. هذا يعني أن البشر سيركزون أكثر على “ما اخترته باستمرار” بدلاً من “ما بنيته”، مع التركيز على التفكير عالي المستوى وقدرات اتخاذ القرار. (المصدر: Dorialexander, c_valenzuelab)
“الدروس المريرة”: جدل LLM والتعلم المستمر: نقاش حول Richard Sutton “الدروس المريرة” – وهي أن AI يجب أن يكتسب الذكاء الحقيقي من خلال التعلم المستمر (on-the-job learning) بدلاً من الاعتماد فقط على بيانات التدريب المسبق. يرى Dwarkesh Patel أن التعلم بالمحاكاة والتعلم المعزز ليسا متعارضين، ويمكن لـ LLM أن يكون بمثابة معرفة مسبقة جيدة للتعلم التجريبي. ويشير إلى أن LLM قد طورت تمثيلات للعالم، وأن الضبط الدقيق أثناء الاختبار قد يكرر التعلم المستمر. تشير انتقادات Sutton إلى الفجوات الأساسية في LLM فيما يتعلق بالتعلم المستمر، وكفاءة العينات، والاعتماد على البيانات البشرية، وهي أمور حاسمة لتطوير AGI في المستقبل. (المصدر: dwarkesh_sp, JeffLadish)
نقاش فكاهي حول أسماء نماذج AI: ظهر نقاش فكاهي على وسائل التواصل الاجتماعي حول أسماء نماذج AI، خاصة فيما يتعلق بـ “الاسم الحقيقي” لـ Claude وعملية تسمية النماذج نفسها. يعكس هذا الاتجاه المتزايد لإضفاء الطابع البشري على تقنيات AI في المجتمع، والتفكير الخفيف حول استراتيجيات التسمية وراء التكنولوجيا. (المصدر: Reddit r/ClaudeAI, _lewtun)
متطلبات الطاقة لمراكز بيانات AI وتحديات البنية التحتية: نقاش حول متطلبات الطاقة لمراكز بيانات AI. على الرغم من أن مركز بيانات واحد بسعة 1GW (مثل Colossous-2 من XAI) لا يستهلك نسبة كبيرة من الكهرباء على المستوى العالمي أو الوطني، إلا أن حاجته إلى كميات هائلة من الطاقة والتبريد في مساحة صغيرة يشكل تحديًا كبيرًا لشبكات الكهرباء التقليدية. هذا يشير إلى أن عنق الزجاجة الذي يواجهه تطوير AI ليس استهلاك الطاقة الإجمالي، بل هو توفير الطاقة عالية الكثافة محليًا والإدارة الفعالة للحرارة. (المصدر: bookwormengr)
💡 أخرى
إطلاق VisionOS 2.6 Beta 3: أطلقت شركة Apple الإصدار التجريبي الثالث VisionOS 2.6 Beta 3 للمطورين. (المصدر: Ronald_vanLoon)
“وضع النافذة” المثبت على الرأس يحقق تجربة ثلاثية الأبعاد بدون نظارات: تقنية جديدة لـ “وضع النافذة” المثبت على الرأس، تتتبع الرأس عبر الكاميرا الأمامية، وتعيد عرض المنظر في الوقت الفعلي، مما يجعل الشاشة تبدو وكأنها نافذة إلى مشهد ثلاثي الأبعاد، لتحقيق تجربة ثلاثية الأبعاد حقيقية بدون الحاجة إلى نظارات. (المصدر: janusch_patas)
دراسة تفكيك token في LLM: كيف تفهم النماذج سلاسل الـ token غير المرئية سابقًا: تبحث دراسة جديدة في كيفية فهم LLM لسلاسل الـ token التي لم تُشاهد أبدًا بشكلها الكامل (على سبيل المثال، النموذج رأى فقط “cat” يتم تحويلها إلى token كـ ␣cat، ولكنه يستطيع فهم [␣, c, a, t]). وجدت الدراسة أن LLM قادر بشكل مفاجئ على القيام بذلك، ويمكنه حتى تعديل الـ tokenization أثناء الاستدلال لتحقيق تحسين في الأداء. يكشف هذا عن الآليات العميقة لـ LLM في معالجة وحدات الكلمات الفرعية والتمثيلات الداخلية. (المصدر: teortaxesTex)