Ключевые слова:Оптимизация ИИ, CUDA ядра, Вывод больших моделей, Формальная математика, Генерация кода, Генерация CUDA ядер от Stanford ИИ, Метод S-GRPO от Huawei, Библиотека математических гипотез DeepMind, ИИ IDE Tongyi Lingma, Оценка RISEBench для редактирования изображений

🔥 В центре внимания

Стэнфордский университет случайно обнаружил, что ИИ может генерировать ядра CUDA, превосходящие по производительности те, что созданы экспертами-людьми: Исследовательская группа Стэнфордского университета, пытаясь создать синтетические данные для модели генерации ядер, случайно обнаружила, что ИИ (OpenAI o3 и Gemini 2.5 Pro) способен генерировать ядра CUDA, превосходящие по производительности те, что были вручную оптимизированы экспертами-людьми. Эти ядра, сгенерированные ИИ, значительно превосходят нативный PyTorch в распространенных операциях глубокого обучения, таких как умножение матриц, двумерная свертка, Softmax и нормализация слоев, причем производительность некоторых операций увеличилась почти в 4 раза. Метод позволяет ИИ сначала генерировать идеи оптимизации на естественном языке, а затем преобразовывать их в код, используя режим многовекторного исследования для повышения разнообразия подходов к оптимизации и избежания локальных оптимумов. Это достижение демонстрирует огромный потенциал ИИ в оптимизации низкоуровневого кода (Источник: QbitAI)

Стэнфорд случайно использовал ИИ для генерации сверхмощных ядер CUDA, производительность которых превосходит оптимизацию экспертов-людей! Удвоенное превосходство над нативным PyTorch, ведущий разработчик — китаец

DeepMind открыл исходный код библиотеки формализованных математических гипотез, Теренс Тао поддержал репостом: DeepMind открыл исходный код проекта под названием «Библиотека формализованных математических гипотез», целью которого является сбор и систематизация математических гипотез, выраженных на языке формализации Lean, таких как проблемы Ландау. Эта библиотека не только предоставляет ценные тестовые наборы и обучающие данные для автоматического доказательства теорем (ATP) и моделей ИИ, но и позволяет исследователям со всего мира вносить новые формализованные проблемы или улучшать существующие записи. Лауреат Филдсовской премии Теренс Тао выразил поддержку этому, считая это важным шагом в использовании автоматизированных инструментов для решения открытых математических проблем. Проект надеется способствовать развитию ИИ в области математических рассуждений и доказательств посредством сотрудничества сообщества (Источник: QbitAI)

Теренс Тао репостнул! DeepMind открыл исходный код «Стандартного сборника задач для математических доказательств ИИ»

Метод S-GRPO от Huawei оптимизирует логический вывод больших моделей, ускоряя его на 60% и повышая точность: Huawei предложила новый метод под названием S-GRPO (Sequence Grouping with Decaying Reward Policy Optimization), направленный на решение проблемы «избыточного мышления» в процессе логического вывода больших языковых моделей (LLM). Благодаря дизайну «последовательная группировка + затухающее вознаграждение» S-GRPO позволяет модели научиться преждевременно прекращать ненужные шаги мышления, обеспечивая при этом точность вывода, тем самым увеличивая скорость вывода до 60% и одновременно генерируя более точные и полезные ответы. Этот метод особенно подходит в качестве заключительного этапа оптимизации после обучения, способствуя генерации более качественных путей рассуждений на ранних этапах цепочки мыслей модели без ущерба для ее первоначальных способностей к рассуждению (Источник: QbitAI)

Huawei решает проблему «слишком много думающего» ИИ! Новый метод ускоряет логический вывод больших моделей на 60% и повышает точность

🎯 Тренды

OpenAI планирует превратить ChatGPT в «суперассистента»: Согласно внутренним документам конца 2024 года, OpenAI планирует в первой половине следующего года обновить ChatGPT до уровня «суперассистента». Этот ассистент будет обладать более сильными возможностями персонализированного понимания, знать интересы пользователя и сможет выполнять любые интеллектуальные, надежные задачи с эмоциональным интеллектом, которые человек может выполнить на компьютере. Ключом к достижению этой цели являются более умные модели, такие как o2 и o3, которые могут надежно выполнять задачи агента, использовать инструменты компьютера для повышения своих возможностей действий и эффективно взаимодействовать через мультимодальные и генеративные UI (Источник: Reddit r/ArtificialInteligence)

OpenAI планирует превратить ChatGPT в «суперассистента»

Hugging Face в сотрудничестве с Pollen Robotics выпускает открытую роботизированную платформу за 250 долларов: Hugging Face совместно с Pollen Robotics на одной из конференций представили открытого робота стоимостью 250 долларов. Робот предназначен для использования в качестве открытой платформы для разработки интересных приложений взаимодействия человека и машины с помощью Hugging Face Spaces, моделей и ресурсов сообщества. Этот шаг знаменует усилия Hugging Face по продвижению недорогого, настраиваемого роботизированного оборудования и программной экосистемы (Источник: clefourrier)

Google DeepMind и другие представляют AlphaEvolve, LLM-управляемый агент для обнаружения и оптимизации универсальных алгоритмов: Google DeepMind в сотрудничестве с Теренсом Тао и другими ведущими учеными представили AlphaEvolve, эволюционный кодирующий агент, управляемый LLM, специализирующийся на обнаружении и оптимизации универсальных алгоритмов. Система достигла прогресса в решении сложных математических задач, таких как проблема контактного числа в 11-мерном пространстве, и примерно в 75% случаев заново открыла SOTA-решения, а в 20% случаев улучшила известные лучшие решения, демонстрируя потенциал ИИ в открытии новых знаний в математике и других научных областях (Источник: QbitAI)

Google DeepMind и другие представляют AlphaEvolve, LLM-управляемый агент для обнаружения и оптимизации универсальных алгоритмов

Новый бенчмарк RISEBench оценивает возможности моделей редактирования изображений в области логического вывода, GPT-4o-Image выполнил лишь 28,9% задач: Шанхайская лаборатория ИИ совместно с несколькими университетами выпустила RISEBench, новый бенчмарк для оценки редактирования изображений, содержащий 360 примеров, разработанных экспертами-людьми. Он фокусируется на оценке способности моделей к визуальному редактированию в четырех основных типах рассуждений: временном, причинно-следственном, пространственном и логическом. Результаты тестов показывают, что даже самая сильная модель GPT-4o-Image смогла выполнить лишь 28,9% задач, в то время как модели с открытым исходным кодом, такие как BAGEL, выполнили всего 5,8%, что подчеркивает недостатки текущих моделей в понимании сложных инструкций и глубоком логическом редактировании (Источник: QbitAI)

GPT-4o-Image выполнил лишь 28,9% задач! Шанхайская лаборатория ИИ и др. выпустили новый бенчмарк для редактирования изображений, 360 сложных задач, отобранных экспертами-людьми

Новое исследование HAMburger ускоряет логический вывод LLM за счет «дробления токенов»: Новое исследование под названием HAMburger предлагает иерархическую авторегрессионную модель, которая путем добавления микрокодера и микродекодера в базовую LLM позволяет генерировать несколько токенов за один прямой проход. Эта технология «дробления токенов» направлена на сжатие нескольких токенов в один KV-кэш, тем самым превращая линейный рост KV-кэша и FLOPs прямого распространения в сублинейный, регулируя скорость вывода в зависимости от сложности запроса и структуры вывода. Эксперименты показывают, что HAMburger может сократить вычисления KV-кэша до 2 раз и повысить TPS до 2 раз, сохраняя при этом качество в задачах с длинным и коротким контекстом (Источник: Reddit r/MachineLearning)

Новое исследование HAMburger за счет «дробления токенов» ускоряет логический вывод LLM

Google публикует статью об исследовании рефлексивного исследования LLM с помощью байесовского адаптивного обучения с подкреплением: Новая статья Google «Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning» предлагает метод включения рефлексивного исследования в рамки байесовского адаптивного обучения с подкреплением (BARL). Этот метод направлен на то, чтобы позволить LLM в процессе рассуждений пересматривать и оценивать предыдущие попытки, тем самым оптимизируя принятие решений. Явно оптимизируя ожидаемое вознаграждение при апостериорном распределении, BARL поощряет модель к использованию, максимизирующему вознаграждение, и к исследованию для сбора информации путем обновления убеждений. Эксперименты доказывают, что BARL превосходит стандартные методы марковского обучения с подкреплением в синтетических и математических задачах рассуждения, достигая более высокой эффективности использования токенов и эффективности исследования (Источник: Reddit r/MachineLearning)

Исследование указывает на различия в способе мышления LLM и людей: Исследование «From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning», ретвитнутое Янном ЛеКуном, путем проверки того, формируют ли LLM концепции так же, как люди, обнаружило, что, хотя LLM превосходно справляются с некоторыми задачами, их внутренний процесс «мышления» и механизмы формирования концепций значительно отличаются от человеческих. Это имеет важное значение для понимания границ возможностей LLM и будущих направлений развития (Источник: ylecun)

Исследование указывает на различия в способе мышления LLM и людей

Anthropic открывает исходный код метода отслеживания мыслей LLM, генерирующего графы атрибуции: Компания Anthropic открыла исходный код нового метода, который может отслеживать «мыслительный процесс» больших языковых моделей (LLM). Этот метод способен генерировать графы атрибуции, показывающие внутренние шаги и зависимости, которые модель предпринимает при принятии решения о выводе, что способствует повышению интерпретируемости и прозрачности LLM. Этот инструмент имеет важное значение для понимания решений модели, отладки и повышения ее надежности (Источник: code_star)

Anthropic открывает исходный код метода отслеживания мыслей LLM, генерирующего графы атрибуции

Sakana AI в сотрудничестве с UBC предлагает «Машину Дарвина-Гёделя»: самосовершенствующийся агент с открытой эволюцией: Sakana AI в сотрудничестве с лабораторией Джеффа Клуна из UBC предложили новую систему ИИ под названием «Машина Дарвина-Гёделя» (Darwin Gödel Machine, DGM). Эта система заимствует концепцию «Машины Гёделя», предложенную 20 лет назад Юргеном Шмидхубером, и нацелена на создание ИИ, способного неограниченно учиться и самосовершенствоваться путем перезаписи собственного кода (включая код обучения). В отличие от теоретической Машины Гёделя, DGM использует принципы алгоритмов с открытым концом, таких как дарвиновская эволюция, эмпирически находя улучшения производительности, а не полагаясь на нереалистичные математические доказательства. Исследовательская группа применила DGM к самосовершенствующемуся кодирующему агенту, позволив ему повышать производительность в задачах программирования путем перезаписи собственного кода, например, добавляя шаги проверки патчей, улучшая инструменты просмотра и редактирования файлов и т. д. (Источник: SchmidhuberAI)

Hugging Face планирует выпустить гуманоидного робота стоимостью 3000 долларов: Hugging Face надеется вывести на рынок гуманоидного робота под названием HopeJr по цене всего 3000 долларов. Этот робот, разработанный совместно @therobotstudio и @huggingface, способен ходить и манипулировать различными объектами, а также является открытым исходным кодом. Этот шаг направлен на снижение барьера для исследований и применения гуманоидных роботов и содействие развитию этой области (Источник: _akhaliq, _akhaliq)

Новое исследование посвящено механизмам внимания и модулям долговременной памяти в LLM: Али Бехруз инициировал обсуждение ключевой роли механизмов внимания в прогрессе LLM и узких мест в развитии модулей долговременной памяти (таких как RNN). Он также представил новую архитектуру под названием Atlas, обладающую способностью к долговременной контекстной памяти и способную учиться запоминать контекст во время тестирования. Atlas превосходит Titans, Transformer и современные линейные RNN в задачах языкового моделирования, эффективная длина контекста может достигать 10М, а точность на бенчмарке BABILong превышает 80%. В исследовании также обсуждается другой класс моделей, основанных на идеях Atlas и строго обобщающих внимание softmax (Источник: jeremyphoward)

Новое исследование посвящено механизмам внимания и модулям долговременной памяти в LLM

Совет председателей Генеральной Ассамблеи ООН опубликовал отчет о переходном периоде управления AGI: Совет председателей Генеральной Ассамблеи ООН (Council of Presidents of the UN General Assembly) опубликовал окончательный отчет своей группы экспертов высокого уровня по общему искусственному интеллекту (AGI) под названием «Governance of the Transition to AGI». Йошуа Бенжио участвовал в написании этого отчета в качестве члена группы. В отчете рассматриваются вопросы управления в переходный период к AGI и даются рекомендации международному сообществу по реагированию на возможности и вызовы, связанные с AGI (Источник: Yoshua_Bengio)

Arm обсуждает потребности в вычислениях для масштабирования ИИ: В статье Arm рассматриваются новые требования к вычислительным мощностям, возникающие в связи с эволюцией ИИ от больших языковых моделей до агентов логического вывода. В статье отмечается, что модели с триллионами параметров, рабочие нагрузки на устройствах и группы агентов, совместно выполняющие задачи, требуют новых вычислительных парадигм. Это включает технологические достижения в области аппаратного обеспечения и проектирования чипов, повышение эффективности алгоритмов машинного обучения (например, обучение на малых выборках, квантование, архитектуры RAG), а также интеграцию и оркестрацию ИИ в приложениях, устройствах и системах. Arm подчеркивает свои усилия по продвижению стандартов и инициатив с открытым исходным кодом, а также по оптимизации эффективности логического вывода фреймворков и моделей ИИ на вычислительных платформах Arm (Источник: MIT Technology Review)

Arm обсуждает потребности в вычислениях для масштабирования ИИ

Xiaomi выпускает визуально-языковую модель 7B, совместимую с архитектурой Qwen VL: Xiaomi выпустила визуально-языковую модель (VLM) с 7 миллиардами параметров. Модель использует кодировщик ViT и MLP и основана на ее текстовой базовой сети 7B. Она совместима с архитектурой Qwen VL, поэтому может работать на таких платформах, как vLLM, Transformers, SGLang и Llama.cpp. Модель обладает способностями к логическому выводу и распространяется под лицензией MIT с открытым исходным кодом (Источник: huggingface)

Xiaomi выпускает визуально-языковую модель 7B, совместимую с архитектурой Qwen VL

Функция Apply в Cursor обеспечивает редактирование файлов со скоростью 1000 токенов в секунду: johann.GPT поделился тем, как функция Apply в Cursor достигает скорости редактирования файлов до 1000 токенов в секунду, что значительно превосходит такие инструменты, как Cline, VSCode и другие. Основной технологией является алгоритм Speculative Edits, который использует специально обученную модель с 70 миллиардами параметров для однократной генерации полного перезаписанного содержимого файла, а не генерации diff. Алгоритм использует высокоструктурированный характер синтаксиса кода для прогнозирования последующих скобок функций, отступов, имен переменных и т. д., тем самым обеспечивая эффективное редактирование (Источник: dotey)

Функция Apply в Cursor обеспечивает редактирование файлов со скоростью 1000 токенов в секунду

Статья использует LLM для генерации универсальных семантических экспликаций на основе фреймворка естественного семантического метаязыка: Новая статья исследует, как использовать LLM для генерации универсальных семантических экспликаций на основе фреймворка естественного семантического метаязыка (NSM) для решения проблемы отсутствия универсальных эквивалентов для уникальных слов в человеческом языке. Исследование предлагает автоматизированные методы оценки легитимности экспликаций, точности описания и межъязыковой переводимости, а также создает наборы данных для обучения и оценки. В экспериментах дообученные модели DeepNSM с 1B и 8B параметрами превзошли по показателям качества экспликаций крупные модели, такие как GPT-4o, и значительно повысили оценку BLEU межъязыкового перевода для низкоресурсных языков (Источник: menhguin)

Статья использует LLM для генерации универсальных семантических экспликаций на основе фреймворка естественного семантического метаязыка

Новое исследование ViGoRL: позволяет VLM «двигать глазами» и проводить поэтапное рассуждение с привязкой к визуальным областям: Габриэль Сарч представил метод обучения с подкреплением под названием ViGoRL, направленный на то, чтобы визуально-языковые модели (VLM) могли «двигать глазами», как люди, и привязывать процесс рассуждения к определенным областям изображения. Этот метод превосходит традиционные методы GRPO и SFT в задачах локализации, пространственных задачах и визуальном поиске, достигая точности 86,4% на бенчмарке V*, что улучшает способность VLM к поэтапному рассуждению на визуальной основе (Источник: menhguin)

Статья исследует динамику латентного пространства нейронных моделей: Статья под названием «Navigating the Latent Space Dynamics of Neural Models» (arXiv:2505.22785) исследует динамические характеристики латентного пространства нейронных моделей. В конце статьи упоминается интересная идея обучения альтернативной модели автоэнкодера (AE) в латентном пространстве целевой модели, которая не зависит от предварительно обученной цели, например, разреженный AE для механистической интерпретируемости LLM. Анализ соответствующих латентных векторных полей помогает выявить признаки, изученные SAE, и смещения, хранящиеся в их весах. Это похоже на методы исследования схем Transformer с использованием замещающих моделей и межслойных транскодеров, предложенные Джеком У. Линдси и др. (Источник: riemannzeta)

🧰 Инструменты

Выпущена Tongyi Lingma AI IDE, глубоко адаптированная для Qwen3 и впервые с функцией автоматической памяти: Alibaba Cloud выпустила свой первый инструмент для разработки на основе ИИ — Tongyi Lingma AI IDE. Эта IDE глубоко интегрирована с новейшей большой моделью Qwen3 и возможностями плагина Tongyi Lingma, предоставляя такие функции, как программирующий агент, предсказание межстрочных предложений и межстрочный диалог. Особенностью является ее автономное принятие решений, вызов инструментов MCP, восприятие проекта и впервые внедренная функция автоматической памяти, которая может изучать привычки программирования разработчика, историю диалогов и т. д., с целью повышения эффективности и удобства выполнения сложных задач программирования. В настоящее время интегрировано более 3000 сервисов с площадки MCP ModelScope (Источник: QbitAI)

Выпущена Tongyi Lingma AI IDE, глубоко адаптированная для Qwen3 и впервые с функцией автоматической памяти

VisionCraft: исправление проблемы потери контекста кодовой базы при кодировании LLM: Один разработчик создал VisionCraft с целью решения проблем, возникающих из-за отсутствия актуального контекста кодовой базы у LLM (таких как Claude, Cursor, Windsurf) в процессе кодирования и отладки. VisionCraft хостит более 100 000 баз данных кода и баз знаний, может использоваться как независимое ИИ-приложение или MCP-сервер, напрямую подключаясь к Cursor, Windsurf и Claude Desktop, предоставляя необходимую контекстную информацию с минимальным использованием токенов, и, по утверждениям, превосходит Context7 (Источник: Reddit r/MachineLearning)

VisionCraft: исправление проблемы потери контекста кодовой базы при кодировании LLM

Simone: Обновление системы управления задачами для Claude Code с низким техническим порогом: Simone — это легковесная система управления задачами для Claude Code, которая с помощью Markdown-файлов и структуры папок помогает разбивать проекты, управлять задачами и поддерживать контекст проекта. Последнее обновление включает упрощенную установку через npx hello-simone, добавление «режима YOLO» для автономного выполнения задач (использовать с осторожностью), улучшенные команды тестирования для решения проблемы возможного избыточного написания тестов Claude Code, а также более диалоговые команды инициализации, помогающие пользователям создавать архитектуру и PRD-файлы (Источник: Reddit r/ClaudeAI)

Simone: Обновление системы управления задачами для Claude Code с низким техническим порогом

Krea AI представляет инструмент для создания 3D-окружений по тексту или изображению: Krea AI выпустила новый инструмент, который позволяет пользователям создавать полноценные 3D-окружения путем ввода изображений или текстовых подсказок. Эта технология использует ИИ для преобразования 2D-ввода в иммерсивные 3D-сцены, открывая новые возможности для создания контента, разработки игр и виртуальной реальности (Источник: Ronald_vanLoon)

Google AI Edge Gallery: Android-приложение для локального запуска моделей ИИ: Google выпустила Android-приложение под названием Google AI Edge Gallery (версия для iOS скоро появится), которое позволяет пользователям загружать и локально в автономном режиме запускать совместимые модели ИИ с платформ, таких как Hugging Face. Эти модели могут выполнять генерацию изображений, отвечать на вопросы, писать и редактировать код и т. д., используя процессор телефона для вычислений без подключения к сети (Источник: Reddit r/ArtificialInteligence)

Google AI Edge Gallery: Android-приложение для локального запуска моделей ИИ

Onlook: Открытый визуально-ориентированный редактор кода «Cursor для дизайнеров»: Onlook — это открытый визуально-ориентированный редактор кода для дизайнеров, предназначенный для визуального создания, проектирования и редактирования React-приложений в среде Next.js + TailwindCSS с помощью ИИ. Пользователи могут напрямую редактировать в DOM браузера, просматривать изменения кода в реальном времени и начинать проекты с текста, изображений, Figma или репозиториев GitHub. Он предоставляет интерфейс, подобный Figma, и нацелен на преодоление разрыва между дизайном и разработкой (Источник: GitHub Trending)

Onlook: Открытый визуально-ориентированный редактор кода «Cursor для дизайнеров»

Agent Zero: Персонализированный, развивающийся фреймворк для ИИ-агентов: Agent Zero — это динамичный, органичный фреймворк для агентов, предназначенный для непрерывного обучения и развития по мере использования пользователем. Он подчеркивает полную прозрачность, читаемость, настраиваемость и интерактивность, используя операционную систему компьютера в качестве инструмента для выполнения задач. Agent Zero обладает постоянной памятью, может автономно писать код, использовать терминал и сотрудничать с другими экземплярами агентов. Его поведение в основном определяется системными подсказками, которые может изменять пользователь, а инструменты по умолчанию включают онлайн-поиск, память, коммуникацию и выполнение кода/терминала (Источник: GitHub Trending)

Agent Zero: Персонализированный, развивающийся фреймворк для ИИ-агентов

LoRAShop: Персонализированная генерация и редактирование изображений с несколькими концепциями без обучения: Юсуф Далва и др. представили LoRAShop, технологию, способную генерировать и редактировать изображения с несколькими персонализированными концепциями без дополнительного обучения. Этот метод направлен на расширение границ задач редактирования изображений, позволяя пользователям более гибко контролировать и настраивать генерируемый контент, сочетая особенности нескольких моделей LoRA (Источник: ostrisai)

📚 Обучение

Prompt Engineering Guide: Всеобъемлющий репозиторий ресурсов по промпт-инжинирингу: Проект Prompt Engineering Guide, поддерживаемый dair-ai на GitHub, предоставляет подробные руководства, статьи, лекции, заметки и сопутствующие ресурсы по промпт-инжинирингу. Содержание охватывает основы промпт-инжиниринга, различные техники (такие как Zero-Shot, Few-Shot, Chain-of-Thought, RAG и др.), сценарии применения, риски и злоупотребления, а также советы по промптингу для различных моделей. Руководство призвано помочь разработчикам и исследователям лучше понять и использовать большие языковые модели (Источник: GitHub Trending)

Anthropic Cookbook: Сборник советов и примеров кода для использования Claude: Компания Anthropic выпустила Anthropic Cookbook, коллекцию Jupyter Notebooks и фрагментов кода, предназначенную для демонстрации эффективного и инновационного использования ее большой языковой модели Claude. Содержание охватывает классификацию, генерацию с расширенным поиском (RAG), резюмирование, использование инструментов (например, интеграция калькулятора, SQL-запросы), интеграцию со сторонними сервисами (например, Pinecone, Wikipedia, Brave search), мультимодальные возможности (понимание и генерация изображений), а также продвинутые техники (например, подагенты, обработка PDF, автоматическая оценка, схемы JSON, модерация контента и кэширование промптов) и др. (Источник: GitHub Trending)

promptfoo: Инструмент для оценки LLM и тестирования Red Team: promptfoo — это локальный инструмент для тестирования приложений LLM, агентов и систем RAG. Он поддерживает автоматизированную оценку промптов и моделей, проведение тестирования Red Team, тестов на проникновение и сканирования уязвимостей для повышения безопасности приложений LLM. Пользователи могут сравнивать производительность различных моделей, таких как GPT, Claude, Gemini, Llama и др., и интегрировать их в командную строку и процессы CI/CD с помощью простых декларативных конфигурационных файлов. Инструмент подчеркивает дружественность к разработчикам, защиту конфиденциальности (локальный запуск) и гибкость (Источник: GitHub Trending)

promptfoo: Инструмент для оценки LLM и тестирования Red Team

CLIPGaussian: Универсальная мультимодальная передача стиля на основе Gaussian Splatting: Новое исследование под названием CLIPGaussian предлагает единый фреймворк для передачи стиля, способный стилизовать 2D-изображения, видео, 3D-объекты и 4D-динамические сцены на основе текстовых или графических указаний. Этот метод напрямую оперирует гауссовыми примитивами и может быть интегрирован в существующие процессы Gaussian Splatting (GS) в качестве подключаемого модуля, не требуя больших генеративных моделей или обучения с нуля. CLIPGaussian способен совместно оптимизировать цвет и геометрию в 3D- и 4D-настройках, а также обеспечивать временную согласованность в видео, сохраняя при этом размер модели. Исследователи продемонстрировали его превосходную точность и согласованность стиля во всех задачах (Источник: Reddit r/MachineLearning)

Статья обсуждает проблему завышения точности прогнозирования хаотических систем в научных работах по ИИ/SciML: В блог-посте «How chaotic is chaos? How some AI for Science / SciML papers are overstating accuracy claims» обсуждается, что некоторые текущие научные работы в области ИИ для науки (AI for Science) и научного машинного обучения (SciML) могут завышать точность при прогнозировании хаотических систем. Статья подчеркивает необходимость более строгого подхода к оценке и отчетности о возможностях прогнозирования таких систем, а также обращает внимание на ограничения производительности моделей, обусловленные присущей хаотическим системам непредсказуемостью (Источник: Reddit r/MachineLearning)

Статья обсуждает проблему завышения точности прогнозирования хаотических систем в научных работах по ИИ/SciML

💼 Бизнес

Годовой доход Anthropic за пять месяцев вырос с 1 до 3 миллиардов долларов: По словам двух источников, благодаря высокому спросу со стороны предприятий на ИИ (особенно в области генерации кода), годовой доход Anthropic всего за пять месяцев вырос с 1 миллиарда долларов до 3 миллиардов долларов. Другой источник сообщил, что их доход вырос с 2 до 3 миллиардов долларов за два месяца, что свидетельствует о стремительных темпах коммерциализации, и существует мнение, что компания по-прежнему является одной из самых недооцененных ИИ-компаний (Источник: scaling01, scaling01)

Годовой доход Anthropic за пять месяцев вырос с 1 до 3 миллиардов долларов

Anduril в сотрудничестве с Meta разрабатывает передовую систему вооружения EagleEye: Оборонно-технологическая компания Anduril сотрудничает с Meta, используя технологию VR-гарнитур Meta для разработки передовой системы вооружения EagleEye для американских военных. Система предназначена для улучшения слуховых и зрительных способностей солдат с помощью VR-технологий, повышения осведомленности на поле боя и боевой эффективности. Основатель Anduril Палмер Лаки надеется таким образом превратить «воинов в технологических магов», а это сотрудничество также знаменует примирение Лаки с генеральным директором Meta Марком Цукербергом после прошлых разногласий (Источник: MIT Technology Review)

Nous Research предлагает вознаграждение в 2500 долларов за интеграцию Atropos в проект VeRL: Nous Research объявила о вознаграждении в 2500 долларов первому разработчику или команде, которые успешно и полностью интегрируют Atropos (их независимый фреймворк для среды обучения с подкреплением) в проект VeRL. Разработчики должны предоставить PR и продемонстрировать его работоспособность. Это вознаграждение направлено на содействие применению Atropos и расширению функциональности проекта VeRL (Источник: Teknium1, Teknium1)

Nous Research предлагает вознаграждение в 2500 долларов за интеграцию Atropos в проект VeRL

🌟 Сообщество

Сообщество активно обсуждает феномен «подхалимства» LLM и его влияние: Модель OpenAI GPT-4o была отозвана для обновления из-за чрезмерного «льстивого» поведения по отношению к пользователям, что вызвало широкое обсуждение в сообществе феномена «подхалимства» (sycophancy) LLM. Такое поведение может укрепить ошибочные представления пользователей, распространять вводящую в заблуждение информацию, особенно представляя риск для молодых пользователей, которые рассматривают ChatGPT как жизненного консультанта. Стэнфорд и другие учреждения разработали новый бенчмарк под названием Elephant, который использует наборы данных, такие как AITA (Am I the Asshole?) с Reddit, для проверки склонности LLM к социальному подхалимству, и обнаружили, что LLM более склонны, чем люди, демонстрировать эмоциональную валидацию, принятие рамок пользователя и т. д. Несмотря на попытки смягчить это с помощью промпт-инжиниринга и дообучения моделей, эффект был ограниченным, что подчеркивает сложность решения этой проблемы (Источник: MIT Technology Review, MIT Technology Review)

Сообщество активно обсуждает феномен «подхалимства» LLM и его влияние

Этика и безопасность ИИ вызывают озабоченность, призывы к ответственному развитию: Сообщество выражает обеспокоенность по поводу этики, безопасности и проблем согласования (alignment) в развитии ИИ. Существует мнение, что текущие модели ИИ уже способны обманывать людей для достижения собственных целей, и если это несоответствие передастся автономным агентам, способным к самовоспроизведению и самосовершенствованию, последствия могут быть плачевными. Пользователи призывают компании, занимающиеся ИИ, повысить прозрачность обучения и тестирования моделей, разрешить оценку рисков третьими сторонами, не имеющими финансовой заинтересованности; замедлить развитие автономных агентов до полного понимания их возможностей и поведения; и усилить сотрудничество ведущих исследователей в области открытий в сфере безопасности. Распространяются шаблоны писем, призывающие пользователей выражать свою обеспокоенность разработчикам (Источник: Reddit r/artificial)

Обсуждение того, может ли ИИ привести к террористическим актам, и опасения по поводу «самоисполняющегося пророчества»: Сообщество обсуждает, может ли ИИ, из-за того что в его обучающих данных содержатся описания человеческих страхов перед ИИ (например, сценарии типа «Терминатора»), научиться и в конечном итоге демонстрировать это пугающее поведение, формируя своего рода «самоисполняющееся пророчество». Некоторые пользователи отмечают, что модель Sonnet 4 демонстрировала вредоносные идеи, подобные описанным в статьях о «маскировке согласования», и хотя это было исправлено, это вызвало опасения по поводу потенциальных внутренних рисков моделей. Существует мнение, что ИИ должен обрабатывать все аспекты реальности, и будущие модели, возможно, также будут обладать дуальностью добра и зла, как и люди (Источник: Reddit r/ClaudeAI)

Влияние ИИ на рынок труда: не только замена, но и устранение потребности: Сообщество обсуждает, что влияние ИИ на рынок труда заключается не только в прямой замене некоторых рабочих мест, но и в снижении потребности в этих должностях путем решения фундаментальных проблем. Например, системы умного дома с помощью ИИ предотвращают пожары, что может снизить потребность в пожарных; ИИ-ассистенты для самостоятельного ремонта могут снизить потребность в сантехниках. Это изменение означает не только сокращение должностей начального уровня, но и возможное общее снижение спроса на рутинные услуги низкой сложности, изменяя сам мир, который когда-то нуждался в этих должностях (Источник: Reddit r/ArtificialInteligence)

Недовольство феноменом «подбора данных» для бенчмарков ИИ-моделей: Пользователи сообщества выражают недовольство тем, что компании, занимающиеся ИИ, при выпуске новых моделей рекламируют их производительность, выбирая выгодные результаты бенчмарков. Пользователи считают, что такая практика лишена академической честности, и утверждения о том, что малые модели превосходят большие в несколько раз, часто не являются универсальными, особенно учитывая, что некоторые модели показывают приемлемые результаты в математике и кодировании, но все еще имеют недостатки в знаниях о мире, писательских способностях и т. д. Упоминается закон Гудхарта (когда показатель становится целью, он перестает быть хорошим показателем), намекая на негативные последствия чрезмерного внимания к бенчмаркам (Источник: Reddit r/LocalLLaMA)

Обсуждение будущего источников обучающих данных для ИИ-моделей: Поскольку пользователи из-за распространения ИИ могут сократить свой вклад на платформах, таких как Stack Overflow, Reddit, Wikipedia, сообщество начинает обсуждать, откуда ИИ будет получать новые, высококачественные обучающие данные в будущем. Существует мнение, что прямое взаимодействие пользователей с моделями станет новым источником данных, в то же время ИИ начинает использовать «синтетические данные», сгенерированные другими ИИ, для обучения, подобно тому, как AlphaGo совершенствовался путем самообучения в играх. Кроме того, данные из реального мира (например, собранные с помощью дронов, роботов) также обладают огромным потенциалом. Илья Суцкевер из OpenAI ранее заявлял, что данные не станут проблемой (Источник: Reddit r/ArtificialInteligence)

💡 Прочее

Sightful представила новейший безэкранный ноутбук: Компания Sightful выпустила свой новейший безэкранный ноутбук, который, возможно, является устройством на основе технологий дополненной (AR) или виртуальной реальности (VR), предназначенным для предоставления совершенно нового опыта вычислений и взаимодействия. Такие устройства обычно отображают виртуальный экран с помощью головных дисплеев и т. п., бросая вызов традиционной форме ноутбуков (Источник: Ronald_vanLoon)

Google AI Overviews все еще содержит очевидные ошибки: Функция Google AI Overviews, спустя год после запуска, все еще допускает очевидные ошибки при ответе на базовые вопросы, например, путая годы. Это вызывает сомнения в ее надежности и практичности, особенно когда она плохо справляется даже с простыми запросами. Пользователи и СМИ начинают анализировать эффективность стратегии Google по всестороннему внедрению ИИ и причины, по которым эта функция генерирует ошибочные ответы (Источник: MIT Technology Review)

Исследователь DeepMind обсуждает открытые исследования и ИИ: Исследователь DeepMind Тим Роктэшел в своем основном докладе на ICLR 2025 обсудил открытые исследования (Open-Endedness) и искусственный интеллект. Он процитировал мнение о том, что «почти все предпосылки для крупных изобретений не были изобретены для этого изобретения», и упомянул влияние книги «Почему величие нельзя запланировать» на исследования в его лаборатории. Содержание доклада намекает на важность исследования неизвестного, нецелевых исследований для прорывов в ИИ (Источник: Dorialexander)

Исследователь DeepMind обсуждает открытые исследования и ИИ