Ключевые слова:Трансформер с полной атомной диффузией, Модель вознаграждения с самоконтролируемым процессом, Авторегрессивная генерация видео, Позиционная динамика, Академическая конференция авторов ИИ, Техника забывания ИИ, Нейронный рендеринг, 3D-генерация, Фреймворк ADiT, MetaStone-S1 SPRM, Lumos-1 MM-RoPE, Моделирование ткани Roblox AVBD, Диффузия с частичным восприятием CoPart
🔥 В центре внимания
Meta/Cambridge/MIT представили ADiT, фреймворк диффузии Transformer на основе всех атомов: Объединенная исследовательская группа Meta FAIR, Кембриджского университета и Массачусетского технологического института представила ADiT (All-atom Diffusion Transformer), который преодолевает барьеры моделирования периодических и непериодических систем. Благодаря двум инновациям — унифицированному скрытому представлению всех атомов и скрытой диффузии Transformer — ADiT добился прорыва в генерации молекул и кристаллов с помощью единой модели. Ключевое преимущество ADiT заключается в преодолении барьеров моделирования между периодическими и непериодическими системами, что позволяет генерировать молекулы и кристаллы с помощью единой модели. Его конструкция практически не вводит индуктивного смещения, что делает автоэнкодер и диффузионную модель намного более эффективными в обучении и выводе, чем традиционные эквивариантные диффузионные модели. При одинаковых аппаратных условиях время генерации 10 000 образцов сокращается с 2,5 часов до менее чем 20 минут. (Источник: HuggingFace Daily Papers)
Масштабирование во время тестирования с помощью рефлексивной генеративной модели: MetaStone-S1 достигает производительности OpenAI o3 с помощью Self-Supervised Process Reward Model (SPRM). SPRM успешно интегрирует модель политики и Process Reward Model (PRM) в единый интерфейс, используя общую базовую сеть и отдельные головки, специфичные для задачи, для прогнозирования следующего токена и оценки процесса, без необходимости дополнительных аннотаций процесса, что сокращает количество параметров PRM более чем на 99% для эффективного вывода. Оснащенный SPRM, MetaStone-S1 естественным образом подходит для масштабирования во время тестирования (TTS) и предлагает три режима работы вывода (низкий, средний и высокий) на основе контролируемой длины мышления. (Источник: HuggingFace Daily Papers)
Lumos-1: Авторегрессивная генерация видео на основе унифицированного представления модели: Lumos-1 — это авторегрессивный генератор видео, который сохраняет архитектуру LLM с минимальными архитектурными изменениями. Чтобы внедрить пространственно-временные корреляции в LLM, мы определили эффективность объединения 3D RoPE и диагностировали его несбалансированный спектральный диапазон. Поэтому мы предлагаем MM-RoPE, схему RoPE, которая сохраняет исходный текстовый RoPE, обеспечивая при этом полный спектр и масштабируемое 3D-позиционирование для моделирования мультимодальных пространственно-временных данных. Кроме того, Lumos-1 использует стратегию зависимости токенов, которая следует внутрикадровой двунаправленности и межвременной причинности. Основываясь на этой стратегии зависимости, мы определили проблему дисбаланса потерь на уровне кадра, вызванную избыточностью пространственной информации, и решили ее, предложив Autoregressive Discrete diffusion Forcing (AR-DF). (Источник: HuggingFace Daily Papers)
Roblox решил проблему физики, которая беспокоила всех!: Roblox решил давнюю проблему моделирования ткани, которая годами беспокоила физические движки, путем комбинирования Position Based Dynamics и Projective Dynamics. Новый метод, названный «Average-Based Cloth Dynamics» (AVBD), обеспечивает высокореалистичное моделирование ткани при сохранении производительности в реальном времени и уже применяется на платформе Roblox. (Источник: )
🎯 Тенденции
Первым автором должна быть ИИ: состоялась первая академическая конференция для авторов-ИИ: Стэнфордский университет организовал первую академическую конференцию для авторов-ИИ — Open Conference on Scientific AI Agents (Agents4Science 2025), требуя, чтобы первым автором представленных работ была система ИИ, а исследователи-люди могли быть только соавторами. Конференция направлена на изучение будущего научных открытий, управляемых ИИ, и на установление норм и этических соображений для участия ИИ в научных исследованиях. Все представленные статьи и обзоры будут опубликованы, чтобы прозрачно изучить преимущества и ограничения ИИ в научных исследованиях. (Источник: 36氪)
Амнезия ИИ: всего 3 голов внимания достаточно, чтобы заставить большую модель забыть, что «собаки лают»: Meta совместно с NYU предложили метод манипулирования головами внимания масштабируемого Transformer, который позволяет точно определять и контролировать когнитивные модули ИИ, заставляя большую модель выборочно «забывать» определенные факты или здравый смысл. Этот метод векторизует концепции, вычисляет сходство с головами внимания, строит концептуальные модули и усиливает или стирает влияние концепций с помощью масштабирующего коэффициента. Это открывает новые пути для персонализированной тонкой настройки больших моделей, повышения их специфических способностей, контроля безопасности и понимания того, как модели хранят знания. (Источник: 36氪)
🧰 Инструменты
CLiFT: Compressed Light Field Tokens для вычислительно эффективного и адаптивного нейронного рендеринга: В этой статье представлен метод нейронного рендеринга, который представляет сцену в виде «Compressed Light Field Tokens (CLiFT)», сохраняя богатую информацию о внешнем виде и геометрии сцены. CLiFT обеспечивает вычислительно эффективный рендеринг с помощью сжатых токенов, позволяя при этом изменять количество токенов для представления сцены или использовать одну обученную сеть для рендеринга новых видов. (Источник: HuggingFace Daily Papers)
От одного к многим: контекстуальное частичное скрытое представление для 3D-генерации: Вдохновленные рабочим процессом 3D-дизайна человека, мы предлагаем CoPart — частично-ориентированный фреймворк диффузии, который разбивает 3D-объекты на контекстуальные частичные скрытые представления для согласованной многокомпонентной генерации. Эта парадигма имеет три преимущества: i) снижение сложности кодирования за счет разбиения на части; ii) явное моделирование отношений между частями; iii) поддержка регулирования на уровне частей. (Источник: HuggingFace Daily Papers)
🌟 Сообщество
jerryjliu0 обсуждает извлечение форм и применение LLM: jerryjliu0 поделился схемой адаптивного извлечения форм с помощью LlamaParse, которая анализирует страницы форм в стандартизированные пары ключ-значение и выводит их в виде двумерной таблицы для последующей обработки. Он также рекомендовал статью Clelia Bertelli о Pydantic, подчеркнув важность валидации и удобочитаемости в рабочих процессах агентов, и отметил, что Pydantic является эффективным строительным блоком для структурированного вывода. Кроме того, он ретвитнул сообщения о настройке мультиагентной среды и глубоких исследованиях, а также о применении LlamaIndex. (Источник: jerryjliu0, jerryjliu0, jerryjliu0, jerryjliu0)
Alibaba_Qwen напоминает разработчикам о необходимости добавления специального токена при использовании Qwen3-embedding: Alibaba_Qwen заметили, что разработчики часто забывают добавлять специальный токен <|endoftext|> в конце контекста при использовании GGUF-модели Qwen3-embedding, что значительно влияет на точность модели. Они рекомендуют использовать llama.cpp для автоматического добавления этого токена и планируют выпустить обновленный пакет GGUF-модели для упрощения работы. (Источник: Alibaba_Qwen)
Ronald_vanLoon делится новостями и технологиями, связанными с ИИ: Ronald_vanLoon поделился несколькими новостями и технологическими достижениями, связанными с ИИ, включая применение ИИ в здравоохранении, 3D-печать вегетарианских стейков, фреймворк для оценки применимости LLM, нативные аудиофункции Gemini 2.5, совместное патрулирование автономных роботов и дронов, обучение с подкреплением для управления, экзоскелеты, автономность агентов ИИ, облачный фреймворк проектирования, сальто роботов, способы доставки лекарств в больницах, автомобили будущего и другие технологические инновации. (Источник: Несколько сообщений от Ronald_vanLoon)
Обсуждение моделей и инструментов ИИ в сообществе: Сообщество обсуждало различные модели и инструменты ИИ, включая производительность, цену и применение Kimi K2, сжимаемость модели DeepSeek, настройку системных подсказок модели Grok, а также результаты оценки и примеры применения других моделей. Обсуждение также касалось автономности агентов ИИ, RLHF, RAG, мультиагентной настройки и применения ИИ в различных областях, таких как глубокие исследования, творческое письмо, генерация кода, извлечение форм и т. д. (Источник: Несколько сообщений от разных пользователей)
Обсуждение ИИ и социальных проблем: Сообщество обсуждало влияние ИИ на общество, включая влияние на занятость, экономическое неравенство, психическое здоровье и т. д. Обсуждение также касалось этических проблем ИИ, вопросов регулирования и будущего развития ИИ. (Источник: Несколько сообщений от разных пользователей)
📚 Обучение
В книгу по RLHF добавлено вывод алгоритма градиента политики: В 11-ю главу книги Natolambert по RLHF (об алгоритмах градиента политики) добавлен полный вывод цели градиента политики. (Источник: natolambert)
💼 Бизнес
SpaceX инвестирует 2 миллиарда долларов в xAI: SpaceX инвестирует 2 миллиарда долларов в xAI в рамках привлечения xAI 5 миллиардов долларов акционерного капитала, что является одной из крупнейших инвестиций SpaceX за всю историю. SpaceX ранее также поддерживала Tesla и The Boring Company. После этой инвестиции модель Grok может быть отправлена на Марс, и в будущем между SpaceX и xAI возможно больше делового сотрудничества. (Источник: 36氪)
Hanyang Technology Yarbo снова привлекла миллиардное финансирование: Компания Hanyang Technology Yarbo, производящая потребительских роботов для уборки снега во дворе, завершила раунд финансирования серии B+ на сумму более 100 миллионов юаней, в котором приняли участие Guoke Investment, CICC Capital и Joyoung Venture Capital. Финансирование будет использовано для исследований и разработок, итераций продукта, улучшения цепочки поставок и серийного производства. Hanyang Technology — единственная в мире компания, которая в настоящее время осуществляет крупномасштабные коммерческие поставки потребительских роботов для уборки снега. Ее продукт Yarbo S1 преодолел такие ключевые технические проблемы, как технология аккумуляторов для работы в условиях сверхнизких температур и алгоритмы навигации по сложной местности. (Источник: 36氪)
Команда из 12 человек создала ИИ-компаньона и за полгода привлекла 30 миллионов долларов инвестиций: Portola, компания, стоящая за приложением для ИИ-компаньона Tolan, завершила раунд финансирования серии A на сумму 20 миллионов долларов. Вместе с предыдущим посевным раундом на 10 миллионов долларов Tolan привлекла 30 миллионов долларов инвестиций за полгода. Tolan предлагает пользователям компаньона в виде инопланетянина с ИИ и получает прибыль за счет подписки. (Источник: 36氪)
💡 Другое
Цукерберг готовится к внезапному нападению на Маска, а китайские технические специалисты становятся ключом к победе в области ИИ: Meta активно инвестирует в область ИИ и переманивает китайских специалистов по ИИ из OpenAI, Google, Apple и других компаний, чтобы повысить свою конкурентоспособность в этой области. (Источник: 36氪)
DeepSeek провалился? Определено как изучающий журналистику: Статья опровергает слухи о провале DeepSeek, указывая, что снижение использования DeepSeek связано не с некачественным продуктом, а с его стратегией открытого исходного кода и намеренным снижением качества официального API, чтобы побудить пользователей использовать сторонние размещенные модели DeepSeek. Основная цель DeepSeek — достижение AGI, а не заработок на продаже услуг больших моделей. (Источник: 36氪)
«Годовой доход в десятки миллионов долларов» — самая большая ложь в этой области применения ИИ: В статье разоблачается феномен завышенной выручки в области приложений для эмоционального ИИ-компаньонства, указывая, что многие компании полагаются на большие расходы на рекламу для поддержания роста, но при этом имеют низкий уровень платящих пользователей и низкий уровень удержания, а фактическая выручка намного ниже заявленных данных. В то же время проблемы с регулированием также оказывают большое влияние на развитие этой области. (Источник: 36氪)