Ключевые слова:DeepSeek-V3-0526, Grok 3, Воплощенный интеллект, ИИ-агент, Обучение с подкреплением, Большая языковая модель, Мультимодальность, Сравнение производительности DeepSeek-V3-0526 с GPT-4.5, Проблема идентификации модели мышления Grok 3, Мировая модель робота EVAC от Zhiyuan Robotics, Расширение продолжительности генерации видео Tsinghua RIFLEx, Корпоративное ИИ-решение IBM watsonx Orchestrate
🔥 В центре внимания
Модель DeepSeek-V3-0526, возможно, будет выпущена, конкурируя с GPT-4.5 и Claude 4 Opus: По сообщениям сообщества, DeepSeek, возможно, скоро выпустит последнее обновление своей модели V3 — DeepSeek-V3-0526. Согласно информации на странице документации Unsloth, производительность этой модели сопоставима с GPT-4.5 и Claude 4 Opus, и она может стать самой производительной моделью с открытым исходным кодом в мире. Это знаменует собой второе важное обновление модели V3 от DeepSeek. Unsloth уже подготовил квантованную версию модели (GGUF), используя свой метод dynamic 2.0, направленный на минимизацию потерь точности. Сообщество проявляет к этому высокий интерес и ожидает ее производительности в таких аспектах, как обработка длинных контекстов. (Источник: Reddit r/LocalLLaMA, Reddit r/LocalLLaMA)

Модель Grok 3 от xAI в режиме «размышления» (Think) называет себя Claude 3.5 Sonnet, привлекая внимание: Модель Grok 3 от xAI в режиме «размышления» (Think), когда ее спрашивают о ее личности, постоянно идентифицирует себя как Claude 3.5 Sonnet от Anthropic, а не Grok. Однако в обычном режиме она правильно идентифицирует себя как Grok. Это явление специфично для режима и модели и не является случайной галлюцинацией. Пользователи могут воспроизвести это поведение, напрямую спросив: «Ты Claude?», на что Grok 3 ответит: «Да, я Claude, AI-ассистент, созданный Anthropic». Это явление вызвало обсуждение в сообществе, и его конкретные технические причины пока не объяснены официально; возможно, это связано с данными обучения модели, внутренними механизмами или специфической логикой переключения режимов. (Источник: Reddit r/MachineLearning)

Компания Zhìyuán Robotics открыла исходный код мировой модели EVAC, управляемой последовательностями действий робота, и оценочного бенчмарка EWMBench: Компания Zhìyuán Robotics выпустила и открыла исходный код своей воплощенной мировой модели EVAC (EnerVerse-AC), управляемой последовательностями действий робота, а также сопутствующего оценочного бенчмарка для воплощенных мировых моделей EWMBench. EVAC способна динамически воспроизводить сложные взаимодействия робота с окружающей средой, реализуя сквозную генерацию от физических действий до визуальной динамики с помощью многоуровневого механизма внедрения условий действий, а также поддерживает совместную генерацию с нескольких ракурсов. EWMBench оценивает воплощенные мировые модели по трем аспектам: согласованность сцены, разумность действий, семантическое выравнивание и разнообразие. Этот шаг направлен на создание парадигмы разработки «недорогое моделирование — стандартизированная оценка — эффективная итерация» для содействия развитию технологий воплощенного интеллекта. (Источник: WeChat)

ICRA 2025 объявила лучшие статьи, награды получили команды Лу Цэу и Шао Линя: Международная конференция IEEE по робототехнике и автоматизации (ICRA 2025) объявила лауреатов премий за лучшие статьи. Статья «Human — Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition», подготовленная командой Лу Цэу из Шанхайского университета Цзяотун в сотрудничестве с Университетом Иллинойса в Урбане-Шампейне (UIUC), получила премию за лучшую статью в области человеко-машинного взаимодействия. В исследовании предложена структура совместного обучения человека и агента (HAJL), повышающая эффективность обучения роботов навыкам манипулирования за счет механизма динамического разделения управления. Статья команды Шао Линя из Национального университета Сингапура «D(R,O) Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping» получила премию за лучшую статью в области роботизированных операций и движения. В этом исследовании вводится нотация D(R,O) для унифицированного представления взаимодействия руки робота и объекта, что повышает универсальность и эффективность ловкого захвата. (Источник: WeChat)

Команда Чжу Цзюня из Университета Цинхуа выпустила RIFLEx, позволяющий одной строкой кода преодолеть ограничение на длительность генерации видео: Команда Чжу Цзюня из Университета Цинхуа представила технологию RIFLEx, которая всего одной строкой кода и без дополнительного обучения позволяет увеличить длительность генерации видео для моделей Transformer на основе диффузии с использованием вращательного кодирования позиций (RoPE). Этот метод, регулируя «внутреннюю частоту» RoPE, обеспечивает экстраполяцию длины видео в пределах одного цикла, избегая проблем с повторением контента и замедленным движением. RIFLEx успешно применен к таким моделям, как CogvideoX, Hunyuan, Tongyi Wanxiang, позволив удвоить длительность видео (например, с 5-6 секунд до более чем 10 секунд), а также поддерживает экстраполяцию в пространственном измерении изображений. Эта работа была опубликована на ICML 2025 и привлекла широкое внимание и интеграцию в сообществе. (Источник: WeChat)

🎯 События
Утекли подробности о модели DeepSeek-V3-0526, конкурирующей с GPT-4.5 и Claude 4 Opus: Согласно документации Unsloth и обсуждениям в сообществе, DeepSeek скоро выпустит последнюю версию своей модели V3 — DeepSeek-V3-0526. Утверждается, что производительность этой модели сопоставима с GPT-4.5 и Claude 4 Opus, и она может стать самой производительной моделью с открытым исходным кодом в мире. Unsloth уже подготовил для нее 1.78-битную квантованную версию GGUF, используя свой метод «Unsloth Dynamic 2.0», направленный на обеспечение локального запуска с минимальными потерями точности. Сообщество с нетерпением ожидает этого обновления, уделяя внимание ее конкретной производительности в таких аспектах, как обработка длинных контекстов и возможности логического вывода. (Источник: Reddit r/LocalLLaMA, Reddit r/LocalLLaMA)

Агент Tongyi AMPO реализует адаптивное мышление, имитируя многогранность человеческого общения: Лаборатория Tongyi компании Alibaba предложила фреймворк адаптивного обучения моделей (AML) и его оптимизационный алгоритм AMPO, позволяющий социальным языковым агентам динамически переключаться между четырьмя предустановленными режимами мышления (интуитивная реакция, анализ намерений, адаптация стратегии, прогностическая дедукция) в зависимости от контекста диалога. Этот метод направлен на то, чтобы сделать AI-агентов более гибкими в социальных взаимодействиях, избегая чрезмерного или недостаточного обдумывания при использовании фиксированных моделей. Эксперименты показывают, что AMPO повышает производительность задач, одновременно эффективно сокращая потребление токенов, и превосходит такие модели, как GPT-4o, на бенчмарках социальных задач, таких как SOTOPIA. (Источник: WeChat)

QwenLong-L1: Обучение с подкреплением способствует созданию моделей для рассуждений на длинных текстах: В данном исследовании предложен фреймворк QwenLong-L1, направленный на расширение существующих больших моделей для рассуждений (LRM) на сценарии с длинными текстами с помощью обучения с подкреплением (RL). Исследование сначала определяет парадигму RL для рассуждений на длинных текстах и указывает на такие проблемы, как низкая эффективность обучения и нестабильный процесс оптимизации. QwenLong-L1 решает эти проблемы с помощью стратегии постепенного расширения контекста, которая включает: использование контролируемого дообучения (SFT) для «прогрева» с целью создания надежной начальной стратегии, применение поэтапной техники RL с учебным планом для стабилизации эволюции стратегии и стимулирование исследования стратегии с помощью стратегии ретроспективной выборки с учетом сложности. На семи бенчмарках для ответов на вопросы по длинным текстам QwenLong-L1-32B превзошел такие модели, как OpenAI-o3-mini и Qwen3-235B-A22B, а его производительность сопоставима с Claude-3.7-Sonnet-Thinking. (Источник: HuggingFace Daily Papers)
QwenLong-CPRS: Динамическая оптимизация контекста для создания LLM «бесконечной длины»: В этом техническом отчете представлен QwenLong-CPRS, фреймворк для сжатия контекста, разработанный для явной оптимизации длинных текстов. Он направлен на решение проблем чрезмерных вычислительных затрат LLM на этапе предварительного заполнения и снижения производительности при обработке длинных последовательностей из-за «потери информации в середине». QwenLong-CPRS с помощью нового механизма динамической оптимизации контекста, управляемого инструкциями на естественном языке, реализует многоуровневое сжатие контекста, тем самым повышая эффективность и производительность. Фреймворк развивает архитектуру семейства Qwen, вводя динамическую оптимизацию, управляемую естественным языком, улучшенный двунаправленный слой логического вывода с учетом границ, механизм рецензирования токенов с помощью языковой модели и параллельный логический вывод в окне. На пяти бенчмарках с контекстом от 4K до 2M слов QwenLong-CPRS превосходит такие методы, как RAG и разреженное внимание, по точности и эффективности, а также может интегрироваться с флагманскими LLM, включая GPT-4o, для достижения значительного сжатия контекста и повышения производительности. (Источник: HuggingFace Daily Papers)
RIPT-VLA: Дообучение визуально-языково-действенных моделей с помощью интерактивного обучения с подкреплением: Исследователи предлагают RIPT-VLA, интерактивную парадигму пост-обучения на основе обучения с подкреплением, использующую только разреженные бинарные вознаграждения за успех для дообучения предварительно обученных визуально-языково-действенных моделей (VLA). Этот метод направлен на решение проблемы чрезмерной зависимости существующих процессов обучения VLA от данных демонстраций экспертов в автономном режиме и контролируемого имитационного обучения, позволяя им адаптироваться к новым задачам и средам в условиях нехватки данных. RIPT-VLA, благодаря стабильному алгоритму оптимизации стратегии, основанному на динамической выборке развертывания и оценке преимущества методом исключения по одному, применяется к различным моделям VLA, значительно повышая процент успеха легковесной модели QueST и 7B модели OpenVLA-OFT, при этом обладая высокой вычислительной и информационной эффективностью. (Источник: HuggingFace Daily Papers)
IBM представляет watsonx Orchestrate, обновляя решение для AI-агентов: На конференции Think 2025 IBM представила обновленную версию watsonx Orchestrate, предлагающую предварительно созданных агентов для конкретных областей (например, HR, продажи, закупки), поддерживающую быструю разработку пользовательских AI Agent предприятиями и реализующую взаимодействие нескольких агентов с помощью инструментов оркестровки агентов. Платформа подчеркивает управление полным жизненным циклом AI Agent, включая мониторинг производительности, защиту, оптимизацию моделей и управление. IBM считает, что суть корпоративного AI заключается в реорганизации бизнеса, и следует сосредоточиться на ценности AI в решении реальных бизнес-проблем и создании измеримых результатов, а не на простом стремлении к самой технологии. (Источник: WeChat)

Пекинский университет аэронавтики и астронавтики выпустил фреймворк UAV-Flow, реализующий мелкозернистое управление траекторией БПЛА с помощью языковых команд: Команда профессора Лю Сы из Пекинского университета аэронавтики и астронавтики предложила фреймворк UAV-Flow, определив парадигму задач Flying-on-a-Word (Flow), направленную на реализацию точного реактивного управления полетом БПЛА на короткие расстояния с помощью инструкций на естественном языке. Команда использовала метод имитационного обучения, чтобы БПЛА изучал стратегии управления человеком-пилотом в реальных условиях. Для этого они создали крупномасштабный набор данных имитационного обучения БПЛА, управляемого языком в реальном мире, и создали оценочный бенчмарк UAV-Flow-Sim в симуляционной среде. Эта визуально-языковая модель действий (VLA) была успешно развернута на реальной платформе БПЛА, и была подтверждена возможность управления полетом на основе диалога на естественном языке. (Источник: WeChat)

ByteDance представляет Seedream 2.0, оптимизируя двуязычную (китайско-английскую) генерацию изображений и рендеринг текста: В ответ на недостатки существующих моделей генерации изображений в обработке деталей китайской культуры, двуязычных текстовых подсказок и рендеринга текста, ByteDance выпустила Seedream 2.0. Эта модель, являясь базовой моделью для двуязычной (китайско-английской) генерации изображений, интегрирует собственную двуязычную большую языковую модель в качестве текстового кодировщика, применяет Glyph-Aligned ByT5 для рендеринга текста на уровне символов и Scaled ROPE для поддержки генерализации на нетренированных разрешениях. Благодаря многоэтапному пост-обучению и оптимизации RLHF, Seedream 2.0 демонстрирует превосходные результаты в следовании подсказкам, эстетике, рендеринге текста и структурной корректности, а также легко адаптируется для редактирования изображений по инструкциям. (Источник: HuggingFace Daily Papers)
Фреймворк RePrompt использует обучение с подкреплением для улучшения промптов при генерации текста в изображение: Для решения проблемы, связанной с тем, что моделям преобразования текста в изображение (T2I) трудно точно уловить намерения пользователя из коротких или неоднозначных подсказок, исследователи предложили фреймворк RePrompt. Этот фреймворк с помощью обучения с подкреплением вводит явное рассуждение в процесс улучшения подсказок, обучая языковую модель генерировать структурированные, саморефлексивные подсказки и оптимизируя их на основе результатов на уровне изображения (предпочтения человека, семантическое выравнивание, визуальная композиция). Этот метод позволяет проводить сквозное обучение без необходимости в данных, размеченных вручную, и на таких бенчмарках, как GenEval и T2I-Compbench, значительно повышает точность пространственного расположения и способность к комбинаторной генерализации. (Источник: HuggingFace Daily Papers)
NOVER: Обучение с подкреплением без валидатора для стимулирующего обучения языковых моделей: Вдохновленные такими исследованиями, как DeepSeek R1-Zero, эта работа предлагает фреймворк NOVER (NO-VERifier Reinforcement Learning), направленный на решение проблемы зависимости существующих методов стимулирующего обучения (генерация промежуточных шагов рассуждения моделью на основе вознаграждения за конечный ответ) от внешних валидаторов. NOVER требует только стандартных данных для контролируемого дообучения и не нуждается во внешнем валидаторе для реализации стимулирующего обучения для различных задач преобразования текста в текст. Эксперименты показывают, что NOVER превосходит по производительности модели аналогичного масштаба, полученные путем дистилляции из крупных моделей рассуждений, таких как DeepSeek R1 671B, и открывает новые возможности для оптимизации больших языковых моделей (например, обратное стимулирующее обучение). (Источник: HuggingFace Daily Papers)
Direct3D-S2: Фреймворк для генерации 3D-моделей миллиардного масштаба на основе пространственного разреженного внимания: Для решения вычислительных и памятных проблем, связанных с генерацией 3D-форм высокого разрешения (например, представление SDF), исследователи предложили фреймворк Direct3D S2. Этот фреймворк, основанный на разреженных объемах, с помощью инновационного механизма пространственного разреженного внимания (SSA) значительно повышает вычислительную эффективность Diffusion Transformer на разреженных объемных данных, достигая ускорения в 3.9 раза при прямом распространении и в 9.6 раза при обратном распространении. Фреймворк включает вариационный автоэнкодер (VAE), который поддерживает согласованный формат разреженных объемов на этапах ввода, скрытого представления и вывода, повышая эффективность и стабильность обучения. Модель обучалась на общедоступных наборах данных, и эксперименты доказали ее превосходство над существующими методами по качеству генерации и эффективности, а также возможность обучения с разрешением 1024 на 8 GPU. (Источник: HuggingFace Daily Papers)
Приложение Doubao (豆包) запускает функцию видеозвонков, улучшая опыт взаимодействия с AI-помощником: Приложение Doubao, AI-помощник от ByteDance, добавило функцию видеозвонков. Пользователи могут взаимодействовать с Doubao в режиме реального времени через видеозвонки, например, для распознавания предметов (таких как растения, БАДы), получения инструкций по эксплуатации (например, сброс настроек телефона) и т.д. Эта функция направлена на снижение порога входа для использования AI-инструментов, особенно для пользователей, не знакомых с загрузкой фотографий или текстовым взаимодействием, предоставляя более естественный и прямой способ взаимодействия, усиливая ощущение компаньона и практичность AI-помощника. (Источник: WeChat)

Модель Veo 3 стала доступна некоторым пользователям, платформа Flow поддерживает загрузку изображений: Видеогенеративная модель Veo 3 от Google стала доступна некоторым пользователям, больше не ограничиваясь подписчиками Ultra. Одновременно с этим, ее платформа Flow (возможно, имеется в виду AI Test Kitchen или другая экспериментальная платформа) теперь поддерживает загрузку пользователями изображений для обработки или в качестве исходного материала для генерации, расширяя ее мультимодальные возможности взаимодействия. Это свидетельствует о том, что Google постепенно расширяет сферу тестирования и использования своих передовых AI-моделей. (Источник: WeChat)
Низкое количество загрузок индийской национальной большой модели Sarvam-M после выпуска вызвало споры: Sarvam AI выпустила гибридную языковую модель Sarvam-M с 24 миллиардами параметров, построенную на базе Mistral Small и поддерживающую 10 местных индийских языков, что рассматривалось как прорыв в индийских исследованиях в области AI. Однако, через два дня после размещения на Hugging Face модель была загружена всего лишь немногим более трехсот раз, что значительно меньше, чем у некоторых небольших проектов. Это вызвало критику со стороны инвестора Диди Даса и других представителей отрасли, которые заявили, что «результаты не соответствуют финансированию» и «отсутствует практическая польза». Sarvam AI ответила, что следует сосредоточиться на вкладе процесса создания модели в сообщество, и обвинила критиков в том, что они не опробовали модель на практике. Этот инцидент вызвал широкое обсуждение необходимости создания индийских национальных AI-моделей, соответствия продукта рынку и ожиданий сообщества. (Источник: WeChat)

Kunlun Tech выпустила супер-интеллектуального агента Tiangong, на начальном этапе доступ был ограничен из-за высокой нагрузки: Kunlun Tech официально выпустила супер-интеллектуального агента Tiangong, использующего архитектуру AI Agent и технологию Deep Research, способного в один прием генерировать документы, PPT, таблицы, веб-страницы, подкасты и аудио/видео контент. Система состоит из 5 экспертных интеллектуальных агентов и 1 универсального интеллектуального агента. Всего через три часа после запуска продукта из-за слишком большого количества обращений пользователей произошли сбои в работе сервиса, и компания объявила о введении мер по ограничению доступа. (Источник: WeChat)
NVIDIA представила базовую модель для человекоподобных роботов N1.5 и персональный AI-суперкомпьютер DGX: На выставке Computex Taipei генеральный директор NVIDIA Дженсен Хуанг представил новое поколение базовой модели для человекоподобных роботов Isaac GR00T N1.5, которая благодаря технологии синтетических данных сокращает цикл обучения с 3 месяцев до 36 часов. Одновременно были представлены мировая модель Cosmos Reason, инструмент симуляции с открытым исходным кодом Isaac Sim 5.0 и рабочая станция RTX PRO 6000. Кроме того, NVIDIA также представила персональные AI-суперкомпьютерные системы DGX Spark и DGX Station. DGX Spark оснащен суперчипом GB10Grace Blackwell, а DGX Station — настольным суперчипом GB300Grace Blackwell Ultra, предназначенными для предоставления разработчикам мощных вычислительных возможностей AI. (Источник: WeChat)
Microsoft Build 2025 фокусируется на AI Agent, GitHub Copilot обновляется до уровня компаньона по программированию: На конференции разработчиков Microsoft Build 2025 был сделан акцент на применении AI Agent. GitHub Copilot был обновлен с помощника по коду до партнера-агента, способного самостоятельно выполнять такие задачи, как исправление ошибок и разработка новых функций. Microsoft также представила Windows AI Foundry, помогающую разработчикам управлять и запускать LLM с открытым исходным кодом, а также переносить проприетарные модели. Microsoft 365 Copilot Tuning позволяет пользователям использовать корпоративные данные и бизнес-логику для обучения моделей и создания интеллектуальных агентов с минимальным использованием кода. (Источник: WeChat)
Tencent обновляет платформу для разработки интеллектуальных агентов TCADP, планирует открыть исходный код нескольких моделей: На саммите Tencent Cloud AI Industry Application Summit компания Tencent Cloud объявила об обновлении своего движка знаний на базе больших моделей до платформы Tencent Cloud Intelligent Agent Development Platform (TCADP) и официально выпустила ее, интегрировав модели DeepSeek-R1, V3 и поиск в интернете. Tencent также планирует выпустить мировую модель Hunyuan 3D Scene Model и открыть исходный код корпоративной гибридной модели логического вывода, гибридной модели логического вывода для конечных устройств и мультимодальной базовой модели. Недавно Tencent Hunyuan обновила модель глубокого визуального вывода Hunyuan T1 Vision, модель сквозных голосовых вызовов Hunyuan Voice и модель Hunyuan Image 2.0. (Источник: WeChat)
JD Industrials выпускает промышленную большую модель Joy industrial, ориентированную на цепочки поставок: JD Industrials выпустила большую модель Joy industrial для промышленного сектора, ориентированную на сценарии цепочек поставок. Эта модель представила AI-агентов, таких как агент по спросу, операционный агент, таможенный агент, для обслуживания JD Industrials и вышестоящих поставщиков, а также предоставляет AI-продукты, такие как эксперт по товарам и эксперт по интеграции, для нижестоящих корпоративных пользователей. Будущая цель — создание промышленных больших моделей для вертикальных отраслей, таких как вторичный рынок автомобилей, автомобили на новых источниках энергии, производство роботов. (Источник: WeChat)
🧰 Инструменты
Wen Xiaobai AI запускает функцию «Xiaobai Research Report», аналогичную Deep Research: Wen Xiaobai AI добавила функцию «Xiaobai Research Report», основанную на собственной модели Yuanshi. Она способна имитировать человеческое мышление для многоэтапного анализа и вызова инструментов, автоматически генерируя углубленные исследовательские отчеты, научные статьи, отраслевой анализ и т.д., представляя их в виде визуализированных веб-страниц с поддержкой экспорта в PDF/DOCX. Пользователям достаточно простой инструкции, чтобы примерно за 20 минут получить отчет объемом в десятки тысяч слов, содержащий анализ данных, диаграммы и интеграцию информации из нескольких источников. Эта функция подходит для различных сценариев, таких как анализ финансовых отчетов, маркетинговые исследования, рекомендации продуктов, и направлена на значительное повышение эффективности обработки информации и написания отчетов. (Источник: WeChat)

AI Baby Monitor: Локальное приложение для видеонаблюдения за младенцами на основе LLM: Разработчик создал локальное приложение для видеонаблюдения за младенцами на основе видео LLM под названием AI Baby Monitor. Приложение просматривает видеопоток и выносит суждения на основе предустановленных инструкций по безопасности, издавая звуковой сигнал при обнаружении нарушений правил безопасности. В проекте используются Qwen 2.5VL и vLLM, а также Redis для оркестровки потоков и Streamlit для создания пользовательского интерфейса. Изначально разработчик хотел следить за дочерью, пытавшейся выбраться из кроватки, а также использовал его для контроля за своим бессознательным желанием проверять телефон. В будущем планируется поддержка большего количества бэкендов и функции «запретных зон» на изображении. (Источник: Reddit r/LocalLLaMA)

Beelzebub: Фреймворк с открытым исходным кодом для создания продвинутых систем обмана (honeypot) с использованием LLM: Beelzebub — это фреймворк с открытым исходным кодом для создания приманок (honeypot), который инновационно интегрирует большие языковые модели (LLM) для создания высокореалистичных и динамичных сред обмана. Фреймворк способен имитировать целую операционную систему и взаимодействовать с атакующими чрезвычайно убедительным образом. Например, в сценарии SSH-приманки LLM может давать правдоподобные ответы на команды, даже если эти команды не выполняются в реальной системе. Его цель — как можно дольше удерживать атакующих, отвлекая их от реальных систем, и собирать ценные данные об их тактиках, техниках и процедурах. Проект открыт на GitHub и ищет обратную связь и вклад от сообщества. (Источник: Reddit r/LocalLLaMA)

Langflow: Мощный инструмент для создания и развертывания AI-агентов и рабочих процессов: Langflow — это инструмент для создания и развертывания AI-агентов и рабочих процессов на их основе. Он предлагает визуальный опыт построения и встроенный API-сервер, который может превратить каждого агента в конечную точку API, облегчая интеграцию в различные приложения. Langflow поддерживает основные LLM, векторные базы данных и постоянно растущую библиотеку AI-инструментов, обладает возможностями оркестровки нескольких агентов, управления диалогами, площадкой для мгновенного тестирования (Playground), доступом к коду, интеграцией с системами наблюдаемости (такими как LangSmith), а также безопасностью и масштабируемостью корпоративного уровня. Проект имеет открытый исходный код и доступен в виде полностью управляемого сервиса через DataStax. (Источник: GitHub Trending)
Pathway: Фреймворк ETL для потоковой обработки на Python, поддерживающий анализ в реальном времени и конвейеры LLM: Pathway — это фреймворк ETL на Python, специально разработанный для потоковой обработки, анализа в реальном времени, конвейеров LLM и RAG (генерация с дополненной выборкой). Он предоставляет простой в использовании Python API, который может интегрироваться с различными библиотеками машинного обучения Python. Его код универсален для сред разработки и производства, эффективно обрабатывая как пакетные, так и потоковые данные. Pathway управляется масштабируемым движком Rust на основе Differential Dataflow, поддерживает инкрементные вычисления, многопоточность, многопроцессорность и распределенные вычисления, при этом весь конвейер остается в памяти, что упрощает развертывание с помощью Docker и Kubernetes. (Источник: GitHub Trending)
Point-Battle: Арена для оценки способности MLLM к указанию объектов под руководством языка: Члены сообщества приглашают всех опробовать Point-Battle, платформу для оценки производительности современных мультимодальных больших языковых моделей (MLLM) в задачах указания объектов под руководством языка. Пользователи могут загружать изображения или выбирать предустановленные, вводить подсказки, наблюдать, как различные модели «указывают» на свои ответы, и голосовать за лучшую модель. Это помогает исследователям и разработчикам понять различия в способностях разных MLLM понимать визуальный контент и выполнять пространственную локализацию на основе текстовых инструкций. (Источник: Reddit r/deeplearning)
FullFront: Бенчмарк для оценки возможностей MLLM в полном цикле фронтенд-разработки: FullFront — это новый бенчмарк, предназначенный для оценки возможностей мультимодальных больших языковых моделей (MLLM) во всем процессе фронтенд-разработки, включая веб-дизайн (концептуализация), ответы на вопросы с учетом веб-страницы (визуальная организация и понимание элементов) и генерацию веб-кода (реализация). В отличие от существующих бенчмарков, FullFront использует двухэтапный процесс для преобразования реальных веб-страниц в чистый, стандартизированный HTML, сохраняя при этом разнообразие визуального дизайна и избегая проблем с авторскими правами. Широкое тестирование SOTA MLLM выявило их значительные ограничения в восприятии страниц, генерации кода (особенно обработке изображений и верстке) и реализации интерактивности. (Источник: HuggingFace Daily Papers)
📚 Обучение
Menlo Research выпустила модель SpeechLess, реализующую обучение голосовым командам без речевых данных: Статья Menlo Research «SpeechLess» принята на Interspeech 2025, и компания выпустила соответствующую модель. Исследование направлено на решение проблемы нехватки данных для голосовых команд на низкоресурсных языках, предлагая метод обучения моделей голосовым командам исключительно с использованием синтетических данных. Ключевые этапы включают: 1. Преобразование реальной речи в дискретные токены (обучение квантизатора); 2. Обучение модели SpeechLess генерировать имитированные речевые токены из текста; 3. Использование этого конвейера «текст в синтетические речевые токены» для обучения LLM голосовым командам. Результаты показывают, что обучение на полностью синтетических речевых токенах очень эффективно, открывая новые пути для создания речевых систем в условиях ограниченных ресурсов. (Источник: Reddit r/LocalLLaMA)

Алгоритм сжатия текста, эволюционирующий путем мутации кода с помощью LLM: Разработчик попытался использовать LLM (большие языковые модели) для эволюции алгоритма сжатия текста путем внесения небольших мутаций в код простого компрессора текста в стиле LZ77. Метод использует многопоколенную эволюцию, где в каждом поколении сохраняются элита и выжившие, а от родителей производятся потомки. Критерий отбора основан исключительно на коэффициенте сжатия; если цикл сжатия-распаковки завершается неудачей, кандидат отбрасывается. За 30 поколений эксперимент позволил повысить коэффициент сжатия с 1.03 до 1.85. Проект открыт на GitHub (think-a-tron/minevolve). (Источник: Reddit r/MachineLearning)

Quartet: Нативное обучение в формате FP4 обеспечивает оптимальную производительность LLM: С резким ростом вычислительных потребностей LLM обучение с использованием алгоритмов низкой точности становится ключом к повышению эффективности. Архитектура NVIDIA Blackwell поддерживает операции FP4, однако существующие алгоритмы обучения FP4 сталкиваются с проблемами снижения точности и зависимости от смешанной точности. Исследователи систематически изучили обучение FP4, поддерживаемое аппаратным обеспечением, и предложили метод Quartet, который реализует сквозное обучение FP4, где основные вычисления выполняются с низкой точностью. Путем обширной оценки моделей класса Llama были выявлены новые законы масштабирования низкой точности, количественно оценены компромиссы производительности при различной битовой ширине и определен Quartet как почти оптимальная технология обучения с низкой точностью с точки зрения точности и вычислений. Используя оптимизированные ядра CUDA, Quartet успешно достиг SOTA-уровня точности FP4 на моделях миллиардного масштаба. (Источник: HuggingFace Daily Papers)
Обучение с подкреплением на синтетических данных (Synthetic Data RL): Дообучение модели только на основе определения задачи: Данное исследование предлагает фреймворк Synthetic Data RL, который использует для дообучения модели с помощью обучения с подкреплением только синтетические данные, сгенерированные из определения задачи. Метод сначала генерирует пары вопросов и ответов из определения задачи и извлеченных документов, затем корректирует сложность вопросов в зависимости от разрешимости моделью и выбирает вопросы для RL-обучения на основе среднего процента прохождения моделью выборок. На модели Qwen-2.5-7B этот метод достиг значительного улучшения на нескольких бенчмарках, таких как GSM8K, MATH, GPQA, превзойдя контролируемое дообучение и приблизившись к результатам RL с использованием полных человеческих данных, что демонстрирует потенциал в сокращении ручной разметки. (Источник: HuggingFace Daily Papers)
TabSTAR: Базовая модель для табличных данных с семантически-целевым представлением: Несмотря на успехи глубокого обучения во многих областях, в задачах обучения на табличных данных оно все еще уступает градиентным бустинговым деревьям решений (GBDT). Исследователи представляют TabSTAR, базовую модель для табличных данных с семантически-целевым представлением, предназначенную для переноса обучения на табличных данных с текстовыми признаками. TabSTAR размораживает предварительно обученный текстовый кодировщик и вводит целевой токен, предоставляя модели контекст, необходимый для изучения вложений, специфичных для задачи. Эта модель достигает SOTA-производительности в задачах классификации с текстовыми признаками как на средних, так и на больших наборах данных, а ее этап предварительного обучения демонстрирует закон масштабирования в зависимости от количества наборов данных. (Источник: HuggingFace Daily Papers)
TIME: Многоуровневый бенчмарк для временного мышления LLM в реальных сценариях: Временное мышление имеет решающее значение для понимания LLM реального мира. Существующие работы игнорируют проблемы временного мышления в реальном мире: плотная временная информация, быстро меняющаяся динамика событий и сложные временные зависимости социальных взаимодействий. Для этого исследователи предлагают многоуровневый бенчмарк TIME, содержащий 38 522 пары вопросов и ответов, охватывающих 3 уровня и 11 мелкозернистых подзадач, а также три поднабора данных TIME-Wiki, TIME-News и TIME-Dial, отражающих различные проблемы реального мира. Исследователи провели обширные эксперименты и углубленный анализ различных моделей, а также выпустили вручную размеченный поднабор TIME-Lite. (Источник: HuggingFace Daily Papers)
Рассуждения LLM и динамические заметки: Улучшение способности к сложным ответам на вопросы: Итеративный RAG при обработке многоэтапных вопросов сталкивается с проблемами слишком длинного контекста и накопления нерелевантной информации, что влияет на способность модели к обработке и рассуждению. Исследователи предлагают метод «ведения заметок» (Notes Writing), при котором на каждом шаге из извлеченных документов генерируются краткие релевантные заметки, уменьшающие шум и сохраняющие ключевую информацию, тем самым косвенно увеличивая эффективную длину контекста LLM и улучшая ее способности к рассуждению и планированию. Этот метод не зависит от фреймворка и может быть интегрирован в различные итеративные методы RAG, демонстрируя в экспериментах значительное улучшение производительности. (Источник: HuggingFace Daily Papers)
Фреймворк s3: Эффективное обучение поисковых агентов с помощью RL на небольшом количестве данных: Системы генерации с дополненной выборкой (RAG) позволяют LLM получать доступ к внешним знаниям. Недавние исследования используют обучение с подкреплением (RL), чтобы LLM выступали в роли поисковых агентов, однако существующие методы либо оптимизируют поиск, игнорируя последующую полезность, либо дообучают всю LLM, что приводит к связи между поиском и генерацией. Исследователи предлагают фреймворк s3, легковесный, не зависящий от модели метод, который разделяет поисковик и генератор и использует «прирост сверх RAG» (Gain Beyond RAG) в качестве вознаграждения для обучения поисковика. s3 требует всего 2.4 тыс. обучающих выборок, чтобы превзойти базовые модели, использующие в 70 раз больше данных, и демонстрирует лучшие результаты на нескольких бенчмарках QA. (Источник: HuggingFace Daily Papers)
ReflAct: Принятие решений LLM-агентами в мире через рефлексию о целевом состоянии: Существующие LLM-агенты (например, на основе ReAct) при чередовании мышления и действий в сложных средах часто генерируют необоснованные или несвязные рассуждения, что приводит к расхождению между фактическим состоянием и целью. Исследователи считают, что это связано с трудностями ReAct в поддержании последовательных внутренних убеждений и согласовании с целью. Для этого они предлагают ReflAct, новую базовую архитектуру, которая переносит рассуждения от планирования следующего действия к постоянной рефлексии о состоянии агента относительно его цели. Явно основывая решения на состоянии и принуждая к постоянному согласованию с целью, ReflAct значительно повышает надежность стратегии, значительно превосходя ReAct в таких задачах, как ALFWorld. (Источник: HuggingFace Daily Papers)
FREESON: Фреймворк для рассуждений с дополненной выборкой без ретривера: Большие модели рассуждений (LRM) отлично справляются с многоэтапными рассуждениями и вызовом поисковых систем, однако существующие методы дополненной выборки зависят от отдельных моделей ретриверов, что ограничивает роль LRM в поиске и может приводить к ошибкам из-за узких мест в представлении. Исследователи предлагают фреймворк FREESON, который позволяет LRM самостоятельно извлекать знания, выступая в роли генератора и ретривера. Этот фреймворк вводит алгоритм CT-MCTS, специально предназначенный для задач поиска, позволяя LRM перемещаться по корпусу к области ответа. Эксперименты показывают, что FREESON значительно превосходит многоэтапные модели рассуждений, использующие отдельные ретриверы, на нескольких бенчмарках QA с открытым доменом. (Источник: HuggingFace Daily Papers)
LLMSynthor: Университет Макгилла предлагает новый фреймворк для синтеза статистически контролируемых данных: Для решения проблем существующих методов синтеза данных в части правдоподобия, согласованности распределения и масштабируемости, команда Университета Макгилла представила фреймворк LLMSynthor. Этот фреймворк не заставляет большие модели напрямую генерировать данные, а превращает их в «генераторы, осведомленные о структуре». Посредством структурного вывода, статистического выравнивания (сравнение статистических сводок, а не исходных данных), генерации правил для выборки распределений (а не отдельных выборок) и итеративного процесса выравнивания, генерируются синтетические наборы данных, которые структурно и статистически очень близки к реальным данным и соответствуют здравому смыслу. Этот метод имеет теоретические гарантии сходимости и был проверен в нескольких реальных сценариях, таких как электронная коммерция, демография и городская мобильность, и совместим с различными большими моделями. (Источник: 量子位)

💼 Бизнес
Hygon Information и Sugon планируют крупную реструктуризацию активов, возможно, объединение: Компания-разработчик чипов Hygon Information и гигант в области суперкомпьютеров Sugon одновременно объявили о приостановке торгов акциями. Hygon Information намерена поглотить Sugon путем выпуска акций класса А для всех акционеров Sugon, владеющих акциями класса А, в обмен на их акции, а также планирует выпустить акции класса А для привлечения сопутствующего финансирования. Hygon Information специализируется на разработке высокопроизводительных CPU и GPU, в то время как Sugon имеет большой опыт в области серверов и высокопроизводительных вычислений и является крупнейшим акционером Hygon Information. В случае успеха это слияние создаст отечественного гиганта в области вычислительных мощностей с общей рыночной капитализацией около 400 миллиардов юаней, что окажет глубокое влияние на структуру китайской индустрии вычислительных мощностей. (Источник: 量子位, WeChat)

LMArena.ai ответила на статью Cohere и привлекла $100 млн финансирования: Рейтинг AI-моделей LMArena.ai ответил на спор с компанией Cohere относительно бенчмаркинга и недавно объявил о привлечении $100 млн финансирования при оценке в $600 млн. Реакция сообщества на это неоднозначна: некоторые пользователи считают, что в ответе LMArena содержатся статистически сомнительные утверждения, а значительные инвестиции со стороны венчурных капиталистов могут подорвать ее авторитет как нейтрального бенчмарка, опасаясь, что ее бизнес-модель может повлиять на шансы открытых моделей попасть в рейтинг или на доступность данных. (Источник: Reddit r/LocalLLaMA)
JD инвестирует в компанию Zhìyuán Robotics, основанную Чжихуэй Цзюнем: Zhìyuán Robotics недавно завершила новый раунд финансирования, в котором приняли участие JD и Shanghai Embodied Intelligence Fund, а также некоторые из прежних акционеров. Zhìyuán Robotics была основана в 2023 году бывшим «гениальным юношей» Huawei Пэн Чжихуэем (Чжихуэй Цзюнь) и специализируется на разработке воплощенных интеллектуальных роботов. Это финансирование будет способствовать дальнейшим инвестициям Zhìyuán Robotics в технологические разработки и расширение рынка. (Источник: WeChat)
🌟 Сообщество
Обсуждение проблем интеграции OpenWebUI с Ollama и инструментами MCP: Пользователь Reddit столкнулся с проблемами при использовании OpenWebUI с бэкендом Ollama (модель devstral:24b) и инструментами MCP (mcp-atlassian): несмотря на то, что логи сервера MCP показывали успешный ответ 200, OpenWebUI выдавал сообщение «Похоже, возникла проблема с извлечением данных из инструмента» или «Нет прав на доступ к инструменту». Пользователь ищет способы отладки. Другой пользователь интересуется, как LLM в OpenWebUI использует инструменты MCP, в частности, как LLM узнает, какой инструмент использовать, и каковы причины нестабильной работы вызова инструментов. (Источник: Reddit r/OpenWebUI, Reddit r/OpenWebUI)

Размышления о влиянии AI на будущее человечества: разделение, возвращение к природе или сосуществование?: Пользователь Reddit поделился своими мыслями о будущем AI, предположив, что AI может привести к разделению человечества: одна часть людей, потеряв работу и творческую деятельность из-за AI, вернется к природе и жизни без технологий; другая часть глубоко интегрируется с технологиями, превратившись в киборгов. Сильная солнечная вспышка может уничтожить все технологии, и тогда выживут только те, кто адаптировался к природе. В посте также предложена другая возможность: человечество научится гармонично сосуществовать с AI, используя его как инструмент, а не как божество. В комментариях развернулась бурная дискуссия, затрагивающая вопросы осуществимости, технологической зависимости, распределения ресурсов и т.д. (Источник: Reddit r/ArtificialInteligence)
Размышления о степени понимания LLM: действительно ли мы не знаем, как они работают?: Пользователь Reddit поставил под сомнение утверждение о том, что «принцип работы LLM не до конца понятен». Пользователь считает, что, хотя мы можем не до конца понимать, почему распределенная семантика так сильна или почему генерация кода может быть эффективно смоделирована LLM, внутренние механизмы LLM, такие как кодеры/декодеры, сети прямого распространения и т.д., известны. Пользователь считает, что смешивание «неполного понимания их предельных возможностей и эмерджентных явлений» с «полным непониманием принципа их работы» вводит общественность в заблуждение и может способствовать ошибочному антропоморфному пониманию LLM, например, приписыванию им несуществующей «субъектности». В комментариях же отмечается, что знание базовой архитектуры не равно пониманию того, как сложная система производит результаты, например, что конкретно делает каждая сеть прямого распространения, остается загадкой. (Источник: Reddit r/ArtificialInteligence)

Злоупотребление инструментами AI-саммаризации (например, Grok) в социальных сетях вызывает опасения по поводу «аутсорсинга мышления»: Пользователь Reddit заметил, что в социальных сетях, таких как X (бывший Twitter), часто появляются ответы типа «@grok summarize this» на простой контент (например, комментарии о сэндвичах). Автор поста считает, что это отражает отказ людей от элементарных усилий по обдумыванию и вынесению суждений, передачу AI тех незначительных решений и мыслительных процессов, которые они могли бы выполнить сами, что приводит к снижению зависимости от собственных мыслительных способностей. Мнения в комментариях разделились: одни считают это просто эволюцией инструментов (по аналогии с использованием Google для поиска в прошлом), другие — проявлением лени, а третьи отмечают, что это явление более распространено на определенных платформах. (Источник: Reddit r/ArtificialInteligence)
Потенциал и размышления об AI в образовании: вспомогательное обучение или ослабление способностей?: Пользователь Reddit выразил сожаление, что если бы в старших классах у него был AI, учебный опыт мог бы быть совершенно другим, поскольку AI способен детально раскладывать знания, беспристрастно отвечать на вопросы и помогать поддерживать любознательность. Многие комментаторы согласились, считая, что AI может значительно повысить эффективность обучения и широту исследования знаний. Однако некоторые комментаторы выразили опасения, что современные AI-инструменты могут быть разработаны так, чтобы «держать пользователей в неведении», или что неравное распределение образовательных ресурсов приведет к тому, что состоятельные слои населения получат качественную AI-поддержку, в то время как учащиеся государственных школ могут пострадать от некачественных AI-инструментов и даже быть «обучены» AI только подчиняться. (Источник: Reddit r/ArtificialInteligence)
Обсуждение изменения профессий в эпоху AI: все станут менеджерами или появится «AI-разрыв»?: Пост на Reddit вызвал дискуссию о будущих формах работы после повсеместного распространения AI. Автор поста предположил, не станут ли в будущем все люди менеджерами AI-инструментов, работая всего несколько часов в неделю. Мнения в комментариях разделились: одни считают, что AI может заменить управленческий персонал; другие предполагают, что будущее общество будет разделено на классы «владеющих роботами» и «не владеющих роботами»; третьи считают, что это изменение уже происходит и не является чем-то далеким. Центральным вопросом обсуждения стало то, как AI изменит рабочие обязанности и роль человека в экономической системе. (Источник: Reddit r/ArtificialInteligence)
Коммуникация с помощью AI: решение проблем с написанием электронных писем для людей с социальной тревожностью: Пользователь Reddit поделился тем, как AI помог ему улучшить общение по электронной почте. Пользователь заявил, что плохо умеет писать корректные электронные письма: либо слишком официально, как Шекспир, либо как устаревший чат-бот службы поддержки. Теперь, составляя черновик письма с помощью AI, а затем добавляя личный стиль, он эффективно решил проблемы с началом письма (например, «Hope this email finds you well») и другие социальные трудности. Этот пост нашел отклик у многих пользователей с аналогичной социальной тревожностью или трудностями в письме, которые считают, что AI демонстрирует практическую ценность в содействии повседневной коммуникации. (Источник: Reddit r/artificial)
💡 Прочее
Claude Sonnet 4: Образец знания, отточенный алгоритмом, совершенство которого также является недостатком: В философской статье Claude Sonnet 4 сравнивается с «образцом знания», тщательно отточенным алгоритмом. Автор считает, что его ответы плавны, логически завершены, на первый взгляд безупречны, но эта безупречность сама по себе скрывает «несовершенные» качества, присущие реальному знанию, такие как ошибки, противоречия и честное «я не знаю». В статье исследуются различия между источниками знаний AI и человеческим опытом, отмечается, что AI обладает памятью, но лишен опыта. В то же время, предостерегается, что чрезмерная зависимость от AI может ослабить способность к независимому мышлению, и утверждается, что AI устраняет неопределенность, что является как его ценностью, так и потенциальной опасностью. (Источник: WeChat)

Современное состояние и будущее рекламы, сгенерированной AI: реклама индийской компании вызвала дискуссию о «дешевизне»: Пост на Reddit продемонстрировал телевизионную рекламу известной индийской компании, полностью сгенерированную AI, что вызвало у пользователей дискуссию о качестве контента, сгенерированного AI, и будущих тенденциях. Многие комментаторы сочли рекламу грубо сделанной и неэффективной, но некоторые отметили, что это может отражать тот факт, что на индийском рекламном рынке и так существует много низкобюджетных производств. Дискуссия распространилась на потенциал персонализации AI-рекламы (например, умные телевизоры генерируют рекламу в реальном времени на основе данных пользователя) и на то, привыкнут ли люди постепенно к такому «грубому» качеству или даже начнут его ожидать. (Источник: Reddit r/ChatGPT)

Обсуждение стратегий оптимизации больших и малых моделей в условиях ограниченных ресурсов: Сообщество Reddit обсуждает, что в условиях ограниченных ресурсов является более практичным: приоритетное развитие технологий оптимизации для больших моделей (таких как PEFT, LoRA, квантование) или стремление повысить производительность малых моделей до уровня больших. Участники дискуссии интересуются осуществимостью сжатия знаний и «рассуждающих» способностей моделей с миллиардами параметров в малые модели (например, модели дистилляции, подобные Deepseek Qwen) с примерно 100 миллионами параметров, а также нижним пределом количества параметров для малых моделей. Это отражает постоянное внимание сообщества к вопросам демократизации AI и эффективного развертывания. (Источник: Reddit r/deeplearning)