Ключевые слова:Языковая модель, Исследование ИИ, OpenAI, MiniMax, Gemini, DeepSeek, Обучение с подкреплением, ИИ-агент, Эмерджентная рассогласованность, Модель MiniMax-M1, Gemini 2.5 Pro, Программируемые возможности DeepSeek-R1, Протокол управления моделями (MCP)
🔥 В центре внимания
OpenAI опубликовала исследование, посвященное феномену «эмерджентного рассогласования» в языковых моделях и механизмам его смягчения: Исследование OpenAI показывает, что языковая модель, обученная генерировать небезопасный компьютерный код, может демонстрировать широкое «рассогласованное» поведение, то есть «эмерджентное рассогласование». Исследование выявило наличие в модели специфических паттернов (аналогичных паттернам активности мозга), которые становятся более активными при появлении рассогласованного поведения. Эти паттерны возникают из описаний нежелательного поведения в обучающих данных. Путем прямого увеличения или уменьшения активности этих паттернов можно изменять степень согласованности модели. Кроме того, переобучение модели на корректной информации может вернуть ее к полезному поведению. Эта работа способствует пониманию причин рассогласования моделей и может послужить основой для систем раннего предупреждения и путей исправления рассогласования во время обучения (Источник: OpenAI, karinanguyen_, janonacct)

Yann LeCun подчеркнул теоретические преимущества рассуждений в непрерывном латентном пространстве перед рассуждениями в дискретном пространстве токенов: Yann LeCun ретвитнул и прокомментировал статью, опубликованную командой Yuandong Tian из Meta AI, в которой теоретически доказывается, что рассуждения в непрерывном латентном пространстве более эффективны, чем рассуждения в дискретном пространстве токенов. В статье отмечается, что для графа с n вершинами и диаметром D двухуровневый Transformer с D-шаговой непрерывной цепочкой мыслей (CoT) может решить проблему достижимости в ориентированном графе, в то время как известные на данный момент Transformer с постоянной глубиной и дискретной CoT требуют O(n^2) шагов декодирования. Основная идея заключается в том, что непрерывное мышление способно одновременно кодировать несколько кандидатов путей в графе, реализуя неявный «параллельный поиск», тогда как последовательности дискретных токенов могут обрабатывать только один путь за раз (Источник: ylecun, Ahmad_Al_Dahle, HamelHusain)
MiniMax открыла исходный код модели MiniMax-M1, специально разработанной для рассуждений на длинных текстах: MiniMax объявила об открытии исходного кода своей новейшей крупномасштабной языковой модели MiniMax-M1, которая устанавливает новые стандарты в области рассуждений на длинных текстах. Она обладает контекстным окном ввода в 1M токенов и способностью вывода 80k токенов, демонстрируя высочайший уровень агентных (Agentic) приложений среди моделей с открытым исходным кодом. Примечательно, что модель была обучена с использованием эффективного обучения с подкреплением (RL), и, как утверждается, стоимость обучения составила всего 534 700 долларов США. Эта инициатива направлена на продвижение границ исследований и приложений ИИ, особенно в области обработки и понимания крупномасштабных текстовых данных (Источник: cognitivecompai, MiniMax__AI, OpenRouter)

Раскрыта архитектура Gemini 2.5 Pro, играющей в «Покемонов»: Архитектура, лежащая в основе успешной игры модели Gemini 2.5 Pro от Google DeepMind в «Покемонов», привлекла внимание. Эта архитектура демонстрирует мощные способности модели в понимании сложных задач, генерации стратегий и многошаговых рассуждениях. Анализируя состояние игры, понимая правила и принимая решения, Gemini 2.5 Pro не только играет в игру, но и на более глубоком уровне демонстрирует свой потенциал в качестве универсального ИИ-агента, предоставляя ориентир для будущих приложений ИИ в более широких интерактивных средах (Источник: _philschmid, Ar_Douillard)

🎯 Новости
Essential AI выпустила Essential-Web v1.0, предварительно обученный набор данных, содержащий 24 триллиона токенов: Essential AI объявила о своем последнем исследовательском достижении — Essential-Web v1.0, крупномасштабном предварительно обученном наборе данных, содержащем 24 триллиона токенов и снабженном обширными метаданными. Этот набор данных предназначен для того, чтобы помочь пользователям легко создавать высокопроизводительные наборы данных для различных областей и сценариев использования, а также демонстрирует огромную ценность для внутренних работ по управлению данными. Ожидается, что этот шаг будет способствовать развитию в области обучения крупномасштабных языковых моделей и управления данными (Источник: amasad, code_star, ClementDelangue)

MiniMax представила видеомодель Hailuo 02, подчеркивая следование инструкциям и экономическую эффективность: На второй день мероприятия #MiniMaxWeek компания MiniMax выпустила видеомодель Hailuo 02. Утверждается, что эта модель отлично справляется со следованием инструкциям, способна обрабатывать экстремальные физические ситуации (например, акробатические выступления) и изначально поддерживает разрешение 1080p. MiniMax подчеркивает, что при достижении качества мирового уровня она также добилась рекордно низкой себестоимости. Это знаменует новый прогресс MiniMax в области мультимодальной генерации, особенно в создании высококачественного видеоконтента (Источник: _akhaliq, 量子位)
DeepSeek-R1 занял первое место в краудсорсинговом тестировании веб-программирования, обогнав Claude 4: Согласно последнему отчету с арены больших моделей, новая версия модели R1 от DeepSeek (версия 0528) превзошла Claude Opus 4, широко считающуюся топовой моделью для кодирования, по возможностям веб-программирования, заняв первое место. Производительность DeepSeek-R1-0528 на LiveCodeBench также близка к модели o3-high от OpenAI, что вызвало предположения о том, что это может быть легендарная версия R2. Модель в настоящее время доступна на официальном сайте DeepSeek, в приложении и мини-программе, пользователи могут опробовать ее возможности программирования, включая генерацию веб-страниц и кода приложений, готовых к запуску (Источник: 量子位)

Команда SGLang запустила DeepSeek 671B на NVIDIA GB200 NVL72, достигнув скорости декодирования 7583 токенов/сек/GPU: LMSYS Org объявила, что команда SGLang успешно запустила модель DeepSeek 671B на новейшем оборудовании NVIDIA GB200 NVL72. Благодаря дезагрегации PD и крупномасштабному параллелизму экспертов была достигнута скорость декодирования 7583 токена в секунду на GPU, что в 2,7 раза выше, чем на H100. Это сотрудничество было инициировано Pen Li из NVIDIA, а команда FlashInfer оказала мощную поддержку, продемонстрировав скачок производительности, достигнутый благодаря сочетанию нового оборудования и оптимизированного программного обеспечения (Источник: Tim_Dettmers)

Menlo Research выпустила Jan-nano, модель с 4B параметрами, которая, как утверждается, превосходит DeepSeek-v3-671B при использовании MCP: Menlo Research выпустила Jan-nano, модель с 4 миллиардами параметров, созданную на основе Qwen3-4B и доработанную с помощью DAPO. Утверждается, что при использовании протокола управления моделью (MCP) эта модель превосходит по производительности DeepSeek-v3-671B, имеющую значительно большее количество параметров. Jan-nano обладает возможностями поиска в реальном времени в сети и глубокого исследования, модель и формат GGUF доступны на HuggingFace. Пользователи могут запускать ее локально через Jan Beta и активировать сетевые инструменты с помощью ключа Serper API (Источник: Alibaba_Qwen)
Cohere предложила технологию Treasure Hunt, позволяющую в реальном времени находить задачи с «длинным хвостом» с помощью маркировки во время обучения: Исследователи из Cohere Labs предложили новый метод под названием «Treasure Hunt», который путем добавления простых меток во время обучения модели позволяет эффективно находить и улучшать производительность модели на задачах с «длинным хвостом» во время инференса. Этот метод направлен на замену сложного и хрупкого инжиниринга промптов, достигая повышения производительности на недостаточно представленных задачах за счет обогащения обучающих данных и позволяя пользователям осуществлять явный контроль во время инференса, что обеспечивает обобщаемую выгоду на множестве задач (Источник: sarahookr, _akhaliq)

OpenBMB выпустила CPM.cu, легковесный и эффективный фреймворк для инференса LLM на устройствах: OpenBMB выпустила CPM.cu, легковесный и эффективный фреймворк CUDA для инференса больших языковых моделей (LLM) на устройствах, который уже используется для развертывания MiniCPM4. Фреймворк интегрирует их обучаемое ядро разреженного внимания InfLLM v2, значительно улучшая возможности обработки длинных контекстов. Утверждается, что при длине контекста 128K его производительность в 4-6 раз выше, чем у обычных моделей 8B (таких как Qwen3-8B) (Источник: teortaxesTex)
Avey AI выпустила новую архитектуру языковой модели Avey, не зависящую от многоголовочного внимания или рекуррентных механизмов: Команда Avey AI разрабатывает новую архитектуру языковой модели под названием “Avey”, которая не использует никаких вариантов многоголовочного внимания или рекуррентных механизмов и хорошо работает с длинными контекстами. Проект открыт под лицензией Apache-2.0, опубликованы соответствующая статья, демонстрационная модель и репозиторий на GitHub. В настоящее время выпущенная модель предварительно обучена всего на 100 миллиардах токенов, но команда планирует в будущем обучать более крупные модели на основе этой архитектуры. Демонстрация показывает, что модель Avey 1.5B при обработке ввода в 45K токенов на ноутбуке с 4060 занимает менее 4 ГБ видеопамяти (точность bf16) (Источник: lateinteraction)
Опубликован технический отчет OneRec, предлагающий заменить многоступенчатые рекомендательные системы одной моделью кодировщик-декодировщик: В техническом отчете под названием OneRec предложена новая архитектура рекомендательной системы. Эта архитектура заменяет традиционный многоступенчатый процесс рекомендательной системы одной моделью кодировщик-декодировщик. Модель обучается путем предсказания следующего токена для семантических идентификаторов элементов. Ее основная конструкция включает токенизатор, использующий RQ-Kmeans и выполняющий совместное мультимодальное выравнивание для генерации семантических идентификаторов от грубых до детальных (Источник: TheXeophon, teortaxesTex)

Изменение формата статей Google DeepMind с двухколоночного на одноколоночный привлекло внимание: Пользователь социальных сетей Gabriele Berton заметил, что Google DeepMind, по-видимому, изменила формат верстки своих исследовательских статей с прежнего двухколоночного на одноколоночный. Он указал на это изменение, сравнив скриншоты статьи о Gemma 3 трехмесячной давности и недавней статьи о Gemini 2.5, и призвал Google DeepMind вернуться к использованию двухколоночного формата, считая старый формат лучшим (Источник: gabriberton)

Infini-gram выпустила «mini» версию, значительно сократив объем хранения индекса: Infini-gram выпустила свою «mini» версию, поисковую систему с чрезвычайно сжатым индексом, что позволило сократить требования к хранению в 14 раз. Эта версия оптимизирована для крупномасштабных индексов и эффективного обслуживания, доступна бесплатно через веб-интерфейс и API, и уже помогла исследователям массово выявить проблемы загрязнения оценок. Инструмент позволяет осуществлять поиск по 45,6 ТБ текстовых данных (Источник: Tim_Dettmers)

LLaMA Factory теперь поддерживает тонкую настройку моделей серии Falcon H1 с использованием Full-FineTune или LoRA: LLaMA Factory объявила о добавлении поддержки тонкой настройки моделей серии Falcon H1. Пользователи теперь могут использовать методы Full-FineTune или LoRA для кастомизированного обучения этих моделей. Это обновление было внесено DhiaRhayem и еще больше расширяет диапазон поддерживаемых моделей и гибкость тонкой настройки в LLaMA Factory (Источник: yb2698)

🧰 Инструменты
Claude Code теперь поддерживает подключение к удаленным серверам MCP: Anthropic объявила, что ее ИИ-помощник для программирования Claude Code теперь может подключаться к удаленным серверам протокола управления моделями (MCP). Это означает, что пользователи могут напрямую извлекать контекстную информацию из своих инструментов в Claude Code без необходимости локальной настройки. Это обновление направлено на повышение эффективности и гибкости рабочих процессов разработчиков, делая использование возможностей Claude Code в различных средах более удобным (Источник: alexalbert__, cto_junior)

DSPy: эффективный путь к созданию небольших языковых моделей с открытым исходным кодом: Обсуждения в социальных сетях подчеркивают важность фреймворка DSPy при создании приложений на основе небольших языковых моделей (включая модели с открытым исходным кодом). Считается, что DSPy предоставляет метод, не зависящий от конкретных крупных закрытых моделей, что обеспечивает разработчикам определенную гарантию на случай, если крупные поставщики моделей в будущем ограничат или закроют доступ. Основная идея DSPy заключается в том, чтобы рассматривать промпты (prompt) как объекты, которые нужно компилировать, а не писать вручную, стимулируя скорость итераций путем систематической генерации, оценки и постоянного улучшения промптов, формируя тем самым настоящий технологический барьер (Источник: lateinteraction, lateinteraction, lateinteraction)
Выпущена DeepSite V2 с интеграцией модели DeepSeek-R1 и поддержкой целевого редактирования: Выпущена версия DeepSite V2, предлагающая совершенно новый пользовательский интерфейс и интегрированную модель DeepSeek-R1. Новая версия поддерживает целевое редактирование любых элементов и позволяет перепроектировать существующие веб-сайты. Эти функции направлены на улучшение опыта и эффективности пользователей при создании и изменении веб-страниц с помощью Vibe Coding (интуитивного программирования или программирования на основе ощущений) (Источник: _akhaliq, LoubnaBenAllal1)
Hugging Face Hub добавил функцию фильтрации по размеру модели: Hugging Face Hub представил долгожданную новую функцию, позволяющую пользователям фильтровать миллионы моделей по их размеру. Это улучшение стало возможным благодаря широкому распространению форматов сохранения моделей safetensors и GGUF, что позволило надежно фильтровать модели по размеру, значительно повысив эффективность поиска и выбора моделей пользователями на Hub (Источник: TheZachMueller)

LangGraph Studio добавил функцию оценки агентов: LangChain объявил, что его LangGraph Studio теперь поддерживает оценку агентов. Пользователи могут запускать своих агентов на наборах данных LangSmith и применять к результатам оценщики, причем весь процесс не требует написания кода. Эта новая функция призвана упростить и ускорить процесс оценки производительности ИИ-агентов, помогая разработчикам удобнее итерировать и оптимизировать своих агентов (Источник: Hacubu)

Выпущен OpenHands CLI: открытый, не зависящий от модели инструмент командной строки для кодирования: All Hands AI представила OpenHands CLI, новый инструмент командной строки для кодирования. Инструмент обладает высокой точностью (как утверждается, сравнимой с Claude Code), полностью открыт (лицензия MIT) и не зависит от модели, пользователи могут использовать API или собственные модели. Его установка и запуск просты, он призван предоставить разработчикам гибкого и мощного ИИ-помощника для кодирования (Источник: LoubnaBenAllal1)
Memex выпустил Launch 2, поддерживающий быстрое создание серверов MCP из Prompt: Memex выпустил Launch 2, который позволяет пользователям создавать сервер MCP (Model Control Protocol) из Prompt за 10 минут. Memex описывается как интегрирующий функции Claude Code и Claude Desktop и поддерживающий модели Anthropic и Gemini. Это обновление направлено на упрощение и ускорение процесса разработки и развертывания ИИ-приложений (Источник: _akhaliq)
Gradio Space теперь можно одним кликом добавить как инструмент MCP: Julien Chaumond объявил, что теперь каждый Gradio Space можно одним кликом добавить в качестве инструмента на свой сервер MCP (Model Control Protocol). Это обновление значительно упрощает интеграцию приложений Gradio в более широкие рабочие процессы ИИ и системы агентов, повышая практичность Gradio как платформы для быстрого прототипирования и развертывания ИИ-приложений (Источник: mervenoyann, _akhaliq)

Replit добился ряда успехов в создании платформы для кодирования с ИИ: Replit добился ряда успехов в создании своей платформы для кодирования с ИИ, включая функции аутентификации, доменных имен, управления ключами, фоновых задач, хранения данных, а также универсального доступа к моделям. Эти достижения направлены на предоставление разработчикам более полной и мощной облачной среды разработки, особенно для разработки и развертывания ИИ-приложений. Replit также сотрудничает с HUMAIN из Саудовской Аравии для запуска версии Replit с приоритетом арабского языка, чтобы расширить возможности местных разработчиков (Источник: amasad, amasad)

Artificial Analysis выпустила MicroEvals для быстрой «интуитивной проверки» моделей: Artificial Analysis выпустила MicroEvals, инструмент, предназначенный для быстрой «интуитивной проверки» (vibe check) моделей, дополняющий традиционные бенчмарки. Этот инструмент позволяет пользователям выйти за рамки чисто цифровых показателей и более интуитивно оценить производительность модели в конкретных сценариях использования. clefourrier поделился интересной подборкой промптов и результатов «интуитивной проверки», демонстрирующих практическое применение MicroEvals (Источник: clefourrier, RisingSayak)
Плагин DeepThink предоставляет локальным моделям расширенные возможности рассуждений в стиле Gemini 2.5: Разработчик создал открытый плагин DeepThink, предназначенный для привнесения в локально запускаемые большие языковые модели (такие как DeepSeek R1, Qwen3 и др.) расширенных возможностей рассуждений в стиле «глубокого мышления» Google Gemini 2.5. Плагин использует структурированный метод рассуждений, заставляя модель параллельно генерировать несколько гипотез и критически их оценивать, тем самым повышая производительность в сложных задачах рассуждений, математических задачах и задачах кодирования. Проект занял третье место на хакатоне Cerebras & OpenRouter Qwen 3 (Источник: Reddit r/LocalLLaMA)

Генератор ответов Voiceflow использует технологию извлечения для предоставления информации из нормативных документов: Matthew Mrosko поделился примером использования своего генератора ответов с технологией извлечения Voiceflow. Система способна получать доступ к нормативным документам внутри организации и возвращать наиболее релевантные текстовые блоки, их оценку и имя исходного файла. Это демонстрирует практическое применение технологии генерации с дополненной выборкой (RAG) в области ответов на вопросы по специфическим знаниям и проверки соответствия нормативным требованиям (Источник: ReamBraden)
📚 Обучение
DeepLearning.AI в сотрудничестве с Meta запускает краткосрочный курс «Building with Llama 4»: Andrew Ng объявил о запуске нового краткосрочного курса «Building with Llama 4» в сотрудничестве с Meta AI, который будет вести Amit Sangani, директор по партнерскому инжинирингу в Meta AI. Курс познакомит с тремя новыми моделями Llama 4 (включая Maverick и Scout, использующие архитектуру MoE), их мультимодальными возможностями (такими как рассуждения по нескольким изображениям и локализация изображений), обработкой длинных контекстов (поддержка до 10M токенов), а также инструментами оптимизации промптов Llama и набором инструментов для синтетических данных. Цель курса — помочь разработчикам освоить навыки создания приложений с использованием Llama 4 (Источник: AndrewYNg, DeepLearningAI, AIatMeta)
Hamel Husain организует бесплатный мини-сериал из 5 частей по оценке и оптимизации RAG: Hamel Husain объявил, что совместно с Ben Clavié и несколькими экспертами в области RAG организует бесплатный мини-сериал из 5 частей на тему оценки и оптимизации генерации с дополненной выборкой (RAG). Первую часть проведет Ben Clavié, который опровергнет утверждение, что «RAG мертв». Nandan Thakur также примет участие в обучении, обсуждая сдвиг парадигмы, необходимый для оценки моделей IR в эпоху RAG, подчеркивая важность метрик оценки разнообразия и бенчмарков (таких как FreshStack) (Источник: HamelHusain, HamelHusain)

Sebastian Raschka опубликовал расширенное руководство по пониманию и кодированию KV Caching с нуля: Sebastian Raschka поделился своей последней статьей о кэшировании ключ-значение (KV Caching), предоставив расширенное руководство по пониманию и кодированию KV Caching с нуля. KV Caching — это ключевая технология оптимизации в процессе инференса больших языковых моделей (LLM), используемая для ускорения процесса генерации. Руководство призвано помочь читателям глубоко понять принцип его работы и научиться реализовывать его на практике (Источник: rasbt)
Статья Direct Reasoning Optimization (DRO) предлагает фреймворк для самовознаграждения и оптимизации рассуждений LLM: В статье под названием «Direct Reasoning Optimization: LLMs Can Reward And Refine Their Own Reasoning for Open-Ended Tasks» предложен фреймворк обучения с подкреплением под названием DRO. Этот фреймворк направлен на тонкую настройку производительности LLM в открытых, особенно в задачах с длинными рассуждениями, с помощью нового сигнала вознаграждения — вознаграждения за рефлексию рассуждений (R3). Суть R3 заключается в выборочном определении и подчеркивании ключевых токенов в эталонном результате, которые отражают влияние предыдущей цепочки рассуждений модели, тем самым улавливая согласованность между рассуждениями и эталонным результатом на мелкозернистом уровне. Ключевым моментом является то, что R3 вычисляется внутри той же модели, которая оптимизируется, тем самым реализуя полностью самосогласованную схему обучения (Источник: teortaxesTex)

Статья EMLoC: Энергоэффективная тонкая настройка на основе эмулятора с коррекцией LoRA: В статье «EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction» предложен фреймворк под названием EMLoC, предназначенный для тонкой настройки модели с тем же бюджетом памяти, что и при инференсе. EMLoC создает легковесные эмуляторы для конкретных задач с использованием сингулярного разложения (SVD) с учетом активаций на небольшом калибровочном наборе данных, а затем выполняет тонкую настройку этого эмулятора с помощью LoRA. Для решения проблемы рассогласования между исходной моделью и сжатым эмулятором в статье предложен новый алгоритм компенсации для коррекции доработанных модулей LoRA, чтобы их можно было объединить обратно в исходную модель для инференса. EMLoC поддерживает гибкие коэффициенты сжатия и стандартные процессы обучения, эксперименты показывают, что он превосходит другие базовые линии на нескольких наборах данных и модальностях и может выполнять тонкую настройку модели 38B на одном потребительском GPU с 24 ГБ памяти (Источник: HuggingFace Daily Papers)
TuringPost обобщает последние исследовательские статьи в области ИИ, охватывающие взгляд на LLM как на сложные системы, расширение агентов и др.: TuringPost собрал последние исследовательские статьи этой недели в области ИИ, особо выделив 6 из них, включая «LLMs and Emergence: A Complex Systems Perspective», «The Illusion of the Illusion of Thinking», «Build the Web for Agents, not Agents for the Web» и другие. Кроме того, перечислены многочисленные статьи по направлениям ИИ-агентов, исследований кода, обучения с подкреплением, оптимизации моделей и т.д., предоставляя исследователям и разработчикам богатые учебные ресурсы (Источник: TheTuringPost)

Опубликовано руководство по тонкой настройке Meta AI VJEPA 2 для классификации видео: Aritra Roy Gosthipaty опубликовал Jupyter Notebook с руководством по тонкой настройке модели VJEPA 2 от Meta AI для классификации видео. VJEPA (Video Joint Embedding Predictive Architecture) — это метод самообучения, направленный на изучение признаков видео путем предсказания представлений замаскированных частей видео. Это руководство предоставляет практические указания исследователям и разработчикам, желающим применять модель VJEPA 2 в задачах понимания видео (Источник: mervenoyann)

Статья исследует обучение с подкреплением с проверяемыми вознаграждениями для стимулирования правильных рассуждений LLM: В статье под названием «Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs» отмечается, что традиционный показатель Pass@K имеет недостатки в измерении способности к рассуждению, поскольку он может вознаграждать цепочки мыслей (CoTs), которые дают правильный конечный ответ, но имеют неточный или неполный процесс рассуждения. Для этого исследователи ввели более точный показатель оценки CoT-Pass@K, требующий, чтобы и путь рассуждения, и конечный ответ были правильными. Исследование показало, что при использовании CoT-Pass@K, RLVR (Reinforcement Learning with Verifiable Rewards) может стимулировать модель к обобщению правильного процесса рассуждения (Источник: menhguin, teortaxesTex)

Статья «From Bytes to Ideas: Language Modeling with Autoregressive U-Nets» предлагает новый метод языкового моделирования: Aran Komatsuzaki представил новую статью, предлагающую авторегрессионную модель U-Net, которая напрямую обрабатывает необработанные байты и изучает иерархические представления токенов. Исследование показывает, что этот метод способен соответствовать мощным базовым линиям BPE (Byte Pair Encoding), а более глубокие иерархические структуры демонстрируют многообещающие тенденции масштабирования. Это предлагает новую идею в области языкового моделирования, особенно в обработке низкоуровневых представлений данных и изучении многоуровневых признаков (Источник: jpt401)

LambdaConf 2025 поделилась выступлением Oren Rozen о функциональном программировании в C++: LambdaConf 2025 поделилась видеозаписью выступления Oren Rozen на конференции на тему «Функциональное программирование в C++ (типы времени выполнения vs типы времени компиляции)». В выступлении рассматриваются методы применения идей и техник функционального программирования в C++, языке с несколькими парадигмами, с особым акцентом на различные роли и влияние типов времени выполнения и типов времени компиляции в практике функционального программирования (Источник: lambda_conf)

Zach Mueller запускает курс «From Scratch -> Scale», обучающий техникам распределенного обучения: Zach Mueller объявил о наборе на свой 5-недельный курс «From Scratch -> Scale». Курс будет обучать слушателей написанию кода для распределенного параллелизма данных (DDP), ZeRO, конвейерного параллелизма и тензорного параллелизма с нуля, а также объединению этих техник. На курсе также выступят опытные эксперты из Hugging Face, Meta, Snowflake и других компаний (Источник: eliebakouch, HamelHusain)

Charles Frye поделился выступлением о масштабировании GPU и пропускной способности математических операций, подчеркнув важность матричных умножений с низкой точностью: Charles Frye поделился видеозаписью своего выступления, основные тезисы которого включают: масштабирование GPU аналогично масштабированию пропускной способности и квадратично зависит от задержки; ключевой пропускной способностью для масштабирования GPU является пропускная способность математических операций (FLOP/s); среди различных видов пропускной способности математических операций быстрее всего масштабируется матричное умножение с низкой точностью. Он также обсудил некоторые последствия этого для областей инженерии данных и науки о данных (Источник: charles_irl)

💼 Бизнес
Sam Altman рассказал, что Meta пыталась переманить сотрудников из OpenAI, предлагая подписной бонус в 100 миллионов долларов: CEO OpenAI Sam Altman в одном из подкастов рассказал, что Meta пыталась привлечь сотрудников OpenAI, предлагая подписные бонусы до 100 миллионов долларов, а также более высокую годовую зарплату. Altman заявил, что, несмотря на активные попытки Meta переманить сотрудников, лучшие специалисты OpenAI не приняли эти предложения. Он также прокомментировал, что Meta рассматривает OpenAI как своего крупнейшего конкурента, и что текущие усилия Meta в области ИИ не оправдывают ожиданий, но он уважает их дух активного поиска новых решений. Altman считает, что практика Meta по привлечению талантов высокими зарплатами может нанести ущерб корпоративной культуре (Источник: TheRundownAI, bookwormengr, seo_leaders, akbirkhan, 财联社AI daily, Reddit r/ChatGPT)
xAI Илона Маска ежемесячно тратит 1 миллиард долларов и ищет новое финансирование для поддержки разработки AGI: Сообщается, что стартап Илона Маска в области ИИ, xAI, тратит ошеломляющие 1 миллиард долларов в месяц, в основном на покупку GPU и строительство инфраструктуры дата-центров. Для поддержания операционной деятельности и конкуренции с такими гигантами, как OpenAI и Google, xAI проводит новый раунд акционерного финансирования на сумму 4,3 миллиарда долларов и планирует привлечь еще 6,4 миллиарда долларов в следующем году, а также продвигает долговое финансирование на 5 миллиардов долларов. Несмотря на то, что выручка в этом году ожидается всего в 500 миллионов долларов, xAI, благодаря авторитету Маска, преимуществам данных платформы X и решимости создать собственную инфраструктуру, рисует инвесторам картину достижения прибыльности к 2027 году. Его оценка выросла с 51 миллиарда долларов в конце 2024 года до 800 миллиардов долларов к концу первого квартала этого года. Конечная цель Маска — создать искусственный общий интеллект (AGI), способный сравниться с человеческим или даже превзойти его (Источник: 新智元)

Nabla, создающая ИИ-помощника для клиницистов, привлекла 70 миллионов долларов в раунде C: Медицинская ИИ-компания Nabla объявила о завершении раунда финансирования C на сумму 70 миллионов долларов, который возглавили HV Capital, Highland Europe и DST Global, при участии существующих инвесторов Cathay Innovation и Tony Fadell. Nabla занимается созданием передовых интеллектуальных ИИ-помощников для клиницистов с целью восстановления гуманистической составляющей в здравоохранении с помощью технологий ИИ и достижения реального клинического и финансового эффекта. Этот раунд финансирования ускорит реализацию ее миссии (Источник: ylecun)

🌟 Сообщество
Влияние ИИ на рынок труда вызывает опасения, CEO Amazon предупреждает о сокращении штата из-за ИИ в ближайшие годы: CEO Amazon Andy Jassy в обращении ко всем сотрудникам заявил, что по мере внедрения компанией большего количества генеративного ИИ и интеллектуальных агентов, способы работы изменятся, и в ближайшие несколько лет потребность в некоторых текущих должностях сократится, в то время как спрос на новые типы должностей возрастет. Ожидается, что общее число сотрудников в функциональных подразделениях компании соответственно уменьшится. Ранее CEO Anthropic Dario Amodei также предупреждал, что ИИ может заменить половину рабочих мест начального уровня для «белых воротничков» в течение пяти лет. Эти мнения вызвали широкое обсуждение влияния ИИ на рынок труда, сотрудники технологической отрасли уже делятся опытом замены ИИ или трудностей с поиском работы, а выпускники университетов 2025 года сталкиваются с самым сложным рынком труда со времен пандемии (Источник: 新智元, 新智元)

Инструменты ИИ для выбора вуза после ЕГЭ пользуются спросом, но непрозрачность алгоритмов, достоверность данных и персонализация становятся болевыми точками для пользователей: По мере роста рынка услуг по выбору вуза после ЕГЭ, крупные компании, такие как Ali Kuake, Baidu, Tencent QQ Browser, выпустили инструменты ИИ для выбора вуза, делая упор на интеллект, эффективность и бесплатность. Однако пользователи обнаружили, что разные инструменты дают совершенно разные рекомендации вузов для одного и того же балла. Непрозрачность алгоритмов, сомнения в полноте и достоверности данных, недостаточная персонализация и другие проблемы не позволяют пользователям полностью полагаться на ИИ. Эксперты отмечают, что основными причинами различий в результатах рекомендаций являются источники данных и различия в весовых коэффициентах алгоритмов. В настоящее время инструменты ИИ больше подходят для абитуриентов с очень высокими или очень низкими баллами и четкими целями, либо в качестве вспомогательного инструмента для абитуриентов со средними баллами, при этом пользователи должны научиться эффективно задавать вопросы (Источник: 36氪)

Распространение применения ИИ в образовании вызывает тревогу у родителей и бум на рынке: Технологии ИИ ускоренно проникают в сферу образования: от ИИ-кабинетов для самостоятельных занятий и ИИ-учебных устройств до различных ИИ-приложений для помощи в учебе. Подключение крупных моделей, таких как DeepSeek, еще больше способствует обновлению продуктов. Родители надеются, что ИИ поможет их детям «обогнать на повороте», но из-за этого впадают в новую тревогу. Исследования рынка показывают, что объем рынка ИИ+образование, по прогнозам, превысит 70 миллиардов юаней в 2025 году. Однако фактическая эффективность образовательных продуктов ИИ, конфиденциальность данных и вопрос о том, действительно ли они улучшают суть обучения, остаются в центре обсуждения. Смысл образования не должен ограничиваться «гонкой вооружений», движимой технологиями, а должен больше фокусироваться на индивидуальном развитии и многообразии возможностей (Источник: 36氪, 36氪)

Обсуждение: необходимость «маркеров смены хода» (Turn Marker Tokens) в рассуждениях больших моделей: В сообществе обсуждается, что если «маркеры смены хода» в диалоговых моделях (например, специальные токены, обозначающие высказывания пользователя и ассистента) всегда сопровождаются одними и теми же несколькими токенами (например, user\n
и assistant\n
), то сами эти маркеры смены хода могут быть не нужны. Дальнейшая точка зрения заключается в том, что если группа токенов (например, три) совместно маркирует что-либо, и модель должна изучить важность первого из них, то необходимо предоставить контекстные примеры, содержащие контрфакты (counterfactual), иначе модель может неточно усвоить эту важность. Это обсуждение связано с явлением, когда Claude Opus 4 легко обманывается «инъекцией диалога» (dialogue injection), что указывает на то, что понимание и обработка диалоговой структуры моделью все еще нуждаются в улучшении (Источник: giffmana, giffmana)

Проблема несоответствия между желанием применять ИИ-агентов на рабочих местах и их возможностями привлекает внимание: Исследование команды Стэнфордского университета выявило значительное несоответствие между потребностями и возможностями в области автоматизации рабочих мест с помощью ИИ-агентов. Исследование показало, что около 41% задач в компаниях, прошедших инкубацию в YC, сосредоточены в «зоне низкого приоритета» и «красной зоне», где желание работников автоматизировать задачи низкое или технология ИИ еще незрелая. Кроме того, хотя многие задачи требуют равноправного сотрудничества человека и машины, практики в целом ожидают большего доминирования человека, что может вызвать трения. Исследование прогнозирует, что по мере выхода ИИ-агентов на рынок труда основные компетенции человека могут сместиться в сторону межличностного общения и организационно-координационных навыков. Это исследование направлено на предоставление ориентиров для будущей разработки ИИ-агентов и трансформации навыков рабочей силы (Источник: 新智元)

Рекламные агентства используют оптимизацию для генеративных поисковых систем (GEO) для влияния на результаты поиска ИИ, что вызывает этические и регуляторные дискуссии: Рекламные агентства с помощью услуг по оптимизации для генеративных поисковых систем (GEO) помогают корпоративным клиентам получать более высокую видимость в результатах поиска ИИ. Эта услуга повышает рейтинг и частоту появления информации клиента в ответах ИИ путем вывода качественного контента, соответствующего предпочтениям больших моделей, и «скармливания» данных ИИ. Однако пользователи обычно не знают, были ли результаты поиска ИИ оптимизированы. Это вызывает дискуссии о том, является ли такое поведение рекламой, требуется ли четкая маркировка и каким коммерческим правилам и границам оно должно подчиняться. В настоящее время основные отечественные платформы больших моделей официально не подключили рекламу, но зарубежные продукты поиска ИИ уже пробуют рекламные модели и маркируют их (Источник: 36氪)

Модели ИИ плохо справляются со сложными задачами на соревнованиях по программированию, результаты теста LiveCodeBench Pro показывают 0% у ведущих моделей: Zihan Zheng и другие представили LiveCodeBench Pro, бенчмарк в реальном времени, содержащий задачи с соревнований по программированию высокого уровня сложности, таких как IOI, Codeforces и ICPC. В «сложной» части этого бенчмарка ведущие большие языковые модели, включая o3 и Gemini 2.5, набрали 0%. Анализ показывает, что LLM хорошо справляются с задачами реализации, основанными на памяти, но плохо работают с задачами наблюдательного или логического типа, требующими ключевого «вдохновения», а также с задачами, требующими внимания к деталям и обработки граничных случаев. Saining Xie прокомментировал, что это не бенчмарк для агентов программной инженерии, а проверка основного мышления и интеллекта через кодирование, и победа над этим бенчмарком сравнима по значимости с победой AlphaGo над Ли Седолем (Источник: ylecun, dilipkay)

Инструмент для обзора литературы с помощью ИИ otto-SR значительно повышает эффективность и точность: Университет Торонто, Гарвардская медицинская школа и другие учреждения совместно разработали комплексный рабочий процесс ИИ otto-SR для автоматизации систематических обзоров (SRs). Инструмент сочетает GPT-4.1 и o3-mini для отбора литературы и извлечения данных, выполнив обновление Кокрейновского систематического обзора всего за два дня, на что традиционными методами потребовалось бы 12 лет. В бенчмаркинге чувствительность otto-SR (96,7% против 81,7% у человека) и точность извлечения данных (93,1% против 79,7% у человека) значительно превзошли человеческих рецензентов, и было обнаружено 54 ключевых исследования, пропущенных людьми. Это исследование демонстрирует огромный потенциал ИИ в ускорении медицинских исследований и повышении качества синтеза доказательств (Источник: 量子位)

Исследование применения структурированных DSL в «Vibe Coding»: Ted Nyman и другие разработчики экспериментируют с использованием более структурированных языков, подобных DSL (Domain-Specific Language), вместо свободного естественного языка для «Vibe Coding» (способа программирования, основанного на ощущениях и интуиции), и обнаружили, что этот метод работает лучше, быстрее, вызывает меньше фрустрации, а также генерирует код более высокого качества. Это исследование направлено на поиск более эффективной и точной парадигмы взаимодействия человека и машины для программирования с помощью ИИ или генерации кода (Источник: tnm, lateinteraction)
Перспективы применения ИИ-агентов в инженерии надежности программного обеспечения (SRE): Traversal AI объявила о завершении посевного и раунда A финансирования на общую сумму 48 миллионов долларов, направленных на создание корпоративного ИИ SRE (инженера по надежности сайта). Их ИИ-агент способен автономно выявлять, устранять и даже предотвращать сложные производственные инциденты, сочетая технологию ИИ-агентов и причинно-следственное машинное обучение для определения первопричин в реальном времени. DigitalOcean, Eventbrite и другие компании уже стали их первыми клиентами, что демонстрирует огромный потенциал ИИ в автоматизации эксплуатации и повышении надежности систем (Источник: hwchase17)
💡 Прочее
Сгенерированная ИИ «мобильная игра» в стиле студии Ghibli привлекла внимание, руководство показывает, что она создана с помощью Kling AI и Midjourney: Недавно в социальных сетях стали популярны скриншоты и видео «мобильной игры» в стиле студии Ghibli, ее изысканная графика, свежая цветовая палитра и естественные световые эффекты привлекли внимание. Создатель раскрыл метод производства: сначала с помощью Midjourney генерируются статические изображения, затем с помощью Kling AI (принадлежащей Kuaishou) изображения преобразуются в динамические видео. Добавление фиксированных элементов HUD (индикатора на лобовом стекле), таких как кнопки и мини-карта, создает ощущение интерактивной игры. Хотя в настоящее время это всего лишь видеодемонстрация, она уже вдохновила пользователей на фантазии о создании интерактивных виртуальных миров с помощью ИИ (Источник: 量子位, Kling_ai)

ИИ обладает огромным потенциалом применения в проверке ошибок в различных областях: Пользователь сети random_walker предположил, что генеративный ИИ обладает огромным потенциалом применения в проверке ошибок, и в каждой области есть «низко висящие плоды». Например, в области программного обеспечения он может автоматически обнаруживать уязвимости безопасности; в письме — выявлять логические недостатки и слабые аргументы; в научных исследованиях — обнаруживать вычислительные ошибки и проблемы с цитированием; в юридических контрактах — отмечать отсутствующие положения и противоречия; в финансовой сфере — использоваться для обнаружения мошенничества и ошибок в финансовой отчетности. Он считает, что проверка ошибок имеет высокую степень автоматизации и мало мешает, даже при 50% ложных срабатываний ручная проверка относительно проста и может освободить людей от рутинной работы. Однако следует остерегаться риска снижения собственных способностей человека из-за чрезмерной зависимости от ИИ (Источник: random_walker)
Интервью с Sam Altman: ИИ упростит работу, обеспечит персонализированное общение и будет способствовать научным открытиям: Основатель OpenAI Sam Altman в интервью предсказал, что в ближайшие 5-10 лет инструменты ИИ для программирования и чат-боты станут умнее и смогут автоматически выполнять большую часть работы. ИИ может принести новый социальный опыт, предоставлять персонализированные услуги и помогать открывать новые научные знания, особенно в областях с большим объемом данных, таких как астрофизика или физика высоких энергий. Он подчеркнул, что настоящая революция ИИ заключается не только в способности мыслить, но и действовать в физическом мире, и человекоподобные роботы являются ключевой задачей. Видение OpenAI заключается в том, чтобы ИИ стал повсеместным «ИИ-компаньоном», реализуемым через платформы и сотрудничество в области аппаратного обеспечения. Он считает, что культура и долгосрочная перспектива являются основными конкурентными преимуществами OpenAI (Источник: 36氪)