Ключевые слова:ИИ-модель, набор данных, гуманоидный робот, ИИ-агент, языковая модель, глубокое обучение, открытая модель, оптимизация логического вывода, набор данных Common Pile v0.1, сквозная модель управления Helix, сервер Hugging Face MCP, обновление Gemini 2.5 Pro, механизм разреженного внимания

🔥 В центре внимания

EleutherAI выпускает Common Pile v0.1: набор текстовых данных объемом 8 ТБ с открытой лицензией, бросающий вызов обучению языковых моделей на нелицензированных данных : EleutherAI совместно с несколькими организациями выпустила Common Pile v0.1 — крупный набор данных, содержащий 8 ТБ текстов с открытой лицензией и из общественного достояния. Цель — изучить возможность обучения высокопроизводительных языковых моделей без использования нелицензированных текстов. Команда использовала этот набор данных для обучения моделей с 7B параметрами (1T и 2T tokens), производительность которых сопоставима с аналогичными моделями, такими как LLaMA 1 и LLaMA 2. Набор данных включает метаданные на уровне документов, такие как указание авторства, сведения о лицензировании и ссылки на оригинальные копии, предоставляя исследователям прозрачный и соответствующий нормам источник данных. Эта инициатива имеет большое значение для продвижения разработки открытых и соответствующих нормам моделей ИИ, а также предлагает новые подходы к решению проблем авторского права на обучающие данные для ИИ (来源: EleutherAI, percyliang, BlancheMinerva, code_star, ShayneRedford, Tim_Dettmers, jeremyphoward, stanfordnlp, ClementDelangue, tri_dao, andersonbcdefg)

EleutherAI выпускает Common Pile v0.1: набор текстовых данных объемом 8 ТБ с открытой лицензией, бросающий вызов обучению языковых моделей на нелицензированных данных

Человекоподобный робот Figure под управлением модели Helix демонстрирует высокоскоростную сортировку посылок, привлекая внимание : Генеральный директор Figure Бретт Адкок (Brett Adcock) продемонстрировал последние достижения своего человекоподобного робота в сортировке посылок в логистическом сценарии под управлением универсальной модели управления Helix. На видео видно, что робот способен обрабатывать посылки различных типов (жесткие картонные коробки, пластиковая упаковка) со скоростью и точностью, близкими к человеческим, включая упорядочивание посылок и обеспечение того, чтобы штрих-коды были обращены вниз для сканирования. Эта способность подчеркивает обобщаемость и гибкость модели Helix в сложных, динамичных средах, контрастируя с ранее продемонстрированной работой на штамповочном прессе (где упор делался на точность и высокую скорость). Роботы Figure уже работают на производственной линии BMW в 20-часовые смены, демонстрируя свой потенциал в промышленных применениях. Адкок подчеркнул, что в области человекоподобных роботов ключом к завоеванию рынка будет создание самых умных и экономичных роботов, поскольку большее количество развернутых роботов означает более низкие затраты, больше обучающих данных и более умную модель Helix (来源: dotey, _philschmid, adcock_brett, 量子位)

Человекоподобный робот Figure под управлением модели Helix демонстрирует высокоскоростную сортировку посылок, привлекая внимание

Hugging Face запускает первый официальный сервер MCP, создавая платформу для совместной работы AI Agent : Hugging Face представила свой первый официальный сервер MCP (Model-Client Protocol), позволяющий пользователям напрямую подключать LLM к API Hugging Face Hub для использования в Cursor, VSCode, Windsurf и других приложениях, поддерживающих MCP. Сервер предоставляет встроенные инструменты, такие как семантический поиск по моделям, наборам данных, статьям и Spaces, а также динамически отображает список всех совместимых с MCP приложений Gradio, размещенных на Spaces. Эта инициатива направлена на превращение Hugging Face в платформу для совместной работы разработчиков AI Agent, способствуя развитию и взаимодействию экосистемы AI Agent. В настоящее время доступно около 900 MCP Spaces (来源: ClementDelangue, mervenoyann, reach_vb, ben_burtenshaw, huggingface, code_star, op7418, TheTuringPost, clefourrier)

Hugging Face запускает первый официальный сервер MCP, создавая платформу для совместной работы AI Agent

Google обновляет предварительную версию Gemini 2.5 Pro, улучшая возможности кодирования, логического вывода и творчества, а также вводя «бюджет на размышления» : Google объявила об обновлении предварительной версии своей самой умной модели Gemini 2.5 Pro,进一步提升 ее возможности в области кодирования, логического вывода и творческого письма. В новой версии особо выделяется функция «бюджета на размышления» (thinking budget), позволяющая разработчикам лучше контролировать потребление вычислительных ресурсов моделью. Отзывы пользователей показывают, что новая версия (06-05) демонстрирует превосходные результаты в извлечении информации из длинных текстов, особенно при длине 192K, где коэффициент извлечения достигает 90.6%, превосходя OpenAI-o3. Модель уже интегрирована в LangChain и LangGraph, что облегчает разработчикам ее тестирование и создание приложений. Google также продемонстрировала творческие способности Gemini 2.5 Pro в понимании изображений и генерации контекстуализированных, остроумных подписей

🎯 Новости

DeepSeek выпускает обновленную версию DeepSeek-R1-0528, производительность которой сравнима с закрытыми моделями : DeepSeek представила обновленную версию своей флагманской модели с открытыми весами DeepSeek-R1-0528. Утверждается, что эта модель по результатам нескольких бенчмарков сравнима с закрытыми моделями, такими как o3 от OpenAI и Gemini-2.5 Pro от Google. Хотя компания не раскрыла подробностей обучения, сообщается, что новая модель демонстрирует значительные улучшения в логическом выводе, обработке сложных задач и уменьшении галлюцинаций, вновь бросая вызов традиционному представлению о том, что для создания ИИ высшего уровня требуются огромные ресурсы. Unsloth AI уже предоставила бесплатный Notebook для тонкой настройки DeepSeek-R1-0528-Qwen3 с использованием GRPO, утверждая, что ее новая функция вознаграждения может повысить скорость отклика на многоязычные (или пользовательские доменные) запросы более чем на 40%, а также ускорить тонкую настройку R1 в 2 раза и уменьшить использование VRAM на 70% (来源: DeepLearningAI, ImazAngel)

DeepSeek выпускает обновленную версию DeepSeek-R1-0528, производительность которой сравнима с закрытыми моделями

NVIDIA выпускает модель логического вывода Nemotron-H с гибридной архитектурой, повышая пропускную способность и эффективность : NVIDIA представила новую модель логического вывода Nemotron-H, включающую версии 47B и 8B (с поддержкой BF16 и FP8), использующую гибридную архитектуру Mamba-Transformer. Модель предназначена для решения задач крупномасштабного логического вывода при сохранении высокой скорости, и, как утверждается, ее пропускная способность в 4 раза выше, чем у аналогичных моделей Transformer. Nemotron-H-47B-Reasoning-128k демонстрирует немного более высокую точность во всех бенчмарках по сравнению с Llama-Nemotron-Super-49B-1.0, но при этом стоимость логического вывода снижена до 4 раз. Веса модели опубликованы на HuggingFace под непроизводственной лицензией, технический отчет скоро появится (来源: ClementDelangue, ctnzr)

NVIDIA выпускает модель логического вывода Nemotron-H с гибридной архитектурой, повышая пропускную способность и эффективность

Anthropic запускает Claude Gov, специально разработанный для правительственных и военных разведывательных агентств США : Компания Anthropic выпустила новый сервис ИИ под названием Claude Gov, специально разработанный для удовлетворения потребностей правительства, оборонных и разведывательных ведомств США. Этот шаг знаменует официальное расширение передовых технологий ИИ Anthropic в сферу правительственных и военных приложений, которые могут использоваться для анализа данных, обработки разведывательной информации, поддержки принятия решений и других сценариев. Ранее Anthropic также присоединилась к трастовому фонду долгосрочных интересов, призванному помочь компании в реализации ее миссии в общественных интересах (来源: MIT Technology Review, akbirkhan, jeremyphoward)

Hugging Face сотрудничает с Google Colab для упрощения процесса тестирования моделей и прототипирования : Hugging Face объявила о сотрудничестве с Google Colaboratory, добавив поддержку «Открыть в Colab» во все карточки моделей на Hugging Face Hub. Теперь пользователи могут напрямую запускать Colab Notebook из любой карточки модели, что упрощает эксперименты и оценку моделей. Кроме того, пользователи могут размещать пользовательские файлы notebook.ipynb в своих репозиториях моделей, и Hugging Face будет напрямую предоставлять этот Notebook, что еще больше повышает доступность моделей ИИ и возможности быстрого прототипирования (来源: huggingface, osanseviero, ClementDelangue, mervenoyann)

Статья Kinetics переосмысливает законы масштабирования во время тестирования, подчеркивая важность разреженного внимания для эффективности логического вывода : Infini-AI-Lab опубликовала статью «Kinetics: Rethinking Test-Time Scaling Laws», в которой указывается, что предыдущие законы масштабирования, основанные на вычислительной оптимальности, переоценивали эффективность небольших моделей, игнорируя узкие места доступа к памяти, возникающие из-за стратегий времени вывода (таких как Best-of-N, длинный CoT). Исследование предлагает новые законы масштабирования Kinetics, которые комплексно учитывают затраты на вычисления и доступ к памяти, утверждая, что вычислительные ресурсы во время тестирования более эффективно используются для больших моделей, чем для малых, поскольку доминирующей стоимостью становится внимание, а не количество параметров. В статье далее предлагается парадигма масштабирования, ориентированная на разреженное внимание, которая позволяет достичь более длинной генерации и большего количества параллельных выборок за счет снижения стоимости единицы токена. Эксперименты показывают, что модели с разреженным вниманием превосходят плотные модели в различных диапазонах затрат, что имеет решающее значение для повышения эффективности логического вывода крупномасштабных моделей (来源: realDanFu, tri_dao, simran_s_arora)

Статья Kinetics переосмысливает законы масштабирования во время тестирования, подчеркивая важность разреженного внимания для эффективности логического вывода

Китайский рынок AI Agent переживает бум, Manus возглавляет волну стартапов : После прошлогоднего бума базовых моделей, в этом году фокус в китайской сфере ИИ сместился на AI Agent. AI Agent в большей степени ориентированы на автономное выполнение задач для пользователей, а не на простое реагирование на запросы. Manus, как пионер универсальных AI Agent, вызвал широкий интерес после ограниченного выпуска в начале марта и способствовал появлению ряда стартапов, создающих универсальные цифровые инструменты, способные обрабатывать электронную почту, планировать поездки и даже проектировать интерактивные веб-сайты. Эта тенденция показывает, что китайская технологическая отрасль активно исследует практическое применение и бизнес-модели AI Agent (来源: MIT Technology Review)

Китайский рынок AI Agent переживает бум, Manus возглавляет волну стартапов

ElevenLabs выпускает Conversational AI 2.0, повышая производительность голосовых помощников корпоративного уровня : ElevenLabs представила версию 2.0 своей платформы диалогового ИИ, предназначенную для создания более продвинутых голосовых агентов корпоративного уровня. Новая версия значительно улучшает естественность и интерактивность голосовых помощников, позволяя им лучше понимать ритм разговора, знать, когда делать паузу, когда говорить и когда осуществлять смену реплик в диалоге. Это обновление обещает предоставить корпоративным пользователям более плавный и интеллектуальный опыт голосового взаимодействия, применяемый в обслуживании клиентов, виртуальных помощниках и других сценариях (来源: dl_weekly)

Perplexity Labs представляет для своей финансовой страницы вид «Ключевые вопросы», обобщающий мнения различных сторон : Perplexity Labs добавила на свою страницу финансовой информации функцию просмотра «Ключевые вопросы» (Key Issues). Эта функция способна обобщать мнения инвесторов, аналитиков и комментаторов из интернета, быстро представляя пользователям важные факторы, влияющие на компанию в данный момент, и основные точки обсуждения. Например, страница о Tesla может интегрировать различную информацию о динамике отношений между Трампом и Маском за несколько часов, помогая пользователям быстро составить общее представление (来源: AravSrinivas)

Perplexity Labs представляет для своей финансовой страницы вид «Ключевые вопросы», обобщающий мнения различных сторон

Распределенные контрольные точки PyTorch теперь поддерживают safetensors от Hugging Face : PyTorch объявила, что ее функция распределенных контрольных точек теперь поддерживает формат safetensors от Hugging Face, что сделает сохранение и загрузку контрольных точек между различными экосистемами более удобными. Новый API позволяет пользователям читать и записывать safetensors через пути fsspec. torchtune стала первой библиотекой, принявшей эту функцию, тем самым упростив свой процесс работы с контрольными точками. Это обновление способствует повышению совместимости и эффективности обучения и развертывания моделей (来源: ClementDelangue)

Распределенные контрольные точки PyTorch теперь поддерживают safetensors от Hugging Face

Статья MARBLE предлагает новый метод рекомбинации и смешивания материалов на основе пространства CLIP : Новое исследование под названием MARBLE предлагает метод смешивания материалов объектов на изображении и рекомбинации их мелкозернистых атрибутов путем поиска вложений материалов в пространстве CLIP и использования этих вложений для управления предварительно обученными моделями преобразования текста в изображение. Этот метод улучшает редактирование материалов на основе образцов, локализуя модули в UNet для шумоподавления, отвечающие за атрибуцию материалов, и обеспечивая параметризованный контроль над мелкозернистыми атрибутами материалов, такими как шероховатость, металличность, прозрачность и блеск. Исследователи продемонстрировали эффективность метода с помощью качественного и количественного анализа, а также показали его применимость для выполнения нескольких правок за один прямой проход и в области рисования (来源: HuggingFace Daily Papers, ClementDelangue)

Статья FlowDirector: метод точного редактирования видео из текста без обучения с направлением потока : FlowDirector — это новая структура для редактирования видео без инверсии, которая моделирует процесс редактирования как прямую эволюцию в пространстве данных. С помощью обыкновенных дифференциальных уравнений (ODE) она направляет видео по его внутреннему пространственно-временному многообразию для плавного перехода, сохраняя временную согласованность и структурные детали. Для достижения локально контролируемого редактирования введен механизм маскирования, управляемый вниманием. Кроме того, для решения проблем неполного редактирования и улучшения семантического соответствия инструкциям по редактированию предложена стратегия улучшенного редактирования, вдохновленная руководством без классификатора. Эксперименты показывают, что FlowDirector демонстрирует превосходные результаты в следовании инструкциям, временной согласованности и сохранении фона (来源: HuggingFace Daily Papers)

Статья RACRO: масштабируемый мультимодальный вывод посредством оптимизации вознаграждения за субтитры : Для решения проблемы высокой стоимости переобучения выравнивания визуального и языкового представления при обновлении базового LLM-инференсера исследователи предложили RACRO (Reasoning-Aligned Perceptual Decoupling via Caption Reward Optimization). Этот метод преобразует визуальный ввод в языковое представление (например, субтитры), которое затем передается текстовому инференсеру. RACRO использует стратегию обучения с подкреплением, управляемую логическим выводом, для согласования поведения экстрактора субтитров с целями логического вывода посредством оптимизации вознаграждения, тем самым усиливая визуальную основу и извлекая оптимизированные для логического вывода представления. Эксперименты показывают, что RACRO демонстрирует SOTA-результаты в мультимодальных математических и научных бенчмарках и поддерживает адаптацию по принципу plug-and-play к более продвинутым LLM для логического вывода без дорогостоящего мультимодального переобучения выравнивания (来源: HuggingFace Daily Papers)

Исследование показывает: объем информации, запоминаемой LLM, может быть связан с количеством ее параметров и энтропией информации : Исследование, проведенное совместно Meta, DeepMind, NVIDIA и Корнельским университетом, изучает фактический объем информации, запоминаемой большими языковыми моделями (LLM). Исследование показало, что объем информации, запоминаемой LLM, может быть связан с количеством ее параметров и энтропией данных. Например, английская Википедия содержит около 29,4 миллиарда символов, каждый символ несет около 1,5 бит информации, а модель с 12B параметрами (при условии, что каждый параметр способен хранить 3,6 бита) теоретически может запомнить всю английскую Википедию. Это исследование имеет важное значение для понимания механизмов памяти LLM и оценки вопросов авторского права на данные. François Chollet также упомянул методологию обучения LLM с использованием случайных строк и ее количественные результаты, считая их ценными для понимания механизмов памяти LLM (来源: fchollet, AymericRoucher)

Исследование показывает: объем информации, запоминаемой LLM, может быть связан с количеством ее параметров и энтропией информации

Hugging Face представляет новые функции для корпоративной версии: управление использованием и затратами поставщиков услуг логического вывода : Hugging Face добавила новые функции в свою корпоративную версию (Enterprise Hub), позволяющие организациям настраивать и отслеживать использование поставщиков услуг логического вывода (Inference Providers) членами их команд и связанные с этим затраты. Это означает, что корпоративные пользователи могут лучше управлять и контролировать использование более чем 40 000 моделей от различных поставщиков, таких как TogetherCompute, FireworksAI, Replicate, Cohere и других, для бессерверных служб логического вывода, тем самым оптимизируя экономическую эффективность и распределение ресурсов при развертывании приложений ИИ (来源: huggingface, _akhaliq)

Hugging Face представляет новые функции для корпоративной версии: управление использованием и затратами поставщиков услуг логического вывода

Mistral AI выпускает модель научного вывода ether0, дообученную на базе Mistral 24B : Mistral AI выпустила свою первую модель научного вывода ether0. Эта модель была создана путем обучения с подкреплением (RL) Mistral 24B на нескольких задачах молекулярного дизайна в области химии. Исследование показало, что LLM обучаются на некоторых научных задачах гораздо эффективнее с точки зрения данных, чем специализированные модели, обученные с нуля, и могут значительно превосходить передовые модели и людей в этих задачах. Это говорит о том, что для части научных задач классификации, регрессии и генерации дообучение LLM может предложить более эффективный путь, чем традиционные методы машинного обучения (来源: MistralAI)

Модель двойной экспертной согласованности (DCM) ускоряет генерацию видео в 10 раз : Ziwei Liu и другие исследователи предложили модель двойной экспертной согласованности (DCM), которая может ускорить модели генерации видео (с количеством параметров от 1.3B до 13B) в 10 раз без снижения качества. В настоящее время модель поддерживает Tencent Hunyuan и Alibaba Tongyi Wanxiang. Предложение DCM знаменует новый прорыв в области эффективной и высококачественной генерации видео, способствуя ускорению создания видеоконтента и развитию связанных приложений (来源: _akhaliq)

OpenBMB выпускает MiniCPM4, скорость логического вывода на конечных устройствах увеличена в 5 раз : OpenBMB представила серию моделей MiniCPM4, которые достигают 5-кратного увеличения скорости логического вывода на конечных устройствах за счет использования эффективной архитектуры модели (механизм обучаемого разреженного внимания InfLLM v2), эффективных алгоритмов обучения (Model Wind Tunnel 2.0, тернарная квантизация BitCPM), высококачественных обучающих данных (UltraClean, UltraChat v2) и эффективной системы логического вывода (CPM.cu, ArkInfer). Флагманская модель MiniCPM4-8B (8B параметров, обученная на 8T токенов) уже доступна на Hugging Face. Эта серия моделей направлена на исследование пределов малых и недорогих LLM, способствуя применению ИИ на устройствах с ограниченными ресурсами (来源: eliebakouch, Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞))

OpenBMB выпускает MiniCPM4, скорость логического вывода на конечных устройствах увеличена в 5 раз

Компания X обновляет условия обслуживания, запрещая использовать ее посты для «тонкой настройки или обучения» моделей ИИ без соглашения : Компания X (бывшая Twitter) обновила свои условия обслуживания, явно запретив использование контента постов платформы для «тонкой настройки или обучения» моделей искусственного интеллекта, если только с компанией X не заключено специальное соглашение. Этот шаг отражает растущее осознание ценности своих данных контент-платформами в эпоху ИИ и их стремление контролировать их использование, возможно, по примеру Reddit и Google, которые монетизируют данные через лицензионные соглашения. Это изменение политики повлияет на исследователей и разработчиков ИИ, которые полагаются на общедоступные данные социальных сетей для обучения моделей (来源: MIT Technology Review)

🧰 Инструменты

ScreenSuite: выпущен комплексный набор для оценки GUI Agent : Hugging Face выпустила ScreenSuite, комплексный набор для оценки агентов с графическим пользовательским интерфейсом (GUI). Он объединяет ключевые бенчмарки из передовых исследований, поддерживает докеризованную оценку для сред Ubuntu и Android и охватывает сценарии для мобильных устройств, настольных компьютеров и веб-приложений. Набор подчеркивает чисто визуальную оценку (без обмана через DOM) и нацелен на предоставление единой, простой в использовании платформы для измерения способностей визуально-языковых моделей (VLM) в восприятии, локализации, одношаговых операциях и многошаговых агентских задачах. Модели, такие как Qwen-2.5-VL, UI-Tars-1.5-7B, Holo1-7B и GPT-4o, уже были оценены с помощью этого набора (来源: huggingface, AymericRoucher, clefourrier, tonywu_71, mervenoyann, HuggingFace Blog)

ScreenSuite: выпущен комплексный набор для оценки GUI Agent

Опыт использования Claude Code: выдающееся понимание инструкций, планирование задач и использование инструментов : Пользователь dotey поделился своим опытом использования AI-помощника для программирования Claude Code от Anthropic. По его мнению, сильные стороны Claude Code заключаются в следующем: 1. Отличное понимание инструкций; 2. Способность разумно планировать задачи, для сложных задач создается TODO List и выполняется по пунктам; 3. Чрезвычайно сильные навыки использования инструментов, особенно в использовании команды grep для поиска по кодовой базе, эффективность намного выше человеческой, способен даже анализировать обфусцированный JS-код; 4. Длительное время выполнения, способен «творить чудеса грубой силой», но также потребляет много токенов, подходит для использования с подпиской Claude Max; 5. Минимальное вмешательство человека на протяжении всего процесса, особенно при включении параметра --dangerously-skip-permissions, что позволяет работать без присмотра. Пользователь перешел от активного использования Cursor к тому, чтобы сначала поручать задачи Claude Code, а затем проверять и изменять код в IDE. Режим Plan Mode (режим планирования) в Claude Code также был незаметно запущен, позволяя пользователю проводить чистое чтение и обдумывание без редактирования файлов (来源: dotey, Reddit r/ClaudeAI)

ClaudeBox: безопасный запуск Claude Code в Docker без запросов разрешений : Разработчик RchGrav создал инструмент ClaudeBox, позволяющий пользователям запускать Claude Code в Docker-контейнере в непрерывном режиме (без запросов разрешений). Это позволяет избежать частых подтверждений разрешений, прерывающих рабочий процесс, и обеспечивает безопасность основной операционной системы, поскольку все операции Claude Code ограничены изолированной средой Docker. ClaudeBox предлагает более 15 предварительно настроенных сред разработки (например, Python+ML, C++/Rust/Go и т.д.), которые пользователи могут быстро развернуть с помощью простых команд. Инструмент предназначен для улучшения опыта использования Claude Code, позволяя пользователям без опасений давать ИИ пробовать различные операции (来源: Reddit r/ClaudeAI)

ClaudeBox: безопасный запуск Claude Code в Docker без запросов разрешений

Выпущена версия Toolio 0.6.0: набор инструментов GenAI и Agent, специально разработанный для Mac : Выпущена версия Toolio 0.6.0 — это набор инструментов, глубоко интегрированный с MLX и предназначенный для обеспечения мощной поддержки больших языковых моделей (LLM) на Mac. Он реализует функции структурированного вывода и вызова инструментов на основе JSON Schema, используя язык Python. Этот набор инструментов ориентирован на улучшение опыта и эффективности разработки приложений GenAI и Agent в среде Mac (来源: awnihannun)

DecipherIt: помощник для исследований с открытым исходным кодом, интегрирующий мультиагентность и семантический поиск : DecipherIt — это помощник для исследований с открытым исходным кодом, рассматриваемый как альтернатива NotebookLM. Он использует мультиагентную оркестровку, семантический поиск и доступ к сети в реальном времени для помощи пользователям в обработке исследовательских материалов. Пользователи могут загружать документы, вставлять URL-адреса или вводить темы, и DecipherIt преобразует их в полноценное рабочее пространство для исследований, включающее резюме, интеллект-карты, аудиообзоры, часто задаваемые вопросы и семантические ответы на вопросы. Его технологический стек включает агентов crewAI, Bright Data MCP, Qdrant, OpenAI и LemonFox AI, фронтенд использует Next.js и React 19, а бэкенд — FastAPI (来源: qdrant_engine)

DecipherIt: помощник для исследований с открытым исходным кодом, интегрирующий мультиагентность и семантический поиск

Search Arena: опубликован набор данных о взаимодействии пользователей с LLM, улучшенными поиском : Search Arena — это крупномасштабный (более 24 000) краудсорсинговый набор данных о предпочтениях человека, содержащий парные многоходовые взаимодействия пользователей с LLM, улучшенными поиском. Этот набор данных охватывает множество намерений и языков и включает полные системные трассировки около 12 000 голосований по предпочтениям человека. Анализ показывает, что на предпочтения пользователей влияет количество цитат, даже если цитируемый контент напрямую не поддерживает утверждения об атрибуции; платформы, управляемые сообществом, обычно более популярны. Этот набор данных предназначен для поддержки будущих исследований LLM, улучшенных поиском, код и данные открыты (来源: HuggingFace Daily Papers, jiayi_pirate, lmarena_ai)

Search Arena: опубликован набор данных о взаимодействии пользователей с LLM, улучшенными поиском

YAQA: новый алгоритм квантования, направленный на лучшее сохранение исходного вывода модели : Исследователи из Корнельского университета представили «Yet Another Quantization Algorithm» (YAQA) — новый алгоритм квантования, разработанный для лучшего сохранения исходного вывода модели после квантования. Утверждается, что YAQA по сравнению с QTIP позволяет снизить дивергенцию KL более чем на 30% и на Gemma 3 достигает более низкой дивергенции KL, чем модель Google QAT. Это исследование предлагает новые идеи и инструменты в области квантования моделей, помогая максимально сохранить производительность модели при одновременном снижении ее размера и вычислительных требований. Соответствующая статья и код опубликованы, также предоставлена предварительно квантованная модель Llama 3.1 70B Instruct (来源: Reddit r/MachineLearning, Reddit r/LocalLLaMA, tri_dao, simran_s_arora)

YAQA: новый алгоритм квантования, направленный на лучшее сохранение исходного вывода модели

Tokasaurus: выпущен движок, специально разработанный для высокопроизводительного логического вывода LLM : HazyResearch выпустила Tokasaurus, новый движок для логического вывода LLM, специально разработанный для рабочих нагрузок с высокой пропускной способностью, подходящий как для больших, так и для малых моделей. Движок нацелен на оптимизацию эффективности и скорости обработки LLM в сценариях с большим количеством одновременных запросов, возможно, используя такие передовые технологии, как непрерывная пакетная обработка и страничное внимание для повышения производительности. Выпуск Tokasaurus предоставляет новый выбор разработчикам и предприятиям, которым необходимо эффективно обрабатывать большое количество задач логического вывода LLM (来源: Tim_Dettmers)

Tokasaurus: выпущен движок, специально разработанный для высокопроизводительного логического вывода LLM

Выпущена «Android»-система углеродного следа TIDAS, технологическую поддержку оказывает Ant Digital : Альянс по технологическим инновациям в области углеродного следа выпустил «Систему данных LCA Tiangong» (TIDAS), предназначенную для предоставления решений для оценки жизненного цикла (LCA) и создания баз данных углеродного следа, с целью создания «Android»-системы для баз данных LCA и углеродного следа в Китае и даже во всем мире. Ant Digital, как основной участник, предоставила для TIDAS технологию блокчейн и платформу для надежного сотрудничества с данными, используя свою собственную технологию блокчейн для надежной регистрации и подтверждения прав на углеродные данные, а также используя технологию конфиденциальных вычислений для обеспечения «доступности данных без их раскрытия», повышая стандартизацию, интегрируемость и совместимость данных (来源: 量子位)

Выпущена «Android»-система углеродного следа TIDAS, технологическую поддержку оказывает Ant Digital

📚 Обучение

LangChain проводит семинар по корпоративному ИИ, посвященный мультиагентным системам : LangChain проведет семинар по корпоративному ИИ 16 июня в Сан-Франциско. На нем Джейк Брукхайзен (Jake Broekhuizen) из LangChain научит участников создавать готовые к производству мультиагентные системы с использованием LangGraph, охватывая такие ключевые аспекты, как безопасность и наблюдаемость. Это практический семинар, призванный помочь разработчикам овладеть навыками создания сложных и надежных приложений AI Agent (来源: LangChainAI, hwchase17)

LangChain проводит семинар по корпоративному ИИ, посвященный мультиагентным системам

DeepLearning.AI запускает новый курс «DSPy: создание и оптимизация агентных приложений» : DeepLearning.AI выпустила новый курс под названием «DSPy: Build and Optimize Agentic Apps». Курс научит слушателей основам DSPy, как использовать его сигнатуры и модульную модель программирования для создания модульных, отслеживаемых и отлаживаемых агентных приложений GenAI. Содержание включает создание приложений путем связывания модулей DSPy, таких как Predict, ChainOfThought и ReAct, использование MLflow для отслеживания и отладки, а также использование DSPy Optimizer для автоматической настройки подсказок и улучшения примеров с небольшим количеством данных для повышения точности и согласованности ответов (来源: DeepLearningAI, lateinteraction)

Проект на GitHub с учебником по продвинутым техникам RAG привлекает внимание : Учебный проект по техникам RAG (Retrieval-Augmented Generation), которым поделился NirDiamant на GitHub, получил 16.6K звезд. Учебник охватывает широкий спектр тем, включая предварительную обработку для улучшенного извлечения, оптимизацию, режимы извлечения, итерации, а также инженерные этапы. Для разработчиков, желающих углубленно изучить и улучшить эффективность приложений RAG, это ценный ресурс для продвинутого обучения (来源: karminski3)

Проект на GitHub с учебником по продвинутым техникам RAG привлекает внимание

Как клиенты OpenAI используют оценки (Evals) для создания лучших продуктов ИИ : Хамел Хусейн (Hamel Husain) продвигает вебинар, который проведет Джим Бломо (Jim Blomo) из OpenAI, где будет обсуждаться, как клиенты OpenAI используют инструменты оценки (Evals) для создания более качественных продуктов ИИ. Содержание будет включать реальные примеры использования и результаты, а также демонстрацию внутренних инструментов оценки OpenAI (таких как отслеживание, выставление оценок и т.д.). Вебинар направлен на предоставление разработчикам практических знаний и методов оценки продуктов ИИ (来源: HamelHusain)

Как клиенты OpenAI используют оценки (Evals) для создания лучших продуктов ИИ

LlamaIndex делится обзором 13 протоколов Agent, обсуждая стандарты взаимодействия : Селдо (Seldo) из LlamaIndex выступил на саммите разработчиков MCP с обзорной презентацией о текущих 13 различных протоколах меж-агентной коммуникации (включая MCP, A2A, ACP и др.). Он проанализировал уникальные функции каждого протокола, их позиционирование в текущем технологическом ландшафте и будущие тенденции развития. Презентация призвана помочь разработчикам понять и выбрать подходящие стандарты коммуникации для своих приложений Agent, способствуя взаимодействию в экосистеме Agent (来源: jerryjliu0, jerryjliu0)

LlamaIndex делится обзором 13 протоколов Agent, обсуждая стандарты взаимодействия

Анализ архитектуры Claude Code: поток управления, механизм оркестрации и выполнение инструментов : В статье проведен глубокий анализ архитектуры Claude Code, с акцентом на его поток управления и механизм оркестрации, а также на инструменты и механизм выполнения. Этот анализ представляет ценность для разработчиков, желающих создать аналогичные инструменты для кодирования в командной строке или внести индивидуальные изменения, а его принципы проектирования также применимы к разработке других типов инструментов Agent (来源: karminski3)

Анализ архитектуры Claude Code: поток управления, механизм оркестрации и выполнение инструментов

Обмен решением, занявшим второе место в конкурсе ядер матричного умножения AMD GPU FP8 : Тим Деттмерс (Tim Dettmers) поделился решением победителя, занявшего второе место в конкурсе ядер матричного умножения AMD GPU FP8. Подробный разбор этого решения имеет важную справочную ценность для понимания того, как оптимизировать производительность вычислений с плавающей запятой низкой точности на графических процессорах AMD, особенно в контексте все более широкого использования форматов низкой точности, таких как FP8, в обучении и выводе моделей ИИ для повышения эффективности (来源: Tim_Dettmers)

Статья исследует, как понять визуально-языковые модели путем интерпретации линейных направлений в VLLM : Новая статья под названием «Line of Sight» исследует понимание внутренних механизмов больших визуально-языковых моделей (VLLM) путем интерпретации линейных направлений в их латентном пространстве. Исследователи используют такие инструменты, как зондирование (probing), управление (steering) и разреженные автоэнкодеры (SAEs), для интерпретации представлений изображений в VLLM. Эта работа предлагает новые перспективы и методы для понимания внутреннего устройства мультимодальных моделей (来源: nabla_theta)

Статья исследует, как понять визуально-языковые модели путем интерпретации линейных направлений в VLLM

💼 Бизнес

AI-стартап Vareon получает $3 млн предпосевного финансирования от Norck, фокусируясь на передовом ИИ и автономных системах : Компания Norck, основанная Фаруком Гюнеем (Faruk Guney), обязалась предоставить $3 млн в виде этапного предпосевного финансирования своему новому AI-стартапу Vareon. Vareon специализируется на передовом ИИ, причинно-следственном выводе и автономных системах, в основе которых лежит MALPAC (многоагентная обучающая архитектура для планирования и оптимизации с обратной связью). Компания стремится стать фундаментальной исследовательской компанией в области ИИ, способствуя развитию в таких областях, как робототехника, LLM, молекулярный дизайн, когнитивные архитектуры и автономные агенты. Одновременно были представлены RAPID (дифференцируемая среда планирования), CIMO (причинно-следственный многомасштабный координатор), SCA (биоинспирированная когнитивная архитектура) и Lumon-XAI (слой интерпретируемости) (来源: farguney)

AI-стартап Vareon получает $3 млн предпосевного финансирования от Norck, фокусируясь на передовом ИИ и автономных системах

AI-инструмент для кодирования Cursor привлек $900 млн в раунде C, ARR достиг $500 млн : Стартап AI-инструментов для кодирования Cursor объявил о завершении раунда финансирования C на сумму $900 млн под руководством Thrive, Accel, Andreessen Horowitz и DST. Компания сообщила, что ее годовой регулярный доход (ARR) превысил $500 млн и ее используют более половины компаний из списка Fortune 500, включая NVIDIA, Uber и Adobe. Этот раунд финансирования поможет Cursor дальше продвигать передовые исследования в области AI-кодирования. Аналитики отмечают, что Cursor, возможно, одна из самых быстрорастущих компаний в истории, достигших ARR в $500 млн (来源: cursor_ai, Yuchenj_UW, op7418)

AI-инструмент для кодирования Cursor привлек $900 млн в раунде C, ARR достиг $500 млн

Anthropic прекращает прямой доступ Windsurf к моделям Claude, возможно, из-за слухов о поглощении OpenAI : Сооснователь и главный научный сотрудник Anthropic Джаред Каплан (Jared Kaplan) заявил, что компания прекратила прямой доступ AI-помощника для программирования Windsurf к моделям Claude в основном из-за рыночных слухов о скором поглощении Windsurf компанией OpenAI. Каплан сказал, что «было бы странно продавать Claude OpenAI», и заявил, что Anthropic предпочитает распределять вычислительные ресурсы среди долгосрочных стабильных партнеров. Несмотря на это, Anthropic активно налаживает сотрудничество с другими разработчиками AI-инструментов для программирования (такими как Cursor) и подчеркивает, что в будущем будет уделять больше внимания разработке AI-продуктов для программирования с возможностями автономного принятия решений, таких как Claude Code (来源: dotey, vikhyatk, jeremyphoward, swyx)

Anthropic прекращает прямой доступ Windsurf к моделям Claude, возможно, из-за слухов о поглощении OpenAI

🌟 Сообщество

Грег Брокман из OpenAI: будущее AGI больше похоже на сотрудничество разнообразных специализированных агентов, чем на единую модель : Грег Брокман (Greg Brockman) из OpenAI считает, что будущая форма общего искусственного интеллекта (AGI) будет больше похожа на «зоопарк», состоящий из множества специализированных интеллектуальных агентов (Agent), а не на единую, всемогущую «монолитную» модель. Эти специализированные агенты смогут вызывать друг друга, совместно работать и сообща стимулировать экономическое развитие. Эта точка зрения намекает на будущие тенденции развития ИИ, а именно: путем создания и интеграции нескольких AI Agent с конкретными возможностями для достижения более сложных и мощных интеллектуальных систем с целью разблокирования в 10 раз большей активности и производительности. Клеман Деланж (Clement Delangue) прокомментировал это, заявив о необходимости открытой робототехники ИИ для разрушения монополий и предотвращения контроля всех роботов одной компанией (来源: natolambert, ClementDelangue, HamelHusain)

LLM демонстрируют потенциал в академическом письме и обобщении контента, вызывая размышления о качестве человеческого письма : Дваркеш Пател (Dwarkesh Patel) считает, что LLM в настоящее время являются писателями «5 из 10», но тот факт, что они могут надежно улучшать объяснения в статьях и книгах, сам по себе является огромным упреком в адрес качества академического письма. Арвинд Нараянан (Arvind Narayanan) далее отмечает, что большинство академических текстов часто жертвуют ясностью и понятностью ради кажущейся глубины и сложности, в то время как хорошее письмо должно стремиться к краткости. Это вызвало дискуссию о роли LLM в содействии академическим исследованиям, повышении читабельности контента и о том, как они могут изменить способы академического обмена в будущем (来源: random_walker, jeremyphoward)

Инструменты ИИ для кодирования вызывают обсуждение зависимости разработчиков, Claude Code привлекает внимание своей мощной функциональностью и высоким потреблением токенов : Пользователь dotey считает, что использование инструментов ИИ для программирования (таких как Claude Code) легко вызывает сильную зависимость, и даже при наличии лимитов он предпочитает ждать, пока ИИ завершит работу, а не писать вручную. Подписка Claude Max хоть и имеет ограничения, но ее мощные возможности кодирования (такие как отличное понимание инструкций, планирование задач, использование инструмента grep и длительное выполнение) делают ее эффективным инструментом. Это явление вызвало дискуссию о том, как инструменты ИИ меняют рабочие привычки разработчиков, о балансе между эффективностью и зависимостью. Другой пользователь Asuka小能猫 также продемонстрировал пример эффективной разработки фронтенда с использованием Claude-4-Opus и режима Cursor Max, но также упомянул проблему потребления токенов (来源: dotey, dotey)

Инструменты ИИ для кодирования вызывают обсуждение зависимости разработчиков, Claude Code привлекает внимание своей мощной функциональностью и высоким потреблением токенов

Персонализированное образование на базе ИИ обладает огромным потенциалом, но требует внимания к проблемам внедрения : Остен Оллред (Austen Allred) поделился опытом своего ребенка, который пять месяцев посещал школу на базе ИИ (без учителей), и считает результаты «сумасшедшими». Ноа Смит (Noah Smith) прокомментировал, что индивидуальное репетиторство является эффективным образовательным вмешательством, а ИИ делает его масштабируемым. Это вызвало дискуссию о применении ИИ в образовании, включая персонализированные учебные траектории, потенциал ИИ-репетиторов, а также о том, как обеспечить справедливость в образовании и преодолеть технологические проблемы внедрения. Джон Стоукс (Jon Stokes) ретвитнул и обратил внимание на эту тенденцию (来源: jonst0kes, jeremyphoward)

Персонализированное образование на базе ИИ обладает огромным потенциалом, но требует внимания к проблемам внедрения

Эмоциональная связь между AI-агентами и людьми привлекает внимание, OpenAI подчеркивает приоритетность исследования благополучия пользователей : Джоан Джан (Joanne Jang) из OpenAI опубликовала пост в блоге, в котором обсуждаются отношения между людьми и ИИ, а также позиция компании по этому вопросу. Основная мысль заключается в том, что OpenAI создает модели в первую очередь для служения людям, и по мере того, как все больше людей устанавливают эмоциональную связь с ИИ, компания уделяет приоритетное внимание исследованию влияния этого на эмоциональное благополучие пользователей. Корбтт (Corbtt) прокомментировал, что AI-компаньоны являются самой революционной социальной технологией со времен интернета, и если компании будут оптимизировать вовлеченность, а не психическое здоровье, это может иметь более негативные последствия, чем социальные сети для детей, но если оптимизировать психическое здоровье, это может стать благом для человечества. cto_junior же с юмором предвидит сценарий, когда в будущем, возможно, придется обсуждать с детьми, «уместно ли жениться на GPT» (来源: cto_junior, corbtt)

Эмоциональная связь между AI-агентами и людьми привлекает внимание, OpenAI подчеркивает приоритетность исследования благополучия пользователей

Технология AI Agent быстро развивается, но задачи сквозного обучения с подкреплением с разреженными наградами все еще сложны : Натан Ламберт (Nathan Lambert) считает, что текущие проекты, такие как Deep Research, Codex agent и другие, в основном достигаются путем обучения моделей на задачах обучения с подкреплением (RL) короткой дальности и на общей устойчивости. А сквозное обучение на задачах RL с очень разреженными наградами, по-видимому, дальше, чем люди думают. Корбтт (Corbtt) прокомментировал это, сказав, что даже люди еще не освоили эффективно, как обучаться на задачах длинной дальности и с разреженными сигналами вознаграждения. Это отражает текущие ограничения технологии AI Agent в обработке сложных, долгосрочных задач планирования и автономного обучения (来源: corbtt)

«Горькие уроки» в области ИИ: верификация становится ключом для LLM с логическим выводом : Ришабх Агарвал (Rishabh Agarwal) выступил на семинаре CVPR по мультимодальному логическому выводу с докладом под названием «Горькие уроки RL: верификация как ключ для LLM с логическим выводом». Доклад был вдохновлен классической статьей Рича Саттона (Rich Sutton) о «горьких уроках» и рассматривал важность механизмов верификации в обучении с подкреплением и логическом выводе больших языковых моделей. Это может означать, что полагаться только на собственные генеративные способности модели недостаточно, и мощные механизмы верификации и обратной связи имеют решающее значение для повышения способности ИИ к логическому выводу и его надежности (来源: jack_w_rae)

«Горькие уроки» в области ИИ: верификация становится ключом для LLM с логическим выводом

Развитие ИИ вызывает опасения на рынке труда, мнения экспертов расходятся : Генеральный директор Klarna Себастьян Семятковски (Sebastian Siemiatkowski) предупреждает, что ИИ может спровоцировать экономический спад из-за массовой безработицы (особенно среди «белых воротничков»). Сама Klarna уже заменила 700 сотрудников службы поддержки AI-помощником, экономя около $40 млн в год. Исследователь Anthropic Шолто Дуглас (Sholto Douglas) также прогнозирует, что к 2027-28 годам возможности ИИ будут очень мощными. Однако существуют и мнения, что ИИ повысит производительность и создаст новые рабочие места, как, например, Сундар Пичаи (Sundar Pichai) заявлял, что ИИ будет ускорителем и, по крайней мере, до 2026 года не приведет к сокращениям. Видео AI Explained анализирует, насколько обоснованы текущие заголовки о безработице, вызванной ИИ, и обсуждает некоторые противоречивые действия Duolingo и Klarna в применении ИИ. Эти обсуждения отражают всеобщую тревогу общества по поводу экономического влияния ИИ и различные ожидания

Обсуждение будущих путей взаимодействия AI-агентов с существующими сетями/API : По мере роста возможностей автономного сетевого взаимодействия AI-агентов, их взаимодействие с существующими Web/API становится фундаментальной инфраструктурной проблемой. В ходе обсуждения были предложены три возможных пути: 1. Перестроить все с нуля, используя нативные протоколы для агентов (нереалистично); 2. Научить агентов управлять веб-сайтами так же, как люди (высокая частота ошибок, особенно в части аутентификации); 3. Заставить HTTP «говорить на языке агентов», например, путем обогащения машиночитаемым контекстом неуспешных ответов, таких как 402 (требуется оплата), чтобы агенты могли автономно аутентифицироваться и приобретать доступ. Основная идея заключается в том, что предоставление богатого контекста для неуспешных взаимодействий Web/API станет ключом к осмысленной работе автономных агентов, позволяя им автоматически восстанавливаться после ошибок и ориентироваться в сложных процессах (来源: Reddit r/ArtificialInteligence)

ИИ добивается прогресса в математических исследованиях, Теренс Тао и другие отмечают его потенциал и ограничения : Математики активно исследуют применение ИИ в решении сложных математических задач. Теренс Тао (Terence Tao) поделился примером сотрудничества ИИ (AlphaEvolve) и людей, которое за 30 дней трижды обновило рекорд по показателю суммы-разности множеств, а также, используя язык Lean и GitHub Copilot, бросил вызов проблеме пределов «ε-δ», продемонстрировав способность ИИ помогать новичкам, справляться с базовыми задачами и предсказывать структуру доказательств, но также указал на его недостатки в сложных выводах и поиске математических лемм. Сообщается также, что 30 ведущих математиков на секретной встрече тестировали OpenAI o4-mini и обнаружили, что он способен решать некоторые чрезвычайно сложные задачи, демонстрируя уровень, близкий к математическому гению. Эти достижения предвещают, что ИИ может стать мощным помощником в математических исследованиях, но также ставят новые вопросы о роли математиков и развитии творческих способностей (来源: 36氪)

ИИ добивается прогресса в математических исследованиях, Теренс Тао и другие отмечают его потенциал и ограничения

💡 Прочее

Конкуренция за альтернативные технологии GPS обостряется, Xona Space Systems планирует создать низкоорбитальную группировку PNT : Поскольку сигналы системы GPS легко подвержены помехам (погода, вышки 5G, глушилки) и имеют ограниченную точность, а ее уязвимость особенно проявилась в ходе российско-украинского конфликта, поиск альтернативных решений стал стратегическим приоритетом. Калифорнийский стартап Xona Space Systems планирует запустить спутниковую группировку на низкой околоземной орбите под названием Pulsar (в конечном итоге 258 спутников). Ее спутники будут находиться на более низкой орбите, мощность их сигнала будет примерно в 100 раз выше, чем у GPS, их будет сложнее заглушить, и они смогут лучше проникать через препятствия. Цель — предоставление услуг позиционирования, навигации и синхронизации (PNT) с сантиметровой точностью и высокой надежностью для поддержки таких новых технологий, как автономное вождение. Первый тестовый спутник будет запущен в этом месяце на борту SpaceX Transporter 14 (来源: MIT Technology Review)

Конкуренция за альтернативные технологии GPS обостряется, Xona Space Systems планирует создать низкоорбитальную группировку PNT

Исследование изучает положительное влияние надежды и оптимизма на выздоровление пациентов с сердечными заболеваниями : Последние исследования показывают, что надежда и оптимизм у пациентов с сердечными заболеваниями связаны с лучшими результатами для здоровья, в то время как отчаяние связано с более высоким риском смерти. Это согласуется с явлениями эффекта плацебо (положительные ожидания улучшают результат) и эффекта ноцебо (отрицательные ожидания приводят к негативным симптомам). Александр Монтасем (Alexander Montasem) и его коллеги из Ливерпульского университета обнаружили, что высокая степень надежды связана с уменьшением стенокардии, снижением усталости после инсульта, улучшением качества жизни и снижением риска смерти. Исследователи изучают, как можно использовать силу позитивного мышления в клинической практике, например, помогая пациентам ставить цели и повышать их активность, чтобы «прописывать надежду», одновременно подчеркивая, что нематериальные цели более важны для благополучия (来源: MIT Technology Review)

Исследование изучает положительное влияние надежды и оптимизма на выздоровление пациентов с сердечными заболеваниями

Продвижение AI-сервисов Apple и Alibaba в Китае затруднено, возможно, из-за торговых трений : По сообщению британской газеты Financial Times, планы Apple и Alibaba по продвижению AI-сервисов в Китае столкнулись с задержками, что считается последней жертвой торговых трений между США и Китаем. Это сотрудничество первоначально планировалось для обеспечения поддержки AI-функций на iPhone, продаваемых в Китае. Эта задержка может повлиять на график развертывания AI-функций Apple на китайском рынке и внести неопределенность в перспективы сотрудничества двух компаний (来源: MIT Technology Review)

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *