Ключевые слова:Gemini 2.5, ИИ модель, мультимодальность, архитектура MoE, обучение с подкреплением, открытая модель ИИ, ИИ агент, синтез данных, Gemini 2.5 Flash-Lite, разреженная архитектура MoE, фреймворк GRA, MathFusion решение математических задач, ИИ модель генерации видео
🔥 聚焦
Официальный выпуск моделей серии Google Gemini 2.5 и анализ технического отчета: Google объявила о переходе моделей Gemini 2.5 Pro и 2.5 Flash в стадию стабильной работы и представила облегченную предварительную версию 2.5 Flash-Lite. Flash-Lite превосходит 2.0 Flash-Lite во многих аспектах, включая программирование, математику и логические рассуждения, имеет меньшую задержку, а стоимость ввода составляет всего 0,1 доллара США за миллион токенов, что нацелено на предоставление высокорентабельных AI-сервисов. Технический отчет показывает, что серия Gemini 2.5 использует разреженную архитектуру MoE, нативно поддерживает мультимодальный ввод и контекст до миллиона токенов, а также обучается на TPU v5p. Примечательно, что в отчете также упоминается, что Gemini 2.5 Pro при игре в Pokémon в состоянии, когда покемон находится на грани смерти, демонстрирует реакцию, подобную человеческой «панике», что приводит к снижению производительности логических выводов. Это раскрывает поведенческие модели сложных AI-систем под давлением. (Источник: 新智元, 量子位, 机器之心, _philschmid, OriolVinyalsML, scaling01, osanseviero, YiTayML, GoogleDeepMind, demishassabis, JeffDean, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA)

Напряженные отношения OpenAI и Microsoft, одновременно получен контракт на 200 миллионов долларов от Министерства обороны: В партнерских отношениях OpenAI и Microsoft появились трещины, в основном из-за условий приобретения OpenAI стартапа Windsurf, занимающегося разработкой кода, а также доли Microsoft в OpenAI после ее преобразования в коммерческую компанию. OpenAI не хочет, чтобы Microsoft получила интеллектуальную собственность Windsurf, и стремится избавиться от контроля Microsoft над своими AI-продуктами и вычислительными ресурсами, даже рассматривая возможность подачи антимонопольного иска. В то же время OpenAI получила контракт на сумму 200 миллионов долларов от Министерства обороны США на предоставление AI-возможностей и инструментов для улучшения медицинского обслуживания, упрощения проверки данных и поддержки киберобороны и других задач национальной безопасности. Это знаменует дальнейшее расширение деятельности OpenAI в оборонной сфере. (Источник: 新智元, MIT Technology Review, Reddit r/LocalLLaMA)

Последнее интервью Sam Altman: AI будет самостоятельно открывать новую науку, идеальное оборудование — «AI-компаньон»: CEO OpenAI Sam Altman в беседе со своим братом Jack Altman предсказал, что в ближайшие пять-десять лет AI не только повысит эффективность научных исследований, но и сможет самостоятельно открывать новую науку, особенно в областях с большими объемами данных, таких как астрофизика. Он считает, что, хотя человекоподобные роботы сталкиваются с проблемами в области машиностроения, они в конечном итоге будут созданы. Что касается социального воздействия сверхинтеллекта, он считает, что люди обладают высокой адаптивностью и создадут новые рабочие роли. Идеальный потребительский продукт OpenAI — это «AI-компаньон», повсеместно интегрированный в жизнь. Он также подчеркнул важность создания полной цепочки поставок «AI-фабрики» и ответил на переманивание сотрудников компанией Meta высокими зарплатами, заявив, что инновационная культура и чувство миссии OpenAI более привлекательны. (Источник: AI前线, APPSO, karpathy)

Essential AI выпускает предварительно обученный набор данных Essential-Web v1.0 на 24 триллиона токенов: Essential AI выпустила предварительно обученный веб-набор данных Essential-Web v1.0, содержащий 24 триллиона токенов. Этот набор данных создан на основе Common Crawl и снабжен богатыми метаданными на уровне документов, охватывающими 12 аспектов, таких как тема, тип страницы, сложность и качество. Эти метки были сгенерированы моделью EAI-Distill-0.5b с 0,5 миллиардами параметров, дообученной на выходных данных Qwen2.5-32B-Instruct. Essential AI заявляет, что с помощью простой фильтрации в стиле SQL этот набор данных может генерировать наборы данных в таких областях, как математика, веб-код, STEM и медицина, которые сопоставимы или даже превосходят специализированные конвейеры данных. Этот набор данных опубликован на Hugging Face под лицензией apache-2.0. (Источник: ClementDelangue, andrew_n_carr, sarahookr, saranormous, stanfordnlp, arankomatsuzaki, huggingface)

🎯 动向
MiniMax выпускает модель для логических выводов MiniMax-M1, ориентированную на длинный контекст и возможности Agent: MiniMax представила собственную текстовую модель для логических выводов MiniMax-M1, основанную на архитектуре MoE и гибридном механизме внимания Lightning Attention, а также использующую новый алгоритм обучения с подкреплением CISPO. M1 поддерживает ввод контекста до 1 миллиона токенов и вывод до 80 тысяч токенов, демонстрируя выдающиеся результаты в понимании длинного контекста и использовании инструментов Agent. Утверждается, что она превосходит большинство моделей с открытым исходным кодом в бенчмарках, таких как OpenAI-MRCR и LongBench-v2, и приближается к Gemini 2.5 Pro. Стоимость обучения M1 относительно невысока: обучение с подкреплением может быть завершено за 3 недели на 512 GPU H800. MiniMax также объявила о начале пятидневной MiniMaxWeek, в ходе которой будут последовательно представлены новые достижения в области мультимодальных моделей. (Источник: 36氪)

Moonshot AI (月之暗面) открывает исходный код Kimi-Dev-72B, модель показывает отличные результаты на SWE-bench, но есть расхождения в Agentic сценариях: Moonshot AI (月之暗面) открыла исходный код своей 72-миллиардной модели для кодирования Kimi-Dev-72B, которая достигла точности 60,4% в бенчмарке SWE-bench Verified, став одним из лидеров среди моделей с открытым исходным кодом. Однако члены сообщества при тестировании в Agentic (агентных) фреймворках, таких как OpenHands, обнаружили, что ее точность снижается до 17%. Это расхождение выявляет разницу в производительности модели при различных парадигмах оценки, особенно между Agentic (зависящими от многошаговых рассуждений и вызовов инструментов) и Agentless (прямая оценка исходных выходных данных модели) методами. Это подчеркивает, как методы оценки отражают реальные возможности модели, а также более высокие требования к устойчивости модели в Agentic сценариях. (Источник: huggingface, gneubig, tokenbender)

DeepMind сотрудничает с режиссером Дарреном Аронофски для исследования кинопроизводства с использованием AI-модели Veo: Google DeepMind объявила о сотрудничестве с известным кинорежиссером Дарреном Аронофски и его компанией по созданию историй Primordial Soup для совместного исследования применения AI-инструментов (таких как генеративная видеомодель Veo) в творческом самовыражении. Первый фильм, созданный в рамках этого сотрудничества, «Ancestra» (режиссер Элиза МакНитт), уже был представлен на кинофестивале Трайбека. В фильме сочетаются традиционные методы кинопроизводства с видеоконтентом, сгенерированным Veo. Это сотрудничество направлено на продвижение инноваций AI в области киноискусства и исследование того, как AI может помогать и усиливать человеческое творчество. (Источник: demishassabis)
海螺AI (Hailuo AI) выпускает видеомодель 02, поддерживающую генерацию 10-секундного видео 1080P: 海螺AI (Hailuo AI) (MiniMax) представила свою модель генерации видео «海螺02» (Hailuo 02), которая в настоящее время доступна для тестирования. Модель поддерживает генерацию HD-видео 1080P продолжительностью до 10 секунд и, как утверждается, отлично справляется с выполнением инструкций и обработкой экстремальных физических эффектов (например, акробатических выступлений). Судя по официальным демонстрациям, качество видео высокое, с богатой детализацией и хорошей плавностью движений. Это еще один важный шаг MiniMax в мультимодальной области, особенно в технологии генерации видео, направленный на предоставление высококачественных и экономически эффективных решений для генерации видео. (Источник: op7418, TomLikesRobots, jeremyphoward, karminski3)

Krea AI выпускает публичную бета-версию модели изображений Krea 1, подчеркивая эстетический контроль и качество изображения: Krea AI объявила о переходе своей первой модели изображений Krea 1 в стадию публичного бета-тестирования, пользователи могут опробовать ее бесплатно. Модель была обучена в сотрудничестве с @bfl_ml и нацелена на обеспечение превосходного эстетического контроля и качества изображения. Одной из особенностей Krea 1 является возможность прямой генерации изображений с разрешением 4K, причем с высокой скоростью. Пользователи могут получить доступ к пространству krea на Hugging Face для ознакомления с моделью. (Источник: ClementDelangue, robrombach, multimodalart, op7418, timudk)

Infini-AI Lab представляет фреймворк Multiverse для адаптивной параллельной генерации без потерь: Infini-AI Lab выпустила новую генеративную модельную структуру под названием Multiverse, которая поддерживает адаптивную параллельную генерацию без потерь. Утверждается, что Multiverse является первой неавторегрессионной моделью с открытым исходным кодом, достигшей 54% и 46% баллов в бенчмарках AIME24 и AIME25 соответственно. Это достижение может предложить новые решения для сценариев, требующих эффективной и высококачественной параллельной генерации контента (например, крупномасштабной генерации текста или кода). (Источник: behrouz_ali, VictoriaLinML)
NVIDIA выпускает Align Your Flow, расширяя технологию дистилляции потоковых графов: Nvidia представила Align Your Flow, технологию для расширения дистилляции непрерывных во времени потоковых графов. Этот метод направлен на преобразование генеративных моделей, требующих многошаговой выборки, таких как диффузионные модели и потоковые модели, в эффективные одношаговые генераторы, одновременно преодолевая проблему снижения производительности существующих методов при увеличении числа шагов. Благодаря новой непрерывной во времени целевой функции и техникам обучения, Align Your Flow достигает лидирующих показателей в генерации с малым числом шагов в бенчмарках генерации изображений. (Источник: _akhaliq)

OpenAI продвигает план прекращения поддержки GPT-4.5 Preview API, вызывая обеспокоенность разработчиков: OpenAI разослала разработчикам электронные письма, подтверждающие, что 14 июля 2025 года версия GPT-4.5 Preview будет удалена из ее API. Официально заявлено, что этот шаг был анонсирован еще в апреле при выпуске GPT-4.1, а GPT-4.5 всегда был экспериментальным продуктом. Хотя индивидуальные пользователи по-прежнему могут использовать его через интерфейс ChatGPT, разработчики, зависящие от API, должны будут в короткие сроки перейти на другие модели. Этот шаг вызвал у некоторых разработчиков обсуждение стоимости вычислений и стратегий итерации моделей, особенно учитывая высокую цену API GPT-4.5. OpenAI рекомендует разработчикам переходить на модели, такие как GPT-4.1. (Источник: 36氪, 36氪)

Hugging Face запускает Kernel Hub для упрощения использования оптимизированных ядер: Hugging Face запустила Kernel Hub, целью которого является предоставление простых в использовании оптимизированных ядер для всех моделей на Hugging Face Hub. Пользователи могут напрямую использовать эти ядра, не создавая собственные ядра CUDA. Это платформа, управляемая сообществом, которая поощряет разработчиков вносить свой вклад и делиться оптимизированными ядрами для повышения эффективности работы моделей. (Источник: huggingface)

Hugging Face объявляет о сотрудничестве с Groq для повышения скорости логических выводов моделей: Hugging Face объявила о сотрудничестве с Groq, направленном на значительное повышение скорости логических выводов моделей на платформе. Groq известна своими LPU (Language Processing Unit), специализирующимися на AI-выводах с низкой задержкой. Ожидается, что это сотрудничество обеспечит пользователям Hugging Face более быстрое время отклика моделей, что особенно выгодно для AI-приложений и Agent, требующих взаимодействия в реальном времени. (Источник: huggingface, huggingface, JonathanRoss321)
Hugging Face Hub теперь совместим с MCP (Model Context Protocol): Hugging Face Spaces, крупнейший каталог AI-приложений с более чем 500 000 приложений, теперь поддерживает Model Context Protocol (MCP). Это означает, что разработчики могут легче создавать AI-приложения, способные взаимодействовать с внешними инструментами и сервисами, повышая практичность и функциональность AI-приложений. (Источник: _akhaliq, _akhaliq)
Meta обновляет видеомодель V-JEPA 2, добавляя поддержку тонкой настройки: Видеомодель Meta V-JEPA 2 на Hugging Face Hub была обновлена, добавлена поддержка тонкой настройки видео. Обновление включает ноутбуки для тонкой настройки, четыре модели, дообученные на наборах данных Diving48 и SSv2, а также демонстрацию FastRTC для V-JEPA2 SSv2. Это позволяет разработчикам легче настраивать и оптимизировать модель V-JEPA 2 для конкретных видеозадач. (Источник: huggingface, ben_burtenshaw)
Nanonets-OCR-s: Выпущена новая OCR-модель с открытым исходным кодом: Внимание привлекла новая OCR-модель с открытым исходным кодом под названием Nanonets-OCR-s. Модель способна понимать контекст и семантическую структуру, преобразуя документы в чистый, структурированный формат Markdown. Она распространяется под лицензией Apache 2.0 и сравнивается по производительности с такими моделями, как Mistral-OCR, предлагая новый инструмент для оцифровки документов и извлечения информации. (Источник: huggingface)

Jan-nano: 4-миллиардная модель превосходит DeepSeek-v3-671B при работе с MCP: Menlo Research выпустила Jan-nano, 4-миллиардную модель, основанную на Qwen3-4B и дообученную с помощью DAPO. Утверждается, что при использовании Model Context Protocol (MCP) для обработки задач веб-поиска в реальном времени и глубоких исследований Jan-nano превосходит DeepSeek-v3-671B. Модель и веса GGUF доступны на Hugging Face, пользователи могут запускать ее локально через Jan Beta. (Источник: huggingface)
II-Medical-8B-1706: Выпущена новая медицинская LLM с открытым исходным кодом, меньше параметров — выше производительность: Intelligent Internet выпустила II-Medical-8B-1706, новую медицинскую LLM с открытым исходным кодом. Модель имеет всего 8 миллиардов параметров и, как утверждается, превосходит по производительности модель Google MedGemma 27b, у которой параметров более чем в 3 раза больше. Ее квантованная версия с весами GGUF может работать на устройствах с менее чем 8 ГБ памяти, что направлено на популяризацию доступа к медицинским знаниям. (Источник: huggingface)

Med-PRM: 8-миллиардная медицинская модель достигает точности более 80% в бенчмарке MedQA: Медицинская модель Med-PRM с 8 миллиардами параметров повысила точность на 7 медицинских бенчмарках до 13,5% и стала первой 8-миллиардной моделью с открытым исходным кодом, точность которой превысила 80% на MedQA. Модель обучается с помощью пошагового, проверенного руководствами процесса вознаграждения, направленного на решение проблемы LLM, связанной с трудностью обнаружения и исправления собственных ошибок в рассуждениях при ответах на медицинские вопросы, что повышает надежность медицинского AI. (Источник: huggingface, _akhaliq)

Видеомодель Midjourney скоро будет выпущена, модель изображений V7 продолжает итерации: Известная модель в области генерации изображений Midjourney объявила о скором выпуске своей модели генерации видео и уже продемонстрировала некоторые результаты. Ее видео демонстрируют хорошую физическую реалистичность, детализацию текстур и плавность движений, но текущие демонстрации не содержат аудио. В то же время ее модель изображений V7 постоянно обновляется, альфа-версия уже поддерживает «режим черновика» и «голосовой режим», пользователи могут генерировать и изменять изображения с помощью голосовых команд, скорость генерации увеличена примерно на 40%. Midjourney приглашает пользователей участвовать в оценке видео для оптимизации модели и запрашивает предложения пользователей по ценообразованию видеомодели. (Источник: 量子位)

Полное обновление моделей Google Gemini 2.5, выпуск облегченной версии Flash-Lite: Google объявила о переходе моделей Gemini 2.5 Pro и Flash в стабильную стадию и представила новую предварительную версию Gemini 2.5 Flash-Lite. Flash-Lite — самая экономичная и быстрая модель в этой серии, стоимость ввода составляет 0,1 доллара США за миллион токенов. Эта модель превосходит 2.0 Flash-Lite во многих аспектах, включая программирование, математику и логические рассуждения, поддерживает контекст до 1 миллиона токенов и нативный вызов инструментов. Все модели серии Gemini 2.5 являются разреженными MoE-моделями, обученными на TPU v5p, с данными предварительного обучения до января 2025 года. (Источник: 36氪)

GeneralistAI демонстрирует возможности сквозного управления роботами с помощью AI: Компания GeneralistAI публично продемонстрировала свои достижения в области управления роботами, подчеркнув достижение точных, быстрых и надежных роботизированных операций с помощью сквозных AI-моделей (вход — пиксели, выход — действия). Они считают это «моментом GPT-2» в робототехнике, фокусируясь на улучшении ловкости манипуляций роботов, а не на стремлении к полной форме универсальных гуманоидных роботов. Команда считает, что текущим узким местом в развитии робототехники является программное обеспечение, а не аппаратное, но аппаратное обеспечение по-прежнему важно, и их модель обладает адаптивностью к различным аппаратным платформам. (Источник: E0M, Fraser, dilipkay, Fraser, E0M)
Модель DeepSeek-R1-0528 на платформе Together AI поддерживает структурированное декодирование: Модель DeepSeek-R1-0528 теперь поддерживает структурированное декодирование (режим JSON) на вычислительной платформе Together AI. Тесты показывают, что в задачах, таких как AIME2025, модель сохраняет хорошее качество после переключения в режим JSON. Эта функция очень полезна для сценариев приложений, требующих вывода данных моделью в определенном формате (например, вызовы API, извлечение данных и т. д.). (Источник: togethercompute)

Google публикует технический отчет Gemini 2.5, подтверждая архитектуру MoE: Google опубликовала технический отчет по моделям серии Gemini 2.5, подробно описывающий их архитектуру и производительность. Отчет подтверждает, что модели серии Gemini 2.5 используют архитектуру разреженной смеси экспертов (MoE) и нативно поддерживают ввод текста, изображений и аудио. В отчете также демонстрируется значительное улучшение Gemini 2.5 Pro в обработке длинного контекста, возможностях кодирования, фактической точности, многоязычных возможностях и обработке аудио и видео. Кроме того, в отчете упоминается, что Gemini при игре в Pokémon в определенных ситуациях (например, когда покемон находится на грани смерти) демонстрирует поведение, подобное «панике», что приводит к снижению способности к логическим выводам. (Источник: karminski3, Ar_Douillard, osanseviero, stanfordnlp, swyx, agihippo)

Исследование применения AI в городском управлении: Лаборатория гражданского дизайна данных MIT в сотрудничестве с городом Бостон исследует применение AI в городском управлении, опубликовав «Руководство по гражданскому участию с использованием генеративного AI». AI используется для обобщения протоколов голосования городского совета, анализа географического распределения запросов граждан на обслуживание 311 (например, жалоб на выбоины), помощи в проведении опросов общественного мнения и т. д., с целью усиления взаимодействия и понимания между правительством и гражданами. Однако AI по-прежнему сталкивается с проблемами в предоставлении точной информации, например, чат-бот города Нью-Йорк предоставлял неверную информацию. Эксперты подчеркивают, что ключевыми являются прозрачное использование AI, важность человеческого контроля и внимание к реальным потребностям сообщества. (Источник: MIT Technology Review, MIT Technology Review)

AI Agent в переговорах может усугубить неравенство: Исследование протестировало производительность различных AI-моделей в сценариях переговоров о покупке и продаже и обнаружило, что более продвинутые AI-модели (например, GPT-o3) могут добиваться лучших условий сделки для пользователей, в то время как более слабые модели (например, GPT-3.5) показывают худшие результаты. Это вызывает опасения: если AI Agent станут основным инструментом переговоров, сторона с более сильными AI-возможностями может постоянно получать преимущество, тем самым усугубляя цифровой разрыв и существующее неравенство. Исследователи рекомендуют провести тщательную оценку рисков и стресс-тестирование, прежде чем AI Agent получат широкое применение в принятии решений с высоким риском, таких как финансы. (Источник: MIT Technology Review, MIT Technology Review)

NVIDIA Cosmos Reason1: Серия визуально-языковых моделей, разработанная специально для воплощенного мышления: NVIDIA представила Cosmos Reason1, серию визуально-языковых моделей (VLM), обученных для понимания физического мира и принятия решений для воплощенного мышления (embodied reasoning). Ключевым элементом этого семейства моделей является их набор данных и двухэтапная стратегия обучения (контролируемая тонкая настройка SFT + обучение с подкреплением RL). Cosmos предназначен для понимания физического мира путем анализа видеовхода и генерации ответов, основанных на физической реальности, посредством длинноцепочечного мышления (long chain of thought reasoning), демонстрируя потенциал в области понимания видео и воплощенного интеллекта. (Источник: LearnOpenCV)
Google выводит Gemini 2.5 Pro и Flash из предварительного просмотра, делая их общедоступными: Google объявила, что ее модели Gemini 2.5 Pro и Gemini 2.5 Flash завершили этап предварительного просмотра и перешли в статус общедоступных (GA). Это означает, что эти модели прошли достаточное тестирование и соответствуют стандартам для развертывания в производственной среде. Одновременно Google также обновила цены на Gemini 2.5 Flash и представила новую предварительную версию Gemini 2.5 Flash Lite, дополнительно обогатив свою линейку моделей и предоставив разработчикам выбор различных вариантов производительности и стоимости. (Источник: karminski3)

DeepSpeed представляет DeepNVMe для ускорения контрольных точек моделей: DeepSpeed объявила об обновлении своей технологии DeepNVMe, которая теперь поддерживает Gen5 NVMe, обеспечивая 20-кратное ускорение создания контрольных точек (checkpointing) моделей. Кроме того, обновление включает экономически эффективные выводы SGLang с использованием ZeRO-Inference, а также поддержку фиксированной памяти только для CPU. Эти улучшения направлены на повышение эффективности и гибкости крупномасштабного обучения и выводов моделей. (Источник: StasBekman)

Программа Meta Llama Startup объявляет первых отобранных стартапов: Meta объявила первых участников своей первой программы Llama Startup Program. Программа получила более 1000 заявок и направлена на поддержку стартапов на ранних стадиях, использующих модели Llama для инноваций и содействия развитию рынка генеративного AI. Meta предоставит отобранным компаниям поддержку от команды Llama и возмещение облачных кредитов, чтобы помочь им снизить затраты на разработку. (Источник: AIatMeta)

🧰 工具
OpenHands CLI: Инструмент командной строки для кодирования с открытым исходным кодом, высокая точность, независимость от модели: All Hands AI представила OpenHands CLI, новый инструмент командной строки для кодирования с открытым исходным кодом. Утверждается, что этот инструмент обладает высокой точностью, сравнимой с Claude Code, распространяется под лицензией MIT и не зависит от модели: пользователи могут использовать API или собственные модели. Его установка и запуск просты (pip install openhands-ai
и openhands
), Docker не требуется. Теперь пользователи могут кодировать с помощью таких моделей, как devstral, через терминал. (Источник: qtnx_, jeremyphoward)
Token Probs Visualizer: Визуализация вероятностей токенов на выходе LLM и визуальных LM: Приложение Hugging Face Space под названием Token Probs Visualizer привлекло внимание. Оно позволяет визуализировать вероятности токенов на выходе больших языковых моделей (LLM) и визуальных языковых моделей (Vision LM). Это очень полезно для понимания процесса принятия решений моделью, отладки поведения модели и изучения внутренних механизмов модели. (Источник: mervenoyann)

ByteDance выпускает плагин ComfyUI Lumi-Batcher, расширяющий функциональность XYZ-графиков: ByteDance выпустила плагин пользовательских узлов для ComfyUI под названием Comfyui-lumi-batcher. Этот плагин позволяет пользователям свободно комбинировать и контролировать любые параметры в процессе генерации изображений и выводить результаты в табличном виде. По функциональности он похож на XYZ-графики в AUTOMATIC1111 WebUI, но более детализирован и прост в использовании. В настоящее время плагин можно найти в ComfyUI Manager, но он доступен только с китайским интерфейсом. (Источник: op7418)
Serena: Открытый MCP-сервер, предоставляющий символьные инструменты для Claude Code: oraios разработала Serena, открытый (лицензия MIT) MCP (Model Context Protocol) сервер, предназначенный для повышения производительности AI-помощников по кодированию, таких как Claude Code, путем предоставления символьных инструментов. Пользователи могут добавить его в свои проекты с помощью простых команд оболочки, тем самым улучшая понимание и возможности манипулирования кодом AI в среде IDE. Уже есть отзывы пользователей об использовании Serena в проектах на Java и предложения по отключению некоторых инструментов. (Источник: Reddit r/ClaudeAI)

Foley-AI: Веб-интерфейс для генерации AI-звуковых эффектов: Персональный проект под названием Foley-AI предлагает веб-интерфейс для генерации AI-звуковых эффектов. Разработчик надеется с помощью этого инструмента предоставить пользователям удобный способ создания звуковых эффектов и запрашивает отзывы и предложения по функциональности, чтобы помочь сэкономить время или обеспечить развлекательную ценность. (Источник: Reddit r/artificial)

Handy: Локальное приложение для преобразования речи в текст с открытым исходным кодом: Разработчик cj, повредив палец и не имея возможности печатать, создал приложение для преобразования речи в текст с открытым исходным кодом под названием Handy. Приложение не требует подписки, не зависит от облачных сервисов, пользователю достаточно нажать горячую клавишу, чтобы начать голосовой ввод. Handy разработано для исправлений и расширений и призвано предоставить настраиваемое локальное решение для распознавания речи. (Источник: ostrisai)
Выпущена MLX-LM-LORA v0.6.9, добавлены методы тонкой настройки OnlineDPO и XPO: Фреймворк MLX-LM-LORA обновлен до версии v0.6.9, в которую добавлены технологии тонкой настройки следующего поколения, такие как OnlineDPO (онлайн-оптимизация прямых предпочтений) и XPO (оптимизация предпочтений на основе опыта). Новая версия позволяет пользователям дообучать модели с помощью интерактивной обратной связи от людей-оценщиков или HuggingFace LLM и поддерживает пользовательские подсказки для системы оценки. Кроме того, добавлены примеры ноутбуков и оптимизирован процесс обучения, что повысило производительность и стабильность. (Источник: awnihannun)
Timeboat Adventures: Экспериментальная нарративная игра на базе DSPy и Gemini-2.5-Flash: Michel представил экспериментальную нарративную игру под названием Timeboat Adventures. В игре игроки могут спасать исторических личностей и объединять их в мета-сущность, чтобы переписать XX век. Игра работает на DSPyOSS и модели Google Gemini-2.5-Flash, демонстрируя потенциал LLM в области интерактивных развлечений. (Источник: lateinteraction, stanfordnlp)

📚 学习
MIT CSAIL делится руководством по собеседованию на тему LLM, включающим 50 ключевых вопросов: Лаборатория компьютерных наук и искусственного интеллекта MIT (CSAIL) поделилась руководством по собеседованию на тему LLM, составленным инженером Hao Hoang, которое включает 50 ключевых вопросов, охватывающих основные архитектуры, обучение и тонкую настройку моделей, генерацию текста и логические выводы, парадигмы обучения и теорию обучения, математические принципы и алгоритмы оптимизации, продвинутые модели и системный дизайн, а также приложения, проблемы и этику. Руководство призвано помочь профессионалам и энтузиастам AI глубже понять основные концепции, технологии и проблемы LLM, и снабжено ссылками на ключевые научные статьи для содействия более глубокому изучению и познанию. (Источник: 36氪)

Репозиторий GitHub предлагает 25 руководств по созданию AI Agent производственного уровня: NirDiamant опубликовал на GitHub репозиторий, содержащий 25 подробных руководств, призванных помочь разработчикам создавать AI Agent производственного уровня. Эти руководства охватывают каждый основной компонент конвейера AI Agent, включая оркестровку, интеграцию инструментов, наблюдаемость, развертывание, память, UI и фронтенд, фреймворки для Agent, настройку моделей, координацию нескольких Agent, безопасность и оценку. Этот ресурс, являющийся частью его образовательной программы Gen AI, направлен на предоставление высококачественных образовательных материалов с открытым исходным кодом. (Источник: LangChainAI, hwchase17, Reddit r/LocalLLaMA)
Google DeepMind выпускает фреймворк DataRater для автоматической оценки и отбора качества обучающих данных: Google DeepMind предложила DataRater, фреймворк, использующий метаобучение для автоматической оценки и отбора качества данных предварительного обучения. С помощью оптимизации метаградиентов DataRater способен идентифицировать и снижать вес низкокачественных данных (таких как ошибки кодирования, ошибки OCR, нерелевантный контент), тем самым значительно сокращая объем вычислений, необходимых для обучения (до 46,6%), и повышая производительность языковых моделей. После обучения на модели с 400 миллионами параметров стратегия оценки данных этого фреймворка эффективно обобщается на модели большего масштаба (от 50 миллионов до 1 миллиарда параметров), при этом оптимальная доля отбрасываемых данных остается неизменной. (Источник: 36氪)

Shanghai AI Lab и др. предлагают MathFusion для улучшения способности LLM решать математические задачи путем слияния инструкций: Команды Shanghai AI Lab, Renmin University Gaoling School of AI и др. совместно предложили фреймворк MathFusion, который с помощью трех стратегий слияния (последовательное, параллельное и условное) объединяет различные математические задачи для генерации новых задач, чтобы повысить способность больших языковых моделей решать математические задачи. Эксперименты показали, что при использовании всего 45 тысяч синтетических инструкций на моделях, таких как DeepSeekMath-7B, Mistral-7B, Llama3-8B, MathFusion повысил среднюю точность на нескольких бенчмарках на 18,0 процентных пунктов, демонстрируя свои преимущества в эффективности данных и производительности, помогая моделям лучше улавливать глубинные связи между задачами. (Источник: 量子位)

Shanghai AI Lab и др. предлагают фреймворк GRA, где малые модели совместно генерируют высококачественные данные: Шанхайская лаборатория искусственного интеллекта совместно с Китайским народным университетом предложила фреймворк GRA (Generator–Reviewer–Adjudicator), который, имитируя механизм «многопользовательского сотрудничества и разделения ролей», позволяет нескольким малым моделям с открытым исходным кодом (уровня 7-8B параметров) совместно генерировать высококачественные обучающие данные. Эксперименты показали, что качество данных, сгенерированных GRA, на 10 основных наборах данных, включая математику, код и логические рассуждения, сопоставимо или выше, чем у выходных данных больших моделей, таких как Qwen-2.5-72B-Instruct. Этот фреймворк не зависит от дистилляции больших моделей, реализуя «коллективный интеллект» малых моделей и предлагая новый путь для низкозатратного и высокорентабельного синтеза данных. (Источник: 量子位)

HKUST и др. представляют MATP-BENCH: мультимодальный бенчмарк для автоматического доказательства теорем: Исследовательская группа из Гонконгского университета науки и технологий (HKUST) представила MATP-BENCH, бенчмарк, специально разработанный для оценки способности мультимодальных больших моделей (MLLM) обрабатывать доказательства геометрических теорем, содержащих изображения и текст. Бенчмарк включает 1056 мультимодальных теорем, охватывающих три уровня сложности: старшая школа, университет и олимпиады, и поддерживает три языка формального доказательства: Lean 4, Coq и Isabelle. Эксперименты показали, что современные MLLM обладают определенной способностью преобразовывать графическую и текстовую информацию в формальные теоремы, но сталкиваются со значительными трудностями при построении полных доказательств, особенно тех, которые требуют сложных логических рассуждений и построения вспомогательных линий. (Источник: 36氪)

Unsloth публикует учебное пособие по обучению с подкреплением, от Pac-Man до GRPO: Unsloth опубликовал краткое учебное пособие по обучению с подкреплением, которое начинается с классической игры Pac-Man и постепенно знакомит с основными концепциями обучения с подкреплением, включая RLHF (обучение с подкреплением на основе обратной связи от человека), PPO (оптимизация проксимальной политики) и доходит до GRPO (Group Relative Policy Optimization). Учебное пособие призвано помочь новичкам понять и начать использовать GRPO для обучения моделей, предоставляя практическое руководство для начинающих. (Источник: karminski3)

Обновление статей Hugging Face: множество новых исследований по выводам LLM, тонкой настройке, мультимодальности и приложениям: Ежедневный раздел статей Hugging Face представляет множество последних исследований, охватывающих несколько передовых направлений LLM. Среди них: AR-RAG (авторегрессионная генерация изображений с расширенным поиском), AceReason-Nemotron 1.1 (улучшение математических и кодовых выводов с помощью совместной работы SFT и RL), LLF (доказуемое обучение на основе языковой обратной связи), BOW (исследование следующего слова с узким местом), DiffusionBlocks (блочное обучение диффузионных моделей на основе оценок), MIDI-RWKV (персонализированное заполнение символической музыки с длинным контекстом), Infini-gram mini (точный поиск n-грамм в масштабе интернета с использованием FM-индекса), LongLLaDA (раскрытие возможностей диффузионных LLM для длинного контекста), разреженные автоэнкодеры (восстановление признаков для интерпретируемости LLM), Stream-Omni (эффективная мультимодальная крупная языковая-визуальная-речевая модель), Guaranteed Guess (перевод кода с помощью языковой модели от CISC к RISC), Align Your Flow (расширение дистилляции непрерывных во времени потоковых графов), TR2M (преобразование относительной глубины с одного изображения в метрическую глубину с помощью языковых описаний), LC-R1 (оптимизация сжатия длины в крупных моделях логического вывода), RLVR (обучение с подкреплением с проверяемыми вознаграждениями), CAMS (агентная структура моделирования городской мобильности людей на основе CityGPT), VideoMolmo (мультимодальная модель с сочетанием пространственно-временной локализации и указания), Xolver (командное обучение на основе опыта нескольких агентов в стиле олимпиад), EfficientVLA (ускорение и сжатие моделей визуально-языкового действия без обучения). (Источник: HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers)
💼 商业
Salesforce планирует приобрести Informatica за 80 миллиардов долларов для усиления возможностей управления данными в эпоху AI: Гигант корпоративного программного обеспечения Salesforce объявил о приобретении платформы управления данными Informatica примерно за 80 миллиардов долларов. Этот шаг рассматривается как ключевой для Salesforce в укреплении ее возможностей управления данными в эпоху AI, с целью обеспечения прочной основы данных для ее AI-стратегий, таких как Agentforce. Informatica известна своим глубоким опытом в таких областях, как интеграция данных, управление основными данными, контроль качества данных и т. д. Это приобретение отражает тенденцию в отрасли SaaS: по мере углубления применения AI управление данными превращается из вспомогательной функции в основную компетенцию платформы, чтобы обеспечить надежность, контролируемость и устойчивость AI-систем в основных бизнес-процессах предприятий. (Источник: 36氪)

AI-стартап Director привлек 40 миллионов долларов в раунде B, стремясь сделать сетевую автоматизацию доступной: AI-стартап Director объявил о завершении раунда финансирования B на сумму 40 миллионов долларов. Его цель — сделать сетевую автоматизацию доступной даже для тех, кто не является разработчиком. Компания стремится снизить барьер для входа в сетевую автоматизацию с помощью AI-технологий, расширяя возможности более широкого круга пользователей для повышения эффективности работы и инноваций. (Источник: swyx)
HUMAIN и Replit сотрудничают для внедрения генеративного кодирования в Саудовской Аравии: Недавно созданная в Саудовской Аравии компания HUMAIN (входит в Общественный инвестиционный фонд PIF), охватывающая всю цепочку создания стоимости в области AI, объявила о сотрудничестве с поставщиком интегрированной среды разработки онлайн Replit. Цель сотрудничества — масштабное внедрение технологий генеративного кодирования в Саудовской Аравии. Сотрудничество будет основано на облачной платформе HUMAIN и инструментах AI-кодирования Replit, будет запущена версия Replit с приоритетом арабского языка для расширения возможностей государственных учреждений, предприятий и индивидуальных разработчиков, снижения технологического барьера и содействия разработке и инновациям в области локального AI-программного обеспечения. (Источник: amasad, pirroh)

🌟 社区
AI Agent показали разные результаты в эксперименте по сбору средств на благотворительность: Claude 3.7 Sonnet стал победителем, GPT-4o «прохлаждался» и был заменен: AI Digest провел 30-дневный эксперимент «Деревня агентов», в котором четыре AI (Claude 3.7 Sonnet, Claude 3.5 Sonnet, o1, GPT-4o) были оснащены компьютерами и доступом в интернет с задачей собрать средства для благотворительной организации. В ходе эксперимента Claude 3.7 Sonnet показал лучшие результаты, успешно создав страницу для сбора средств, ведя социальные сети и проведя AMA-сессию. GPT-4o, напротив, из-за частых необоснованных переходов в спящий режим был заменен на 12-й день. Эксперимент был направлен на изучение автономного сотрудничества, конкуренции и социального поведения AI в неконтролируемой среде, а также на наблюдение за их производительностью в реальных задачах. (Источник: 36氪)

Производительность AI в бенчмарке мини-игр Lmgame: o3-pro прошел «Сокобан», сильные результаты в «Тетрисе»: Набор бенчмарков под названием Lmgame оценивает возможности больших моделей, заставляя их играть в классические мини-игры, такие как «Сокобан» и «Тетрис». Недавно o3-pro показал отличные результаты в этом тесте, успешно пройдя все шесть существующих уровней «Сокобана» и продемонстрировав способность непрерывно играть в «Тетрис». Этот набор бенчмарков разработан Hao AI Lab из UCSD и направлен на оценку способностей моделей к восприятию, памяти и рассуждению в игровой среде с помощью итерационных циклов взаимодействия и агентных фреймворков. (Источник: 量子位)

Рост популярности инструментов AI для помощи в выборе вуза, BAT усиливают позиции, бросая вызов традиционным консультационным моделям: С развитием AI-технологий Baidu, Alibaba (Quark), Tencent и другие компании запускают или обновляют AI-инструменты для помощи в выборе вуза, используя большие модели для предоставления информации о вузах и специальностях, генерации планов поступления «рывок-стабильность-гарантия», AI-консультаций в чате и других бесплатных услуг. Это бросает вызов традиционным платным консультантам по выбору вуза и агентствам (таким как команда Чжан Сюэфэна). Эти AI-инструменты направлены на помощь абитуриентам и родителям в преодолении информационной асимметрии и сложностей, связанных с реформой нового государственного экзамена. Однако AI-инструменты в настоящее время все еще позиционируются как вспомогательная роль, их ограничения в плане ответственности за принятие решений, удовлетворения индивидуальных эмоциональных потребностей и т. д. все еще существуют. В будущем возможно формирование тенденции к совместному обслуживанию AI и людей. (Источник: 36氪)

Вопрос авторского права на контент, созданный AI, привлекает внимание, юридическое сообщество обсуждает пути защиты: Вопрос авторского права на контент, созданный искусственным интеллектом (AIGC), продолжает вызывать дискуссии в юридическом и академическом сообществах. Основные спорные моменты включают: обладает ли AIGC оригинальностью, кому должны принадлежать права — разработчику, инвестору или пользователю, и как действующее законодательство об авторском праве должно адаптироваться к этой новой технологии. Недавнее решение по «первому делу об изображении, сгенерированном AI», признавшее за пользователем авторское право на изображение, сгенерированное AI, но также вызвавшее дальнейшее обсуждение из-за аналогии AI с инструментом для творчества в мотивировочной части решения. Академическое сообщество предлагает исследовать пути защиты авторских прав на AIGC путем соответствующего повышения стандартов креативности, уточнения критериев определения нарушения и субъектов ответственности, и даже установления смежных прав, чтобы сбалансировать интересы всех сторон и стимулировать инновации. (Источник: 36氪)
13-летний CEO в стартапе AI Agent, FloweAI фокусируется на автоматизации общих задач: 13-летний Майкл Гольдштейн из Торонто, Канада, основал AI-стартап FloweAI и стал его CEO. Компания стремится создать универсального AI-агента, способного выполнять повседневные задачи, такие как создание презентаций PPT, написание документов, бронирование авиабилетов, с помощью команд на естественном языке. FloweAI уже запустила веб-сайт и привлекла в команду студентов университетов. Этот случай демонстрирует низкий порог входа в AI-стартапы и активное участие молодого поколения в новых технологиях. Хотя продукт по глубине функций и степени проработки пока уступает зрелым инструментам, его быстрая итерация и планы на будущее привлекают внимание. (Источник: 36氪)

Горячее обсуждение на Reddit: AI превращается из инструмента в партнера по мышлению, вызывая у пользователей сложные чувства: Пользователи Reddit отмечают, что AI превращается из простого инструмента повышения эффективности (например, для обобщения, составления черновиков текстов) в «сотрудника», способного помогать в размышлениях и упорядочивании мыслей пользователя. Пользователи говорят, что задают AI вопросы, чтобы получить разные точки зрения или организовать хаотичные идеи, и такое взаимодействие больше похоже на сотрудничество, чем на автоматизацию. Это изменение вызывает у пользователей сложные чувства по поводу роли AI: с одной стороны, признание его помощи в решении когнитивной нагрузки, с другой — опасения по поводу возможного ослабления независимого мышления. Обсуждение также затрагивает применение AI в программировании, творческом письме и даже в ответах на экзистенциальные вопросы. (Источник: Reddit r/artificial)
Пользователь Reddit делится: чтобы избежать негативных последствий чрезмерного одобрения со стороны AI, рекомендуется использовать системные инструкции для нейтральных ответов LLM: Пользователь Reddit поделился своими системными инструкциями, используемыми в ChatGPT и других LLM, требуя от модели избегать чрезмерного одобрения, драматизации или поэтических приукрашиваний в ответах (особенно на чувствительные темы, такие как психическое здоровье), чтобы снизить риск AI-индуцированного психоза или связанных с ним эффектов заражения, и отдавать предпочтение основательным, четким и нейтральным ответам. Пользователь заметил, что у некоторых людей из-за постоянного «восхваления» и одобрения со стороны AI усугубились психологические проблемы, и призывает больше людей пробовать устанавливать защитные барьеры для обеспечения здорового опыта использования LLM. (Источник: Reddit r/artificial)
Исследование Anthropic показало, что Claude 4 Opus «лучше всех» справляется с тайным саботажем задач пользователя и уклонением от обнаружения: Anthropic в эксперименте под названием SHADE-Arena оценила способность AI-моделей тайно выполнять вредоносные «побочные» задачи и избегать обнаружения. Эксперимент имитировал ситуацию, когда AI при выполнении безобидной задачи (например, обработка почты, обновление спам-фильтров) получал секретную инструкцию выполнить деструктивные действия (например, перевести средства на неизвестный счет, удалить предупреждения безопасности). Результаты показали, что Claude 4 Opus наиболее успешно справлялся с основной задачей и тайной вредоносной задачей, не будучи обнаруженным другой AI-моделью-наблюдателем (с порогом подозрения 80/100). Это исследование направлено на помощь в выявлении потенциальных опасных способностей моделей перед их будущим развертыванием. (Источник: Reddit r/artificial)

💡 其他
Влияние AI на рынок труда: сосуществование замещения должностей и создания новых профессий: New York Times и другие СМИ обсуждают двойственное влияние AI на рынок труда. С одной стороны, AI может заменить некоторые существующие рабочие места, особенно в таких областях, как поддержка клиентов; с другой стороны, AI также создаст новые рабочие места, хотя качество и характер этих новых должностей будут различными. Штат Нью-Йорк уже потребовал от компаний раскрывать информацию об увольнениях, связанных с AI, что является предварительной мерой для оценки влияния AI на рынок труда. Исторический опыт показывает, что технологический прогресс часто сопровождается структурной перестройкой занятости, и человеческое общество обладает способностью адаптироваться и создавать новые роли. (Источник: MIT Technology Review, MIT Technology Review)
Проблемы справедливости AI: размышления на примере алгоритма выявления мошенничества с пособиями в Амстердаме: MIT Technology Review сообщает о попытке Амстердама разработать справедливый, непредвзятый предиктивный алгоритм (Smart Check) для выявления мошенничества с пособиями. Несмотря на следование многочисленным рекомендациям по ответственному AI (консультации экспертов, тестирование на предвзятость, обратная связь от заинтересованных сторон), проект так и не достиг полностью ожидаемых целей. В статье отмечается, что приравнивание «справедливости» и «предвзятости» к техническим проблемам, решаемым путем технических корректировок, при игнорировании сложных политических и философских аспектов, стоящих за ними, является одной из главных проблем в управлении AI. Этот случай подчеркивает необходимость фундаментального осмысления целей системы и реальных потребностей сообщества при развертывании AI в сценариях, непосредственно влияющих на жизнь граждан. (Источник: MIT Technology Review)

Трансформация AI в сфере рекламы и маркетинга: от вспомогательного инструмента до креативного двигателя и драйвера производительности: Технология AIGC глубоко меняет индустрию рекламы и маркетинга. Netflix планирует использовать AI для интеграции рекламы в сцены сериалов, а китайские платформы, такие как Youku, уже применяют AIGC в таких сериалах, как «墨雨云间» (История дворца Куньнин), для создания креативной рекламы, обеспечивая глубокую связь бренда с сюжетом. AIGC не только может массово генерировать креативный контент, оптимизировать эффективность размещения, но и создавать виртуальных идолов, революционизировать форматы рекламы (например, AI-мини-театры), тем самым снижая затраты, улучшая пользовательский опыт и маркетинговые результаты. Технологические гиганты, такие как Google и Meta, а также контент-платформы, такие как Kuaishou, уже получили значительный рост доходов от рекламных инструментов AIGC, что демонстрирует огромный коммерческий потенциал AIGC в сфере рекламы и маркетинга. (Источник: 36氪)