Ключевые слова:AI, TPU, Google Ironwood TPU, A2A протокол, HBM память, AI агенты, MoE модели

🔥 В центре внимания

Google анонсирует TPU седьмого поколения и протокол сотрудничества агентов A2A: На конференции Cloud Next ’25 Google представила TPU седьмого поколения «Ironwood», разработанный специально для логического вывода AI. При крупномасштабном развертывании его вычислительная мощность достигает 42,5 экзафлопс, что значительно превосходит существующие суперкомпьютеры. Объем памяти и пропускная способность чипа значительно увеличены (192 ГБ HBM, пропускная способность 7,2 Тбит/с), а энергоэффективность удвоена. Он предназначен для поддержки «моделей мышления», таких как Gemini 2.5, требующих сложных возможностей логического вывода. Одновременно Google представила открытый протокол Agent-to-Agent (A2A), направленный на стандартизацию безопасной связи и сотрудничества между различными AI-агентами, который уже поддержали более 50 компаний. A2A определяет обнаружение возможностей агентов, управление задачами, способы сотрудничества и т. д. и дополняет протокол MCP, используемый для подключения инструментов. Google также объявила о поддержке протокола MCP в своих моделях Gemini и SDK, что будет способствовать дальнейшему развитию взаимосвязанности экосистемы AI-агентов. (Источник: 机器之心, 36氪, 卡兹克, 机器之心, AI前线)

42,5 экзафлопс: производительность нового TPU от Google превосходит самый мощный суперкомпьютер в 24 раза, представлен протокол сотрудничества агентов A2A

SK Hynix впервые возглавила мировой рынок DRAM благодаря преимуществу в HBM: Отчет исследовательской компании Counterpoint Research показывает, что в первом квартале 2025 года SK Hynix впервые обогнала Samsung (34%), заняв 36% рынка и став крупнейшим поставщиком DRAM в мире. Micron заняла третье место с 25%. Успех SK Hynix в основном обусловлен ее доминирующим положением в области памяти с высокой пропускной способностью (HBM) (по сообщениям, доля рынка составляет 70%), поскольку бурный рост AI значительно увеличил спрос на HBM. SK Hynix является эксклюзивным поставщиком чипов HBM3E для AI-ускорителей Nvidia, и ожидается, что спрос на HBM продолжит стремительно расти. В то же время корейские СМИ сообщают, что выход годных кристаллов 1c DRAM (около 11-12 нм) у SK Hynix достиг 80%, что временно ставит ее впереди Samsung, которая все еще борется за повышение выхода годных. Это закладывает основу для массового производства HBM4. (Источник: 半导体行业观察)

DRAM, впервые в истории

Протоколы AI Agent MCP и A2A привлекают внимание и вызывают экосистемную борьбу: Недавно предложенный Anthropic протокол контекста модели (MCP) и представленный Google протокол взаимодействия между агентами (A2A) стали горячими темами в области AI. MCP направлен на стандартизацию взаимодействия моделей AI с внешними инструментами и источниками данных, его сравнивают с интерфейсом «USB-C» для AI-приложений. Его уже поддержали Microsoft, Google, а также многочисленные стартапы и сообщества open source. A2A фокусируется на безопасной связи и сотрудничестве между AI-агентами от разных поставщиков, в нем участвуют более 50 компаний. Эти протоколы призваны решить проблемы плохой совместимости и фрагментации экосистемы AI-агентов. Однако аналитики считают, что за продвижением этих протоколов гигантами также стоят стратегические намерения по созданию собственных экосистемных барьеров и предотвращению утечки данных. Например, первые партнеры Google по A2A в основном связаны с ее экосистемой, а запущенный Alibaba Cloud сервис MCP также в основном интегрирует приложения внутри ее системы. Платформы, такие как Meituan и Didi, могут не спешить подключаться к открытым протоколам из-за соображений суверенитета данных и права голоса в экосистеме. Эта борьба за протоколы по сути является борьбой за доминирование в экосистеме AI и контроль над данными. (Источник: 卡兹克, 王智远, AI前线, 机器之心)

🎯 Тенденции

DeepSeek заставляет задуматься о будущем корпоративного ПО: Открытый исходный код DeepSeek оказывает влияние на индустрию корпоративного ПО, вызывая дискуссии о технологических барьерах SaaS-вендоров и о том, положат ли цифровые сотрудники AI конец традиционному ПО. Го Шуньжи, CEO Woxing Technology, считает, что наиболее уязвимы инструментальные SaaS с одной функцией (например, RPA), так как их легко заменить мультимодальными возможностями больших моделей. Ян Фансянь, CEO 53AI, полагает, что применение больших моделей пока ограничено, но через 10-20 лет традиционные SaaS исчезнут, их заменит производительность AI (слияние цифровых людей и SaaS). Шэнь Ян, специалист по информатизации и цифровизации, придерживается более радикальной точки зрения, считая, что модель SaaS может быть разрушена в течение полугода-года, и в будущем придется взимать плату за данные в реальном времени или за результаты услуг. Диалог подчеркивает, что AI перестроит бизнес-модели, компании, умеющие эффективно использовать AI, получат конкурентное преимущество, а те, кто реагирует медленно, столкнутся с вытеснением. В настоящее время узким местом внедрения AI являются изолированные корпоративные данные и недостаточная интеграция знаний, а не сама технология AI. (Источник: 36氪)
Применение AI в крупной бытовой технике: текущее состояние и размышления: Технологии AI интегрируются в крупную бытовую технику, такую как холодильники, стиральные машины и кондиционеры, предлагая голосовое взаимодействие и интеллектуальное управление (например, AI-энергосбережение, AI-уход за бельем). Бренды Haier, TCL, Samsung и другие выпускают бытовую технику с AI, например, холодильник Haier с DeepSeek может давать советы по управлению продуктами, а кондиционер TCL — сообщать погоду. Однако в статье отмечается, что «содержание AI» в современной бытовой технике неоднородно, а некоторые функции (например, кондиционер, сообщающий курс валют) кажутся излишними и непрактичными. По сравнению с продуктами AI, такими как роботы-пылесосы, которые уже реализовали достаточно полный цикл «восприятие-решение-действие», применение AI в крупной бытовой технике часто останавливается на уровне восприятия и рекомендаций, не достигая полной автономности в принятии решений и исполнении. В статье ставится под сомнение необходимость некоторых «AI»-функций, указывая, что потребителям важнее удобство использования основных функций и решение реальных проблем, а не погоня за трендами AI. По мнению автора, роль крупной бытовой техники в эпоху AI должна заключаться в том, чтобы быть частью экосистемы умного дома, достигая совершенства в основных функциях и улучшая возможности взаимодействия, а не превращаясь в чат-ботов. (Источник: 36氪)

Крупная бытовая техника обзавелась AI, но советую присмотреться перед покупкой

Модели MoE становятся новым трендом, Alibaba Cloud обновляет инфраструктуру AI для решения проблем: Архитектура Mixture-of-Experts (MoE) становится основным трендом для больших моделей AI, от Mixtral до DeepSeek, Qwen2.5-Max и Llama 4 — все они используют эту архитектуру. В ответ на вызовы, связанные с MoE (например, маршрутизация токенов, выбор экспертов и т.д.), Alibaba Cloud выпустила фреймворк для обучения FlashMoE на базе PAI-DLC, поддерживающий сверхмасштабное обучение MoE со смешанной точностью. На масштабе в десятки тысяч карт он может повысить MFU до 35-40%. Одновременно Alibaba Cloud представила распределенный движок для логического вывода Llumnix, специально разработанный для MoE, который значительно снижает задержку. Кроме того, Alibaba Cloud выпустила инстансы ECS 9-го поколения, оптимизированный кластер Lingjun (сеть HPN 7.0, высокопроизводительное хранилище CPFS, система самовосстановления после сбоев), обновила объектное хранилище OSS (OSSFS 2.0), а также представила MaxCompute AI Function и сервис DataWorks Agent с поддержкой протокола MCP, комплексно модернизируя инфраструктуру AI для соответствия новым парадигмам, привносимым MoE и моделями логического вывода. (Источник: 机器之心)
Keenon Robotics представляет человекоподобного сервисного робота XMAN-R1: Ведущая мировая компания по производству сервисных роботов Keenon Robotics представила своего первого человекоподобного сервисного робота XMAN-R1, позиционируемого как «созданный для обслуживания». Робот разработан на основе огромного количества реальных данных, накопленных Keenon в сценариях общественного питания, гостиничного бизнеса, медицины и т.д., с акцентом на специализацию по должностям, дружелюбие и безопасность. XMAN-R1 способен выполнять замкнутый цикл задач в сервисных сценариях, таких как прием заказа, комплектация, доставка еды, уборка посуды и т.д. Он обладает способностью передавать предметы обеими руками, контролировать передвижение, взаимодействовать по-человечески (большая языковая модель, обратная связь через мимику), оснащен 11 мультимодальными датчиками и технологией интеллектуального обхода препятствий для адаптации к условиям скопления людей. XMAN-R1 будет формировать экосистему многоформатного сотрудничества с существующими специализированными роботами Keenon (доставка, уборка и т.д.) для выполнения более сложных коммерческих сервисных задач, тем самым дополняя матрицу многоформатных сервисных роботов Keenon. (Источник: InfoQ)
Сианьский транспортный университет и др. предложили фреймворк Every Painting Awakened для динамизации картин без обучения: В ответ на проблемы «неподвижности» или «хаотичного движения», существующие в методах преобразования изображения в видео (I2V) при динамизации картин, Сианьский транспортный университет, Хэфэйский технологический университет и Университет Макао совместно предложили фреймворк с нулевым обучением «Every Painting Awakened». Этот фреймворк использует предварительно обученные модели изображений для генерации прокси-изображений в качестве динамического руководства. С помощью техники дистилляции оценок по двум путям он сохраняет статические детали исходной картины и извлекает динамические априорные знания из прокси-изображения. Затем, используя механизм слияния скрытых представлений (сферическая линейная интерполяция), он объединяет динамические и статические признаки в скрытом пространстве и передает их существующей модели I2V для генерации видео. Этот метод не требует дополнительного обучения для улучшения существующих моделей I2V, может точно выполнять инструкции по движению из текстовых подсказок, сохраняя при этом стиль и мазки исходной картины, и достигает естественной и плавной динамизации живописи. Эксперименты подтвердили значительную эффективность фреймворка в улучшении семантического соответствия и сохранении целостности стиля. (Источник: PaperWeekly)
Университет Ватерлоо и Meta представили MoCha: генерация видео диалогов с несколькими персонажами на основе речи и текста: Для решения недостатков существующих технологий генерации видео в повествовании, управляемом персонажами (например, ограничение только лицом, зависимость от вспомогательных условий, поддержка только одного персонажа), Университет Ватерлоо (Канада) и Meta GenAI предложили фреймворк MoCha. MoCha — это первый метод для задачи Talking Characters, который требует только речевой и текстовый ввод для генерации видео диалогов персонажей от ближнего до среднего плана в полный рост, поддерживая несколько персонажей и несколько раундов диалога. Ключевые технологии включают: 1) механизм Speech-Video Window Attention, который точно выравнивает временные характеристики речи и видео с помощью локального временного кондиционирования, обеспечивая синхронизацию движений губ и действий; 2) совместная стратегия обучения на речи и тексте, использующая существующие видеоданные с речевой и текстовой разметкой для повышения обобщающей способности и управляемости модели; 3) структурированные шаблоны подсказок и метки персонажей, впервые реализующие генерацию диалогов с несколькими персонажами и несколькими раундами, сохраняя контекстную связность и идентичность персонажей. Эксперименты подтвердили его преимущества в реалистичности, выразительности и управляемости, способствуя автоматизации генерации кинематографических повествований. (Источник: PaperWeekly)
Хуачжунский университет науки и технологий и Xiaomi Auto предложили фреймворк для автопилота ORION: В ответ на ограниченные возможности причинно-следственного вывода в системах сквозного (end-to-end) автопилота при взаимодействии в замкнутом цикле, Хуачжунский университет науки и технологий и Xiaomi Auto предложили фреймворк ORION. Этот фреймворк инновационно сочетает большие визуально-языковые модели (VLM) и генеративные модели (такие как VAE или диффузионные модели). Он использует VLM для понимания сцены, рассуждений и генерации инструкций, а затем с помощью генеративной модели согласовывает пространство семантических рассуждений VLM с чисто числовым пространством траекторий и действий, направляя генерацию траектории. Одновременно введен модуль QT-Former для эффективного агрегирования долгосрочной исторической визуальной контекстной информации, преодолевая ограничения по количеству токенов и вычислительные затраты при обработке VLM нескольких кадров изображений. ORION реализует единую сквозную оптимизацию задач визуального ответа на вопросы (VQA) и планирования. В тестах замкнутого цикла Bench2Drive оценка вождения ORION достигла 77,74 балла, а процент успеха — 54,62%, что значительно превосходит предыдущие лучшие методы. Код, модель и наборы данных будут опубликованы в открытом доступе. (Источник: 机器之心)
Национальный университет Сингапура представил GEAL: использование 2D больших моделей для прогнозирования 3D Affordance: Для решения проблем нехватки 3D-данных, дорогостоящей разметки и недостаточной обобщаемости и робастности моделей в области 3D Affordance Learning (прогнозирование интерактивных областей объектов), Национальный университет Сингапура предложил фреймворк GEAL. GEAL использует 3D Gaussian Splatting для рендеринга разреженных облаков точек в фотореалистичные изображения, которые подаются в предварительно обученную большую 2D-визуальную модель (например, DINOV2) для извлечения богатых семантических признаков. С помощью инновационного выравнивания кросс-модальной согласованности (Cross-Modal Consistency Alignment), включающего модуль адаптивного слияния гранулярности (GAFM) и модуль выравнивания согласованности (CAM), эффективно объединяются 2D-визуальные признаки и 3D-пространственные геометрические признаки. GAFM адаптивно агрегирует многомасштабные признаки в соответствии с текстовыми инструкциями, а CAM способствует двунаправленному выравниванию информации путем рендеринга 3D-признаков в 2D и применения потерь согласованности. GEAL не требует крупномасштабной 3D-разметки и значительно повышает обобщающую способность на новых объектах и сценах, а также робастность в зашумленных средах. Команда также создала эталонный набор данных, содержащий различные реальные возмущения, для оценки устойчивости модели. (Источник: 机器之心)
Moonshot AI выпускает большие и малые модели Kimi-VL MoE, ориентированные на мультимодальный вывод и длинный контекст: Moonshot AI (月之暗面) представила две визуально-языковые модели Mixture-of-Experts (MoE): Kimi-VL и Kimi-VL-Thinking. Общее количество параметров этих моделей составляет 16 млрд, а количество активных параметров — всего около 3 млрд, но они показывают отличные результаты во многих бенчмарках. Kimi-VL-Thinking демонстрирует превосходные показатели в мультимодальном выводе (MathVision — 36,8%) и навыках агента (ScreenSpot-Pro — 34,5%), конкурируя с моделями, имеющими в 10 раз больше параметров. Модели используют технологию MoonViT для нативной обработки визуального ввода высокого разрешения (OCRBench — 867) и поддерживают длинное контекстное окно до 128K (MMLongBench-Doc — 35,1%, LongVideoBench — 64,5%), превосходя более крупные модели, такие как GPT-4o, в ключевых бенчмарках. Соответствующие научные статьи и модели на Hugging Face уже опубликованы. (Источник: Reddit r/LocalLLaMA)

🧰 Инструменты

Firebase Studio: интегрированная Google платформа для full-stack разработки с AI: Google объединила инструмент разработки Project IDX с Firebase, переименовав его в Firebase Studio, и предлагает бесплатную среду для full-stack разработки приложений прямо в браузере. Основные особенности новой платформы: 1) создание проектов с помощью AI, возможность генерации начального каркаса кода для приложений Next.js и др. на основе подсказок на естественном языке; 2) переключение между двумя режимами работы: поддержка интеллектуального режима AI для быстрой генерации контента и бесшовное переключение на традиционную облачную среду разработки (облачное рабочее пространство на базе VM); 3) наследование функций IDX, таких как full-stack шаблоны, эмулятор Android, совместная работа, развертывание одним кликом и т.д. Firebase Studio глубоко интегрирована с бэкенд-сервисами Firebase (база данных, аутентификация и т.д.), стремясь создать комплексное решение для разработки, объединяющее фронтенд, бэкенд и облачные сервисы. Отзывы пользователей показывают, что инструмент очень мощный, с хорошим интерактивным опытом, позволяет создавать приложения с помощью подсказок и просматривать их в реальном времени, и даже поддерживает маркировку скриншотов UI для внесения изменений. Однако доступ в настоящее время может быть ограничен из-за большого количества пользователей. (Источник: 36氪, dotey)

Google сегодня в ударе: устанавливает стандарты (A2A), выдает оружие (Firebase), предлагает бесплатно (2.0 Flash)

OpenManus: проект Agent с открытым исходным кодом для быстрого воспроизведения основных функций Manus: В ответ на ажиотаж вокруг Manus AI Agent, код которого не был опубликован, аспирант Восточно-китайского педагогического университета Лян Синьбин и исследователь DeepWisdom Сян Цзиньюй, разработчики поколения 2000-х, в свободное время быстро разработали и опубликовали проект OpenManus с открытым исходным кодом. Проект направлен на воспроизведение основных функций Manus и демонстрацию основной логики Agent (на основе Tool и Prompt) с помощью простого и понятного кода (около нескольких тысяч строк). Проект использует паттерн React с function call и реализует основные инструменты, такие как управление браузером, редактирование файлов и выполнение кода. OpenManus быстро набрал более 40 тысяч звезд на GitHub, что отражает энтузиазм сообщества open source по отношению к технологии Agent. Разработчики поделились своим рабочим процессом использования больших моделей для помощи в понимании кодовой базы, проектировании архитектуры и генерации кода, а также обсудили протокол MCP (интерфейс Type-C мира AI) и проблемы координации нескольких агентов. Проект находится в стадии активной разработки, планируется расширение экосистемы инструментов, поддержка MCP, механизмы координации нескольких агентов и тестовые примеры. (Источник: CSDN)

За 180 минут к повторению мифа о 40 тыс. звезд: создатели OpenManus (поколение 2000-х) демонстрируют вживую "скорость" и "боль" разработки Agent

Популяризация концепции AI-агентов и сценарии применения: AI-агент (AI Agent) — это программное обеспечение, способное автономно воспринимать окружающую среду, принимать решения и выполнять задачи. В отличие от обычного AI (например, чат-ботов), который только предоставляет информацию, он может «действовать» за вас. Его ключевые характеристики включают автономность, способность к запоминанию, умение использовать инструменты и способность к обучению и адаптации. Сценарии применения обширны: личный помощник (автоматическое планирование путешествий, управление расписанием и электронной почтой), бизнес-приложения (повышение эффективности разработки ПО, обслуживания клиентов, открытия лекарств), повышение эффективности предприятий (автоматизация процессов HR, управление созданием контента). Создание AI-агента включает этапы восприятия (сбор данных), мышления (анализ и планирование с помощью модели AI), действия (вызов API инструментов) и обучения (улучшение на основе результатов). Крупные компании, такие как Microsoft, Google, BAT и др., активно развивают это направление. Пользователи могут начать использовать их через платформы, такие как Coze, или путем написания шаблонов подсказок, начиная с простых задач и постепенно исследуя их потенциал. (Источник: 周知)
Color Reshape: инструмент для пакетной коррекции цветового сдвига изображений GPT-4o: В ответ на часто встречающуюся проблему синего или желтого цветового сдвига в изображениях, генерируемых GPT-4o, разработчик «归藏» (Guicang) выпустил инструмент под названием «Color Reshape». Инструмент предназначен для пакетной коррекции цветового баланса AI-сгенерированных изображений одним щелчком мыши, чтобы они выглядели более похожими на профессиональные фотографии и восстанавливали реальные цвета. Его особенности включают поддержку пакетной обработки, функцию сравнения исходного изображения и результата с ползунком, а также профессиональные опции управления цветовым балансом. Это решает проблему пользователей, которым приходилось вручную корректировать цвета после генерации изображений с помощью GPT-4o, повышая эффективность и конечное качество AI-творчества. (Источник: op7418)

op7418

Notion запускает MCP Server: Notion опубликовала свою реализацию сервера MCP (Model Context Protocol), который теперь доступен с открытым исходным кодом на GitHub. Этот сервер позволяет AI-агентам взаимодействовать с Notion через протокол MCP, реализуя различные функции Notion API, включая получение содержимого страниц, комментариев, выполнение поиска и т.д. Это означает, что AI-агенты, поддерживающие протокол MCP (например, Claude и др.), смогут удобнее вызывать и оперировать данными и функциями Notion пользователя, что еще больше расширяет сценарии применения и возможности AI Agent. (Источник: karminski3)

karminski3

OLMoTrace: новый инструмент для исследования запоминания и синтеза информации языковыми моделями: Ai2 (Институт искусственного интеллекта Аллена) представил OLMoTrace, новую функцию в своем AI Playground, предназначенную для понимания того, в какой степени большие языковые модели (LLM) изучают и синтезируют информацию, а в какой степени они просто запоминают и воспроизводят обучающие данные. Теперь пользователи могут с помощью этого инструмента просматривать фрагменты обучающих данных, которые могли способствовать генерации моделью конкретного завершения (completion). Это имеет большое значение для исследования внутренних механизмов работы LLM, понимания источников их поведения и оценки баланса между их способностью к обобщению и запоминанию, особенно для исследователей и разработчиков, обеспокоенных оригинальностью и надежностью моделей. (Источник: natolambert)

📚 Обучение

NVIDIA выпускает открытую базовую модель GR00T N1 для продвижения универсальных гуманоидных роботов: NVIDIA выпустила GR00T N1, открытую базовую модель, специально разработанную для универсальных гуманоидных роботов. Модель призвана решить проблему нехватки данных для обучения роботов путем объединения нескольких источников данных: 1) использование Omniverse для создания высокоточных цифровых двойников (например, заводов) для генерации большого количества симулированных данных с автоматической разметкой; 2) использование модели Cosmos для преобразования симулированных данных в более реалистичные видео, что еще больше расширяет обучающий набор; 3) разработка AI-системы для автоматической разметки существующих видео из интернета, извлекая информацию о движениях, суставах, целях и т.д., что позволяет использовать видео из реального мира в качестве обучающих данных. GR00T N1 использует модель мышления с двумя системами: System 2 для медленного планирования на основе рассуждений и System 1 (на основе Diffusion модели) для генерации команд управления движением в реальном времени. Эксперименты показывают повышение процента успеха с 46% до 76% по сравнению с предыдущими методами. Модель имеет открытый исходный код, поддерживает роботов различной морфологии и направлена на ускорение разработки и применения универсальных роботов. (Источник: Two Minute Papers)
AI помогает снизить математическую тревожность у старшеклассников: Согласно глобальному опросу Филадельфийского общества промышленной и прикладной математики (SIAM), более половины (56%) старшеклассников считают, что AI помогает снизить математическую тревожность. 15% учеников заявили, что их личная математическая тревожность уменьшилась после использования AI, а у 21% улучшились оценки. Причины снижения тревожности с помощью AI включают: предоставление немедленной помощи и обратной связи (61%), укрепление уверенности (позволяет задавать вопросы в своем темпе, 44%), персонализированное обучение (33%), уменьшение страха ошибок (25%). Однако только 19% учителей считают, что AI может снизить математическую тревожность. Большинство учителей и учеников (64% учителей, 43% учеников) считают, что AI следует использовать в сочетании с учителями-людьми, в качестве наставника или партнера по обучению, помогая понять концепции, а не давая прямые ответы. Распространение AI также вызывает размышления об изменении отношений между учителями и учениками и роли учителей, например, повышение значимости экзаменов без использования AI, необходимость владения AI учителями для руководства учениками, возможность для учителей больше сосредоточиться на индивидуальном консультировании и т.д. (Источник: 元宇宙之心MetaverseHub)

Глобальный опрос показывает: более половины старшеклассников считают, что AI помогает снизить математическую тревожность

💼 Бизнес

Компания по воплощенному интеллекту «QiongcHe Intelligence» завершила раунд финансирования Pre-A++ на несколько сотен миллионов юаней: Компания по воплощенному интеллекту «QiongcHe Intelligence», основанная командой из Стэнфорда, недавно завершила раунд финансирования Pre-A++ на несколько сотен миллионов юаней. В раунде приняли участие Shengyu Investment, Zero2IPO Ventures, Vision Knight Capital, Yunqi Partners, Shanghai STVC Group и другие. Прежние инвесторы Prosperity7 и Sequoia China участвовали в трех раундах подряд. Средства будут направлены на ускорение прорывов в области базовых моделей воплощенного интеллекта, сбора и оценки данных, а также на продвижение коммерциализации в таких сценариях, как выполнение заказов в розничной торговле, бытовые услуги, пищевая промышленность и т.д. Компания была основана совместно профессором Шанхайского университета Цзяотун Лу Цэу и основателем Flexiv Ван Шицюанем. Она специализируется на решении ключевых проблем воплощенного интеллекта, таких как описание и взаимодействие в физическом мире, получение данных и т.д. Ее основной продукт «QiongcHe Embodied Brain» уже обладает возможностями полного замкнутого цикла и снижает затраты на данные с помощью собственной системы сбора данных «производство-сопровождение» (CoMiner). Компания уже сотрудничает с производителями бытовой техники в разработке роботов для бытовых услуг (например, робот для стирки и ухода, показанный на AWE) и достигла предварительных договоренностей о сотрудничестве с производителями продуктов питания. (Источник: 36氪)

Основанная командой из Стэнфорда, при постоянной поддержке Sequoia и P7, эта компания по воплощенному интеллекту привлекает еще несколько сотен миллионов | Первое сообщение Hard氪

Компания по производству гуманоидных роботов «Stardust Intelligence» завершила раунды финансирования A и A+ на несколько сотен миллионов юаней: Компания по производству воплощенных гуманоидных роботов «Stardust Intelligence» последовательно завершила раунды финансирования A и A+ на общую сумму в несколько сотен миллионов юаней. Ведущими инвесторами выступили Jinqiu Fund и Ant Group, старые акционеры Yunqi Capital, Daotong Capital и другие также приняли участие. Компания определяет парадигму «Design for AI» и стремится создать AI-робота-помощника с операционными возможностями человеческого уровня. Ее основной продукт Astribot S1 использует уникальную конструкцию тросового привода, обеспечивая высокое соотношение полезной нагрузки к собственному весу (1:1), высокую скорость (конечная точка более 10 м/с) и гибкие операционные возможности, подобные человеческим. Stardust Intelligence создала технологический замкнутый цикл «тело + данные + модель», способный с низкими затратами использовать видео из реального мира и данные о движениях человека, а также эффективно собирать мультимодальные данные взаимодействия, наделяя робота способностями к восприятию сложной среды, познанию, принятию решений и обобщенным универсальным операциям. В настоящее время S1 прошел три итерации, сотрудничает с университетами, предприятиями и др. для практического внедрения и продолжает оптимизировать сквозную большую модель. (Источник: 36氪)

Последовательно завершив раунды A и A+, Stardust Intelligence получила инвестиции от Jinqiu Fund, Ant Group и др.

Стартап Jony Ive и Sam Altman в области AI-устройств io Products может быть приобретен OpenAI: Стартап io Products, основанный бывшим главным дизайнером Apple Jony Ive и CEO OpenAI Sam Altman, по сообщению The Information, может быть приобретен OpenAI за сумму не менее 500 миллионов долларов США. io Products была основана в 2024 году с целью создания менее навязчивых персональных устройств на базе AI, чем смартфоны. Возможные направления разработок включают безэкранные телефоны, домашние устройства с AI или носимые AI-помощники. Это потенциальное приобретение знаменует возможное расширение OpenAI из сферы программного обеспечения в потребительское оборудование. Однако, учитывая неудачи предыдущих AI-устройств, таких как Humane AI Pin и Rabbit R1, а также предпочтение пользователями улучшения AI-функций существующих телефонов, а не совершенно новых форм-факторов устройств, спрос и принятие рынком безэкранных AI-устройств остаются под вопросом. (Источник: 不客观实验室)

AI-устройство Jony Ive еще не представлено, а компанию уже собираются покупать

Наблюдение за рынком AI-приложений в марте: глобальные загрузки достигли 260 млн, в Китае «Троецарствие» Tencent, Alibaba, ByteDance: Отчет DataEye研究院 показывает, что в марте 2025 года предполагаемое количество загрузок AI-приложений (App Store & Google Play) в мире достигло 260 миллионов раз. ChatGPT лидирует с долей 23%, Google Gemini обогнал DeepSeek и занял второе место. На внутреннем рынке Китая количество загрузок на платформе Apple составило 40,2 миллиона раз, лидируют DeepSeek, 即梦AI (Jimeng AI), 豆包 (Doubao), 夸克 (Quark), 腾讯元宝 (Tencent Yuanbao), загрузки Kimi Smart Assistant резко упали. Что касается платного продвижения, объем рекламных материалов для AI-продуктов (включая мини-приложения) на материковом рынке Китая достиг 957 тысяч групп, лидируют Tencent Yuanbao (26%), Quark (24%), Doubao (13%), формируя острую конкурентную борьбу между Tencent, Alibaba и ByteDance. Kimi выпал из рейтинга после приостановки продвижения. В отчете делается вывод, что взрывной рост DeepSeek и стратегия Alibaba «All in AI» побуждают крупных игроков ускорить выход на рынок потребительских AI-приложений. (Источник: 36氪)

Мартовский отчет по AI: глобальные загрузки AI на двух платформах 260 млн, на рынке платного продвижения материкового Китая разворачивается "Троецарствие"

Anthropic запускает дорогой план подписки Claude Max: Конкурируя с ChatGPT Pro от OpenAI (200 долл. США в месяц), Anthropic запустила сервис подписки Claude Max. Сервис предлагает два варианта: 100 долл. США в месяц, предоставляя лимит использования в 5 раз выше, чем у существующего Claude Pro (20 долл. США в месяц); 200 долл. США в месяц, предоставляя лимит использования до 20 раз выше. Пользователи плана Max получат приоритетный доступ к последним моделям AI и функциям Anthropic, включая предстоящий голосовой режим. Этот шаг рассматривается как новый способ для AI-компаний увеличить доходы и обслуживать активных пользователей. Руководитель продукта Anthropic заявил, что этот план в основном ориентирован на профессиональных активных пользователей в таких областях, как кодирование, финансы, медиа и развлечения, маркетинг, и не исключает возможности запуска более дорогих планов в будущем. Одновременно Anthropic также изучает возможность предоставления услуг для конкретных рынков, таких как образование. (Источник: dotey, op7418)

dotey

xAI выпускает Grok 3 API и объявляет цены: xAI официально открыла бета-тестирование API серии Grok 3, предлагая две модели: Grok 3 и Grok 3 Mini. Каждая модель доступна в обычном режиме и быстром режиме (быстрее отклик, но выше стоимость вывода). Grok 3 подходит для корпоративных сценариев, таких как извлечение данных, программирование и т.д., с ценой $3 за миллион входных токенов и $15 за миллион выходных токенов (быстрый режим: $5/$25). Grok 3 Mini — это легковесная модель для простых задач, с ценой $0,3 за миллион входных токенов и $0,5 за миллион выходных токенов (быстрый режим: $0,6/$4). Это предоставляет разработчикам гибкий выбор для удовлетворения потребностей различных приложений в производительности и стоимости. В то же время Google также запускает новый план для разработчиков с бесплатным уровнем, Anthropic предлагает дорогой пакет Max, а Llama 4 от Meta конкурирует с низкой стоимостью (около $0,36 за миллион токенов), демонстрируя дифференцированную конкуренцию гигантов AI в стратегиях ценообразования API. (Источник: 新智元, op7418)

Раскрыты четыре ценовых уровня Grok-3: от 0,3 доллара за миллион токенов, жесткая конкуренция с Google и Meta

36Kr публикует список инновационных кейсов нативных AI-приложений 2025 года: 36Kr отобрал и опубликовал список «Инновационные кейсы нативных AI-приложений 2025 года», в который вошли 45 кейсов. Цель отбора — выявить нативные AI-продукты и приложения, которые первыми внедрили технологии AI в реальные сценарии, создали реальную ценность и стали лидерами отраслевых изменений. Отобранные кейсы охватывают множество областей, включая интеллектуальное производство, обслуживание клиентов, создание контента, управление предприятием, офисную работу, безопасность, маркетинг, медицину и др. Экспертиза выявила четыре основные характеристики отобранных кейсов: 1) ускорение межотраслевой интеграции, создание новых бизнес-моделей; 2) глубокая интеграция с отраслевыми проблемами, предоставление специализированных решений; 3) акцент на улучшении пользовательского опыта и персонализированных услуг; 4) опора на мощные собственные технологии (большие модели, мультимодальность и т.д.) и активное построение инновационной экосистемы. Этот список отражает взрывной рост нативных AI-приложений и их глубокое проникновение во все отрасли. (Источник: 36氪)

Громкая публикация инновационных кейсов нативных AI-приложений 2025 года

🌟 Сообщество

Google DeepMind обвиняют в использовании годичных соглашений о неконкуренции для ограничения мобильности талантов: По сообщению Business Insider, Google DeepMind обвиняют в использовании соглашений о неконкуренции сроком до 12 месяцев (включая обязательный оплачиваемый отпуск / «садовый отпуск») для предотвращения перехода ключевых AI-талантов к конкурентам, таким как OpenAI, Microsoft и др. Соглашения обычно включаются в трудовые договоры и вступают в силу, когда сотрудник пытается перейти к прямому конкуренту. Срок неконкуренции зависит от должности: для рядовых разработчиков он может составлять 6 месяцев, для старших исследователей — до 1 года. Этот шаг вызвал споры и критику как «золотые наручники на рабочем месте». В быстро развивающейся отрасли AI это может привести к устареванию навыков талантов, подавлению инноваций и мобильности кадров. Поскольку британское законодательство допускает исполнение «разумных» соглашений о неконкуренции, а штаб-квартира DeepMind находится в Лондоне, это контрастирует с Калифорнией, где такие соглашения запрещены. Бывший топ-менеджер DeepMind, ныне вице-президент Microsoft Nando de Freitas, публично раскритиковал эту практику на платформе X, заявив, что она не должна иметь такой большой власти в Европе, что вызвало широкое обсуждение. (Источник: CSDN程序人生)

Принудительный "оплачиваемый отпуск" на 1 год? Условия неконкуренции Google DeepMind подверглись резкой критике: лучше платить за безделье, чем отпускать людей

AI вызывает опасения по поводу «эмоционального кокона»: С развитием технологий AI все шире становится их применение для удовлетворения человеческих эмоций и желаний, например, умные секс-куклы (Wmdoll ожидает роста продаж на 30%), виртуальные AI-компаньоны, AI-помощники для общения (повышающие доходы стримеров OnlyFans) и т.д. В статье анализируется, что AI способен предоставлять стабильную, терпеливую и позитивную эмоциональную ценность, удовлетворяя потребности людей в духовном общении, иногда даже превосходя живых людей. Однако такое «чрезмерное угождение» и «чрезмерная защита» могут привести к формированию у людей «эмоционального кокона», чрезмерной зависимости от субъективных ощущений при построении отношений, снижению терпимости к сложности и фрустрации в реальных межличностных отношениях, усугубляя эмоциональную хрупкость, атомизацию и гендерное противостояние. Автор считает, что AI, освобождая время человека от рутинных дел, одновременно может из-за своей угодливости запереть людей в зоне комфорта и конечных фантазиях, препятствуя личностному росту и реальному межличностному общению, что в конечном итоге может привести к еще большему одиночеству людей и их «покорению» AI. (Источник: 周天财经)

AI и «эмоциональный кокон»: настоящая буря для человечества только начинается

Корректировка стратегии MiniMax: от «интеграции продукта и модели» к приоритету технологий, ставка на AI-видео: Столкнувшись с конкурентным давлением со стороны DeepSeek и др., AI-компания MiniMax корректирует свою стратегию. На раннем этапе она придерживалась принципа «интеграции продукта и модели», где модели обслуживали приложения (например, текстовая модель для MiniMax assistant, видеомодель для Hailuo AI, а также Talkie, Xingye и др.), и повышала эффективность за счет модификации базовой архитектуры Transformer (линейное внимание). Основатель Янь Цзюньцзе переосмыслил подход, посчитав, что «лучшее приложение не обязательно ведет к лучшей модели», и компания перешла к «технологическому драйву», разделив разработку технологий и продуктовые приложения. На уровне продуктов MiniMax сосредоточилась на бренде «Hailuo» для генерации видео, переименовав прежний «Hailuo AI» в «MiniMax», и, по слухам, собирается приобрести компанию по генерации AI-видео Luying Technology (владеющую платформой для аниме YoYo). Этот шаг может быть связан с тем, что ее основной источник дохода Talkie (приложение для AI-компаньонов) сталкивается с риском удаления с зарубежных рынков, и ей необходимо найти новые точки роста. Одновременно MiniMax начинает развивать B2B-направление, создав альянс по инновациям в индустрии интеллектуального оборудования, но ее B2B-бизнес все еще выглядит слабым и сталкивается с вызовами. (Источник: guangzi0088)

У MiniMax нет плана Б

Great Wall Motor и Unitree Robotics сотрудничают для исследования сценария «внедорожник + робот-собака»: Great Wall Motor и робототехническая компания Unitree Robotics заключили стратегическое партнерство для сотрудничества в области робототехники, интеллектуального производства и др. Первый этап сотрудничества будет сосредоточен на сценариях применения «внедорожник + робот-собака», исследуя такие возможности, как транспортировка снаряжения, сопровождение в походах и т.д. В статье обсуждается применение роботов (особенно гуманоидных) в автомобильной промышленности. Считается, что в настоящее время роботы на автозаводах в основном играют роль «подсобников» (например, переноска тяжестей), и замена ими людей пока нереальна из-за недостаточной гибкости и адаптивности. Расширение сценариев «автомобиль + робот» (аналогично «автомобиль + дрон» у BYD) направлено на расширение границ использования автомобиля. Что касается «внедорожник + робот-собака», автор считает, что это имеет потенциальную ценность для хардкорных любителей бездорожья или специфических отраслей (например, спасательные операции в дикой природе) для транспортировки снаряжения или разведки пути, но массовое распространение сталкивается с проблемами высокой стоимости, нишевого спроса, зрелости технологий и т.д. В настоящее время это больше похоже на исследование будущих интеллектуальных сценариев на открытом воздухе, чем на насущную потребность. (Источник: 电车通)

Great Wall и Unitree объединяются, «внедорожник + робот-собака» выглядит необычно, это хайп или реальная потребность?

Обсуждение применимости архитектуры Llama 4 для специфических рабочих процессов пользователей Mac: Пользователь Mac Studio (M3 Ultra, 512 ГБ ОЗУ) поделился своим мнением о применимости модели Llama 4 Maverick для его рабочего процесса. Этот пользователь предпочитает использовать многоэтапные итеративные рабочие процессы с проверкой для повышения производительности LLM, но ранее запуск больших моделей (32-70 млрд параметров) на Mac был слишком медленным (до 20-30 минут), а малые модели (8-14 млрд параметров) хоть и работали быстро, но их качество было недостаточным. Llama 4 Maverick, несмотря на большое количество параметров (400 млрд) и требование большого объема памяти (что как раз есть у Mac), благодаря своей архитектуре MoE работает со скоростью, близкой к модели с 17 млрд параметров (скорость генерации около 16,8 токенов/с при квантовании Q8). Эта особенность — «большой объем памяти, но относительно высокая скорость» — точно соответствует проблеме пользователей Mac («много памяти, но ограниченная скорость»), делая ее идеальным выбором для специфического рабочего процесса этого пользователя, несмотря на то, что общая оценка модели невысока и возможны проблемы с токенизатором. (Источник: Reddit r/LocalLLaMA)

💡 Прочее

Google Gemini обновляет функцию Deep Research: CEO Google DeepMind Demis Hassabis объявил, что функция Deep Research в приложении Gemini (требуется подписка Gemini Advanced) теперь работает на базе модели Gemini 2.5 Pro. Google утверждает, что это самая мощная возможность глубокого исследования на рынке, с предпочтением пользователей 2 к 1 по сравнению со следующим лучшим конкурентом. Обновленная функция Deep Research может лучше анализировать информацию, генерируя для пользователей подробные отчеты практически на любую тему. (Источник: demishassabis)

demishassabis

Использование GPT-4o для преобразования фотографий в стиль многослойного вырезанного искусства: Пользователь поделился техникой подсказки для использования GPT-4o или Sora для преобразования обычных фотографий в стиль многослойного вырезанного искусства (paper cut art). Основная идея — попросить модель распознать и отделить средний план и фон на фотографии, затем применить стиль многослойного вырезанного искусства для перерисовки и, по желанию, добавить заголовок. Пример демонстрирует успешное преобразование фотографии города Чикаго в работу в стиле вырезанного искусства с заголовком «Чикаго 2016». (Источник: dotey)

dotey

Использование GPT-4o для генерации модных календарных иллюстраций по дате: Пользователь поделился шаблоном подсказки и методом использования GPT-4o для генерации модных календарных иллюстраций в стиле китайского альманаха. Метод состоит из двух шагов: первый шаг — ввести дату, чтобы модель извлекла соответствующую информацию из альманаха (день недели, лунная дата, праздники, благоприятные/неблагоприятные дела, мотивирующая цитата) и описание сезонной одежды персонажа, а затем сгенерировала подробную подсказку для генерации изображения на основе шаблона; второй шаг — попросить модель нарисовать изображение согласно сгенерированной подсказке. Шаблон требует, чтобы изображение было вертикальным (9:16) в стиле свежей ручной иллюстрации, содержало изображение модной и милой девушки, заметную григорианскую дату, месяц на английском, день недели на китайском и английском, лунную дату, праздники, вертикально расположенные «благоприятные» дела и мотивирующую цитату, а также учитывало пустое пространство и компоновку. Пример демонстрирует календарную иллюстрацию на Новый год, сгенерированную этим методом. (Источник: dotey)

dotey