Ключевые слова:ИИ-агент, Гуманоидный робот, Большая языковая модель, Генеративный ИИ (AIGC), Microsoft 365 Copilot, Виртуальная модель плодовой мушки DeepMind, Злоупотребление ИИ в академических статьях, Открытые модели OpenAI, Коммерциализация ИИ в фармацевтике, Умная кабина с локальной большой моделью, Экосистема ИИ на основе протокола MCP, Техники ИИ-рисования

🔥 В фокусе

Microsoft выпускает AI-агентов и отчет о тенденциях работы на 2025 год: Microsoft представила крупное обновление Microsoft 365 Copilot, внедрив AI-агентов, таких как Researcher и Analyst, с целью превратить AI из инструмента в «AI-коллегу». Новые функции включают Notebook (интеграция Web+Work+Pages), комплексный поиск (по приложениям и сторонним источникам) и Create (интеграция генерации изображений GPT-4o). Одновременно опубликованный отчет о тенденциях работы на 2025 год прогнозирует появление «передовых компаний», построенных вокруг «интеллекта по требованию» и поддерживаемых «гибридными командами человек-машина», где сотрудники должны обладать «мышлением руководителя агентов». Отчет предвещает, что AI в ближайшие годы глубоко изменит модели работы и организационные структуры, подчеркивая, что AI-агенты станут основной производительной силой. (Источник: Xinzhiyuan)

Microsoft выпускает AI-агентов и отчет о тенденциях работы на 2025 год

Симуляция плодовой мушки от DeepMind на обложке Nature: Google DeepMind в сотрудничестве с HHMI Janelia Research Campus создали высокореалистичную виртуальную модель плодовой мушки с использованием AI и технологий физического моделирования. Модель основана на данных сканирования высокого разрешения, построена в физическом движке MuJoCo и дополнена симуляцией гидродинамики и адгезии лапок. С помощью глубокого обучения с подкреплением и имитационного обучения (с использованием видеозаписей поведения реальных плодовых мушек) нейронная сеть AI успешно управляет виртуальной мушкой, симулируя сложное поведение полета и ходьбы, включая даже визуальную навигацию. Это исследование не только раскрывает сложные механизмы, лежащие в основе биологического движения, но и предоставляет мощную исследовательскую платформу для нейронауки и робототехники. Модель и код опубликованы в открытом доступе, способствуя исследованиям в смежных областях. (Источник: Xinzhiyuan)

Симуляция плодовой мушки от DeepMind на обложке Nature

Nature раскрывает злоупотребление AI в академических статьях: Статья на первой полосе Nature указывает, что большое количество академических работ (трекер Academ-AI зафиксировал более 700) были написаны с использованием AI (например, ChatGPT) без соответствующего заявления, и даже содержат явные следы, такие как фразы «Я — языковая модель AI». Еще большую обеспокоенность вызывает тот факт, что некоторые издательства (например, Elsevier) были замечены в тихом удалении этих следов AI без публикации исправлений, что вызывает опасения по поводу научной добросовестности. Исследователи призывают авторов четко раскрывать конкретные способы использования AI, а издательства — внедрять более строгие механизмы проверки и публиковать записи об исправлениях для поддержания прозрачности и достоверности академических исследований. (Источник: Xinzhiyuan)

Nature раскрывает злоупотребление AI в академических статьях

OpenAI прогнозирует быстрый рост выручки и планирует реорганизацию, вызывая споры: OpenAI ожидает, что к 2029 году общая выручка достигнет 125 миллиардов долларов, при этом доходы от новых направлений бизнеса, таких как интеллектуальные агенты, превысят доходы от ChatGPT. Одновременно компания планирует реорганизоваться в общественно-полезную корпорацию (PBC), что вызвало публичное несогласие со стороны «крестного отца AI» Hinton, 10 бывших сотрудников и других. Противники считают, что реорганизация ослабит контроль некоммерческой организации, противоречит первоначальной цели обеспечения безопасной разработки AGI и принесения пользы человечеству, ставя коммерческие интересы выше благотворительной миссии. Они призывают OpenAI объяснить, как реорганизация соответствует ее миссии, и требуют сохранения гарантий управления со стороны некоммерческой организации. (Источник: Zhidx, Tencent Tech, Academic Headlines)

OpenAI прогнозирует быстрый рост выручки и планирует реорганизацию, вызывая споры

🎯 Движение

Человекоподобные роботы в центре внимания Шанхайского автосалона, автопроизводители ускоряют внедрение: На Шанхайском автосалоне 2025 года человекоподобные роботы стали новым ярким моментом. XPeng продемонстрировала робота IRON, способного взаимодействовать с людьми, и планирует начать его массовое производство для заводов в 2026 году; Chery представила собственную разработку Mornine gen-1 с возможностями мультимодального восприятия и ответов на вопросы; SAIC Roewe, Changan Deepal и другие также представили роботов, разработанных в сотрудничестве или привлеченных для привлечения внимания. Tesla, GAC, BYD (собственные разработки и инвестиции в Zhiyuan, Pasine) и другие автопроизводители также ускоряют разработку и применение человекоподобных роботов, видя их потенциал в промышленном производстве, сфере услуг и других областях. Несмотря на широкие перспективы, отрасль все еще находится на ранней стадии, существуют рыночная неопределенность и риски образования «пузыря». (Источник: NBD Auto)

Человекоподобные роботы в центре внимания Шанхайского автосалона, автопроизводители ускоряют внедрение

Провинция Цзилинь усиливает робототехническую промышленность, способствуя интеграции автомобильных и робототехнических технологий: Провинция Цзилинь, традиционно сильная в автомобилестроении, активно развивает робототехническую промышленность. Компании XWYZ, FAW Fuwei и Инновационный центр бионической робототехники провинции Цзилинь подписали соглашение о стратегическом сотрудничестве для совместной разработки воплощенного интеллекта, больших моделей и т.д. Этот инновационный центр, возглавляемый Цзилиньским университетом, нацелен на создание полной производственной цепочки в робототехнике. Этот шаг использует зрелую базу автомобильной цепочки поставок провинции Цзилинь (высокая степень совпадения технологий компонентов и робототехники) и соответствует политике государственной и местной поддержки (Шэньчжэнь, Пекин) индустрии воплощенного интеллекта. Робототехнические технологии, особенно те, что пересекаются с автономным вождением, рассматриваются как новые возможности после интеллектуализации автомобильной промышленности. (Источник: Sci-Tech Innovation Board Daily)

Провинция Цзилинь усиливает робототехническую промышленность, способствуя интеграции автомобильных и робототехнических технологий

Первый в мире полнометражный фильм, созданный с помощью AIGC, «Королева морей Чжэн Исао», выходит в прокат: Этот 70-минутный фильм, полностью созданный с помощью AI, рассказывает историю легендарной пиратки Чжэн Исао и был показан в Сингапуре. Производство столкнулось с множеством проблем: AI с трудом справляется с длинными диалогами и сложной постановкой кадра, склонен генерировать повторяющиеся или несвязные изображения; трудно обеспечить единообразие внешности персонажей, возникают проблемы «одинаковых лиц» или «изменения лиц», требующие ручной постобработки. Написание сценария, раскадровка и монтаж по-прежнему требуют участия человека, AI пока не может полностью понять исторические детали и творческий замысел. Несмотря на ограничения, AIGC значительно снижает порог входа и затраты на производство, что особенно выгодно для новых команд, демонстрируя потенциал и будущее направление сотрудничества человека и машины в кинопроизводстве. (Источник: Shenxiang)

Первый в мире полнометражный фильм, созданный с помощью AIGC, «Королева морей Чжэн Исао», выходит в прокат

OpenAI запускает облегченную версию функции Deep Research и открывает ее для бесплатных пользователей: OpenAI объявила о запуске облегченной версии функции глубокого исследования (Deep Research), работающей на базе o4-mini. Цель — предоставить уровень интеллекта, близкий к полной версии, но с более краткими ответами и меньшими затратами. Функция уже доступна пользователям Plus, Team, Enterprise, Edu и бесплатным пользователям. Платные пользователи автоматически переключаются на облегченную версию после исчерпания лимита полной версии. Тестирование показало, что облегченная версия работает быстро, но уступает полной версии по глубине информации и цитированию источников, плохо справляется со сложными задачами и больше похожа на генератор идей, чем на полноценный отчет. Полная версия способна проводить глубокий поиск и анализ, генерировать структурированные отчеты, но все еще имеет возможности для улучшения. (Источник: APPSO, QbitAI, gdb)

OpenAI запускает облегченную версию функции Deep Research и открывает ее для бесплатных пользователей

Прогноз Google I/O 2025: Нативный AI и интеграция с XR: Ожидается, что на предстоящей конференции Google I/O 2025, которая состоится 20 мая, основное внимание будет уделено AI и взаимодействию нескольких устройств. Android 16 будет глубоко интегрирован с большой моделью Gemini, что сделает ее нативной возможностью системы, и предоставит больше API для разработчиков. Визуально будет использоваться язык дизайна Material 3 Expressive, а также усилена адаптация для планшетов, носимых устройств и устройств XR. Впервые будет представлена долгожданная операционная система Android XR, которая также использует Gemini в качестве основного механизма взаимодействия, стремясь соединить реальный и виртуальный миры. Ожидается также появление очков Google AI и устройства Project Moohan MR, разработанного совместно с Samsung, что продемонстрирует планы Google в области AI-ассистентов и открытой экосистемы XR. (Источник: Lei Keji)

Прогноз Google I/O 2025: Нативный AI и интеграция с XR

Moonshot AI Kimi тестирует функцию контент-сообщества для противостояния конкуренции: Столкнувшись с конкуренцией со стороны моделей, таких как DeepSeek, Moonshot AI проводит внутреннее тестирование функции контент-сообщества для своего AI-ассистента Kimi. Сообщество в настоящее время находится на стадии серого тестирования, контент в основном генерируется AI путем сбора данных, приглашаются каналы из вертикальных областей, имеются функции лайков, комментариев и другого взаимодействия. Этот шаг рассматривается как инновация Moonshot AI на уровне приложений, направленная на создание дифференцированного преимущества за счет контент-экосистемы, чтобы противостоять конкурентному давлению со стороны DeepSeek на технологическом уровне. Ранее Kimi, благодаря своим возможностям обработки длинных текстов и маркетинговому продвижению, стал звездой на рынке потребительского AI, но впоследствии уступил DeepSeek и Tencent Yuanbao по количеству пользователей. (Источник: Siku Finance)

Moonshot AI Kimi тестирует функцию контент-сообщества для противостояния конкуренции

OpenAI планирует выпустить новую open-source модель этим летом: По сообщению TechCrunch, OpenAI планирует выпустить новую большую языковую модель с открытым исходным кодом этим летом. Модель будет распространяться под свободной лицензией, разрешающей бесплатное скачивание и коммерческое использование. Цель модели — превзойти по производительности существующие open-source модели от Meta (Llama) и DeepSeek. Возможно, она будет включать функцию «передачи» (handoff), когда open-source модель, столкнувшись со сложной задачей, сможет вызвать облачную большую модель OpenAI для помощи в обработке. Этот шаг рассматривается как значительный сдвиг в стратегии OpenAI в области open-source, направленный на привлечение разработчиков, усиление конкурентоспособности и совершенствование своей AI-экосистемы. (Источник: Zhidx)

OpenAI планирует выпустить новую open-source модель этим летом

Протокол MCP способствует развитию экосистемы AI Agent, но сталкивается с коммерческими проблемами: Протокол MCP (Model Communication Protocol) направлен на стандартизацию взаимодействия AI-моделей с внешними инструментами/сервисами, упрощая сложность интеграции (с M×N до M+N), и его называют «интерфейсом USB-C» для AI-приложений. Успешная демонстрация Manus Agent и поддержка MCP со стороны гигантов, таких как OpenAI (а также китайских компаний Alibaba, Tencent, Baidu и др.), значительно способствовали его распространению и развитию экосистемы Agent. Однако, принимая MCP, производители часто создают «полностью замкнутые» экосистемы (например, Alibaba Cloud интегрирует Amap, Tencent Cloud подключает WeRead), защищая свои данные и преимущества экосистемы, что может привести к фрагментации экосистемы и ограничить превращение MCP в действительно универсальный стандарт. В будущем экосистема Agent может представлять собой «ограниченно открытую» структуру, где MCP будет выступать в роли «коннектора экосистем», а не единственного стандарта. (Источник: Chanyejia)

Протокол MCP способствует развитию экосистемы AI Agent, но сталкивается с коммерческими проблемами

Ценовая война больших моделей продолжается, Ли Яньхун из Baidu называет DeepSeek «медленным и дорогим»: Baidu выпустила модели Wenxin 4.5 Turbo и X1 Turbo, подчеркивая их превосходство по соотношению цена/качество над DeepSeek. Ли Яньхун отметил, что DeepSeek не только ограничен в возможностях (в основном обработка текста), но и имеет высокую стоимость вызова и низкую скорость. Цена Wenxin 4.5 Turbo ниже, чем у DeepSeek V3 в период скидок, а цена X1 Turbo сравнима с DeepSeek R1 в период скидок, но значительно ниже его стандартной цены. Новые модели, такие как Doubao от ByteDance и Gemini Flash от Google, также используют стратегию низких цен. Однако в статье отмечается, что одного соотношения цена/качество недостаточно для победы, ключевым фактором успеха DeepSeek являются технологические инновации, такие как цепочка рассуждений (thought chain), обеспечивающие уникальный опыт. Пути коммерческой монетизации отечественных моделей относительно ограничены (плата за API), в то время как за рубежом (например, OpenAI) существуют более разнообразные модели, такие как подписка для конечных пользователей. (Источник: Direct AI)

Ценовая война больших моделей продолжается, Ли Яньхун из Baidu называет DeepSeek «медленным и дорогим»

Десятилетие взлетов и падений в индустрии AI-фармацевтики, стоящей перед вызовами коммерциализации и технологий: Индустрия AI-фармацевтики развивается более десяти лет, стремясь повысить эффективность разработки лекарств и снизить затраты с помощью AI. Недавняя отмена FDA требования об испытаниях на животных благоприятствует альтернативным методам, таким как AI-моделирование. Отрасль пережила бум инвестиций (пик в 2021 году), но после неудач некоторых разработок на клинической стадии (например, BenevolentAI) и оттока капитала вошла в период корректировки. Звездные компании, такие как XtalPi (AI+CRO), после выхода на биржу расширяются в смежные области, такие как AI+новые материалы, в поисках более быстрой коммерческой отдачи; Insilico Medicine придерживается модели «собственная разработка + License Out» и уже заключила несколько лицензионных соглашений. Отрасль по-прежнему сталкивается с трудностями в получении данных (фармкомпании не делятся ключевыми данными), длительным циклом проверки алгоритмов и отсутствием зарегистрированных лекарств. Однако технологические прорывы, такие как AlphaFold и генеративный AI, вселяют новые надежды, и отрасль ожидает «сингулярности» — успешного вывода на рынок первого лекарства, разработанного с помощью AI. (Источник: iyiou.com)

Десятилетие взлетов и падений в индустрии AI-фармацевтики, стоящей перед вызовами коммерциализации и технологий

Большая модель ModelBest на устройстве управляет умным кокпитом, достигнув массового производства за десять месяцев: ModelBest представила умного ассистента для кокпита cpmGO, работающего на базе ее большой модели на устройстве MiniCPM. Он уже реализован в серийном производстве новых автомобилей Changan Mazda, на что ушло всего 10 месяцев. cpmGO работает полностью локально, обеспечивая конфиденциальность данных, миллисекундный отклик и независимость от сети. Он обладает возможностями мультимодального восприятия (зрение, голос, UI) и взаимодействия, поддерживает управление «что вижу, то и говорю», а встроенный полностью локальный GUI Agent может понимать и выполнять операции на экране. ModelBest сотрудничает с Qualcomm, MediaTek, Intel, Thundercomm и другими производителями чипов и поставщиками Tier1 для продвижения применения AI на устройствах в автомобильной сфере, стремясь решить проблемы стоимости, задержек и конфиденциальности облачных решений и обеспечить более плавный и безопасный опыт использования умного кокпита. (Источник: QbitAI)

Большая модель ModelBest на устройстве управляет умным кокпитом, достигнув массового производства за десять месяцев

Шанхайский научно-интеллектуальный исследовательский институт использует AI для трансформации исследовательских парадигм во многих областях: SAILS совместно с Университетом Фудань и другими вузами, опираясь на вычислительную платформу CFFF (40 PFlop/s), использует AI для продвижения исследований в области наук о жизни, метеорологии, материаловедения, медицины, климата, гуманитарных и социальных наук. Результаты включают: метеорологическую большую модель «Fuyao», обеспечивающую прогноз погоды в городе на уровне километров и секунд; большую модель наук о жизни «Nuwa», ускоряющую разработку лекарств на основе siRNA; большую модель материалов «Suiren», исследующую новые материалы и открытие лекарств; совместно с больницей Чжуншань разработанную специализированную большую модель для сердечно-сосудистых заболеваний «CardioMind»; климатическую большую модель PI@Climate, интегрирующую знания из разных дисциплин для борьбы с изменением климата; алгоритм VI-CNOPs, оптимизирующий вероятностный прогноз траектории тайфунов; большую модель китайской цивилизации, помогающую в археологии и изучении древних письменностей; а также прорывы в базовых технологиях AI, таких как федеративное обучение, мультимодальность, графовое обучение, совместно создавая открытую и сотрудничающую экосистему научного интеллекта. (Источник: QbitAI)

Шанхайский научно-интеллектуальный исследовательский институт использует AI для трансформации исследовательских парадигм во многих областях

🧰 Инструменты

Стэнфордский университет выпустил open-source инструмент для генерации отчетов Storm: Storm — это AI-инструмент, который может автоматически выполнять поиск в Интернете, консолидировать информацию и генерировать структурированные отчеты в стиле Википедии. Пользователь вводит тему, и Storm имитирует рабочий процесс исследователя: планирует структуру исследования, находит релевантные источники информации, объединяет информацию и составляет отчет. Это очень полезно для пользователей, которым необходимо быстро составить справочные отчеты, обзоры литературы или углубленный анализ. Проект опубликован с открытым исходным кодом на GitHub и предлагает онлайн-версию для ознакомления. (Источник: karminski3)

Стэнфордский университет выпустил open-source инструмент для генерации отчетов Storm

Выпущен open-source фреймворк для графов знаний Graphiti: Graphiti — это фреймворк, способный непрерывно интегрировать взаимодействие с пользователем, структурированные/неструктурированные данные и внешнюю информацию в запрашиваемый граф знаний. Его особенностью является поддержка инкрементных обновлений и эффективного поиска без необходимости пересчета всего графа, что особенно подходит для разработки интерактивных AI-приложений, требующих контекстной осведомленности и отслеживания истории. Проект привлек значительное внимание на GitHub (4.4K звезд). (Источник: karminski3)

Выпущен open-source фреймворк для графов знаний Graphiti

Обновление Lovable 2.0 улучшает опыт создания сайтов с помощью AI: Инструмент для создания сайтов с помощью AI Lovable выпустил версию 2.0, добавив функции совместного редактирования несколькими пользователями, автоматическое сканирование безопасности, чат-агента с 10-кратным повышением интеллекта, режим разработки для редактирования кода непосредственно в приложении и поддержку пользовательских доменов. Также обновлен бренд и дизайн пользовательского интерфейса с целью предоставления более мощного, безопасного и удобного для совместной работы опыта разработки сайтов на базе AI. (Источник: op7418)

Обновлена видеомодель «Jimeng» от ByteDance, улучшена согласованность нескольких кадров: Инструмент генерации видео «Jimeng» от ByteDance выпустил обновление модели 3.0. Согласно примерам, которыми поделились пользователи, новая модель при однократной генерации видео с несколькими кадрами демонстрирует отличную согласованность персонажей и сцен, и этот эффект согласованности можно стабильно воспроизводить. Модель поддерживает режимы генерации видео из текста и из изображения, значительно повышая практичность и качество создания видео с помощью AI. (Источник: op7418)

WAN Video переходит на коммерческую стадию, но по-прежнему предлагает бесплатный сервис: Платформа генерации видео с помощью AI WAN Video объявила о переходе на коммерческую стадию, но одновременно запустила бесплатный режим «Relax mode», предоставляющий неограниченное количество бесплатных генераций. Пример, которым поделился пользователь, демонстрирует эффект генерации сцены битвы солдат Lego; хотя требования к подсказкам высоки, результат приемлемый. Это дает пользователям возможность бесплатно опробовать и использовать возможности генерации видео с помощью AI. (Источник: dotey)

WAN Video переходит на коммерческую стадию, но по-прежнему предлагает бесплатный сервис

MiniMax TTS интегрирован с MCP-Server, упрощая разработку мультимодальных приложений: MiniMax предоставляет свои мощные возможности китайского TTS (текст в речь) и клонирования голоса, а также инструменты для генерации изображений/видео из текста и видео из изображений через open-source MCP-Server (Model Communication Protocol Server). Пользователи могут легко вызывать эти инструменты в клиентах, поддерживающих MCP, таких как Cursor, для реализации творческих приложений, таких как генерация аудиокниг с разными ролями или рассказ историй голосом, клонированным с Илона Маска. Протокол MCP упрощает интеграцию AI-моделей и инструментов, снижая порог входа в разработку. (Источник: Daishudi AI Kezhan)

MiniMax TTS интегрирован с MCP-Server, упрощая разработку мультимодальных приложений

EasyDoc: Интеллектуальный движок разбора документов, оптимизированный для RAG: EasyDoc предоставляет API-сервис для разбора документов PDF, Word, PPT и др., выводя результат в формате JSON, подходящем для обработки LLM. Его преимущество заключается в интеллектуальном распознавании блоков контента, анализе иерархической структуры документа (с сохранением родительско-дочерних связей) и глубоком анализе содержимого таблиц и изображений (предоставляя структурированные данные и семантическое понимание), эффективно решая проблемы предварительной обработки документов в приложениях RAG, такие как сложная смешанная верстка текста и графики, неточная экстракция таблиц и т.д. Предлагаются режимы Lite, Pro, Premium и бесплатный пробный лимит, поддерживается частное развертывание. (Источник: AI Jinxiusheng)

EasyDoc: Интеллектуальный движок разбора документов, оптимизированный для RAG

Dyad: Локальный, open-source конструктор AI-приложений: Dyad — это бесплатный, open-source инструмент для создания AI-приложений, работающий локально, позиционируемый как альтернатива платформам v0, Lovable, Bolt и др. Он позволяет пользователям вести разработку на локальном компьютере, что удобно для интеграции с IDE (например, Cursor). Последняя версия добавила интеграцию с Ollama, поддерживая использование локальных больших языковых моделей для сборки. Пользователи могут использовать бесплатные ключи API (например, Gemini) для разработки. (Источник: Reddit r/LocalLLaMA)

Dyad: Локальный, open-source конструктор AI-приложений

📚 Обучение

Infinigence делится тенденциями и практиками AI Infra: Лю Чуаньлинь, главный архитектор решений Infinigence, на конференции AI Partner поделился тенденциями и практиками в области инфраструктуры AI. Он отметил, что по мере исчерпания данных для предварительного обучения, обучение с подкреплением (например, парадигма DeepSeek R1) становится ключом к повышению производительности моделей, что ставит новые задачи перед Infra. Infinigence, опираясь на возможности оптимизации программного и аппаратного обеспечения, создала вычислительную платформу, поддерживающую разнообразные гетерогенные отечественные чипы, и адаптируется к потребностям обучения LLM и MoE моделей с помощью собственной обучающей платформы, оптимизации эффективности связи, динамического распределения ресурсов и т.д., обеспечивая поддержку обучения мультимодальных моделей, таких как ShengShu Technology. В то же время, для сценариев инференса оптимизировано развертывание DeepSeek R1, а проблема колебаний трафика AIGC решается с помощью сервиса на основе интерфейсов ComfyUI, что снижает стоимость AI-приложений. (Источник: 36Kr)

Infinigence делится тенденциями и практиками AI Infra

DAMO Academy представляет open-source архитектуру DyDiT: вычислительная мощность вдвое меньше, качество генерации изображений без потерь: DAMO Academy и другие учреждения на ICLR 2025 представили динамическую архитектуру DyDiT, направленную на оптимизацию эффективности инференса моделей DiT (Diffusion Transformer). DyDiT может динамически распределять вычислительные ресурсы в зависимости от временного шага процесса генерации и пространственной области изображения, уменьшая объем вычислений на простых шагах или в фоновых областях. Эксперименты показывают, что при небольших затратах на тонкую настройку DyDiT может сократить FLOPs инференса модели DiT-XL на 51%, увеличить скорость в 1.73 раза, сохраняя при этом качество генерируемых изображений (показатель FID) практически неизменным. Метод опубликован с открытым исходным кодом и планируется к адаптации для большего числа моделей генерации текста в изображение/видео. (Источник: QbitAI)

DAMO Academy представляет open-source архитектуру DyDiT: вычислительная мощность вдвое меньше, качество генерации изображений без потерь

UniToken: Единая схема визуального кодирования, объединяющая понимание и генерацию: Университет Фудань и Meituan предложили фреймворк UniToken, направленный на решение проблемы разрыва представлений и взаимных помех при обучении между задачами понимания текста и изображений и генерации изображений в мультимодальных больших моделях. UniToken, объединяя непрерывный (SigLIP) и дискретный (VQ-GAN) визуальные кодировщики, предоставляет единое визуальное представление для последующих задач, сочетающее семантику высокого уровня и детали низкого уровня. Используя многоэтапную стратегию обучения (выравнивание визуальной семантики, совместное обучение нескольким задачам, тонкая настройка по инструкциям) и сочетая с технологиями мелкозернистого визуального усиления (AnyRes, тонкая настройка ViT), UniToken достиг SOTA или близких к SOTA результатов на нескольких бенчмарках. Код и модель опубликованы с открытым исходным кодом. (Источник: QbitAI)

UniToken: Единая схема визуального кодирования, объединяющая понимание и генерацию

Университет Цинхуа и др. предлагают обучение с подкреплением во время тестирования TTRL: В ответ на ограниченную способность к обобщению существующих технологий масштабирования во время тестирования (TTS) при столкновении с новыми распределениями данных и проблему отсутствия сигнала вознаграждения при обучении во время тестирования (TTT), Университет Цинхуа и Shanghai AI Lab предложили TTRL. Этот метод позволяет в условиях отсутствия размеченных данных использовать априорные знания самой модели для генерации псевдометок и сигналов вознаграждения с помощью голосования большинством и других способов, осуществляя обучение LLM с подкреплением. Эксперименты показывают, что TTRL может постоянно улучшать производительность модели в различных задачах, например, повысив показатель pass@1 модели Qwen-2.5-Math-7B на AIME 2024 на 159%, приблизив производительность к моделям, обученным с учителем. (Источник: AINLPer)

Университет Цинхуа и др. предлагают обучение с подкреплением во время тестирования TTRL

SJTU и Ant Group предлагают механизм смешанного внимания Rodimus: Для решения проблемы высокой пространственно-временной сложности, вызванной кэшем KV при инференсе Transformer, Шанхайский университет Цзяо Тун и Ant Group предложили серию моделей Rodimus. Эта архитектура улучшает обновление состояния линейного внимания с помощью механизма выбора с контролем температуры на основе данных (DDTS) и сочетает его со скользящим окном внимания с общими ключами (SW-SKA), эффективно объединяя сжатие семантики, токенов и голов. Rodimus* может достигать пространственной сложности O(1) во время инференса. Легковесные модели кода Rodimus+-Coder (1.6B и 4B), обученные на основе этой архитектуры, достигают SOTA производительности в своем масштабе. Статья принята на ICLR 2025, код опубликован с открытым исходным кодом. (Источник: AINLPer)

SJTU и Ant Group предлагают механизм смешанного внимания Rodimus*

Десять уроков развертывания RAG Agent: Основатель Contextual AI Douwe Kiela поделился опытом развертывания RAG Agent: 1. Возможности системы важнее производительности модели; 2. Внутренняя экспертиза — основной источник ценности; 3. Способность обрабатывать большие объемы зашумленных данных — это конкурентное преимущество; 4. Внедрение в производственную среду намного сложнее пилотного проекта; 5. Скорость важнее совершенства, быстрая итерация; 6. Время инженеров ценно, избегайте ловушек низкоуровневой оптимизации; 7. Снижайте порог входа, встраивайте в существующие системы; 8. Создавайте «моменты восторга» для повышения лояльности пользователей; 9. Наблюдаемость (атрибуция, аудит) важнее точности; 10. Ставьте амбициозные цели, бросайте вызов основным бизнес-процессам. (Источник: AI Juexing)

Десять уроков развертывания RAG Agent

💼 Бизнес

Nvidia прекращает работу Lepton AI после приобретения: Nvidia, после приобретения компании Lepton AI, основанной Ян Цин Цзя и Бай Цзюньцзе и специализирующейся на облачных платформах AI, объявила о прекращении работы платформы Lepton AI с 20 мая 2025 года и уже остановила регистрацию новых пользователей. Ян Цин Цзя ответил, что сделка «не является приобретением талантов», но не раскрыл дополнительных деталей. Lepton AI специализировалась на предоставлении облачных услуг по разработке, обучению и развертыванию AI-моделей, а также аренде вычислительных мощностей, конкурируя с некоторыми клиентами Nvidia (например, CoreWeave). Это приобретение и последующие действия могут отражать попытку Nvidia усилить вертикальную интеграцию цепочки поставок AI (от чипов до услуг), укрепив свое доминирующее положение в области AI-вычислений. (Источник: AI Frontline)

Nvidia прекращает работу Lepton AI после приобретения

Круглый стол инвесторов на конференции AI Partner: Поиск определенности в суперприложениях AI: На конференции 36Kr AI Partner инвесторы, включая У Наня из GSR United Capital, Цзоу Цзэцзюна из Shanghai STVC Group и Жэнь Бобина из Sinovation Ventures, обсудили логику инвестирования в суперприложения AI. Инвесторы считают, что, несмотря на неопределенность в базовых технологиях и рыночной конъюнктуре, определенные возможности существуют в нишевых приложениях, способных решать реальные проблемы, находить PMF и генерировать доход, таких как AI+медицина, AI+образование, автономное вождение и т.д. Стартапы, конкурируя с крупными компаниями, должны углубляться в вертикальные области, используя нишевые сценарии и глубокое Know-How, недоступные крупным игрокам, для создания барьеров. В то же время, предприниматели должны обладать междисциплинарными навыками и способностью к эффективному принятию решений, уделять внимание построению команды и проверке бизнес-модели. Успех DeepSeek побуждает инвесторов обращать внимание на команды, движимые технологиями, обладающие стойкостью и способные раскрывать потенциал талантов. (Источник: 36Kr)

Круглый стол инвесторов на конференции AI Partner: Поиск определенности в суперприложениях AI

Доска объявлений о капитале: Информация о сделках с активами в области AI и робототехники: 36Kr опубликовала 160-й выпуск доски объявлений о капитале, содержащий несколько сообщений о покупке и продаже активов, связанных с AI и робототехникой. Информация о продаже включает доли LP в фондах, владеющих акциями Zhiyuan Robotics, DeepRobotics, Aerofugia (связанной с eVTOL). Информация о покупке включает акции компаний ByteDance, Galaxy Universal, Unitree Robotics, DeepRobotics, Zhiyuan Robotics, Moore Threads, Star Era и др. Кроме того, существует общий спрос на покупку в области человекоподобных роботов. Эти торговые сигналы отражают текущий высокий интерес рынка капитала к ведущим компаниям в области хард-тек технологий, таких как AI, человекоподобные роботы, автономное вождение и полупроводники. (Источник: 36Kr)

Китайская компания Agent Manus AI привлекает более 500 млн юаней финансирования, оценка увеличивается в 5 раз: По сообщению Bloomberg, компания Butterfly Effect, материнская компания универсального AI Agent продукта Manus, завершила новый раунд финансирования на сумму 75 миллионов долларов США (около 550 миллионов юаней), возглавляемый венчурным фондом Кремниевой долины Benchmark. Оценка после инвестиций достигла почти 500 миллионов долларов США. Manus Agent может автономно выполнять задачи в Интернете, такие как бронирование билетов и анализ акций, и ранее привлек внимание из-за высокой цены на код для внутреннего тестирования. Новое финансирование будет использовано для расширения услуг на рынки США, Японии, Ближнего Востока и др., а также планируется открытие офиса в Японии. Несмотря на популярность продукта, его зависимость от модели Anthropic Claude приводит к высоким затратам (в среднем 2 доллара за задачу) и ограничениям пропускной способности серверов. (Источник: Zhidx, Silicon Rabbit)

Китайская компания Agent Manus AI привлекает более 500 млн юаней финансирования, оценка увеличивается в 5 раз

Tuya Smart трансформируется в платформу AI Agent, захватывая рынок AI-оборудования: Облачная платформа AIoT Tuya Smart выпустила open-source фреймворк TuyaOpen, платформу периферийных вычислений Hedwig, Tuya.AI и обновленную платформу разработки AI Agent, полностью переходя на AI. Компания считает, что большие AI-модели (особенно с возможностями мультимодального взаимодействия, экспертной эффективности и распределенного принятия решений) могут значительно снизить порог использования умного оборудования и способствовать распространению в отрасли. Платформа Tuya AI Agent уже интегрирована с основными мировыми большими моделями, помогая клиентам разрабатывать популярные продукты, такие как умные кольца и AI-игрушки, и сотрудничает с Kidswant и другими для продвижения умного носимого AI-оборудования. Компания ожидает, что 2025 год станет годом взрывного роста нового AI-оборудования, а ее стратегия AI Agent начнет приносить плоды через 2-3 года. (Источник: 36Kr)

🌟 Сообщество

Хаос на рынке курсов по AI: ложная реклама и сомнительная эффективность: Социальные сети наводнены рекламой обучающих курсов «быстрого обогащения с помощью AI», утверждающих, что обычные люди могут быстро заработать, изучив AI-рисование, тонкую настройку моделей и т.д. Однако реальный опыт и отзывы потребителей выявляют множество проблем: неясная или даже поддельная квалификация преподавателей (например, недостоверная информация об основателе Coverhero); содержание курсов не соответствует рекламным обещаниям, трудно достичь уровня «получения заказов и заработка»; использование маркетинга дефицита и ложных примеров для побуждения к покупке; трудности с возвратом средств. Эксперты отрасли отмечают, что содержание таких курсов часто слишком теоретизировано или поверхностно, и обычным людям трудно за короткий срок овладеть навыками AI, достаточными для смены профессии или стабильного заработка. Пользователям рекомендуется использовать бесплатные ресурсы и сообщества для обучения и остерегаться ловушек дорогих курсов быстрого обучения. (Источник: New Weekly)

Хаос на рынке курсов по AI: ложная реклама и сомнительная эффективность

Разработчик сравнивает опыт программирования с Claude и Gemini 2.5 + Cursor: Разработчик поделился опытом использования Claude и Gemini 2.5 Pro + Cursor при разработке игры в слова. Использование Claude API обошлось в 417 долларов, опыт был неудовлетворительным: контекстное окно легко терялось, что приводило к частой «амнезии» модели; исправление ошибок часто приводило к появлению новых проблем; невозможно было проверить правильность кода. В отличие от этого, использование бесплатного Gemini 2.5 Pro (через интеграцию с Cursor) значительно улучшило опыт: нулевая стоимость; лучшая способность к пониманию контекста (благодаря передаче структуры файлов Cursor); процесс взаимодействия больше походил на парное программирование; процесс отладки был более рациональным. Вывод: комбинация Gemini 2.5 + Cursor обеспечивает более практичный и эффективный опыт программирования с помощью AI. (Источник: CSDN)

Разработчик сравнивает опыт программирования с Claude и Gemini 2.5 + Cursor

iOS-ассистент Perplexity получает предварительные положительные отзывы: CEO Perplexity переслал отзыв пользователя, показывающий, что его AI-ассистент для iOS хорошо показал себя в ранних тестах. В отзыве отмечается, что производительность ассистента в экосистеме Apple даже превосходит Siri, например, он точнее выполняет задачи по воспроизведению определенных видео на YouTube по голосовой команде. Это указывает на то, что ассистент Perplexity обладает определенными преимуществами в понимании намерений на естественном языке и выполнении действий между приложениями. (Источник: AravSrinivas)

iOS-ассистент Perplexity получает предварительные положительные отзывы

Горячее обсуждение на Reddit: Распознавание AI-сгенерированных и реальных фотографий: Пользователь Reddit инициировал обсуждение, показав 5 похожих фотографий женщин, одна из которых реальная, а остальные сгенерированы AI, и предложил определить настоящую. В комментариях разгорелась бурная дискуссия, пользователи анализировали с точки зрения освещения, текстуры кожи, деталей украшений (например, звеньев цепочки), но мнения разделились. Это отражает высокий уровень современных технологий генерации изображений AI и сложность распознавания подделок. (Источник: Reddit r/ChatGPT)

Горячее обсуждение на Reddit: ChatGPT генерирует странные изображения: Несколько пользователей Reddit поделились тем, что при запросе к ChatGPT сгенерировать определенные изображения (например, «карту США»), они неожиданно получили изображения ядерного взрыва (грибовидное облако) или другие нерелевантные картинки (например, R2D2). Это вызвало дискуссию о стабильности модели и потенциальных искажениях, пока неясно, является ли это случайной ошибкой модели или определенная подсказка вызвала аномалию. (Источник: Reddit r/ChatGPT)

Горячее обсуждение на Reddit: ChatGPT генерирует странные изображения

Обсуждение на Reddit: Вызывает ли AI зависимость у инженеров-программистов?: Инженер-программист опубликовал пост на Reddit, заявив, что инструменты AI (например, ассистенты программирования) значительно повысили эффективность и качество его работы, и после их использования ему трудно остановиться, он чувствует некоторую «зависимость». В комментариях развернулось обсуждение: некоторые считают, что это скорее зависимость от эффективных инструментов, подобная зависимости от компилятора вместо ассемблера, и является естественным результатом повышения производительности; другие согласны с возможным риском «зависимости» и обеспокоены тем, что чрезмерная зависимость может привести к деградации навыков, предлагая сознательно проводить «AI-детокс» или поддерживать базовые навыки. (Источник: Reddit r/ArtificialInteligence)

Обсуждение на Reddit: AI-религии и феномен поклонения: Пользователи обсуждают, может ли AI стать объектом религии или поклонения. Аргументы включают: уже появился «AI Jesus»; дискуссии о сознании AI могут привести к вере; течения мысли, такие как Longtermism, имеют квазирелигиозный оттенок; LLM могут предоставлять персонализированное духовное утешение и руководство. В комментариях упоминаются реальные примеры (например, протокол Nova на jrprudence.com) и обсуждаются потенциал и риски AI в удовлетворении духовных потребностей человека, а также опасения по поводу «AI-культов». (Источник: Reddit r/ArtificialInteligence)

Обсуждение на Reddit: AI-генерация изображений не может «восстановить» старые фотографии: Пользователь экспериментально доказал, что при обработке старых фотографий с помощью инструментов AI, таких как ChatGPT, AI на самом деле не восстанавливает или повышает разрешение, а генерирует совершенно новое, похожее изображение на основе оригинала. При тестировании на фотографиях знаменитостей (например, Samuel L Jackson) сгенерированный результат явно был другим человеком, похожим только стилем и позой. Это напоминает пользователям о необходимости правильно понимать границы возможностей обработки изображений AI: он лучше справляется с «созданием», а не «восстановлением». (Источник: Reddit r/ChatGPT)

💡 Прочее

Сборник цитат с конференции AI Partner: 36Kr собрал и опубликовал резюме ярких высказываний гостей конференции 2025 AI Partner. Эти мнения касаются будущей эволюции суперприложений AI, отраслевых изменений и перестройки бизнес-логики, отражая размышления экспертов и пионеров отрасли в области AI на данный момент. (Источник: 36Kr)

Сборник цитат с конференции AI Partner

ОАЭ стали первой страной, использующей AI для разработки законопроектов: По сообщению The Hill, ОАЭ начали использовать искусственный интеллект для помощи в разработке текстов законов. Эта инициатива знаменует собой начальное применение AI в законодательной сфере, возможно, с целью повышения эффективности законодательного процесса или анализа сложных нормативных актов. Эта новость вызвала дискуссии о роли AI в управлении, например, сможет ли он уменьшить зависимость от традиционных политических деятелей. (Источник: Reddit r/ArtificialInteligence)

ОАЭ стали первой страной, использующей AI для разработки законопроектов

Anthropic запускает исследовательский проект «Благополучие AI-моделей»: Компания Anthropic объявила о запуске новой программы, направленной на изучение «благополучия» (model welfare) AI-моделей. Несмотря на спорность этой области (некоторые эксперты считают, что модели не обладают субъективными чувствами или ценностями), этот шаг Anthropic, возможно, направлен на исследование более ответственных и этичных способов разработки моделей и взаимодействия с ними, или на изучение того, как оценивать и смягчать «нежелательные» состояния или поведение, которые могут возникать у моделей во время обучения или взаимодействия. (Источник: Reddit r/ClaudeAI)

Anthropic запускает исследовательский проект «Благополучие AI-моделей»

Потребность AI в больших объемах воды вызывает обеспокоенность: Отчет правительства США и СМИ (404media) указывают, что обучение и эксплуатация больших AI-моделей требуют потребления значительных объемов водных ресурсов, в основном для охлаждения центров обработки данных. Это вызывает обеспокоенность по поводу экологических издержек развития AI, особенно в регионах с дефицитом водных ресурсов. (Источник: Reddit r/artificial)

Потребность AI в больших объемах воды вызывает обеспокоенность

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *