Ключевые слова:AI-агент, Microsoft Build 2025, AlphaEvolve, GPT-4, Azure AI Foundry, NVIDIA Computex 2025, инструменты AI-программирования, воплощенный интеллект, GitHub Copilot расширение для VSCode, протокол контекста модели (MCP), сеть естественного языка (NLWeb), Meituan NoCode, умный помощник Tencent QBot
🔥 В центре внимания
Microsoft Build 2025 открывает эру “сети интеллектуальных агентов”, полностью переходя на AI-нативную разработку: На конференции разработчиков Build 2025 Microsoft объявила о своем видении «Открытой агентурной сети» (Open Agentic Web), выпустив более 50 обновлений. Ключевые из них включают открытие исходного кода расширения GitHub Copilot для VSCode, запуск открытых стандартов Model Context Protocol (MCP) и Natural Language Web (NLWeb), а также интеграцию более 1900 моделей, включая Grok от xAI, в Azure AI Foundry. Эти инициативы направлены на создание сквозного пути разработки от моделей до интеллектуальных агентов, обеспечивая автономную работу и совместимость AI Agent в различных сценариях. Генеральный директор Microsoft Сатья Наделла подчеркнул, что AI Agent изменит подходы к решению проблем, и совместно с генеральным директором OpenAI Сэмом Альтманом, генеральным директором NVIDIA Дженсеном Хуангом и основателем xAI Илоном Маском обсудил будущее применения AI-агентов в разработке программного обеспечения, инфраструктуре и физическом мире. (Источник: 36氪 | GitHub Blog | VS Code Blog | The Verge)
Google DeepMind представила AlphaEvolve, AI-агент побил 56-летний рекорд эффективности умножения матриц: Google DeepMind запустила AlphaEvolve, агента для кодирования на базе Gemini. С помощью эволюционных алгоритмов и автоматизированной системы оценки он успешно обнаружил более эффективный алгоритм умножения комплексных матриц 4×4, чем алгоритм Штрассена, использовавшийся 56 лет, сократив количество необходимых скалярных умножений с 49 до 48. Этот прорыв не только имеет большое значение в математической теории, но уже продемонстрировал свою ценность во внутренних приложениях Google, например, ускорив операции умножения больших матриц в архитектуре Gemini на 23%, сократив время обучения Gemini на 1% и повысив производительность FlashAttention на 32,5%. AlphaEvolve демонстрирует огромный потенциал ИИ в автоматизации научных открытий и оптимизации алгоритмов, способный решать разнообразные сложные задачи, от математических проблем до диспетчеризации ресурсов центров обработки данных и ускорения обучения моделей ИИ. (Источник: Google DeepMind Blog | 量子位)
Исследование показывает, что GPT-4 на 64% убедительнее человека в персонализированных дебатах: Исследование, опубликованное в Nature Human Behaviour, показывает, что когда GPT-4 от OpenAI получает доступ к личной информации оппонента в дебатах, такой как пол, возраст, образование, и корректирует свои аргументы на основе этих данных, его убедительность на 64% выше, чем у человека. Это исследование, проведенное в сотрудничестве с Федеральной политехнической школой Лозанны и другими учреждениями, с участием 900 человек, еще раз подтвердило мощные способности больших языковых моделей (LLM) в убеждении. Исследователи предупреждают, что это вскрывает потенциальную угрозу распространения персонализированной дезинформации, поскольку инструменты ИИ, получив даже небольшое количество информации о пользователе, могут создавать сложные и убедительные аргументы. Они призывают политиков и платформы обратить внимание на этот риск и изучить возможность использования LLM для создания персонализированного контрнарративного контента для борьбы с дезинформацией. (Источник: Nature Human Behaviour | MIT Technology Review)
Microsoft и Hugging Face углубляют сотрудничество, Azure AI Foundry интегрирует более 10 000 моделей с открытым исходным кодом: На конференции Microsoft Build Microsoft объявила о расширении сотрудничества с Hugging Face. Azure AI Foundry теперь интегрирует более 10 000 моделей с открытым исходным кодом от Hugging Face, охватывающих различные модальности и задачи, такие как текст, аудио, изображения и другие. Эта мера направлена на то, чтобы пользователи Azure могли более удобно и безопасно развертывать разнообразные модели с открытым исходным кодом для создания AI-приложений и интеллектуальных агентов. Все интегрированные модели прошли тестирование на безопасность, используют формат safetensors и не содержат удаленного кода, обеспечивая безопасность корпоративных приложений. Стороны планируют в будущем постоянно внедрять новейшие и популярные модели, поддерживать больше модальностей (например, видео, 3D) и усиливать оптимизацию для AI-агентов и инструментов. (Источник: HuggingFace Blog)

🎯 Динамика
NVIDIA на Computex 2025 представила множество новинок в области ИИ, ускоряя трансформацию в «фабрики ИИ»: Генеральный директор Дженсен Хуанг на Computex 2025 представил GPU GeForce RTX 5060, суперкомпьютерную платформу Grace Blackwell GB300, персональный суперкомпьютер ИИ DGX Spark (на базе GB10, поступит в продажу в течение нескольких недель) и DGX Station (784 ГБ памяти, способный запускать DeepSeek R1). Хуанг подчеркнул, что NVIDIA трансформируется из поставщика GPU в глобального поставщика инфраструктуры ИИ, стремясь создавать «фабрики ИИ» «под ключ». Одновременно с этим, физический движок Newton, разработанный NVIDIA совместно с DeepMind и Disney, будет открыт в июле, а также будет представлена базовая модель для гуманоидных роботов Isaac GR00T, способствующая развитию физического ИИ. NVIDIA также объявила о строительстве нового офиса на Тайване и подчеркнула важность китайских талантов в области ИИ. (Источник: 36氪 | 36氪)
Microsoft планирует разрешить пользователям в ЕС изменять голосового помощника по умолчанию на iPhone и других устройствах: По данным Bloomberg, Apple планирует разрешить пользователям в ЕС изменять голосового помощника по умолчанию на устройствах iPhone, iPad, Mac и других с Siri на другие опции, такие как Google Assistant или Amazon Alexa. Этот шаг, вероятно, предпринят в ответ на антимонопольное давление со стороны Закона ЕС о цифровых рынках (DMA). Siri в последние годы подвергается критике за отсталость функций и недостаточную интеллектуальность. Внутри Apple существуют разногласия относительно направления развития Siri, а ее текущая архитектура с трудом интегрируется с большими языковыми моделями (LLM). Хотя Apple разрабатывает новую Siri на базе LLM и представила Apple Intelligence, разрешение пользователям менять помощника по умолчанию может нанести удар по ее экосистеме. (Источник: 36氪)
Apple внутренне тестирует собственного AI-чат-бота, возможности которого могут быть сопоставимы с ChatGPT: Журналист Bloomberg Марк Гурман сообщил, что Apple внутренне тестирует свой проект AI-чат-бота. Под руководством нового руководителя по ИИ Джона Джаннандреа проект достиг значительного прогресса за последние шесть месяцев, и некоторые топ-менеджеры считают, что его текущая версия по возможностям уже близка к последней версии ChatGPT. Этот чат-бот, возможно, будет обладать способностью мгновенного поиска в интернете и интеграции информации. Этот шаг, вероятно, направлен на снижение зависимости от внешних сервисов, таких как OpenAI, и повышение конкурентоспособности Siri. Хотя на WWDC 2025, возможно, не будет уделено особого внимания обновлению Siri, Apple продолжает наращивать инвестиции в ИИ, чтобы оживить своего голосового помощника в эпоху ИИ. (Источник: 36氪)
Windows получит нативную поддержку Model Context Protocol (MCP): На конференции Build 2025 Microsoft объявила, что операционная система Windows будет нативно поддерживать Model Context Protocol (MCP), что упростит разработку и развертывание AI-приложений на Windows. MCP сравнивают с «USB-C для AI-приложений», стремясь предоставить стандартизированный способ взаимодействия для различных AI-моделей и приложений. Платформа Windows AI Foundry интегрирует эту поддержку, позволяя разработчикам удобнее запускать и управлять локальными AI-моделями и интеллектуальными агентами на устройствах Windows. (Источник: op7418 | Reddit r/LocalLLaMA)

Microsoft Azure AI Foundry интегрирует большие модели Grok от xAI: На конференции разработчиков Build 2025 Microsoft объявила, что большие модели Grok 3 и Grok 3 mini от компании xAI Илона Маска присоединятся к платформе Azure AI Foundry. Пользователи Azure смогут напрямую использовать и оплачивать эти модели через облачную платформу. Этот шаг еще больше расширяет количество AI-моделей, доступных на Azure (уже более 1900), ранее включавших OpenAI, Meta и DeepSeek. Илон Маск через видеосвязь выразил надежду на получение обратной связи от разработчиков и ожидает в будущем предоставления сервисов Grok большему числу компаний. (Источник: 36氪)
Команда Percy Liang запускает проект Marin для содействия разработке открытых AI-моделей: Профессор Стэнфордского университета Percy Liang возглавил запуск проекта Marin, целью которого является создание открытых моделей «полностью вовлекающим способом». Проект подчеркивает открытый процесс разработки, позволяя любому вносить свой вклад. Первые модели Marin уже выпущены, среди которых 8B-модель доступна на платформе Together AI для тестирования. Эта инициатива отвечает на призыв к более глубокой открытости в области ИИ, не только открывая веса, код и данные, но и всю экосистему разработки. (Источник: vipulved)

Intel выпускает профессиональную видеокарту Arc Pro B60, KTransformers объявляет о поддержке Intel GPU: Intel выпустила новую профессиональную видеокарту Arc Pro B60 с 24 ГБ видеопамяти и пропускной способностью памяти 456 ГБ/с, по цене около 500 долларов за карту, предоставляя новый аппаратный выбор для вычислений ИИ. В то же время фреймворк KTransformers объявил о поддержке Intel GPU. Тесты показывают, что на платформе Xeon 5 + DDR5 + Arc A770 запуск квантованной модели DeepSeek-R1 Q4 может достигать около 7.5 токенов/с, предоставляя больше аппаратных возможностей для локального запуска больших моделей. (Источник: karminski3 | karminski3)

DeepMind анонсирует конференцию Google I/O: Официальный аккаунт Google DeepMind анонсировал предстоящую конференцию Google I/O, которая состоится 20 мая (10:00 по тихоокеанскому времени) и будет транслироваться в прямом эфире на платформе X. Ожидается, что на конференции будет представлен ряд значительных обновлений и продуктов, связанных с ИИ, продолжая сильную динамику Google в области ИИ. (Источник: GoogleDeepMind)
🧰 Инструменты
AgenticSeek: AI-агент, работающий полностью локально, конкурент Manus AI: AgenticSeek — это проект с открытым исходным кодом, целью которого является предоставление AI-помощника, работающего полностью локально, способного самостоятельно просматривать веб-страницы, писать код и планировать задачи, при этом все данные остаются на устройстве пользователя, обеспечивая конфиденциальность. Этот инструмент специально разработан для моделей локального инференса, поддерживает голосовое взаимодействие и стремится снизить стоимость использования AI-агентов (только затраты на электроэнергию) и риск утечки данных. (Источник: GitHub Trending)

Meituan внутренне тестирует инструмент AI-программирования NoCode, позиционируемый как Vibe Coding: Эксклюзивный репортаж 36Kr сообщает, что Meituan в ближайшее время запустит инструмент AI-программирования “NoCode”, домен nocode.cn уже зарегистрирован и находится на стадии серого тестирования. Продукт разработан командой Meituan по качеству и эффективности исследований и разработок, позиционируется как “атмосферное программирование”, аналогичное Lovable, и ориентирован на нетехнических пользователей. С помощью диалогового взаимодействия он автоматически выполняет задачи кодирования и развертывания, такие как анализ данных, создание прототипов продуктов, генерация инструментов для операционной деятельности и т.д. NoCode использует архитектуру Code Agent, способен выполнять многошаговые логические рассуждения и планируется к открытию для продавцов и широкого круга пользователей, снижая порог IT-изации для малых и средних предприятий. (Источник: 36氪)

Браузер QQ от Tencent обновлен до AI-браузера, интегрирован интеллектуальный помощник QBot: Браузер QQ объявил об обновлении до AI-браузера и запуске AI-помощника под названием QBot, который основан на двойной модели Tencent Hunyuan и DeepSeek. QBot интегрирует функции AI-поиска, AI-браузинга, AI-офиса, AI-обучения, AI-письма и другие, а также внедряет возможности AI Agent, подобные Manus, способные выполнять сложные задачи. Первой партией агентов, прошедших серое тестирование, стал “AI Gaokao Tong”, который может генерировать персонализированные планы поступления в вузы для пользователей. Аудитория браузера QQ превышает 400 миллионов пользователей, и это обновление направлено на повышение эффективности получения информации и выполнения задач пользователями с помощью ИИ. (Источник: 36氪)
OpenAI Codex появился в iOS-версии ChatGPT, поддерживая задачи программирования на мобильных устройствах: OpenAI объявила, что ее помощник по программированию Codex теперь интегрирован в iOS-приложение ChatGPT. Пользователи могут напрямую на своих телефонах запускать новые задачи кодирования, просматривать различия в коде, запрашивать изменения и даже отправлять PR. Эта функция также поддерживает отслеживание активности в реальном времени на заблокированном экране, что позволяет пользователям в любое время следить за ходом работы Codex и продолжать незавершенные задачи, вернувшись к компьютеру. Это знаменует важный шаг в развитии AI-программирования в сторону мобильных устройств и многосценарного сотрудничества. (Источник: karinanguyen_ | gdb)

Мобильное приложение NotebookLM запущено, поддерживает Android и iOS: Инструмент для заметок с ИИ от Google, NotebookLM, официально выпустил мобильное приложение, которое постепенно становится доступным на платформах Android и iOS. Мобильная версия предлагает основные функции, такие как аудио-обзоры и диалоги, что позволяет пользователям в любое время и в любом месте использовать ИИ для анализа контента и обучения. Удобной особенностью является то, что пользователи могут напрямую пересылать просматриваемый контент (кроме официальных аккаунтов WeChat) в NotebookLM для обработки. (Источник: op7418)

Public запускает AI-инструмент для инвестиций “Generated Assets”: Инвестиционная платформа Public выпустила новый продукт “Generated Assets”, который позволяет пользователям предлагать AI инвестиционные идеи. AI в ответ предоставляет инвестиционные рекомендации, настраиваемые инвестиционные индексы, а также может сравнивать историческую доходность и отслеживать производительность в реальном времени. Это похоже на AI-реализацию “атмосферного инвестирования” или “тематического инвестирования”, направленную на снижение порога для пользователей в создании и управлении персонализированными инвестиционными портфелями. (Источник: op7418)

ClaraVerse: приложение “все-в-одном”, интегрирующее различные AI-инструменты: Сообщество поделилось информацией о наборе AI-инструментов под названием ClaraVerse, который объединяет интерфейс чата, AI-компоненты, Ollama (локальный запуск больших моделей), n8n (рабочие процессы/задачи по расписанию), шаблоны AI Agent, ComfyUI (генерация изображений) и библиотеку изображений с AI-индексацией. Цель состоит в том, чтобы предоставить пользователям единую рабочую платформу ИИ, упрощающую использование и переключение между различными AI-инструментами. (Источник: karminski3)

Векторная база данных Qdrant интегрирует протокол Microsoft NLWeb: Векторная база данных Qdrant объявила, что стала одним из первых партнеров открытого протокола NLWeb, представленного Microsoft на конференции Build. NLWeb нацелен на преобразование традиционных поисковых строк в семантические, ориентированные на намерения интерфейсы на основе естественного языка. Благодаря интеграции с Qdrant веб-сайты могут использовать его для быстрого векторного поиска с фильтрацией, предоставляя семантически релевантные результаты без значительных изменений в логике фронтенда или бэкенда. (Источник: qdrant_engine)

📚 Обучение
DeepMind предлагает Visual Planning: парадигму рассуждений на основе последовательностей изображений: Yi Xu и другие исследователи предложили новую парадигму рассуждений под названием “Visual Planning”, цель которой — позволить моделям полностью мыслить и планировать с помощью последовательностей изображений, имитируя то, как люди мысленно представляют шаги, без необходимости использования языка или текстового мышления. Этот метод исследует возможности ИИ для выполнения сложных рассуждений в неязыковых символьных системах, предлагая новые идеи для развития мультимодального ИИ. (Источник: madiator)

Стэнфорд и другие учреждения представляют Terminal-Bench: бенчмарк для оценки способности AI-агентов выполнять задачи в терминале: Исследователи из Стэнфордского университета и Laude представили Terminal-Bench, фреймворк и бенчмарк для оценки способности AI-агентов выполнять сложные задачи в реальных терминальных средах. Учитывая, что многие AI-агенты (такие как Claude Code, Codex CLI) выполняют ценные задачи через взаимодействие с терминалом, этот бенчмарк направлен на количественную оценку их реальной эффективности, способствуя улучшению способностей агентов, ориентированных на практическое развертывание. (Источник: madiator | andersonbcdefg)

Технический разбор DeepSeek-V3: совместное проектирование аппаратного и программного обеспечения для создания эффективной модели: Модель DeepSeek-V3 была обучена всего на 2048 GPU NVIDIA H800 благодаря совместному проектированию аппаратного и программного обеспечения. Ключевые инновации включают Multi-head Latent Attention (MLA), Mixture of Experts (MoE), обучение со смешанной точностью FP8 и многоплоскостную сетевую топологию. Эти технологии совместно направлены на достижение лучшей производительности модели при меньших затратах, представляя новую тенденцию в разработке AI-моделей в сторону большей экономической эффективности. (Источник: TheTuringPost)

Новая статья обсуждает репрезентационный оптимизм в глубоком обучении: гипотеза разорванных запутанных представлений: Kenneth Stanley и др. опубликовали позиционный документ «Подвергая сомнению репрезентационный оптимизм в глубоком обучении: гипотеза разорванных запутанных представлений». Исследование указывает, что сети, обнаруженные с помощью нетрадиционного открытого поиска и способные выводить одно изображение, имеют элегантные и модульные представления; в то время как сети, обученные SGD для вывода того же изображения, имеют хаотичные и запутанные представления. Это показывает, что за хорошим выходным поведением могут скрываться плохие внутренние представления, но также раскрывает возможность того, что представления могут быть лучше, что имеет глубокое влияние на обобщение, креативность и обучаемость моделей, предлагая новые идеи для улучшения базовых моделей и LLM. (Источник: hardmaru | togelius | bengoertzel)

Обновлен учебник по RL, особое внимание уделено главе по LLM (DPO, GRPO, цепочка мыслей и др.): Sirbayes выпустил новую версию своего учебника по обучению с подкреплением (RL). Это обновление в основном касается главы о больших языковых моделях (LLM), в которую добавлены последние материалы по DPO (Direct Preference Optimization), GRPO (Group Relative Policy Optimization), цепочке мыслей (Thinking) и др. Также были незначительно обновлены главы по многоагентному обучению с подкреплением (MARL), обучению с подкреплением на основе моделей (MBRL), офлайн-обучению с подкреплением и DPG (Deep Deterministic Policy Gradient). (Источник: sirbayes)

ByteDance предлагает стратегию усреднения предварительно обученных моделей (Pre-trained Model Averaging): Исследовательская группа ByteDance опубликовала статью, в которой предлагается новая структура для объединения моделей в процессе предварительного обучения больших языковых моделей — стратегия усреднения предварительно обученных моделей (PMA). Исследование показало, что объединение контрольных точек, обученных с постоянной скоростью обучения, не только позволяет достичь производительности, сравнимой или даже лучшей, чем при непрерывном обучении, но и значительно повышает эффективность обучения. Это исследование предлагает новые идеи для оптимизации эффективности предварительного обучения больших моделей и подтверждает потенциал объединения моделей в повышении производительности и эффективности. (Источник: teortaxesTex)

Новое исследование лаборатории Tongyi ZeroSearch: LLM выступает в роли поисковой системы, повышая способность к рассуждению без API: Лаборатория Alibaba Tongyi предложила фреймворк ZeroSearch, который позволяет LLM имитировать поведение поисковой системы в процессе обучения с подкреплением без фактического вызова API поисковой системы, тем самым снижая затраты и повышая стабильность обучения. Этот метод с помощью легковесной донастройки позволяет LLM генерировать полезные результаты и шумовые помехи, а также использует курсовое обучение устойчивости к шуму, постепенно повышая способность модели к рассуждению и устойчивости к помехам в сложных сценариях поиска. Эксперименты показывают, что LLM всего с 3B параметрами в качестве поискового модуля может эффективно улучшить поисковые возможности. (Источник: 量子位)

Новый алгоритм RXTX от Китайского университета Гонконга оптимизирует вычисление умножения матриц XXt: Исследователи из Китайского университета Гонконга предложили новый алгоритм RXTX для ускорения вычисления произведения матрицы на ее транспонированную (XXt). Алгоритм основан на рекурсивном умножении блочных матриц 4×4, сочетая методы машинного обучения для поиска и комбинаторной оптимизации. По сравнению с существующими алгоритмами, основанными на рекурсии Штрассена, RXTX снижает асимптотическую константу умножения примерно на 5% и демонстрирует преимущество в общем объеме операций при n≥256. В тестах на матрицах 6144×6144 он оказался на 9% быстрее стандартной реализации BLAS. Это исследование имеет потенциальное влияние на такие области, как анализ данных, проектирование микросхем, обучение LLM и др. (Источник: 量子位)

Статья AdaptThink: научить модели рассуждения, когда «думать»: В этом исследовании предлагается AdaptThink, фреймворк, который с помощью обучения с подкреплением учит модели рассуждения адаптивно выбирать, следует ли проводить глубокое обдумывание (например, Chain-of-Thought) в зависимости от сложности вопроса. Его ядро включает цель ограниченной оптимизации (поощряющую сокращение мышления при сохранении производительности) и стратегию выборки по значимости (балансирующую образцы с мышлением и без него). Эксперименты показывают, что AdaptThink может значительно снизить затраты на рассуждения и повысить производительность, например, на наборах математических данных средняя длина ответа DeepSeek-R1-Distill-Qwen-1.5B сократилась на 53%, а точность повысилась на 2.4%. (Источник: HuggingFace Daily Papers)
Статья VisionReasoner: объединение визуального восприятия и рассуждения с помощью обучения с подкреплением: VisionReasoner — это унифицированный фреймворк, предназначенный для обработки нескольких задач визуального восприятия с помощью общей модели. Он использует стратегию обучения когнитивным способностям для нескольких объектов и систематическую реструктуризацию задач, усиливая способность модели анализировать визуальный ввод и проводить структурированные рассуждения для решения десяти различных задач, таких как обнаружение, сегментация, подсчет и другие. Результаты экспериментов показывают, что VisionReasoner превосходит такие модели, как Qwen2.5VL, на бенчмарках COCO (обнаружение), ReasonSeg (сегментация) и CountBench (подсчет). (Источник: HuggingFace Daily Papers)
Статья AdaCoT: достижение Парето-оптимального адаптивного запуска цепочки мыслей с помощью обучения с подкреплением: Для решения проблемы ненужных вычислительных затрат, связанных с цепочкой мыслей (CoT) при обработке простых запросов большими языковыми моделями (LLM), был предложен фреймворк AdaCoT. Он использует обучение с подкреплением (PPO), чтобы LLM мог адаптивно решать, вызывать ли CoT, в зависимости от неявной сложности запроса, стремясь сбалансировать производительность модели и затраты на вызов CoT. С помощью техники выборочного маскирования потерь (SLM) для предотвращения коллапса границы принятия решений, эксперименты показывают, что AdaCoT может значительно сократить частоту ненужных запусков CoT (до 3.18%) и количество токенов ответа (уменьшение на 69.06%), сохраняя при этом высокую производительность на сложных задачах. (Источник: HuggingFace Daily Papers)
Статья GIE-Bench: бенчмарк для оценки редактирования изображений под руководством текста с привязкой к реальности: Для более точной оценки моделей редактирования изображений под руководством текста был предложен GIE-Bench. Этот бенчмарк оценивает модели по двум измерениям: функциональная корректность (проверяется с помощью автоматически сгенерированных вопросов с несколькими вариантами ответов, успешно ли выполнено редактирование) и сохранение содержимого изображения (используется техника маскирования с учетом объектов и оценка сохранения для обеспечения согласованности нецелевых областей). Включает более 1000 высококачественных примеров редактирования, охватывающих 20 категорий. Оценка моделей, таких как GPT-Image-1, показывает, что они лидируют в следовании инструкциям, но нуждаются в улучшении в сохранении нерелевантных областей. (Источник: HuggingFace Daily Papers)
Статья InstanceGen: генерация изображений с инструкциями на уровне экземпляров: Для решения проблемы, когда предварительно обученные модели генерации текста в изображение с трудом точно улавливают семантику сложных подсказок, содержащих несколько объектов и атрибуты на уровне экземпляров, InstanceGen предлагает новую технологию. Эта технология сочетает мелкозернистую структурированную инициализацию на основе изображений (напрямую предоставляемую современными моделями генерации изображений) и инструкции на уровне экземпляров на основе LLM, что позволяет генерируемым изображениям лучше следовать всем частям текстовых подсказок, включая количество объектов, атрибуты на уровне экземпляров и пространственные отношения между экземплярами. (Источник: HuggingFace Daily Papers)
💼 Бизнес
Компания «Qianjue Technology» из экосистемы Цинхуа, занимающаяся воплощенным интеллектом, завершила раунд финансирования Pre-A+ на несколько сотен миллионов юаней: Компания «Qianjue Technology», специализирующаяся на «мозгах» для воплощенного интеллекта, недавно завершила новый раунд финансирования Pre-A+, инвесторами выступили Junshan Investment, Xiangfeng Investment и Shixi Capital. Общая сумма привлеченных средств достигла нескольких сотен миллионов юаней. Компания была инкубирована ключевыми сотрудниками факультета автоматизации Университета Цинхуа и связанных с ним исследовательских институтов ИИ. Она специализируется на разработке универсальной системы «мозга для воплощенного интеллекта», делая акцент на мультимодальном восприятии в реальном времени, непрерывном планировании задач и автономном выполнении. Продукты компании уже внедрены в таких сферах, как бытовое обслуживание и логистическая доставка, и она сотрудничает с рядом ведущих производителей роботов и компаний потребительской электроники. (Источник: 36氪)

AI Agent может изменить ландшафт рынка SaaS: Предсказание генерального директора Microsoft Сатьи Наделлы о том, что SaaS-приложения столкнутся с подрывными изменениями в эпоху AI Agent, вызвало широкое обсуждение будущего AI Agent и SaaS в отрасли. AI Agent, благодаря своим способностям к автономному восприятию, принятию решений и действиям, может решить проблемы традиционных SaaS в области кастомизации, взаимодействия данных и пользовательского опыта, например, автоматически создавая рабочие процессы через взаимодействие на естественном языке, интегрируя данные между приложениями, активно предоставляя бизнес-рекомендации и т.д. Хотя в настоящее время AI Agent в корпоративных приложениях сталкивается с ограничениями возможностей LLM, стоимостью, безопасностью данных и другими проблемами, такие производители, как Salesforce, Microsoft, Yonyou, уже начали интегрировать AI Agent в свои SaaS-продукты, исследуя новые модели слияния или подрыва SaaS. (Источник: 36氪)

ИИ переформатирует управление вознаграждениями: от анализа данных к интеллектуальным решениям и коммуникации: Искусственный интеллект глубоко трансформирует управление вознаграждениями. Отчет Korn Ferry показывает, что применение ИИ в коммуникации по вопросам вознаграждений, внешнем бенчмаркинге и структурировании должностных навыков постепенно расширяется. В будущем ИИ, обрабатывая большие объемы и более разнообразные данные (включая социальные платформы, сторонние исследования), сможет перейти от управления на основе данных к интеллектуальному принятию решений, например, прогнозировать риск увольнения сотрудников, оценивать эффективность стимулирования, динамически корректировать диапазоны заработной платы, реализовывать персонализированное стимулирование. В то же время ИИ сталкивается с проблемами конфиденциальности данных, «черного ящика» алгоритмов, достоверности результатов и т.д. Эффективная коммуникация по вопросам вознаграждений в цифровую эпоху становится еще более важной, и инструменты ИИ могут помочь менеджерам в системной, персонализированной коммуникации, повышая чувство справедливости и удовлетворенности сотрудников. (Источник: 36氪)
🌟 Сообщество
Сундар Пичаи опубликовал фото «глубоких размышлений», подогревая интерес к Google I/O: Генеральный директор Google Сундар Пичаи опубликовал в социальных сетях свою фотографию в «глубоких размышлениях», вызвав широкие ожидания в сообществе относительно предстоящей конференции Google I/O. Эту фотографию перепостили и прокомментировали многие влиятельные лица в области ИИ, которые в целом считают, что это предвещает крупные анонсы Google в области ИИ, особенно в отношении модели Gemini и ее приложений. Члены сообщества активно гадают о возможных новых функциях, моделях или стратегиях. (Источник: demishassabis | YiTayML | zacharynado | lmthang | scaling01 | brickroad7 | jack_w_rae | TheTuringPost | shaneguML | op7418)

Способности AI Agent к программированию вызывают бурные обсуждения, Sama оптимистично смотрит на их возможность автоматически завершать незаконченные проекты: Генеральный директор OpenAI Сэм Альтман выразил надежду на то, что AI-агенты для программирования (такие как Codex) смогут завершать проекты, выполненные на 80%, но не доведенные до конца, и автоматически их поддерживать. Сообщество сравнивает и обсуждает возможности различных AI-агентов для программирования (таких как Codex, Jules, Claude Code), уделяя внимание способности к планированию задач, среде виртуальной машины (например, наличие подключения к сети) и производительности в сложных долгосрочных задачах. В целом считается, что потенциал AI Agent в области разработки программного обеспечения огромен, но различные модели все еще отличаются в конкретной реализации и результатах. (Источник: sama | mathemagic1an)
Внедрение в вузах проверки на контент, сгенерированный ИИ, вызывает споры: «Предисловие к павильону князя Тэна» оценено как на 100% сгенерированное ИИ: Многие вузы в Китае включили «процент контента, сгенерированного ИИ» в оценку дипломных работ, что привело к тому, что студенты используют различные методы для обхода проверки, а преподаватели мечутся между вердиктом ИИ и собственным суждением. Инструменты для обнаружения ИИ, из-за зависимости от сравнения с базами данных и предвзятости к шаблонам, часто ошибочно определяют классические произведения (например, «Предисловие к павильону князя Тэна» — 100% ИИ, «Лотосовый пруд при лунном свете» Чжу Цзыцина — 62.88%) и стандартные академические тексты как сгенерированные ИИ. Это явление породило серую индустрию «снижения процента ИИ», вызвав глубокие размышления об ограничениях технологии обнаружения ИИ, стандартах академической оценки и сущности образования. (Источник: 36氪)

Обсуждается образ мышления следующего поколения, выросшего в эпоху ИИ: Сообщество Reddit активно обсуждает, что образ мышления нового поколения детей, выросших в среде ИИ, будет значительно отличаться от предыдущих поколений. Они привыкнут взаимодействовать с AI-помощниками, акцент в обучении может сместиться с запоминания фактов на умение задавать вопросы и навигировать в системах, с обучения методом проб и ошибок на быструю итерацию. Такое раннее слияние с машинной логикой может глубоко изменить их любознательность, память, интуицию и даже само определение интеллекта, вызывая размышления об их будущем формировании убеждений, способности создавать системы и доверии к собственным мыслям. (Источник: Reddit r/ArtificialInteligence)
Быстрое развитие ИИ в области программной инженерии вызывает у разработчиков чувство кризиса на рынке труда: 42-летний программист, ранее зарабатывавший 150 000 долларов в год, после того как его вытеснили тенденции, связанные с ИИ, разослал более 800 резюме, но получил очень мало приглашений на собеседования, и в настоящее время зарабатывает на жизнь доставкой еды. Его опыт вызвал дискуссию о том, начал ли ИИ (например, GitHub Copilot, Claude, ChatGPT) массово заменять программистов. Генеральный директор Anthropic предсказывал, что ИИ сможет генерировать подавляющее большинство кода. Хотя данные Бюро статистики труда все еще показывают, что программная инженерия является одной из самых быстрорастущих профессий, волна увольнений в технологической отрасли продолжается, и компании используют ИИ для снижения затрат и повышения эффективности. Это заставляет задуматься о том, как общество должно реагировать на структурную безработицу, вызванную ИИ, и на построение новой парадигмы сотрудничества «человек + ИИ». (Источник: 36氪)

Проблема гендерной предвзятости в алгоритмах ИИ: невидимость и отсутствие «ее данных»: В развитии искусственного интеллекта проблема гендерной предвзятости алгоритмов становится все более очевидной. Из-за исторических и социальных причин данные о женщинах недостаточно представлены при сборе данных (например, в клинических испытаниях, статьях Википедии), что приводит к тому, что ИИ может генерировать предвзятость в отношении женщин в таких областях, как медицинская диагностика, рекомендации контента и т.д. Например, системы распознавания изображений могут ошибочно идентифицировать мужчину на кухне как женщину, а результаты поиска изображений в поисковых системах усиливают гендерные стереотипы. Гендерный дисбаланс в индустрии ИИ также считается одной из причин. Решение этой проблемы требует комплексного подхода: повышения осведомленности разработчиков, обеспечения справедливых карьерных возможностей для женщин, совершенствования законодательства, создания механизмов гендерного аудита систем ИИ и оптимизации алгоритмов (например, передискретизация данных, применение причинно-следственного вывода). (Источник: 36氪)

AI Agent вызывает обсуждение трансформации SaaS-индустрии: Генеральный директор Microsoft Сатья Наделла предсказывает, что SaaS столкнется с подрывными изменениями в эпоху AI Agent. AI Agent, благодаря своим способностям к автономному восприятию, принятию решений и действиям, может решить проблемы SaaS в области кастомизации, взаимодействия данных и пользовательского опыта. Например, AI Agent может автоматически создавать рабочие процессы через взаимодействие на естественном языке, интегрировать данные между приложениями и активно предоставлять бизнес-рекомендации. В настоящее время такие SaaS-производители, как Salesforce, Microsoft, Yonyou, уже начали интегрировать AI Agent, исследуя новые модели слияния или подрыва SaaS. Хотя AI Agent в корпоративных приложениях все еще сталкивается с проблемами возможностей LLM, стоимости и безопасности данных, его трансформационный потенциал уже привлек широкое внимание отрасли. (Источник: finbarrtimbers)
💡 Прочее
AI сгенерировал карты Таро в стиле китайской оперы: Пользователь @op7418 использовал AI-инструмент Lovart для создания набора карт Таро в стиле китайской оперы. Идея дизайна заключается в сочетании традиционного содержания китайской оперы с символическим значением соответствующих карт Таро, демонстрируя потенциал ИИ в креативном дизайне и культурной интеграции. (Источник: op7418)

Реструктуризация организационной структуры в эпоху ИИ: восход команд стратегического исполнения (SET): В статье рассматривается, как в эпоху ускоренного развития ИИ традиционные организационные структуры с трудом адаптируются к сложности, привносимой ИИ. Предлагается трехуровневая организационная модель с ядром в виде «команд стратегического исполнения» (SET), целью которой является сделать ИИ частью команды, реализуя гибкое исполнение и интеллектуальное масштабирование через разумные механизмы взаимодействия человека и машины. SET отвечает за преобразование стратегии в межведомственные действия, мониторинг организационной энтропии, гибкую корректировку стратегий и координацию сотрудничества людей, процессов и AI-агентов для раскрытия потенциала ИИ и продвижения реализации стратегии. (Источник: 36氪)

Может ли краудсорсинговая проверка фактов сдержать дезинформацию в социальных сетях?: Профессор Университета искусственного интеллекта имени Мохамеда бин Зайда Преслав Наков обсуждает влияние замены Meta сторонних фактчекеров на Community Notes. Он считает, что краудсорсинговые модели, такие как Community Notes (происходящие от Birdwatch на X), имеют потенциал, но модерация контента требует сочетания различных методов, включая автоматическую фильтрацию, краудсорсинг и профессиональную проверку фактов. Проводя аналогию с фильтрацией спама и обработкой вредоносного контента LLM, он отмечает, что каждый метод имеет свои преимущества и недостатки и должен работать совместно. Исследования показывают, что Community Notes могут усилить влияние работы профессиональных фактчекеров; их фокусы различны, но выводы схожи, и они могут дополнять друг друга. (Источник: MIT Technology Review)
