Ключевые слова:ИИ-агент программирования, Codex, Голосовая большая модель, ИИ-агент, OpenAI, MiniMax, Alibaba, Qwen, Превью версия Codex, Речевая модель Speech-02, Исследование WorldPM, Визуально-языковая модель FastVLM, Кросс-модальная модель FG-CLIP

🔥 В центре внимания

OpenAI выпустила предварительную версию AI-агента для программирования Codex: OpenAI поздно вечером 16 мая представила предварительную версию облачного агента для разработки программного обеспечения Codex. Codex работает на базе модели o3-variant codex-1, оптимизированной для разработки ПО, и может параллельно выполнять задачи программирования, отвечать на вопросы по кодовой базе, исправлять ошибки (Bug) и отправлять запросы на слияние (pull request). Он работает в облачной песочнице с предварительно загруженной кодовой базой пользователя, время выполнения задач составляет 1-30 минут. В настоящее время доступ открыт для пользователей ChatGPT Pro, Team и Enterprise, скоро появится для пользователей Plus и Edu. Одновременно была выпущена легковесная модель codex-mini (на базе o4-mini) для Codex CLI, стоимость API составляет 1,5 доллара США за миллион токенов на входе и 6 долларов США за миллион токенов на выходе. (Источник: 36氪, 机器之心, op7418)

OpenAI выпустила предварительную версию AI-агента для программирования Codex

MiniMax выпустила большую языковую модель для синтеза речи Speech-02, возглавившую мировые рейтинги: Новейшая большая модель для преобразования текста в речь (TTS) Speech-02-HD от китайской AI-компании MiniMax заняла первые места в двух авторитетных мировых бенчмарках оценки качества речи — Artificial Analysis Speech Arena и Hugging Face TTS Arena V2, превзойдя OpenAI и ElevenLabs. Модель отличается ультрареалистичностью, персонализацией и разнообразием, поддерживает 32 языка и способна воспроизводить реалистичный тембр голоса на основе всего лишь 10-секундного аудиофрагмента. Ранее популярное приложение для изучения английского языка «AI吴彦祖» использовало технологию MiniMax. Ключевые инновации Speech-02 включают обучаемый кодировщик говорящего и модель сопоставления потоков Flow-VAE, что улучшает качество звука и сходство. (Источник: 36氪, karminski3)

MiniMax выпустила большую языковую модель для синтеза речи Speech-02, возглавившую мировые рейтинги

AI Agent привлекают внимание рынка, крупные компании ускоряют разработку: AI-агенты (Agent) становятся новым фокусом в области AI. Платформы универсальных агентов, такие как Manus, вызвали ажиотаж после открытия регистрации. Сообщается, что материнская компания Monica завершила новый раунд финансирования на 75 миллионов долларов США с оценкой почти в 500 миллионов долларов США. Крупные технологические компании, такие как Baidu (心响), ByteDance (扣子空间) и Alibaba (心流), одна за другой запускают собственные продукты или платформы Agent, борясь за вход в эпоху AI. Агенты могут выполнять более сложные задачи, такие как создание материалов, веб-дизайн, планирование путешествий и т. д. В настоящее время универсальные агенты все еще имеют недостатки в межприложенческих операциях и выполнении глубоких задач; неполная экосистема и изолированность данных являются основными проблемами. Протокол MCP рассматривается как ключ к решению проблемы взаимосвязанности, но число его последователей пока невелико. Считается, что агенты для вертикальных B2B-рынков легче коммерциализировать благодаря сфокусированности на сценариях и простоте настройки. (Источник: 36氪, 36氪)

AI Agent привлекают внимание рынка, крупные компании ускоряют разработку

Alibaba опубликовала исследование WorldPM, изучающее законы масштабирования для моделирования человеческих предпочтений: Команда Qwen из Alibaba опубликовала статью «Modeling World Preference», раскрывающую, что моделирование человеческих предпочтений подчиняется законам масштабирования (Scaling Laws). Это указывает на то, что разнообразные человеческие предпочтения могут иметь единое представление. В исследовании использовался набор данных StackExchange, содержащий 15 миллионов пар предпочтений, а эксперименты проводились на моделях Qwen2.5 с числом параметров от 1,5 до 72 миллиардов. Результаты показали, что по мере увеличения масштаба обучения происходит логарифмическое уменьшение потерь в показателях объективности и устойчивости моделирования предпочтений; модель с 72 миллиардами параметров продемонстрировала эмерджентные свойства при решении некоторых сложных задач. Это исследование обеспечивает эффективную основу для тонкой настройки предпочтений. Статья и модель (WorldPM-72B) находятся в открытом доступе. (Источник: Alibaba_Qwen)

🎯 Тенденции

Google DeepMind и Anthropic разошлись во мнениях по поводу исследований в области интерпретируемости AI: Google DeepMind недавно объявила, что больше не будет считать «механистическую интерпретируемость» (mechanistic interpretability) приоритетным направлением исследований, полагая, что обратная разработка внутренних механизмов AI с помощью таких методов, как разреженные автоэнкодеры (SAE), чрезвычайно сложна, а SAE имеют присущие им недостатки. В то же время генеральный директор Anthropic Dario Amodei выступает за усиление исследований в этой области и выражает оптимизм по поводу достижения «МРТ для AI» в ближайшие 5-10 лет. «Черный ящик» AI является источником многих рисков, и механистическая интерпретируемость направлена на понимание функций конкретных нейронов и цепей модели, однако более чем десятилетние исследования дали ограниченные результаты, что вызвало глубокие размышления о путях исследований. (Источник: WeChat)

Google DeepMind и Anthropic разошлись во мнениях по поводу исследований в области интерпретируемости AI

Отчет Poe раскрывает изменения на рынке AI-моделей: OpenAI и Google лидируют: Последний отчет Poe об использовании AI-моделей показывает, что в области генерации текста лидирует GPT-4o (35,8%), а в области логического вывода — Gemini 2.5 Pro (31,5%). В генерации изображений доминируют Imagen3, GPT-Image-1 и серия Flux. В генерации видео доля Runway снизилась, а Kuaishou Kling стала «темной лошадкой». Что касается агентов, o3 от OpenAI показал лучшие результаты в исследовательских тестах, чем Claude и Gemini. Доля рынка Claude от Anthropic несколько снизилась. В отчете отмечается, что способность к логическому выводу становится ключевым конкурентным преимуществом, и компаниям необходимо создавать системы оценки и гибко выбирать различные модели для реагирования на быстро меняющийся рынок. (Источник: WeChat)

Отчет Poe раскрывает изменения на рынке AI-моделей: OpenAI и Google лидируют

Apple открыла исходный код эффективной визуально-языковой модели FastVLM, способной работать на iPhone: Apple открыла исходный код FastVLM, визуально-языковой модели, специально разработанной для эффективной работы на периферийных устройствах, таких как iPhone. Модель значительно сокращает количество визуальных токенов (в 16 раз меньше, чем у ViT) благодаря новому гибридному визуальному кодировщику FastViTHD (объединяющему сверточные слои и модули Transformer, использующему многомасштабный пулинг и методы понижающей дискретизации), что увеличивает скорость вывода первого токена в 85 раз по сравнению с аналогичными моделями. FastVLM совместима с основными LLM и уже выпущена в версиях с 0,5, 1,5 и 7 миллиардами параметров. Цель — повысить скорость понимания изображений и улучшить пользовательский опыт в AI-приложениях на устройствах. (Источник: WeChat)

Apple открыла исходный код эффективной визуально-языковой модели FastVLM, способной работать на iPhone

360 выпустила кросс-модальную модель нового поколения FG-CLIP для улучшения детального сопоставления изображений и текста: Исследовательский институт искусственного интеллекта 360 разработал кросс-модальную модель нового поколения для изображений и текста FG-CLIP, направленную на устранение недостатков традиционных моделей CLIP в детальном понимании изображений и текста. FG-CLIP использует двухэтапную стратегию обучения: глобальное контрастное обучение (интегрирующее длинные описания, сгенерированные большими мультимодальными моделями) и локальное контрастное обучение (включающее данные разметки регион-текст и обучение на сложных негативных примерах с мелкой детализацией), что позволяет точно улавливать локальные детали изображений и тонкие различия в атрибутах текста. Модель принята на ICML 2025, ее исходный код и веса доступны на Github и Huggingface для коммерческого использования. (Источник: WeChat)

360 выпустила кросс-модальную модель нового поколения FG-CLIP для улучшения детального сопоставления изображений и текста

Google представила LightLab, использующую диффузионные модели для точного управления светом и тенью на изображениях: Исследовательская группа Google представила проект LightLab — технологию, позволяющую осуществлять детальное параметризованное управление источниками света на основе одного изображения. Пользователи могут настраивать интенсивность и цвет видимых источников света, интенсивность окружающего освещения, а также вставлять виртуальные источники света в сцену. LightLab достигается путем тонкой настройки диффузионных моделей на специально созданном наборе данных (включающем пары реальных фотографий с контролируемым освещением и крупномасштабные синтетические рендеры), используя линейные свойства света для разделения источников света и окружающего освещения, и синтезируя большое количество пар изображений с различными изменениями освещения для обучения. Модель способна напрямую в пространстве изображения моделировать сложные эффекты освещения, такие как косвенное освещение, тени и отражения. (Источник: WeChat)

Google представила LightLab, использующую диффузионные модели для точного управления светом и тенью на изображениях

Tencent предложила методы обучения с подкреплением GRPO и RCS для улучшения генерализации при обнаружении намерений: Исследовательская группа социальной линии PCG Tencent предложила использовать алгоритм групповой относительной оптимизации стратегии (GRPO) в сочетании со стратегией выборки учебных программ на основе вознаграждения (RCS) в задачах распознавания намерений. Этот метод значительно улучшил способность модели к генерализации на неизвестных намерениях (повышение до 47% для новых намерений и межъязыковых способностей), особенно после введения «Мысли» (Thought), способность к генерализации при обнаружении сложных намерений еще больше возросла. Эксперименты показали, что модели, обученные с помощью RL, превосходят модели SFT по генерализации, и независимо от того, основаны ли они на предварительно обученных моделях или моделях с тонкой настройкой инструкций, производительность после обучения с помощью GRPO схожа. (Источник: WeChat)

Tencent предложила методы обучения с подкреплением GRPO и RCS для улучшения генерализации при обнаружении намерений

Наньянский технологический университет и др. предложили фреймворк RAP на основе RAG для улучшения восприятия изображений высокого разрешения: Команда профессора Тао Дачэна из Наньянского технологического университета и другие исследователи предложили Retrieval-Augmented Perception (RAP) — не требующий обучения плагин для восприятия изображений высокого разрешения на основе технологии RAG. Он направлен на решение проблемы потери информации при обработке изображений высокого разрешения мультимодальными большими языковыми моделями (MLLM). RAP извлекает фрагменты изображения, релевантные запросу пользователя, и использует алгоритм Spatial-Awareness Layout для сохранения их относительного пространственного расположения. Затем с помощью Retrieved-Exploration Search (RE-Search) адаптивно выбирается количество сохраняемых фрагментов изображения K, что эффективно снижает разрешение входного изображения при сохранении ключевой визуальной информации. Эксперименты показали, что RAP повышает точность на наборах данных HR-Bench 4K и 8K на 21% и 21,7% соответственно. Эта работа была принята на ICML 2025 как Spotlight-статья. (Источник: WeChat)

Наньянский технологический университет и др. предложили фреймворк RAP на основе RAG для улучшения восприятия изображений высокого разрешения

Выпущены квантованные модели Qwen2.5-Omni-7B: Команда Qwen из Alibaba выпустила квантованные версии модели Qwen2.5-Omni-7B, включая оптимизированные контрольные точки GPTQ и AWQ. Эти модели доступны на Hugging Face и ModelScope и предназначены для предоставления более эффективных вариантов развертывания с меньшим потреблением ресурсов при сохранении их мощных мультимодальных возможностей. (Источник: Alibaba_Qwen, karminski3, reach_vb)

Выпущены квантованные модели Qwen2.5-Omni-7B

TII выпустила модели BitNet Falcon-E-1B/3B, значительно снижающие потребление памяти: Технологический инновационный институт (TII) представил новую серию моделей Falcon-Edge, основанную на фреймворке моделей с 1-битной точностью BitNet от Microsoft, включая Falcon-E-1B и Falcon-E-3B. Утверждается, что производительность этих моделей сопоставима с Qwen3-1.7B, но потребление памяти составляет всего 1/4. TII также выпустила библиотеку для тонкой настройки onebitllms, позволяющую пользователям самостоятельно настраивать эти 1-битные модели на видеокартах NVIDIA. (Источник: karminski3)

TII выпустила модели BitNet Falcon-E-1B/3B, значительно снижающие потребление памяти

Модели Qwen3 и DeepSeek лидируют в рейтинге медицинских вопросов и ответов MEDIC-Benchmark: Модели Qwen3 заняли первое и второе места в недавно опубликованном рейтинге медицинских вопросов и ответов MEDIC-Benchmark. Кроме того, все пять верхних позиций в рейтинге заняты моделями серий Qwen и DeepSeek, что демонстрирует мощные возможности этих отечественных больших моделей в области ответов на вопросы в специализированной медицинской сфере. (Источник: karminski3)

Модели Qwen3 и DeepSeek лидируют в рейтинге медицинских вопросов и ответов MEDIC-Benchmark

Чжэцзянский университет предложил Rankformer: архитектуру рекомендательной модели Transformer с прямой оптимизацией ранжирования: Команда из Чжэцзянского университета предложила новую архитектуру графовой рекомендательной модели Transformer под названием Rankformer, дизайн которой напрямую основан на целях ранжирования (например, функция потерь BPR). Rankformer моделирует направление оптимизации векторов в процессе градиентного спуска для разработки уникального механизма графового Transformer, который в процессе прямого распространения направляет модель на кодирование более оптимальных представлений для ранжирования. Модель использует механизм глобального внимания для агрегации информации и, как утверждается, снижает пространственно-временную сложность до линейного уровня за счет математических преобразований и оптимизации кэширования. Исследование принято на конференцию WWW 2025. (Источник: WeChat)

Чжэцзянский университет предложил Rankformer: архитектуру рекомендательной модели Transformer с прямой оптимизацией ранжирования

🧰 Инструменты

Платформа Manus AI Agent добавила функцию генерации изображений: Платформа AI Agent Manus объявила о поддержке генерации изображений. В отличие от традиционных инструментов для рисования с помощью AI, Manus способен понимать цель пользователя при рисовании и планировать схему генерации. Например, пользователь может загрузить фотографию комнаты, попросить Manus найти мебель на сайте IKEA и сгенерировать визуализированные эскизы ремонта, приложив ссылки на мебель. Manus выполняет задачу, анализируя, ища, отбирая мебель и разрабатывая стратегию дизайна. Эта функция направлена на глубокую интеграцию рабочего процесса агента с генерацией изображений. В настоящее время Manus открыт для регистрации, предоставляет 1000 баллов в подарок, ежедневно дополнительно 300 баллов, а также предлагает платные планы подписки. (Источник: 36氪, WeChat)

Платформа Manus AI Agent добавила функцию генерации изображений

Выпущена платформа Lovart Design Agent, ориентированная на творческие рабочие процессы: Новая платформа для дизайн-агентов Lovart быстро привлекла внимание после своего запуска. Ее основная концепция заключается в преобразовании творческого процесса дизайнера (включающего мультимодальность) в рабочий процесс Agent. Lovart предлагает интерактивный интерфейс в стиле холста, где пользователи могут направлять AI для выполнения дизайнерских задач посредством диалога, а AI отвечает за планирование и выполнение. Основатель Чэнь Мянь считает, что продукты для генерации изображений с помощью AI вошли в стадию 3.0, управляемую агентами. Lovart стремится стать «другом» для дизайнеров, передавая рутинные задачи AI и позволяя дизайнерам сосредоточиться на творчестве. В будущем продукт будет интегрировать возможности 3D-моделирования, видео и аудио, превратившись в «творческую команду» или «дизайнерскую компанию». (Источник: 36氪)

Выпущена платформа Lovart Design Agent, ориентированная на творческие рабочие процессы

OpenAI Codex CLI обновлен, интегрирован o4-mini и предоставлены бесплатные кредиты API: OpenAI улучшила свой легковесный агент для кодирования с открытым исходным кодом Codex CLI. Новая версия работает на базе упрощенной версии codex-1 — o4-mini (названной codex-mini), специально оптимизированной для быстрого ответа на вопросы по коду и редактирования. Пользователи теперь могут входить в Codex CLI с помощью своей учетной записи ChatGPT. Пользователи Plus и Pro могут обменять соответственно 5 и 50 долларов США на бесплатные кредиты API (действительны в течение 30 дней) для использования модели codex-mini-latest. (Источник: openai, hwchung27, op7418)

Фреймворк обработки данных с открытым исходным кодом Smallpond от DeepSeek интегрировал нативный доступ DuckDB к 3FS: Фреймворк обработки данных с открытым исходным кодом Smallpond от DeepSeek, который внутри использует 3FS (DeepSeek File System) и DuckDB. Теперь DuckDB через плагин hf3fs_usrbio поддерживает нативный доступ к 3FS, что приведет к повышению производительности и снижению накладных расходов. Сам DuckDB также получил высокую оценку за простоту использования, например, возможность встраивать URL-адреса непосредственно в запросы для обработки данных. (Источник: karminski3)

Фреймворк обработки данных с открытым исходным кодом Smallpond от DeepSeek интегрировал нативный доступ DuckDB к 3FS

ComfyUI нативно поддерживает видеомодель Wan2.1-VACE от Alibaba: ComfyUI объявила о нативной поддержке моделей генерации видео Wan2.1-VACE 14B и 1.3B от команды Wanxiang (@Alibaba_Wan) из Alibaba. Эта модель привносит в ComfyUI интегрированные возможности редактирования видео, включая преобразование текста в видео, изображения в видео, видео в видео (с контролем позы и глубины), восстановление видео (inpainting) и расширение (outpainting), а также использование референсов персонажей/объектов. (Источник: TomLikesRobots)

Google AI Studio интегрирует Veo 2, Gemini 2.0 и Imagen 3, предоставляя единый опыт генерации медиа: Google AI Studio представила новый опыт генерации медиа, объединяющий видеомодель Veo 2, нативные возможности генерации/редактирования изображений Gemini 2.0 и новейшую модель преобразования текста в изображение Imagen 3. Пользователи могут бесплатно опробовать эти модели в AI Studio, а разработчики также могут создавать на их основе через API. (Источник: op7418)

Google AI Studio интегрирует Veo 2, Gemini 2.0 и Imagen 3, предоставляя единый опыт генерации медиа

ElevenLabs выпустила четвертый набор AI Engineer Starter Pack: ElevenLabs выпустила четвертый набор AI Engineer Starter Pack для AI-разработчиков, содержащий подписки и кредиты API для различных инструментов и сервисов, таких как Modal Labs, Mistral AI, Notion, BrowserUse, Intercom, Hugging Face, CodeRabbit и др., с целью помочь AI-стартапам и разработчикам. (Источник: op7418)

ElevenLabs выпустила четвертый набор AI Engineer Starter Pack

Polygon Zone App: инструмент для рисования пользовательских многоугольников на видео для задач CV: Разработчик Pavan Kunchala создал инструмент под названием Polygon Zone App, который позволяет пользователям загружать видео, интерактивно рисовать пользовательские многоугольные области (ROI) на кадрах видео и выполнять в этих областях анализ компьютерного зрения, такой как обнаружение объектов. Инструмент предназначен для упрощения трудоемкого процесса определения ROI в проектах CV, избегая ручного редактирования координат JSON. (Источник: Reddit r/deeplearning)

Polygon Zone App: инструмент для рисования пользовательских многоугольников на видео для задач CV

📚 Обучение

Курс AI Evals привлек к участию более 300 компаний: Курс по оценке AI (bit.ly/evals-ai), созданный Hamel Husain, привлек к участию более 300 компаний, включая такие известные предприятия, как Adobe, Amazon, Google, Meta, Microsoft, NVIDIA, OpenAI, а также множество ведущих университетов. Это отражает высокий интерес и потребность отрасли в методах и практиках оценки AI-моделей. (Источник: HamelHusain)

Latent.Space опубликовал руководство по использованию ChatGPT Codex: Latent.Space выпустил руководство под названием «ChatGPT Codex: The Missing Manual», в котором подробно описывается, как эффективно использовать недавно выпущенного облачного автономного программного инженера ChatGPT Codex от OpenAI. Руководство написано Josh Ma и Alexander Embiricos и призвано помочь пользователям в полной мере использовать мощные функции Codex при работе с кодовыми базами. (Источник: swyx)

Latent.Space опубликовал руководство по использованию ChatGPT Codex

Qdrant выпустил учебное пособие по созданию локального RAG-приложения: Qdrant Engine поделился учебным пособием от @maxedapps, демонстрирующим, как с нуля создать 100% локально работающее приложение для генерации с дополненным поиском (RAG), используя Gemma 3, Ollama и Qdrant Engine. Двухчасовое пособие содержит полный код и пошаговые инструкции и подходит для разработчиков, желающих попрактиковаться в создании локальных AI-приложений. (Источник: qdrant_engine)

Qdrant выпустил учебное пособие по созданию локального RAG-приложения

Обзор учебного пособия по механизмам внимания в ViT с CVPR23: Исследователь Sayak Paul сделал обзор своего совместного с Hila Chefer учебного пособия по механизмам внимания в Vision Transformer (ViT), представленного на CVPR 2023. Пособие построено вокруг трех тем: «объяснение» (explain), «исследование» (probe) и «направление» (guide), и направлено на помощь в понимании того, как работают механизмы внимания внутри ViT. (Источник: RisingSayak)

Обзор учебного пособия по механизмам внимания в ViT с CVPR23

Советы по использованию Claude Code: планирование, правила и ручное сжатие: Пользователь Reddit поделился опытом недельного интенсивного использования Claude Code, подчеркнув важность планирования, установления правил (через файл CLAUDE.md) и ручного запуска /compact до достижения лимита автоматического сжатия. Эти приемы помогают повысить производительность и качество вывода, особенно при работе с большими функциями или во избежание отклонения модели от курса. Пользователь отметил, что с помощью этих методов Claude Code способен эффективно выполнять сложные задачи. (Источник: Reddit r/ClaudeAI)

Интервью с основателем AIGCode Су Вэнем: упор на собственные большие модели, цель — генерация кода уровня Autopilot «L5»: Основатель AIGCode Су Вэнь в интервью заявил, что цель компании — создать инфраструктуру для поставки кода, достигнув уровня автоматического программирования Autopilot «L5», чтобы даже не программисты могли генерировать полноценные приложения с помощью AI. Он считает, что Coding — это лучшая среда для обучения больших моделей, а код — это высококачественные обучающие данные. AIGCode уже обучила базовую модель «Сиюэ» (锡月) на 66 миллиардов параметров и выпустила продукт AutoCoder. Су Вэнь подчеркнул, что AI-продукты в конечном итоге соревнуются в «интеллекте мозга», предварительное обучение является движущей силой технологии, и даже при высокой стоимости собственные модели критически важны для достижения AGI и создания основного конкурентного преимущества продукта. (Источник: WeChat)

Интервью с основателем AIGCode Су Вэнем: упор на собственные большие модели, цель — генерация кода уровня Autopilot «L5»

💼 Бизнес

Команда платформы интеллектуальных агентов и прикладных алгоритмов JD.com ищет сотрудников: Ключевой проект JD.com — команда платформы интеллектуальных агентов и прикладных алгоритмов — набирает инженеров по алгоритмам больших моделей и стажеров. Место работы — Пекин. Основные технические направления включают LLM Agent, LLM Reasoning и LLM в сочетании с обучением с подкреплением. Вакансии открыты для выпускников магистратуры и аспирантуры 2026 года (набор выпускников), специалистов уровня P5-P8 (набор с рынка труда) и стажеров-исследователей. Команда ориентирована на технологическое развитие и решение практических задач, имеет публикации на ведущих конференциях по AI. (Источник: WeChat)

Команда платформы интеллектуальных агентов и прикладных алгоритмов JD.com ищет сотрудников

Стратегия «AI в первую очередь» сталкивается с проблемами в Klarna и Duolingo, баланс между человеком и машиной в центре внимания: Финансово-технологическая компания Klarna и приложение для изучения языков Duolingo столкнулись с давлением со стороны потребительских отзывов и рыночных реалий после внедрения стратегии «AI в первую очередь». Klarna ранее заменила сотни сотрудников службы поддержки на AI, но из-за снижения качества обслуживания теперь снова нанимает людей. Duolingo вызвала недовольство пользователей из-за автоматизации ролей, многие считают, что изучение языка должно в основном осуществляться людьми. Эти случаи показывают, что компаниям в процессе трансформации с использованием AI необходимо находить баланс между инновациями и гуманистическим подходом; технология важна, но доверие пользователей по-прежнему строится людьми. (Источник: Reddit r/ArtificialInteligence)

По слухам, Databricks приобретает стартап в области баз данных Neon за 1 миллиард долларов: Согласно сводке новостей об AI, распространяемой в сообществе Reddit, Databricks приобрела стартап в области баз данных Neon. Сумма сделки, по сообщениям, составляет 1 миллиард долларов США. Это приобретение, вероятно, направлено на усиление позиций Databricks в области управления данными и инфраструктуры AI. (Источник: Reddit r/ArtificialInteligence)

По слухам, Databricks приобретает стартап в области баз данных Neon за 1 миллиард долларов

🌟 Сообщество

Выпуск OpenAI Codex вызвал бурное обсуждение: разработчики полны ожиданий и осторожности: Выпуск OpenAI программного агента Codex вызвал бурную реакцию в сообществе. Многие разработчики выразили восторг по поводу способности Codex автоматически выполнять такие задачи, как создание PR и исправление кода, полагая, что это значительно повысит эффективность программирования. Некоторые даже назвали это «ощущением момента AGI». Ryan Pream поделился своим опытом создания более 50 PR за один день с помощью Codex. В то же время некоторые пользователи отметили, что Codex все еще нуждается в улучшении в таких аспектах, как декомпозиция задач и добавление тестовых случаев, и в настоящее время больше подходит для профессионалов. Yohei Nakajima поделился первыми впечатлениями, отметив, что его GitHub-центричный дизайн разумен, но кривая обучения довольно крутая. (Источник: kevinweil, gdb, itsclivetime, dotey, yoheinakajima, cto_junior)

Вклад Meta в область открытого исходного кода AI получил признание, вызвав дискуссию о закрытости и открытости: Генеральный директор Hugging Face Clement Delangue выступил в поддержку Meta, заявив, что ее вклад в открытый исходный код AI-моделей значительно превосходит вклад других крупных компаний и стартапов с большими ресурсами, и она не должна подвергаться чрезмерной критике. Эту точку зрения поддержали некоторые пользователи, считающие, что создание передовых AI-моделей чрезвычайно сложно, и открытость Meta имеет решающее значение для развития отрасли. Однако существует и мнение (gabriberton), что открытый исходный код означает отказ от преимуществ в знаниях, и по сути закрытый исходный код может дать лучшие результаты. Dorialexander выразил недоумение по поводу того, что США внезапно приняли «европейский способ реагирования» (имеется в виду защита Meta). (Источник: ClementDelangue, gabriberton, Dorialexander)

Утечка системных промптов xAI Grok и инцидент со слиянием ненадлежащего контента привлекли внимание: Было обнаружено, что системные промпты модели Grok от xAI утекли на GitHub, и даже включали системные промпты DeepSearch. Что еще серьезнее, пользователи указали, что PR, содержащий ненадлежащий контент, такой как «геноцид белой расы», был объединен с основной веткой после проверки пятью людьми. Хотя впоследствии он был отменен, а история удалена, этот инцидент выявил серьезные недостатки в управлении процессами и операционной безопасности xAI. Это событие вызвало широкие сомнения и обсуждения в сообществе относительно внутренних процессов и механизмов модерации контента в xAI. (Источник: karminski3, eliebakouch, colin_fraser, Reddit r/artificial)

Утечка системных промптов xAI Grok и инцидент со слиянием ненадлежащего контента привлекли внимание

AI Agent считаются трендом будущего, но существуют как проблемы, так и ожидания: Мнение о том, что «2025 год — год агентов», циркулирует в сообществе, вызывая дискуссии о будущем развитии AI Agent. Существует точка зрения, что будущая модель работы будет напоминать StarCraft или Age of Empires, где пользователь командует большим количеством микроагентов для выполнения задач. Однако некоторые пользователи отмечают, что текущие агенты еще незрелы в плане декомпозиции задач и понимания сложных инструкций, и требуют от пользователей сильных навыков планирования. Часть людей сомневается, что AI Agent достигнет ожидаемого уровня в 2025 году, полагая, что это может перейти от одной шумихи к другой, и ожидают существенных изменений в 2026 году. (Источник: gdb, EdwardSun0909, op7418, eliza_luth, tokenbender)

AI Agent считаются трендом будущего, но существуют как проблемы, так и ожидания

Роль AI в образовании и сфере занятости вызывает глубокие дискуссии: В сообществе Reddit возникли дискуссии о влиянии развития AI на традиционные модели образования и занятости. Один из пользователей задал вопрос: «Какой смысл сейчас ходить в школу?», полагая, что AI приведет к тому, что в будущем никому не нужно будет работать. В ответ большинство комментаторов подчеркнули важность критического мышления, способности к обучению и социальных навыков, считая их незаменимыми для AI. Школа — это не только место передачи знаний, но и среда для обучения тому, как учиться, как мыслить и как взаимодействовать с людьми. Даже в мире, где доминирует AI, эти способности остаются критически важными, и даже может потребоваться изучение самого AI. В других обсуждениях отмечалось, что не следует сводить ценность человека исключительно к его работе, и развитие AI должно побуждать нас задуматься о человеческом смысле, выходящем за рамки профессии. (Источник: Reddit r/ArtificialInteligence, Reddit r/ArtificialInteligence)

Феномен «AI-подруг» вызывает размышления о социальной этике и демографических проблемах: The Economist сообщил, что молодые китайцы начинают встречаться и дружить с AI, что вызвало бурное обсуждение среди пользователей сети. Некоторые комментаторы сравнили это явление с «выпуском в дикую природу большого количества стерилизованных самок комаров для уменьшения их численности», намекая на то, что AI-партнеры могут усугубить проблему низкой рождаемости, несмотря на то, что AI-партнеры могут предложить идеальный опыт «вечного понимания». Это отражает сложные социальные последствия и этические соображения, связанные с применением технологий AI в сфере эмоционального компаньонства. (Источник: dotey)

Феномен «AI-подруг» вызывает размышления о социальной этике и демографических проблемах

Реалистичность общения с AI по телефону вызывает беспокойство, невозможность отличить правду от подделки становится новым вызовом: Пользователь Reddit поделился историей о звонке из учебного заведения, где голос собеседника был настолько естественным, а ответы — плавными, что было почти невозможно отличить, говорит ли он с человеком или с AI. Только через несколько минут разговора, из-за слишком безупречных ответов, он понял, что это AI. Этот опыт вызвал у пользователя удивление скоростью развития технологий AI-голоса и некоторую тревогу, опасения, что в будущем будет трудно распознать AI в телефонных разговорах, что особенно может представлять риск мошенничества для таких групп населения, как пожилые люди. (Источник: Reddit r/ArtificialInteligence, Reddit r/artificial)

💡 Прочее

Требование MIT отозвать с arXiv препринт статьи об AI и научных открытиях вызвало споры: MIT потребовал от arXiv отозвать препринт статьи, написанной его аспирантом, о влиянии AI на инновации в материаловедении, сославшись на «отсутствие уверенности» в источнике, надежности и достоверности данных исследования. В статье ранее указывалось, что исследователи с помощью AI обнаружили на 44% больше материалов, а количество патентных заявок увеличилось на 39%. Этот шаг MIT вызвал дискуссию: некоторые комментаторы считают, что это наносит ущерб академической свободе и может быть связано с тем, что выводы исследования (AI может усилить преимущество ведущих исследователей и снизить удовлетворенность работой рядовых исследователей) не соответствуют ожиданиям спонсоров; другие считают, что в области AI строгость результатов исследований имеет решающее значение, и следует остерегаться чрезмерного ажиотажа, вызванного препринтами. (Источник: Reddit r/ArtificialInteligence)

Распространение инструментов для кодирования с помощью AI предъявляет более высокие требования к модульности кода и инженерным практикам: E0M отметил в Твиттере, что конкурентное преимущество стартапов все больше зависит от скорости и эффективности внедрения инженерами инструментов для кодирования с помощью AI. Хорошие практики модульного кодирования становятся как никогда важными: если сложность кода находится в пределах возможностей современных агентов для кодирования, можно достичь быстрой итерации; в противном случае слишком сложный «спагетти-код» может замедлить прогресс, и такие компании будут обойдены конкурентами, использующими AI. (Источник: E0M, E0M)

Мультиагентные системы (MAS) рассматриваются как будущее направление развития AI: TheTuringPost проанализировал тенденцию роста мультиагентных систем (MAS). Ключевые разработки включают мультиагентное обучение с подкреплением (MARL), технологии роевого интеллекта, контекстно-зависимые MAS (CA-MAS) и MAS на основе больших языковых моделей (LLM). Эти технологии позволяют AI-системам решать сложные проблемы посредством сотрудничества и конкуренции, находя применение в таких областях, как реагирование на стихийные бедствия, мониторинг окружающей среды, моделирование социальной динамики, и предвещают будущее коллективного интеллекта. (Источник: TheTuringPost)

Мультиагентные системы (MAS) рассматриваются как будущее направление развития AI

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *