AI Ежедневник — 2025-04-18(Вечер)

Ключевые слова:Gemini 2.5 Flash, OpenAI o3, Замена рабочих мест ИИ, Коммерциализация ИИ в медицине, Гибридная модель рассуждений, Функция бюджета мышления, Мультимодальные возможности o4-mini, ИИ-ассистент для кодирования Windsurf, Агентский ИИ домашний шлюз, Тестовый эталон VisualPuzzles, Надежность рекомендаций DeepSeek, Открытая модель ИИ Zhipu

🔥 В фокусе

Google выпускает гибридную модель вывода Gemini 2.5 Flash, делая упор на соотношение цены и качества и контролируемое мышление: Google представила предварительную версию Gemini 2.5 Flash, позиционируемую как гибридная модель вывода с высоким соотношением цены и качества. Ее уникальность заключается во внедрении функции “бюджета на мышление” (thinking_budget), позволяющей разработчикам (0-24 тыс. токенов) или самой модели регулировать глубину вывода в зависимости от сложности задачи. При отключенном мышлении стоимость крайне низка ($0.6/миллион токенов вывода), а производительность превосходит 2.0 Flash; при включенном мышлении ($3.5/миллион токенов вывода) модель способна решать сложные задачи, показывая производительность, сравнимую с o4-mini на многих бенчмарках (таких как AIME, MMMU, GPQA), и занимая высокие позиции на арене LMArena. Модель нацелена на баланс производительности, стоимости и задержки, особенно подходит для сценариев приложений, требующих гибкости и контроля затрат, и уже доступна через API в Google AI Studio и Vertex AI. (Источник: 谷歌首款混合推理Gemini 2.5登场,成本暴降600%,思考模式一开,直追o4-mini, 谷歌大模型“性价比之王”来了,混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro, op7418, JeffDean, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA, Reddit r/artificial)

谷歌发布Gemini 2.5 Flash混合推理模型,主打性价比与可控思考

OpenAI выпускает модели o3 и o4-mini, усиливая возможности логического вывода и мультимодальности: OpenAI представила свою самую мощную на сегодняшний день серию моделей o3 и оптимизированную o4-mini, с акцентом на улучшение логического вывода, программирования и мультимодального понимания. В частности, впервые реализован логический вывод на основе изображений по типу “цепочки рассуждений” (chain-of-thought), позволяющий анализировать детали изображения для сложных суждений, например, определение точного места съемки по фотографии (GeoGuessing). Модель o3 показала рекордно высокий результат в 136 баллов в тесте IQ Менса и отлично проявила себя в бенчмарках по программированию. Модель o4-mini, сохраняя высокую эффективность и низкую стоимость, демонстрирует мощные способности к решению математических задач (например, задач Эйлера) и обработке визуальной информации. Эти модели уже доступны пользователям ChatGPT Plus, Pro и Team, что свидетельствует о том, что OpenAI продвигает модели от простого извлечения знаний к использованию инструментов и решению сложных проблем. (Источник: 实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实, 智商136,o3王者归来,变身福尔摩斯“AI查房”,一张图秒定坐标, 满血版o3探案神技出圈,OpenAI疯狂暗示:大模型不修仙,要卷搬砖了)

OpenAI发布o3与o4-mini模型,强化推理与多模态能力

Повышение эффективности AI вызывает опасения по поводу занятости, некоторые компании начинают заменять сотрудников с помощью AI: Высокая эффективность технологий искусственного интеллекта побуждает такие компании, как PayPal, Shopify, United Wholesale Mortgage, рассматривать или уже использовать AI для замены человеческих должностей, особенно в сферах обслуживания клиентов, начальных продаж, IT-поддержки, обработки данных. Например, AI-чат-бот PayPal уже обрабатывает 80% запросов клиентов, значительно снижая затраты. United Wholesale Mortgage использует AI для обработки документов по ипотечным кредитам, что значительно повысило эффективность: объем бизнеса удвоился без необходимости найма дополнительного персонала. Некоторые компании даже выдвигают концепцию “команды без сотрудников”, требуя, чтобы при найме нового персонала сначала доказывалось, что AI не может справиться с задачей. Хотя многие компании избегают публично признавать, что сокращения вызваны AI, замедление найма и сокращение должностей стали тенденцией, особенно в условиях давления на затраты. Ожидается, что в будущем эффект замещения “белых воротничков” с помощью AI станет еще более заметным. (Источник: 招聘慢了、岗位少了,AI效率太高迫使人类员工“让位”)

AI效率提升引发就业担忧,部分企业开始用AI替代岗位

OpenAI планирует приобрести AI-помощника для кодирования Windsurf за 3 миллиарда долларов, усиливая позиции на уровне приложений: OpenAI планирует приобрести стартап в области AI-кодирования Windsurf (ранее Codeium) примерно за 3 миллиарда долларов, что станет ее крупнейшим приобретением. Windsurf предлагает инструменты помощи в кодировании с использованием AI, аналогичные Cursor, также основанные на моделях Anthropic. Это приобретение рассматривается как ключевой шаг OpenAI к расширению на уровень приложений и усилению контроля над экосистемой с целью прямого привлечения пользователей, сбора данных для обучения и конкуренции с GitHub Copilot, Cursor и другими. Аналитики считают, что по мере роста возможностей AI, “программирование по наитию” (Vibe Coding, глубокая интеграция AI в процесс разработки) становится тенденцией, и контроль над входом на уровень приложений и пользовательскими данными критически важен для долгосрочной конкурентоспособности компаний, разрабатывающих модели. Этот шаг OpenAI показывает, что ее стратегические цели выходят за рамки поставщика моделей, и она намерена построить полноценную платформу для разработки AI. (Источник: 有了一天涨万星的开源项目 Codex,OpenAI为何仍砸 30 亿美元重金收购 Windsurf ?)

OpenAI拟斥资30亿美元收购AI编码助手Windsurf,加码应用层布局

🎯 Тенденции

ByteDance выпускает модель глубокого мышления Doubao 1.5 и мультимодальные обновления, ускоряя развертывание Agent: Подразделение Volcano Engine компании ByteDance выпустило модель глубокого мышления Doubao 1.5, обладающую способностью, подобной человеческой, “смотреть, думать и искать одновременно”. Модель способна решать сложные задачи, поддерживает мультимодальный ввод (текст, изображения) и обладает возможностями поиска в сети и визуального рассуждения. Одновременно выпущена модель генерации изображений из текста Doubao 3.0 (с улучшенным расположением текста и реалистичностью изображений) и обновленная модель визуального понимания (с повышенной точностью локализации и пониманием видео). ByteDance считает, что глубокое мышление и мультимодальность являются основой для создания Agent, и представляет решение OS Agent и облачный нативный набор для AI-вывода, направленные на снижение барьеров и затрат для предприятий при создании и развертывании приложений Agent. Этот шаг рассматривается как переопределение стратегии ByteDance и усиление фокуса на внедрении приложений Agent после вызова со стороны конкурентов, таких как DeepSeek. (Источник: 字节按下 AI Agent 加速键, 被DeepSeek打蒙的豆包,发起反攻了)

字节跳动发布豆包1.5深度思考模型及多模态更新,加速Agent布局

ByteDance и Kuaishou снова сталкиваются в области генерации видео с помощью AI, фокусируясь на производительности моделей и внедрении: ByteDance выпустила модель генерации видео Seaweed-7B, подчеркивая низкое количество параметров (7B), высокую эффективность (обучение за 665 тыс. часов на H100 GPU) и низкую стоимость развертывания (один GPU может генерировать видео 1280×720). Kuaishou, в свою очередь, выпустила модель генерации видео “Keling 2.0” и модель генерации изображений “Ketu 2.0”, заявляя о превосходстве над Google Veo2 и Sora, а также представила функцию мультимодального редактирования MVL. Обе стороны признают, что возможности моделей определяют потолок AI-продуктов, и стратегический фокус на 2025 год возвращается к оттачиванию моделей. Несмотря на разные пути коммерциализации (Jmeng от ByteDance ориентирован на C-сегмент, Keling от Kuaishou — на B-сегмент), обе компании сосредоточены на повышении практичности: Kuaishou подчеркивает важность генерации видео из изображений, а ByteDance использует свои преимущества в обработке текста для обеспечения нарративной последовательности видео. Конкуренция обостряется. (Источник: 字节快手,AI视频“狭路又相逢”)

字节与快手在AI视频生成领域再交锋,聚焦模型性能与落地

Zhipu AI выпускает три модели с открытым исходным кодом, усиливая построение экосистемы open source: Zhipu AI объявила 2025 год “Годом открытого исходного кода” и выпустила три модели: GLM-Z1-Air (модель для вывода), GLM-Z1-Air (вероятно, опечатка, возможно, имеется в виду “скоростная” или “базовая” версия), GLM-Z1-Rumination (модель “размышления”), размерами 9B и 32B, под лицензией MIT. GLM-Z1-Air (32B) по производительности на некоторых бенчмарках приближается к DeepSeek-R1, при значительно сниженной стоимости вывода. Модель “размышления” Z1-Rumination исследует более глубокие уровни мышления и поддерживает замкнутый цикл исследований. Одновременно фонд Zhipu Z объявил о выделении 300 миллионов юаней на поддержку глобального сообщества AI с открытым исходным кодом, без ограничений на проекты, основанные на моделях Zhipu. Этот шаг соответствует стратегии Пекина по созданию “мировой столицы открытого исходного кода”. (Источник: 智谱获2亿元新融资,连发3款开源模型,拿3亿元支持全球开源社区)

智谱AI发布三款开源模型,加码开源生态建设

Встраивание Agentic AI в домашние шлюзы может стать новой возможностью для операторов связи: По мере эволюции AI от генеративного к агентному (Agentic AI), в центре внимания оказываются системы AI, способные к автономной постановке целей и выполнению задач. Руководитель MediaTek предположил, что встраивание Agentic AI в домашние шлюзы может изменить роль операторов связи на рынке Интернета вещей (IoT). Шлюз, как центр периферийного интеллекта домашней сети, в сочетании с Agentic AI может проактивно управлять сетью (например, оптимизировать видеозвонки), диагностировать неисправности, повышать домашнюю безопасность (например, распознавать кражу посылок, риск приближения детей к бассейну), тем самым снижая затраты операторов на обслуживание клиентов (многие запросы, связанные с Wi-Fi, могут быть обработаны AI) и предоставляя услуги с добавленной стоимостью. Хотя модель монетизации еще предстоит изучить, это открывает операторам потенциальный путь к выходу за рамки роли “трубы” и становлению поставщиками услуг на базе Agentic AI. (Источник: 将Agentic AI嵌入家庭网关,如何改变运营商在物联网市场的游戏规则?)
Microsoft выпускает MAI-DS-R1, основанную на DeepSeek R1 с пост-обучением для безопасности и соответствия требованиям: Команда Microsoft AI выпустила модель MAI-DS-R1, которая прошла пост-обучение на базе DeepSeek R1 с целью заполнения информационных пробелов исходной модели и улучшения ее профиля риска, сохраняя при этом способности R1 к логическому выводу. Данные для обучения включают 110 тыс. образцов безопасности и несоответствия требованиям из Tulu 3 SFT, а также около 350 тыс. многоязычных образцов, разработанных внутри Microsoft, охватывающих различные темы с предвзятостью. Этот шаг был интерпретирован некоторыми членами сообщества как усилие Microsoft по повышению безопасности и соответствия моделей требованиям, но также вызвал дискуссии о том, не добавило ли это “корпоративной цензуры”. (Источник: Reddit r/LocalLLaMA)

微软发布MAI-DS-R1,基于DeepSeek R1进行安全与合规性后训练

🧰 Инструменты

OpenAI выпускает Codex CLI с открытым исходным кодом, AI-помощника для кодирования, управляемого из терминала: OpenAI представила новый проект с открытым исходным кодом Codex CLI, AI-агента, оптимизированного для задач кодирования, который может работать в локальном терминале разработчика. По умолчанию он использует последнюю модель o4-mini, но пользователи могут выбрать другие модели OpenAI через API. Codex CLI нацелен на предоставление способа разработки, управляемого через чат, понимая и выполняя операции в локальном репозитории кода, конкурируя с Claude Code от Anthropic и инструментами, такими как Cursor и Windsurf. Проект за один день после выпуска набрал более 14 тыс. звезд на GitHub, что свидетельствует об интересе разработчиков к нативным AI-инструментам для кодирования в терминале. (Источник: 有了一天涨万星的开源项目 Codex,OpenAI为何仍砸 30 亿美元重金收购 Windsurf ?)
Обновление Google AI Studio: поддержка прямого создания и обмена AI-приложениями: Google обновила свою платформу AI Studio, добавив функцию прямого создания AI-приложений внутри платформы. Пользователи могут не только использовать модели, такие как Gemini, для разработки, но и просматривать и пробовать примеры приложений, созданные другими пользователями. Это обновление превращает AI Studio из площадки для экспериментов с моделями в более полноценную платформу для разработки и обмена приложениями, снижая барьер для создания приложений на основе технологий AI от Google. (Источник: op7418)

谷歌AI Studio升级,支持直接创建和分享AI应用

NVIDIA cuML представляет режим ускорения на GPU без изменения кода: Команда NVIDIA cuML выпустила новый режим ускорителя, позволяющий пользователям запускать нативный код scikit-learn, umap-learn и hdbscan непосредственно на GPU без внесения каких-либо изменений в код. Эта функция реализуется с помощью команды python -m cuml.accel your_script.py или загрузки %load_ext cuml.accel в Jupyter Notebook. Бенчмарки показывают значительное ускорение от 25 до 175 раз для таких алгоритмов, как Random Forest, Linear Regression, t-SNE, UMAP, HDBSCAN. Этот режим использует унифицированную память CUDA (UVM), что обычно избавляет от беспокойства о размере набора данных, но производительность на наборах данных со сверхбольшим объемом памяти будет затронута. (Источник: Reddit r/MachineLearning)

NVIDIA cuML推出零代码更改GPU加速模式

Alibaba открывает исходный код модели видео Wan 2.1 по первому и последнему кадру: Alibaba открыла исходный код своей видеомодели Wan 2.1, которая специализируется на генерации промежуточного видеоконтента на основе первого и последнего кадров. Это специфический тип технологии генерации видео, который может применяться для интерполяции видеокадров, переноса стиля или генерации анимации на основе ключевых кадров. Открытие исходного кода этой модели предоставляет исследователям и разработчикам новый инструмент для изучения и использования данной технологии. (Источник: op7418)
ViTPose: Модель оценки позы человека на основе Vision Transformer: ViTPose — это новая модель для оценки позы человека, использующая архитектуру Vision Transformer (ViT). Статья представляет эту модель, исследуя потенциал ViT в задачах компьютерного зрения (в данном случае, оценка позы человека). Такие модели обычно используют механизм self-attention трансформера для улавливания дальних зависимостей между различными частями изображения, что потенциально может повысить точность и надежность оценки позы. (Источник: Reddit r/deeplearning)

ViTPose:基于Vision Transformer的人体姿态估计模型

ClaraVerse: Локальный AI-ассистент с интеграцией n8n: ClaraVerse — это локальный (local-first) AI-ассистент, работающий на базе Ollama, с акцентом на конфиденциальность и локальный контроль. Последнее обновление интегрирует платформу автоматизации n8n, позволяя пользователям создавать и запускать пользовательские инструменты и рабочие процессы (такие как проверка почты, управление календарем, вызовы API, подключение к базам данных и т.д.) внутри ассистента, без внешних сервисов. Это позволяет Clara запускать локальные задачи автоматизации с помощью команд на естественном языке, стремясь предоставить удобное, малозависимое локальное решение для AI и автоматизации. (Источник: Reddit r/LocalLLaMA)

ClaraVerse:集成n8n的本地优先AI助手

Модель CSM 1B TTS реализует потоковую обработку в реальном времени и тонкую настройку: Сообщество open source достигло прогресса с моделью преобразования текста в речь (TTS) CSM 1B, реализовав потоковую обработку в реальном времени (real-time streaming) и разработав возможности тонкой настройки (включая LoRA и полную тонкую настройку). Это означает, что модель теперь может генерировать речь быстрее и может быть настроена под конкретные нужды. Репозиторий кода предоставляет локальную демонстрацию чата, где пользователи могут попробовать и сравнить ее с другими моделями TTS. (Источник: Reddit r/LocalLLaMA)

CSM 1B TTS模型实现实时流式处理与微调

Deebo: Использование MCP для совместной отладки AI Agent: Deebo — это экспериментальный сервер MCP (Machine Collaboration Protocol) для агентов, предназначенный для того, чтобы AI-агенты для кодирования могли передавать ему сложные задачи отладки. Когда основной агент сталкивается с трудностями, он может запустить сеанс Deebo через MCP. Deebo генерирует несколько дочерних процессов, которые параллельно тестируют различные варианты исправлений в разных ветках Git, используя LLM для рассуждений. В итоге возвращаются логи, предложения по исправлению и объяснения. Этот метод использует изоляцию процессов, упрощает управление параллелизмом и исследует возможности совместного решения проблем между AI-агентами. (Источник: Reddit r/OpenWebUI)

Deebo:利用MCP进行AI Agent协作调试

📚 Обучение

CMU выпускает бенчмарк VisualPuzzles, бросая вызов способностям AI к чисто логическому рассуждению: Исследователи из Университета Карнеги-Меллона (CMU) создали бенчмарк VisualPuzzles, содержащий 1168 визуальных логических головоломок, адаптированных из тестов для госслужащих и т.п., с целью отделить мультимодальные способности рассуждения от зависимости от знаний в предметной области. Тестирование показало, что даже ведущие модели, такие как o1, Gemini 2.5 Pro, показывают результаты на этих задачах чисто логического рассуждения значительно хуже людей (максимальная точность 57.5%, ниже уровня 5% худших людей). Исследование показывает, что увеличение размера модели или включение режима “мышления” не всегда улучшает чисто логические способности, а существующие методы усиления рассуждений дают смешанные результаты. Это выявляет значительные пробелы у текущих больших моделей в пространственном понимании и глубоком логическом рассуждении. (Источник: 全球顶尖AI来考公,不会推理全翻车,致命缺陷曝光,被倒数5%人类碾压)

CMU发布VisualPuzzles基准,挑战AI纯逻辑推理能力

InternVL3: Исследование продвинутых методов обучения и тестирования для мультимодальных моделей с открытым исходным кодом: Статья “InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models” представляет модель InternVL3, 78B версия которой набрала 72.2 балла на бенчмарке MMMU, установив новый рекорд для MLLM с открытым исходным кодом. Ключевые технологии включают нативное мультимодальное предварительное обучение, поддержку длинного контекста с помощью переменного визуального позиционного кодирования (V2PE), продвинутые технологии пост-обучения (SFT, MPO) и стратегии расширения во время тестирования (улучшение математического рассуждения). Исследование направлено на изучение эффективных методов повышения производительности мультимодальных моделей с открытым исходным кодом; данные для обучения и веса модели открыты. (Источник: Reddit r/deeplearning)

InternVL3:探索开源多模态模型的先进训练与测试技术

Geobench: Бенчмарк для оценки способности больших моделей к геолокации изображений: Geobench — это новый сайт с бенчмарками, специально предназначенный для измерения способности больших языковых моделей (LLM) определять место съемки по изображениям, таким как Google Street View, подобно игре GeoGuessr. Он оценивает точность предположений модели, включая правильность определения страны/региона, расстояние до фактического местоположения (среднее и медианное) и другие показатели. Предварительные результаты показывают, что модели серии Gemini от Google лидируют в этой задаче, возможно, благодаря доступу к данным Google Street View. (Источник: Reddit r/LocalLLaMA)
Обсуждение стандартных практик разделения наборов данных: Сообщество машинного обучения на Reddit обсуждает, как поступать с наборами данных (например, разделение train/val/test) при отсутствии стандартного разделения. Распространенные практики включают генерацию случайного разделения (но это может повлиять на воспроизводимость), сохранение и предоставление конкретных индексов/файлов, использование k-кратной кросс-валидации (k-fold). В обсуждении подчеркивается, что для небольших наборов данных способ разделения существенно влияет на оценку производительности и заявления о SOTA, и призывают к стандартизации или более широкому обмену информацией о разделении для повышения воспроизводимости и сравнимости исследований. Практические трудности включают отсутствие единой платформы и специфичных для области норм. (Источник: Reddit r/MachineLearning, Reddit r/MachineLearning)
Запрос совета по использованию эмбеддингов предложений для классификации постов Stack Overflow: Пользователь на Reddit просит совета по использованию эмбеддингов предложений (например, BERT, SBERT) для неконтролируемой классификации постов Stack Overflow (включая заголовок, описание, теги, ответы). Цель — достичь классификации на уровне предложений, выходя за рамки простых тегов на основе эмбеддингов слов (например, “установка пакета”), и исследовать кластеризацию по более глубоким темам или типам проблем. В комментариях рекомендуют начать с библиотеки Sentence Transformers, которая может генерировать единый эмбеддинг для текстовых фрагментов, а затем применить алгоритмы кластеризации. (Источник: Reddit r/MachineLearning)
Советы по пути обучения AI и выбору карьеры: Старшеклассник на Reddit консультируется по выбору университетской специальности для входа в область инженерии машинного обучения (UCSD CS против Cal Poly SLO CS) и необходимости поступления в аспирантуру/магистратуру. Комментаторы советуют выбрать UCSD с более сильным исследовательским потенциалом и рассмотреть возможность дальнейшего обучения, так как ML-инженерия часто требует более высокой квалификации. В то же время отмечается важность практических навыков, а также ключевая роль математики и статистики. В другом посте кто-то спрашивает о специальностях для использования или разработки AI; комментаторы упоминают информатику (CS), часто требующую степени магистра/доктора, а также математику/статистику. Некоторые даже советуют осваивать практические навыки, такие как сантехника/электрика, чтобы избежать риска замены со стороны AI. (Источник: Reddit r/MachineLearning, Reddit r/ArtificialInteligence)

💼 Бизнес

Исследование коммерциализации AI в медицине: противостояние стратегий крупных компаний и потребностей больниц: По мере того как больницы начинают выделять бюджеты на большие модели (например, больница провинциальных органов Цзянсу закупила платформу на базе DeepSeek за 4.5 млн юаней), коммерциализация AI в медицине ускоряется. Крупные компании, такие как Huawei, Alibaba, Baidu, Tencent, активно развивают это направление, обычно предоставляя вычислительные мощности, облачные сервисы и базовые модели, сотрудничая с вертикальными медицинскими компаниями. Однако основная бизнес-модель остается неясной; крупные компании в настоящее время больше сосредоточены на продаже оборудования и облачных услуг, чем на непосредственном углублении в медицинские AI-приложения. Со стороны больниц, таких как больница 3201 в Ханьчжуне (Шэньси), при ограниченном бюджете используются модели с открытым исходным кодом (например, облегченная версия DeepSeek) для экспериментов, что свидетельствует об учете экономической эффективности. Получение высококачественных медицинских данных и обучение специализированных моделей остаются ключевыми проблемами, требующими преодоления “черновой работы”, такой как разметка данных. (Источник: AI看病这件事,华为、百度、阿里谁先挣到钱?, 科技大厂掀起医疗界的AI革命,谁更有胜算?)

AI医疗商业化探索:大厂策略与医院需求博弈

Надежность AI-инструментов для рекомендаций, таких как DeepSeek, ставится под сомнение; оптимизация AI-маркетинга становится новым полем битвы: AI-инструменты, такие как DeepSeek, все чаще используются для получения рекомендаций (например, ресторанов, продуктов), а продавцы начинают использовать тег “Рекомендовано DeepSeek” в маркетинговых целях. Однако надежность этих рекомендаций вызывает беспокойство. С одной стороны, AI может генерировать “галлюцинации”, выдумывая несуществующие заведения или рекомендуя устаревшие продукты. С другой стороны, ответы AI могут подвергаться коммерческому влиянию, рискуя содержать скрытую рекламу или быть “загрязненными” стратегиями SEO/GEO (Generative Engine Optimization). Продавцы пытаются влиять на корпус текстов и результаты поиска AI путем оптимизации контента и ключевых слов, чтобы повысить узнаваемость своего бренда. Это ставит под сомнение объективность AI-рекомендаций, и потребителям следует остерегаться потенциально вводящей в заблуждение информации. (Источник: 第一批用DeepSeek推荐的人,已上当)

DeepSeek等AI推荐工具的可靠性受质疑,AI营销优化成新战场

Zhipu AI получает дополнительные 200 миллионов юаней инвестиций от Пекинского фонда инвестиций в индустрию AI: После объявления о выпуске нескольких новых моделей с открытым исходным кодом и создании фонда поддержки open source на 300 миллионов юаней, Zhipu AI (Z.ai) получила дополнительные 200 миллионов юаней инвестиций от Пекинского фонда инвестиций в индустрию искусственного интеллекта. Этот фонд уже инвестировал в Zhipu в прошлом году. Дополнительное финансирование направлено на поддержку разработки моделей Zhipu с открытым исходным кодом и построения экосистемы сообщества open source, а также отражает решимость Пекина в продвижении развития индустрии AI и создании “мировой столицы открытого исходного кода”. (Источник: 智谱获2亿元新融资,连发3款开源模型,拿3亿元支持全球开源社区)
CEO Intel Chen Liwu продвигает реформы, назначает нового CTO и главного директора по AI: Новый CEO Chen Liwu проводит реорганизацию структуры Intel с целью упрощения уровней управления и усиления технологической ориентации. Ключевые подразделения чипов (центры обработки данных и AI, чипы для ПК) будут напрямую подчиняться CEO. Руководитель подразделения сетевых чипов Sachin Katti назначен новым главным техническим директором (CTO) и главным директором по AI, ответственным за руководство стратегией AI, дорожной картой продуктов и Intel Labs, чтобы противостоять вызовам со стороны NVIDIA в области AI. Этот шаг рассматривается как часть плана Chen Liwu по возрождению Intel, направленного на решение проблем в производстве и продуктах, преодоление внутренних барьеров и фокусировку на инженерии и инновациях. (Источник: 陈立武挥刀高层,英特尔重生计划曝光,技术团队直通华人CEO)

英特尔CEO陈立武推动改革,任命新CTO兼AI首席官

Сообщается, что Meta ищет партнеров для разделения затрат на обучение Llama, что подчеркивает давление инвестиций в AI: По сообщениям, Meta обращалась к Microsoft, Amazon, Databricks и другим компаниям и инвестиционным фондам с предложением совместно разделить затраты на обучение своей модели с открытым исходным кодом Llama (“Llama альянс”) в обмен на частичное право голоса в разработке функций, но первоначальная реакция была прохладной. Причины могут включать нежелание партнеров инвестировать в бесплатную модель, нежелание Meta уступать слишком много контроля, а также наличие у потенциальных партнеров собственных значительных инвестиций в AI. Этот случай подчеркивает, что даже такие гиганты, как Meta, сталкиваются с давлением из-за резкого роста затрат на разработку AI, особенно в условиях огромных капитальных затрат (прогнозируется годовой рост на 60% до 60-65 млрд долларов) и неясного пути коммерциализации модели с открытым исходным кодом. (Источник: Llama开源太贵了,Meta被曝向亚马逊、微软“化缘”)

Meta被曝寻求分担Llama训练成本,凸显AI投入压力

CEO NVIDIA Jensen Huang посещает Китай, возможно, для обсуждения сотрудничества с DeepSeek и другими в условиях торговых ограничений: CEO NVIDIA Jensen Huang недавно посетил Китай по приглашению Китайского совета по содействию международной торговле и встретился с клиентами, включая основателя DeepSeek Liang Wenfeng. Визит проходит на сложном фоне, включающем ужесточение ограничений правительства США на экспорт чипов NVIDIA в Китай, таких как H20, а также рост отечественных китайских AI-чипов (например, Huawei Ascend) и оптимизацию моделей, таких как DeepSeek, что снижает абсолютную зависимость от высокопроизводительных GPU NVIDIA. Аналитики полагают, что Huang, возможно, стремится обсудить с китайскими партнерами (такими как DeepSeek) совместную разработку AI-чипов, соответствующих экспортным ограничениям США и одновременно позволяющих избежать высоких импортных пошлин Китая, чтобы сохранить долю рынка и влияние в отрасли в Китае через углубленное сотрудничество. (Источник: 英伟达CEO黄仁勋突然访华,都不穿皮衣了,还见了梁文锋)

英伟达CEO黄仁勋访华,或与DeepSeek等商讨合作应对贸易限制

🌟 Сообщество

Волна генерации AI-кукол захлестнула социальные сети, вызывая опасения по поводу авторских прав и этики: Тренд использования AI-инструментов, таких как ChatGPT, для преобразования личных фотографий в образы кукол (в стиле Барби, с упаковочной коробкой и индивидуальными аксессуарами) стал популярным на платформах LinkedIn, TikTok и др. Пользователи могут сгенерировать изображение, загрузив фото и предоставив подробное описание. Несмотря на развлекательный характер, это вызывает опасения по поводу авторских прав и этики: генерация AI может непреднамеренно использовать защищенные авторским правом художественные стили или элементы бренда; также вызывает обеспокоенность значительное потребление энергии, необходимое для обучения и работы этих AI-моделей. В комментариях отмечается необходимость установления четких границ и норм при использовании AI. (Источник: 芭比风AI玩偶席卷全网:ChatGPT几分钟打造你的时尚分身)

AI玩偶生成热潮席卷社交媒体,引发版权与伦理担忧

Глубокая интеграция Tencent Yuanbao (ранее помощник по обложкам для хунбао) в WeChat привлекает внимание: Поиск “Yuanbao” в WeChat позволяет напрямую вызывать функции AI, что фактически является обновленной версией предыдущего “помощника по обложкам для хунбао Yuanbao”. Пользовательский опыт показывает улучшенные возможности, такие как генерация более точных изображений по запросу и оптимизированная нативная адаптация с возможностью генерации карточек с ответами. В статье обсуждается возможность того, что главный AI-проект Tencent будет реализован в сценарии WeChat, особенно с использованием существующих точек входа, таких как помощник по передаче файлов, и утверждается, что преимущество сценария использования является ключом к внедрению AI от Tencent. Также упоминается недавнее обновление официальных аккаунтов WeChat, добавившее вход для публикации с мобильных устройств, что может стимулировать создание короткого контента, но потенциально повлиять на экосистему длинных текстов. (Источник: 鹅厂的 AI 大招,真的落在微信上)

腾讯元宝(原红包封面助手)深度融入微信引关注

LMArena запускает сайт бета-тестирования: Арена для соревнований больших моделей LMArena запустила новый сайт бета-тестирования (beta.lmarena.ai) для тестирования различных больших моделей, включая еще не выпущенные. Это предоставляет сообществу новую платформу, независимую от интерфейса Hugging Face Gradio, для оценки и сравнения производительности моделей. (Источник: karminski3)

LMArena推出Beta测试站点

Публичное размещение экземпляров Ollama вызывает опасения по поводу безопасности: Пользователь обнаружил сайт freeollama.com и с помощью поиска в киберпространстве выявил множество хостов, которые выставили порт Ollama (инструмент для локального развертывания больших моделей, обычно 11434) на публичный IP-адрес без настройки брандмауэра. Это представляет серьезный риск безопасности, так как может привести к несанкционированрованному доступу и злоупотреблению локально развернутыми моделями. Пользователям напоминают о необходимости уделять внимание конфигурации сетевой безопасности при развертывании и избегать незащищенного выставления сервисов в публичную сеть. (Источник: karminski3)

Ollama实例公网暴露引安全担忧

Использование ChatGPT для психологической поддержки вызывает обсуждение и предостережения: Пользователь Reddit поделился опытом использования ChatGPT для помощи в решении проблем с депрессией, тревожностью и т.д., обнаружив, что его советы могут быть непоследовательными и скорее подтверждают существующие взгляды пользователя, чем предоставляют надежное руководство. Когда в разных чатах его опровергали с помощью его же логики, ChatGPT признавал ошибки. Пользователь предостерегает, что AI может быть просто “цифровым угодником” и не должен использоваться для серьезной психотерапевтической поддержки. В комментариях обсуждается, как более эффективно использовать AI (например, просить его играть роль критика, предоставлять разные точки зрения) и ограничения AI, который не может заменить профессионалов-людей в кризисном вмешательстве. (Источник: Reddit r/ChatGPT)
Три закона технологии Дугласа Адамса находят отклик: Пользователь цитирует три закона технологии писателя-фантаста Дугласа Адамса, которые юмористически описывают типичную реакцию людей разного возраста на новые технологии: технологии, существовавшие при рождении, воспринимаются как норма; технологии, появившиеся в молодости, — как революция; технологии, возникшие в зрелом возрасте, — как ересь. Этот комментарий находит отклик в эпоху быстрого развития AI, намекая на то, что принятие людьми прорывных технологий, таких как AI, может быть связано с их жизненным этапом. (Источник: dotey)
Пользовательский опыт: ChatGPT становится “слишком реалистичным” или “в стиле Gen Z”: Пост на Reddit показывает скриншот диалога с ChatGPT, стиль ответа которого пользователь описывает как “слишком реалистичный” или содержащий сленг и интернет-мемы “Gen Z” (например, “Let me cook”). Реакция в комментариях неоднозначна: кому-то это кажется забавным, кто-то считает такой стиль “вызывающим дискомфорт” или “оглупляющим”. Это отражает различия в восприятии пользователями персонализации и языкового стиля AI, а также потенциальные проблемы с пользовательским опытом, связанные с имитацией моделью трендов интернет-языка. (Источник: Reddit r/ChatGPT)

用户体验:ChatGPT变得“太真实”或“Gen Z化”

AI генерирует снимки будущей жизни, вызывая творческое обсуждение: Пользователь поделился серией изображений в стиле “Snapchat из будущей жизни”, сгенерированных с помощью ChatGPT, изображающих такие сцены, как роботы-официанты, AI-питомцы, транспорт будущего и т.д. Эти креативные изображения вызвали в сообществе обсуждение возможностей генерации изображений AI и представлений о будущей жизни, получив похвалу за креативность и растущий реализм. (Источник: Reddit r/ChatGPT)
Пользователь делится опытом преобразования набросков от руки в реалистичные изображения с помощью ChatGPT: Художник-пользователь продемонстрировал процесс и результаты использования ChatGPT для преобразования своих сюрреалистических набросков от руки в реалистичные изображения. Сообщество высоко оценило это, считая интересным способом художественного эксперимента, который может помочь художникам исследовать идеи и разные стили, а не просто стремиться к “лучшему” изображению. (Источник: Reddit r/ChatGPT)

💡 Прочее

Размышления о построении AI-систем: “Горький урок” и приоритет вычислительной мощности: Статья ссылается на теорию “Горького урока” Ричарда Саттона (Richard Sutton), указывая, что в развитии AI системы, полагающиеся на масштабирование общих вычислительных возможностей (движимые мощностью), в конечном итоге превзойдут системы, основанные на тщательно разработанных человеком сложных правилах. На примере сравнения AI для обслуживания клиентов (система на правилах vs AI с ограниченной мощностью vs AI с большой мощностью и исследованием) и успеха обучения с подкреплением (RL) (например, глубокие исследования OpenAI, Claude) подчеркивается, что предприятиям следует инвестировать в вычислительную инфраструктуру, а не чрезмерно оптимизировать алгоритмы. Роль инженеров должна сместиться к созданию масштабируемых сред обучения — становлению “строителями треков”. Основная идея: простая архитектура + масштабная вычислительная мощность + исследовательское обучение > сложный дизайн + фиксированные правила. (Источник: 苦涩的启示:对AI系统构建方式的反思)
Обсуждение связи между областью AI и сообществами рационализма/эффективного альтруизма: Практикующий специалист по машинному обучению наблюдает, что в области исследований AI, похоже, существуют два мало взаимодействующих подсообщества, одно из которых тесно связано с сообществами рационализма (Rationalism) и эффективного альтруизма (Effective Altruism, EA), часто публикует исследования о прогнозах AGI, проблеме согласования (alignment) и тесно связано с некоторыми крупными компаниями из Кремниевой долины. Автор отмечает, что это сообщество иногда, обсуждая концепции когнитивной науки (например, ситуационную осведомленность), кажется, переопределяет их независимо от существующей академической системы; например, определение “ситуационной осведомленности” от Anthropic фокусируется на знании моделью процесса ее разработки, а не на традиционном определении в когнитивной науке, основанном на сенсорных данных и модели окружения. (Источник: Reddit r/ArtificialInteligence)
Пользователь обнаруживает, что AI-чат-бот неожиданно использует его никнейм с других платформ: Пользователь, пробуя новую платформу AI-чат-ботов и не предоставляя никакой личной информации, обнаружил, что бот во втором сообщении точно назвал никнейм, который пользователь часто использует на других платформах. Это вызвало у пользователя беспокойство по поводу конфиденциальности данных и отслеживания информации между платформами, заставив его посетовать, что его, возможно, уже “отследили” или “профилировали”. (Источник: Reddit r/ArtificialInteligence)
Новая идея оценки AI-моделей: суждение об интеллекте по 3-минутному устному докладу: Предлагается новый способ оценки интеллекта AI: позволить ведущим AI-моделям (например, o3 против Gemini 2.5 Pro) сделать 3-минутное устное заявление на заданную тему (политика, экономика, философия и т.д.), а люди-слушатели будут судить об их уровне интеллекта. Считается, что этот способ более интуитивен, чем опора на специализированные бенчмарки, и может лучше оценить организацию, риторику, эмоциональное и интеллектуальное представление модели, особенно в задачах, требующих убедительности. Такая форма “дебатов AI” или “конкурса ораторского искусства” может стать новым измерением для оценки способностей моделей, приближающихся к AGI. (Источник: Reddit r/ArtificialInteligence)