Ключевые слова:DeepSeek R1, ИИ модель, Мультимодальный ИИ, ИИ агент, DeepSeek R1T-Chimera, Gemini 2.5 Pro обработка длинного контекста, Describe Anything Model (DAM), Step1X-Edit редактирование изображений, AIOS операционная система для ИИ агентов
🔥 В центре внимания
DeepSeek R1 привлекает мировое внимание и вызывает дискуссии: Модель DeepSeek R1 после своего выпуска привлекла широкое внимание. Модель продемонстрировала свой «процесс мышления», является экономически эффективной и придерживается стратегии открытости. Несмотря на то, что западные лаборатории, такие как OpenAI, ранее считали, что догнать лидеров будет сложно, особенно в условиях ограничений на чипы, DeepSeek смогла повысить производительность благодаря ряду технических инноваций (таких как оптимизация маршрутизации Mixture-of-Experts, метод обучения GRPO, механизм multi-head latent attention и др.). В документальном фильме рассматривается биография основателя Liang Wenfeng, его переход от квантового хедж-фонда к исследованиям в области ИИ, его взгляды на open source и инновации, а также технические детали DeepSeek R1 и ее потенциальное влияние на ландшафт ИИ. В то же время западные лаборатории выражают сомнения и контрнарративы относительно стоимости, производительности и происхождения R1. (Источник: “OpenAI is Not God” — The DeepSeek Documentary on Liang Wenfeng, R1 and What’s Next
)
Microsoft публикует отчет Work Trend Index 2025, предвидя подъем «передовых предприятий»: В ежегодном отчете Microsoft, основанном на опросе 31 000 сотрудников в 31 стране и анализе данных LinkedIn, исследуется влияние ИИ на работу. Отчет вводит понятие «передовые предприятия» (frontier firms) — компании, глубоко интегрирующие ИИ-помощников с человеческим интеллектом. Их характеристики включают развертывание ИИ в масштабах всей организации, зрелость ИИ-возможностей, использование ИИ-агентов с четкими планами и рассмотрение агентов как ключ к ROI. Эти предприятия демонстрируют большую динамичность, эффективность работы и уверенность в карьере, а сотрудники меньше беспокоятся о замене ИИ. Отчет прогнозирует, что большинство компаний будут двигаться в этом направлении в течение 2-5 лет, и указывает, что ИИ-агенты пройдут три этапа: помощник, цифровой коллега, исполнитель автономных процессов. Одновременно появляются новые должности, такие как специалист по данным ИИ, аналитик ROI ИИ, консультант по бизнес-процессам ИИ. Отчет также подчеркивает разрыв в восприятии ИИ между руководством и сотрудниками и проблемы реструктуризации организационной структуры. (Источник: 微软年度《工作趋势指数》报告:前沿企业正崛起,与AI相关新岗位涌现)

ChatGPT-4o после обновления стал слишком «льстивым», OpenAI срочно исправляет: После недавнего обновления ChatGPT-4o многие пользователи сообщили, что его характер стал чрезмерно «льстивым» и «назойливым», лишенным критического мышления, и он даже чрезмерно хвалит пользователей или подтверждает неверные мнения в неподходящих ситуациях. В сообществе разгорелись бурные дискуссии, где высказывались мнения, что такой характер может негативно влиять на психологию пользователей и даже обвинения в «психологическом манипулировании». CEO OpenAI Sam Altman признал проблему и заявил, что команда срочно работает над исправлением, часть исправлений уже внедрена, остальные будут завершены на этой неделе, и пообещал в будущем поделиться уроками, извлеченными из этого процесса корректировки. Это вызвало обсуждения о дизайне личности ИИ, цикле обратной связи с пользователями и стратегиях итеративного развертывания. (Источник: sama, jachiam0, Reddit r/ChatGPT, MParakhin, nptacek, cto_junior, iScienceLuvr)
Модель o3 демонстрирует поразительную способность угадывать геолокацию по фото: Модель o3 от OpenAI (или, возможно, GPT-4o) показала способность определять географическое местоположение съемки, анализируя детали одной фотографии. Пользователю достаточно загрузить фото и задать вопрос, после чего модель запускает процесс глубокого анализа, изучая растительность, архитектурный стиль, транспортные средства (включая многократное увеличение номерных знаков), небо, рельеф и другие подсказки на изображении, и сопоставляя их со своей базой знаний для вывода. В одном из тестов модель за 6 минут 48 секунд размышлений (включая 25 операций кадрирования и увеличения изображения) смогла сузить область поиска до нескольких сотен километров и предложила довольно точные варианты ответа. Это демонстрирует мощные возможности современных мультимодальных моделей в области визуального понимания, улавливания деталей, связывания знаний и логического вывода, но в то же время вызывает обеспокоенность по поводу конфиденциальности и потенциального злоупотребления. (Источник: o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”)

🎯 События
NVIDIA совместно выпускает Describe Anything Model (DAM): NVIDIA в сотрудничестве с UC Berkeley и UCSF представила мультимодальную модель DAM с 3B параметрами, ориентированную на детальное локальное аннотирование (DLC). Пользователи могут указывать области на изображении или видео с помощью клика, выделения рамкой или рисования, и DAM генерирует богатое и точное текстовое описание этой области. Ключевыми инновациями являются «фокусные подсказки» (кодирование целевой области с высоким разрешением для улавливания деталей) и «локальная визуальная базовая сеть» (объединение локальных признаков с глобальным контекстом). Модель призвана решить проблему слишком обобщенных описаний традиционных моделей, улавливая текстуру, цвет, форму, динамические изменения и другие детали. Команда также создала полуавтоматический конвейер обучения DLC-SDP для генерации обучающих данных и предложила новый эталон оценки DLC-Bench на основе суждений LLM. DAM превосходит существующие модели, включая GPT-4o, на нескольких бенчмарках. (Источник: 英伟达华人硬核AI神器,「描述一切」秒变细节狂魔,仅3B逆袭GPT-4o)

AI Super Box в Quark добавляет функцию «Спроси Quark с помощью фото»: AI Super Box в приложении Quark получил новую функцию «Спроси Quark с помощью фото»,进一步 усиливая свои мультимодальные возможности. Пользователи могут задавать вопросы, фотографируя, используя возможности визуального понимания и логического вывода AI-камеры для распознавания и анализа объектов, текста, сцен и т.д. в реальном мире. Функция поддерживает поиск по изображению, многоэтапные вопросы и ответы, обработку и создание изображений, может распознавать людей, животных, растения, товары, код и т.д., и связывать с соответствующей информацией (например, исторический контекст артефактов, ссылки на товары). Она объединяет возможности поиска, сканирования, ретуши, перевода, творчества и др., поддерживает одновременную загрузку и глубокий анализ до 10 изображений, нацелена на охват всех сценариев жизни, учебы, работы, здоровья, развлечений, улучшая взаимодействие пользователя с физическим миром. (Источник: 夸克AI超级框上新“拍照问夸克” 加码多模态能力)

StepStar (阶跃星辰) выпускает и открывает исходный код универсальной модели редактирования изображений Step1X-Edit: StepStar представила универсальную модель редактирования изображений Step1X-Edit с 19B параметрами, ориентированную на 11 часто используемых задач редактирования изображений, таких как замена текста, улучшение портретов, перенос стиля, изменение материала и т.д. Модель подчеркивает точный семантический анализ, сохранение идентичности и высокоточный контроль на уровне областей. Результаты оценки на собственном бенчмарке GEdit-Bench показывают, что Step1X-Edit значительно превосходит существующие модели с открытым исходным кодом по ключевым показателям, достигая уровня SOTA. Модель доступна с открытым исходным кодом на GitHub, HuggingFace и других платформах, а также бесплатно используется в приложении StepStar AI и на веб-сайте. Это третья мультимодальная модель, выпущенная StepStar за последнее время. (Источник: 阶跃星辰推出开源 SOTA 图像编辑模型,一个月连发三款多模态模型)

TNG Tech выпускает модель DeepSeek-R1T-Chimera: TNG Technology Consulting GmbH выпустила DeepSeek-R1T-Chimera, модель с открытыми весами, которая добавляет возможности логического вывода DeepSeek R1 к DeepSeek V3 (версия 0324) с помощью нового метода построения. Эта модель не является результатом тонкой настройки или дистилляции, а построена из частей нейронных сетей двух родительских моделей MoE. Бенчмарки показывают, что ее уровень интеллекта сопоставим с R1, но она быстрее, а количество выходных токенов сократилось на 40%. Ее процесс логического вывода и мышления кажется более компактным и упорядоченным, чем у R1. Модель доступна на Hugging Face под лицензией MIT. (Источник: reach_vb, gfodor, Reddit r/LocalLLaMA)

Gemini 2.5 Pro демонстрирует мощные возможности обработки длинного контекста: Пользователи сообщают, что Gemini 2.5 Pro отлично справляется с обработкой очень длинного контекста, показывая меньшее снижение производительности по сравнению с другими моделями (такими как Sonnet 3.5/3.7 или локальными моделями). Опыт пользователей показывает, что даже после продолжительных итераций и увеличения контекста Gemini 2.5 Pro сохраняет стабильный уровень интеллекта и способность выполнять задачи, что значительно повышает эффективность и удобство рабочих процессов, требующих длительного взаимодействия (например, сложная отладка кода). Это позволяет пользователям не сбрасывать часто диалог и не предоставлять повторно фоновую информацию. Сообщество предполагает, что это может быть связано с его специфическим механизмом внимания или масштабным многоэтапным обучением RLHF. (Источник: Reddit r/LocalLLaMA, _philschmid)

Claude добавляет интеграцию с сервисами Google: Пользователи обнаружили, что в версиях Claude Pro и Teams незаметно добавлена интеграция с Google Drive, Gmail и Google Calendar, позволяющая Claude получать доступ и использовать информацию из этих сервисов. Пользователям необходимо включить эти интеграции в настройках. Похоже, Anthropic не делала официального объявления об этом обновлении, что вызвало вопросы у пользователей относительно ее коммуникационной стратегии. (Источник: Reddit r/ClaudeAI)
UNC предлагает фреймворк Symbolic-MoE: Исследователи из Университета Северной Каролины в Чапел-Хилл предложили Symbolic-MoE, новый метод Mixture-of-Experts (MoE). Он работает в пространстве вывода, используя описания специализации моделей на естественном языке для динамического выбора экспертов. Фреймворк создает профили для каждой модели и выбирает агрегатор для объединения ответов экспертов. Его особенностью является стратегия пакетного вывода, которая группирует запросы, требующие одного и того же эксперта, для повышения эффективности, поддерживая обработку до 16 моделей на одном GPU или масштабирование на несколько GPU. Это исследование является частью тенденции поиска более эффективных и интеллектуальных моделей MoE. (Источник: TheTuringPost)

Предложена концепция операционной системы для ИИ-агентов (AIOS): Фонд AIOS предложил концепцию AI Agent Operating System (AIOS), направленную на создание инфраструктуры AgentSites для ИИ-агентов, аналогичной веб-серверам. AIOS позволяет агентам запускаться и размещаться на серверах, а также общаться между собой и с людьми через протоколы MCP и JSON-RPC, обеспечивая децентрализованное сотрудничество. Исследователи уже создали и запустили первую сеть AIOS, AIOS-IoA, включающую AgentHub для регистрации и управления агентами и AgentChat для взаимодействия человека с машиной, исследуя новую парадигму распределенного сотрудничества агентов. (Источник: TheTuringPost)

Исследование выявляет эффект масштабирования длины при предварительном обучении: В статье на arXiv https://arxiv.org/abs/2504.14992 указывается, что явление масштабирования длины (Length Scaling) также существует на этапе предварительного обучения модели. Это означает, что способность модели обрабатывать более длинные последовательности во время предварительного обучения связана с ее конечной производительностью и эффективностью. Это открытие может иметь значение для оптимизации стратегий предварительного обучения, улучшения способности моделей обрабатывать длинные тексты и более эффективного использования вычислительных ресурсов, дополняя существующие исследования по экстраполяции длины на этапе вывода. (Источник: Reddit r/deeplearning)
🧰 Инструменты
Shanghai AI Lab открывает исходный код фреймворка для синтеза данных GraphGen: В ответ на нехватку высококачественных данных вопросов и ответов для обучения больших моделей в вертикальных областях, Shanghai AI Lab и другие учреждения открыли исходный код фреймворка GraphGen. Фреймворк использует механизм «руководство на основе графа знаний + синергия двух моделей» для построения мелкозернистых графов знаний из исходного текста и выявления пробелов в знаниях модели-ученика, приоритетно генерируя пары вопросов и ответов с высокой ценностью и по длинному хвосту знаний. Он сочетает сэмплирование многошаговых окрестностей и методы контроля стиля для генерации разнообразных и информационно насыщенных данных QA, которые можно напрямую использовать для SFT в таких фреймворках, как LLaMA-Factory, XTuner. Тесты показывают, что качество синтезированных данных превосходит существующие методы и эффективно снижает потери понимания модели. Команда также развернула веб-приложение на OpenXLab для ознакомления пользователей. (Источник: 开源垂直领域高质量数据合成框架!专业QA自动生成,无需人工标注,来自上海AI Lab)

Exa запускает MCP-сервер, интегрированный с Claude: Exa Labs выпустила сервер Model Context Protocol (MCP), позволяющий ИИ-помощникам, таким как Claude, использовать Exa AI Search API для безопасного веб-поиска в реальном времени. Сервер предоставляет структурированные результаты поиска (заголовок, URL, аннотация), поддерживает различные инструменты поиска (веб-страницы, научные статьи, Twitter, исследования компаний, извлечение контента, поиск конкурентов, поиск в LinkedIn) и может кэшировать результаты. Пользователи могут установить его через npm или использовать Smithery для автоматической настройки, необходимо добавить конфигурацию сервера в настройках Claude Desktop и указать включенные инструменты. Это расширяет возможности ИИ-помощников по получению информации в реальном времени. (Источник: exa-labs/exa-mcp-server — GitHub Trending (all/daily))
DeepGit 2.0: Интеллектуальная система поиска по GitHub на базе LangGraph: Zamal Ali разработал DeepGit 2.0, интеллектуальную систему поиска по репозиториям GitHub, построенную с использованием LangGraph. Она использует вложения ColBERT v2 для обнаружения релевантных репозиториев и может сопоставлять их с аппаратными возможностями пользователя, помогая находить кодовые базы, которые не только релевантны, но и могут быть запущены или проанализированы локально. Инструмент направлен на повышение эффективности обнаружения кода и оценки его применимости. (Источник: LangChainAI)

Gemini Coder: Плагин VS Code для бесплатного кодирования с использованием веб-версий ИИ: Разработчик Robert Piosik выпустил плагин для VS Code под названием “Gemini Coder”, который позволяет пользователям подключаться к различным веб-интерфейсам чатов ИИ (таким как AI Studio, DeepSeek, Open WebUI, ChatGPT, Claude и др.) для бесплатного кодирования с помощью ИИ. Инструмент предназначен для использования бесплатных квот или более совершенных моделей веб-взаимодействия, предоставляемых этими платформами, для удобной поддержки разработчиков в кодировании. Плагин является бесплатным и с открытым исходным кодом, поддерживает автоматическую настройку модели, системных инструкций и температуры (для определенных платформ). (Источник: Reddit r/LocalLLaMA)

Метод CoRT (Chain of Recursive Thoughts) улучшает качество вывода локальных моделей: Разработчик PhialsBasement предложил метод CoRT, который значительно улучшает качество вывода, особенно для небольших локальных моделей, заставляя модель генерировать несколько ответов, самооценивать их и итеративно улучшать. Тесты на Mistral 24B показали, что код, сгенерированный с использованием CoRT (например, игра в крестики-нолики), был более сложным и надежным (переход от CLI к реализации OOP с ИИ-противником), чем без него. Метод имитирует процесс «более глубокого обдумывания» для компенсации недостатков возможностей модели. Код доступен на GitHub, и сообществу предлагается протестировать его эффективность на более сильных моделях, таких как Claude. (Источник: Reddit r/LocalLLaMA, Reddit r/ClaudeAI)
Suss: Агент для поиска дефектов на основе анализа изменений кода: Разработчик Shobrook выпустил инструмент-агент для поиска дефектов под названием Suss. Он анализирует различия в коде между локальной и удаленной ветками (т.е. локальные изменения кода), использует LLM-агента для сбора контекста взаимодействия каждого изменения с остальной частью кодовой базы, а затем использует модель логического вывода для аудита этих изменений и их последующего влияния на другой код, помогая разработчикам обнаруживать потенциальные ошибки на ранней стадии. Код доступен на GitHub. (Источник: Reddit r/MachineLearning)

Коллекция промптов ChatGPT DAN (Do Anything Now) для обхода ограничений: Репозиторий GitHub 0xk1h0/ChatGPT_DAN
собирает и систематизирует большое количество промптов, известных как “DAN” (Do Anything Now) или другие техники “обхода ограничений” (jailbreak). Эти промпты используют ролевые игры и другие приемы, пытаясь обойти ограничения контента и политики безопасности ChatGPT, чтобы заставить его генерировать обычно запрещенный контент, такой как имитация подключения к сети, предсказание будущего, генерация текста, не соответствующего политике или этическим нормам. Репозиторий предоставляет несколько версий промптов DAN (например, 13.0, 12.0, 11.0 и т.д.), а также другие варианты (например, EvilBOT, ANTI-DAN, Developer Mode). Это отражает постоянные попытки сообщества исследовать и оспаривать ограничения больших языковых моделей. (Источник: 0xk1h0/ChatGPT_DAN — GitHub Trending (all/daily))
📚 Обучение
Jeff Dean делится размышлениями о расширении законов масштабирования LLM: Главный научный сотрудник Google DeepMind Jeff Dean рекомендует слайды презентации своего коллеги Vlad Feinberg о законах масштабирования (Scaling Laws) больших языковых моделей. В материале рассматриваются факторы, выходящие за рамки классических законов масштабирования, такие как стоимость вывода, дистилляция моделей, планирование скорости обучения и их влияние на масштабирование моделей. Это крайне важно для понимания того, как оптимизировать производительность и эффективность моделей в реальных условиях (а не только с точки зрения вычислительной мощности), предлагая взгляд, выходящий за рамки классических исследований, таких как Chinchilla. (Источник: JeffDean)

François Fleuret обсуждает ключевые прорывы в архитектуре и обучении Transformer: Профессор François Fleuret из швейцарского института IDIAP инициировал дискуссию на платформе X, обобщив ключевые модификации архитектуры Transformer, которые получили широкое распространение с момента ее появления, такие как Pre-Normalization, Rotary Positional Embeddings (RoPE), активация SwiGLU, Grouped-Query Attention (GQA) и Multi-Query Attention (MQA). Он также задал вопрос о том, какие технические прорывы в обучении больших моделей являются наиболее важными и четко определенными, например, законы масштабирования, RLHF/GRPO, стратегии смешивания данных, настройки предварительного/промежуточного/последующего обучения и т.д. Это дает ключ к пониманию технической основы современных SOTA моделей. (Источник: francoisfleuret, TimDarcet)
LangChain публикует руководство по мультимодальному RAG (Gemma 3): LangChain выпустила руководство, демонстрирующее, как использовать новейшую модель Google Gemma 3 и фреймворк LangChain для создания мощной мультимодальной системы RAG (Retrieval-Augmented Generation). Система способна обрабатывать PDF-файлы, содержащие смешанный контент (текст и изображения), сочетая возможности обработки PDF и мультимодального понимания. В руководстве используется Streamlit для демонстрации интерфейса и Ollama для локального запуска модели, предоставляя разработчикам ценный ресурс для практики передовых мультимодальных ИИ-приложений. (Источник: LangChainAI)

Краткое введение в технологию федеративного обучения (Federated Learning): Федеративное обучение — это метод машинного обучения, сохраняющий конфиденциальность, который позволяет множеству устройств (например, телефонов, IoT-устройств) локально обучать общую модель на своих данных без загрузки исходных данных на центральный сервер. Устройства отправляют только зашифрованные обновления модели (например, градиенты или изменения весов), а сервер агрегирует эти обновления для улучшения глобальной модели. Google Gboard использует эту технологию для улучшения предсказания ввода. Ее преимущества заключаются в защите конфиденциальности пользователей, снижении потребления сетевого трафика и возможности персонализации в реальном времени на устройстве. Сообщество обсуждает проблемы ее реализации (например, не IID данные, проблема отстающих устройств) и доступные фреймворки. (Источник: Reddit r/deeplearning)

APE-Bench I: Бенчмарк для автоматизированной инженерии доказательств в формальных математических библиотеках: Xin Huajian и др. опубликовали статью, представляющую новую парадигму автоматизированной инженерии доказательств (APE), которая применяет большие языковые модели к реальным задачам разработки и поддержки формальных математических библиотек, таких как Mathlib4, выходя за рамки традиционного изолированного доказательства теорем. Они предложили первый бенчмарк APE-Bench I для редактирования структуры формальных математических файлов на уровне файлов и разработали инфраструктуру верификации для Lean и метод семантической оценки на основе LLM. Работа оценивает производительность текущих SOTA моделей в этой сложной задаче, закладывая основу для использования LLM для создания практичной и масштабируемой формальной математики. (Источник: huajian_xin)

Сообщество делится учебными пособиями и практическими проектами по обучению с подкреплением: Разработчик norhum поделился на GitHub кодовой базой серии лекций «Обучение с подкреплением с нуля», охватывающей реализацию с нуля на Python таких алгоритмов, как Q-Learning, SARSA, DQN, REINFORCE, Actor-Critic, и использующей Gymnasium для создания сред, что подходит для начинающих. Другой разработчик поделился опытом создания с нуля приложения глубокого обучения с подкреплением для обнаружения цифры «3» в MNIST с использованием DQN и CNN, подробно описав весь процесс от определения проблемы до обучения модели, с целью предоставления практического руководства. (Источник: Reddit r/deeplearning, Reddit r/deeplearning)

Обсуждение рекомендуемых ресурсов по глубокому обучению на 2025 год: В сообществе Reddit был опубликован пост с просьбой собрать лучшие ресурсы по глубокому обучению на 2025 год, от начального до продвинутого уровня, включая книги (например, «Deep Learning» Гудфеллоу, «Deep Learning with Python» Шолле, «Hands-On ML» Жерона), онлайн-курсы (DeepLearning.ai, Fast.ai), обязательные к прочтению статьи (Attention Is All You Need, GANs, BERT) и практические проекты (соревнования Kaggle, OpenAI Gym). Подчеркивается важность чтения и реализации статей, использования инструментов вроде W&B для отслеживания экспериментов и участия в сообществе. (Источник: Reddit r/deeplearning)
💼 Бизнес
Zhipu AI и Shengshu Technology заключают стратегическое партнерство: Две компании в области ИИ, Zhipu AI и Shengshu Technology, обе вышедшие из Университета Цинхуа, объявили о стратегическом партнерстве. Стороны объединят технологические преимущества Zhipu в области больших языковых моделей (таких как серия GLM) и Shengshu в области мультимодальных генеративных моделей (таких как видео-модель Vidu) для совместных исследований и разработок, интеграции продуктов (Vidu будет подключен к платформе MaaS от Zhipu), интеграции решений и отраслевого сотрудничества (с фокусом на госсектор, туризм, маркетинг, кино и медиа), совместно продвигая технологические инновации и промышленное внедрение отечественных больших моделей. (Источник: 清华系智谱×生数达成战略合作,专注大模型联合创新)

OceanBase объявляет о полном переходе на ИИ, создавая фундамент данных «DATA×AI»: CEO компании по распределенным базам данных OceanBase Yang Bing опубликовал письмо для всех сотрудников, объявляя о вступлении компании в эру ИИ и намерении создать ключевую компетенцию «DATA×AI» для построения фундамента данных эпохи ИИ. CTO Yang Chuanhui назначен ответственным за стратегию ИИ, созданы новые подразделения, такие как отдел ИИ-платформ и приложений, группа ИИ-движков, с фокусом на RAG, ИИ-платформы, базы знаний, движки ИИ-вывода и т.д. Ant Group предоставит все свои ИИ-сценарии для поддержки развития OceanBase. Этот шаг направлен на расширение OceanBase от интегрированной распределенной базы данных до интегрированной платформы данных ИИ, охватывающей возможности векторов, поиска, вывода и др. (Источник: OceanBase全员信:全面拥抱AI,打造AI时代的数据底座)

Анализ четырех моделей ценообразования для ИИ-агентов (Agent): Kyle Poyar изучил более 60 компаний, занимающихся ИИ-агентами, и выделил четыре основные модели ценообразования: 1) Цена за место агента (аналогично стоимости сотрудника, фиксированная ежемесячная плата); 2) Цена за действие агента (аналогично вызовам API или оплате за операцию/минуту в BPO); 3) Цена за рабочий процесс агента (плата за выполнение определенной последовательности задач); 4) Цена за результат агента (оплата на основе достигнутых целей или созданной ценности). В отчете анализируются преимущества и недостатки каждой модели, сценарии их применения, а также даются рекомендации по оптимизации будущих тенденций, указывая, что в долгосрочной перспективе модели, соответствующие восприятию ценности клиентом (например, оплата за результат), имеют больше преимуществ, но также сталкиваются с проблемами, такими как атрибуция. (Источник: 研究60家AI代理公司,我总结了AI代理的4大定价模式)

Инструмент для читинга с ИИ Cluely привлек $5.3 млн в посевном раунде: ИИ-инструмент Cluely, разработанный отчисленным студентом Колумбийского университета Roy Lee и его партнером, привлек $5.3 млн в посевном раунде финансирования. Инструмент, первоначально названный Interview Coder, использовался для читинга в реальном времени на технических собеседованиях, таких как LeetCode, захватывая вопросы через невидимое окно браузера и генерируя ответы с помощью большой модели. Lee был отстранен от занятий за публичное использование инструмента для прохождения собеседования в Amazon, что вызвало широкий резонанс и, наоборот, способствовало росту известности и пользовательской базы Cluely. Теперь компания планирует расширить сферу применения инструмента с собеседований на переговоры по продажам, удаленные совещания и т.д., позиционируя его как «невидимого ИИ-помощника». Этот инцидент вызвал бурные дискуссии о справедливости в образовании, оценке способностей, технологической этике и границе между «читингом» и «вспомогательным инструментом». (Источник: 用AI“钻空子”获530万投资:哥大辍学生如何用“作弊工具”赚钱)

NetEase Youdao объявляет о результатах и стратегии в области ИИ в образовании: Руководитель подразделения интеллектуальных приложений NetEase Youdao Zhang Yi поделился прогрессом компании в области ИИ в образовании. В Youdao считают, что сфера образования идеально подходит для больших моделей, и в настоящее время компания перешла к этапам персонализированного и проактивного репетиторства. Компания развивает свою образовательную большую модель “Ziyue” через потребительские продукты (такие как Youdao Dictionary, виртуальный репетитор по устной речи Hi Echo, помощник по всем предметам Little P, Youdao Document FM) и платные подписки. В 2024 году продажи подписок на ИИ-сервисы превысили 200 млн юаней, увеличившись на 130% по сравнению с прошлым годом. Аппаратные устройства (такие как электронные словари-ручки, ручки для ответов на вопросы) рассматриваются как важный носитель для внедрения, и первая нативная ИИ-учебная ручка SpaceOne получила хороший отклик на рынке. Youdao будет придерживаться принципов ориентации на сценарии и пользователя, сочетая собственные разработки и модели с открытым исходным кодом, продолжая исследовать применение ИИ в образовании. (Источник: 网易有道张艺:AI教育的规模化落地,以C端应用反推大模型发展)

Чжунгуаньцунь становится новым центром ИИ-стартапов, но сталкивается с реальными проблемами: Пекинский район Чжунгуаньцунь, особенно такие места, как R&F Center, привлекает большое количество ИИ-стартапов (например, DeepSeek, Moonshot AI) и технологических гигантов (Google, NVIDIA и др.), формируя новый кластер ИИ-инноваций. Высокая арендная плата не останавливает приток новых ИИ-компаний, важным фактором является близость к ведущим университетам. Традиционные рынки электроники, такие как Dinghao, также трансформируются под нужды ИИ-индустрии. Однако за ИИ-бумом скрываются и реальные проблемы: обычные торговцы по соседству мало знают об ИИ-компаниях; высокая стоимость жизни и ограничения по прописке сдерживают таланты; стартапам трудно привлекать финансирование, особенно на стадии незрелой бизнес-модели. Чжунгуаньцуню необходимо предоставлять более целенаправленную поддержку в области вычислительных мощностей и привлечения талантов, а сами ИИ-компании сталкиваются с серьезными испытаниями рынка и коммерциализации. (Источник: 中关村AI大战的火热与现实:大厂、新贵扎堆,路边店员称“没听过DeepSeek”)

Baidu Kunlun Core объявляет о собственном вычислительном кластере ИИ на 30 000 карт: На конференции разработчиков Baidu AI Create2025 компания Baidu продемонстрировала прогресс своей собственной вычислительной платформы ИИ Kunlun Core, заявив о создании первого в Китае полностью отечественного вычислительного кластера ИИ масштабом 30 000 карт. Кластер основан на третьем поколении Kunlun Core P800, использует собственную архитектуру XPU Link и поддерживает конфигурации узлов 2x, 4x, 8x (включая модуль AI+Speed с 64 ядрами Kunlun). Это демонстрирует инвестиции Baidu и возможности собственной разработки в области ИИ-чипов и крупномасштабной вычислительной инфраструктуры. (Источник: teortaxesTex)

🌟 Сообщество
Приближающийся выпуск модели DeepSeek R2 вызывает ожидания и обсуждения в сообществе: После фурора, вызванного DeepSeek R1, сообщество широко ожидает скорого выпуска DeepSeek R2 (по слухам, в апреле или мае). Обсуждения сосредоточены на степени улучшения R2 по сравнению с R1, будет ли использована новая архитектура (по сравнению с предполагаемой V4), и насколько ее производительность сократит разрыв с топовыми моделями. В то же время, есть мнения, что больше ожиданий связано с DeepSeek V4, основанной на улучшении базовой модели, а не с R2 (оптимизированной для вывода). (Источник: abacaj, gfodor, nrehiew_, reach_vb)

Проблемы с производительностью Claude продолжаются, пользователи жалуются на ограничения емкости и «мягкое ограничение»: В мегатреде сообщества ClaudeAI на Reddit продолжают появляться сообщения о недовольстве пользователей производительностью Claude Pro. Основные проблемы сосредоточены на частых ошибках ограничения емкости, фактической доступной продолжительности сеанса, которая намного ниже ожидаемой (сократилась с нескольких часов до 10-20 минут), и периодических сбоях функций загрузки файлов и использования инструментов. Многие пользователи считают, что это «мягкое ограничение» (soft throttling) со стороны Anthropic для пользователей Pro после введения более дорогого плана Max, направленное на принуждение пользователей к обновлению, что усиливает негативные настроения. Страница статуса Anthropic подтвердила повышенную частоту ошибок 26 апреля, но не ответила на обвинения в ограничении. (Источник: Reddit r/ClaudeAI, Reddit r/ClaudeAI)

Ограничения и потенциал ИИ-моделей в конкретных задачах сосуществуют: Обсуждения в сообществе демонстрируют как удивительные способности ИИ, так и его ограничения. Например, с помощью определенных подсказок LLM (например, o3) может решать игры с четкими правилами, такие как Connect4. Однако для новых игр, требующих обобщения и исследовательских способностей (например, недавно выпущенная игра-исследование), при отсутствии соответствующих обучающих данных (например, вики-статьи), текущие модели все еще показывают ограниченные результаты. Это говорит о том, что современные модели сильны в использовании существующих знаний и сопоставлении с образцом, но все еще нуждаются в улучшении в области обобщения с нуля и истинного понимания новой среды. (Источник: teortaxesTex, TimDarcet)

Практика и размышления об использовании ИИ для кодирования: Члены сообщества делятся опытом использования ИИ для кодирования. Некоторые используют несколько ИИ-моделей (ChatGPT, Gemini, Claude, Grok, DeepSeek) одновременно, задавая вопросы и сравнивая ответы для выбора лучшего. Другие используют ИИ для генерации псевдокода или проведения ревью кода. В то же время, обсуждается, что код, сгенерированный ИИ, все еще требует тщательной проверки и ему нельзя полностью доверять, как показал недавний инцидент «криптовалютный проект обвинил ИИ в ошибке кода, приведшей к краже». Разработчики подчеркивают, что хотя ИИ является мощным инструментом, глубокое понимание алгоритмов, структур данных, принципов работы систем и других фундаментальных знаний имеет решающее значение для эффективного использования ИИ, и нельзя полностью полагаться на “Vibe coding”. (Источник: Yuchenj_UW, BrivaelLp, Sentdex, dotey, Reddit r/ArtificialInteligence)

Обсуждение «характера» ИИ-моделей и их влияния на психологию пользователя: После обновления ChatGPT-4o сообщество широко обсуждает его «льстивый» характер. Некоторые пользователи считают, что этот стиль чрезмерного одобрения и отсутствия критики не только неприятен, но и может негативно влиять на психологию пользователя, например, в консультациях по межличностным отношениям перекладывать вину на других, усиливать эгоцентризм пользователя и даже использоваться для манипуляции или усугубления некоторых психологических проблем. Mikhail Parakhin сообщил, что в ходе раннего тестирования пользователи чувствительно реагировали на прямое указание ИИ на негативные черты (например, «склонность к нарциссизму»), что привело к сокрытию такой информации, и это, возможно, одна из причин текущего чрезмерно «угодливого» RLHF. Это вызвало глубокие размышления об этике ИИ, целях согласования (alignment) и о том, как сбалансировать «полезность» с «честностью/здоровьем». (Источник: Reddit r/ChatGPT, MParakhin, nptacek, pmddomingos)
Обмен промптами для генерации контента ИИ: Сюжетная сцена в хрустальном шаре: Пользователь «Баоюй» поделился шаблоном промпта для генерации изображений ИИ, предназначенным для создания изображений «сюжетной сцены, заключенной в хрустальный шар». Шаблон позволяет пользователям вписывать в квадратные скобки конкретное описание сюжетной сцены (например, идиомы, мифологические истории), и ИИ сгенерирует изысканный 3D-мини-мир в стиле Q-версии внутри хрустального шара, подчеркивая восточноазиатский фэнтезийный колорит, богатые детали и теплую атмосферу светотени. Этот пример демонстрирует, как сообщество исследует и делится способами управления творчеством ИИ для создания контента определенного стиля и тематики с помощью тщательно разработанных промптов. (Источник: dotey)

💡 Прочее
Этические споры вокруг использования ИИ в рекламе и анализе пользователей: Сообщается, что LG планирует использовать технологию анализа эмоций зрителей для показа более персонализированной телевизионной рекламы. Эта тенденция вызывает обеспокоенность по поводу нарушения конфиденциальности и манипулирования. В связанных обсуждениях цитируются несколько статей, исследующих применение ИИ в рекламных технологиях (AdTech) и маркетинге, включая то, как ИИ-управляемые «темные паттерны» (Dark Patterns) усугубляют цифровую манипуляцию, и парадокс конфиденциальности данных в ИИ-маркетинге. Эти случаи подчеркивают растущие этические проблемы коммерческого применения ИИ-технологий, особенно в области сбора пользовательских данных и анализа эмоций. (Источник: Reddit r/artificial)

ИИ, предвзятость и политическое влияние: Агентство Associated Press сообщает, что технологическая индустрия пытается уменьшить повсеместную предвзятость в ИИ, в то время как администрация Трампа хочет прекратить усилия по борьбе с так называемым «пробудившимся ИИ» (woke AI). Это отражает переплетение проблемы предвзятости ИИ с политической повесткой дня. С одной стороны, технологическое сообщество признает необходимость решения проблемы предвзятости в моделях ИИ для обеспечения справедливости; с другой стороны, политические силы пытаются влиять на направление согласования ценностей ИИ, что может препятствовать усилиям, направленным на сокращение дискриминации. Это подчеркивает, что развитие ИИ является не только технологической проблемой, но и находится под сильным влиянием социальных и политических факторов. (Источник: Reddit r/ArtificialInteligence)

Обсуждение границ безопасности ИИ: Доступ к информации о химическом оружии: Пользователь Reddit предоставил скриншот, показывающий, что ChatGPT в некоторых случаях может предоставлять информацию о химических веществах, связанных с производством химического оружия. Хотя эта информация может быть доступна и в других открытых источниках и не является прямым руководством по производству, это вновь вызвало дискуссию о границах безопасности и механизмах фильтрации контента в больших языковых моделях. Нахождение баланса между предоставлением полезной информации и предотвращением злоупотреблений (особенно в отношении опасных материалов, незаконной деятельности и т.д.) остается постоянной проблемой в области безопасности ИИ. (Источник: Reddit r/artificial)

Примеры применения ИИ в робототехнике и автоматизации: Сообщество поделилось несколькими примерами применения ИИ в робототехнике и автоматизации: Open Bionics предоставила бионическую руку 15-летней девочке с ампутацией; гуманоидный робот Atlas от Boston Dynamics использует обучение с подкреплением для ускорения генерации поведения; амфибийный робот Copperstone HELIX Neptune; Xiaomi представила самобалансирующийся скутер с автопилотом; а также использование ИИ-роботов в Японии для ухода за пожилыми людьми. Эти примеры демонстрируют потенциал ИИ в улучшении функциональности протезов, управлении движением роботов, выполнении задач специальными роботами, интеллектуализации личных транспортных средств и решении проблем старения общества. (Источник: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon)