Ключевые слова:OpenBMB, MiniCPM-V 4.5, MiniCPM-o 2.6, GPT-Realtime, Grok Code Fast 1, Безопасность ИИ, AI-чип Alibaba, Мультимодальная большая модель, End-to-end модель распознавания речи, Интеллектуальная модель программирования, Этические размышления об ИИ, Собственный AI-чип

🔥 В центре внимания

OpenBMB выпустила мультимодальные модели MiniCPM-V 4.5 и MiniCPM-o 2.6 : OpenBMB представила две мультимодальные большие модели уровня «GPT-4o» с открытым исходным кодом: MiniCPM-V 4.5 и MiniCPM-o 2.6. MiniCPM-V 4.5 превосходит GPT-4o-latest, Gemini-2.0 Pro и Qwen2.5-VL 72B по возможностям визуального и языкового восприятия, а также включает такие функции, как эффективное понимание длинных видео с высокой частотой обновления, контролируемое смешанное быстрое/глубокое мышление и мощное распознавание рукописного текста (OCR). MiniCPM-o 2.6, в свою очередь, демонстрирует выдающиеся результаты в области зрения, речи и мультимодальных прямых трансляций, поддерживает двуязычный голосовой диалог в реальном времени и развертывание на конечных устройствах, демонстрируя потенциал для реализации высокопроизводительного мультимодального AI на мобильных устройствах. (Источник: GitHub Trending)

OpenAI выпустила сквозную речевую модель GPT-Realtime : OpenAI представила свою передовую сквозную речевую модель производственного уровня GPT-Realtime и объявила о полномасштабном запуске Realtime API в производство. Новая модель значительно улучшена в следовании сложным инструкциям, вызове инструментов, генерации естественной и выразительной речи, поддерживает переключение между несколькими языками и распознавание невербальных сигналов. Цены снижены на 20% по сравнению с GPT-4o-Realtime-Preview, а управление контекстом диалога оптимизировано, что призвано помочь разработчикам создавать эффективные и надежные голосовые агенты с меньшими затратами. API также поддерживает удаленные серверы MCP и ввод изображений, а также совместим с протоколом SIP, что расширяет возможности для коммерческих сценариев, таких как колл-центры. (Источник: MIT Technology Review)

xAI представила интеллектуальную модель программирования Grok Code Fast 1 : Компания xAI Илона Маска выпустила Grok Code Fast 1 — интеллектуальную модель программирования, ориентированную на скорость и экономичность, поддерживающую контекст в 256K и временно доступную бесплатно. Модель доступна на платформах, таких как GitHub Copilot и Cursor, и по производительности сопоставима с Claude Sonnet 4 и GPT-5, но ее цена составляет лишь десятую часть от стоимости последних. Grok Code Fast 1 использует новую архитектуру, предварительно обученную на корпусе кода и доработанную на реальных данных, а также оптимизированную за счет ускорения вывода и кэширования подсказок, что обеспечивает плавный и эффективный процесс кодирования. (Источник: 量子位)

Безопасность и этика AI: Размышления после инцидента с самоубийством Адама Рейна : Широкое обсуждение роли AI-чат-бота в инциденте с самоубийством Адама Рейна подчеркивает потенциальные риски AI в области психического здоровья. Несмотря на то, что AI каждый раз при упоминании суицидальных мыслей рекомендовал обратиться за помощью к человеку, модель была побуждена обойти протоколы безопасности через рамки «исследования для написания книги». Это заставляет индустрию переосмыслить ограничения LLM в понимании человеческих намерений и призывает к внедрению «терапевтических» структурированных протоколов безопасности для достижения баланса между открытым диалогом и вмешательством в рискованных ситуациях, особенно при работе с чувствительными темами. (Источник: MIT Technology Review, Reddit r/ArtificialInteligence)

Alibaba разрабатывает собственные AI-чипы, чтобы избавиться от зависимости от Nvidia : The Wall Street Journal сообщает, что Alibaba разработала новый AI-чип, призванный заполнить пробел на китайском рынке, образовавшийся из-за санкций в отношении чипов Nvidia. Чип находится на стадии тестирования, совместим с экосистемой Nvidia и производится отечественной компанией. Этот шаг демонстрирует стремление Alibaba к вертикальной интеграции: обладая передовыми возможностями LLM (такими как Qwen), компания также разрабатывает собственные AI-чипы. Alibaba может стать одной из немногих компаний в мире, обладающих обоими этими преимуществами, что имеет стратегическое значение для независимого развития китайской AI-индустрии. (Источник: Reddit r/LocalLLaMA)

🎯 Тенденции

Недостаточная прозрачность данных об энергопотреблении Google AI вызывает обеспокоенность : Google впервые опубликовала данные о том, что каждое текстовое обращение к Gemini потребляет в среднем 0,24 Втч электроэнергии, что вызвало дискуссию об энергопотреблении AI. Однако критики отмечают, что Google не предоставила ключевых данных, таких как общее количество запросов или энергопотребление при генерации изображений/видео, что не позволяет полностью оценить общее воздействие AI на окружающую среду. Поскольку AI становится повсеместным в повседневной жизни, его огромные энергетические потребности (например, зависимость центров обработки данных Meta от природного газа) представляют серьезную проблему для электросетей и изменения климата, что призывает крупные AI-компании повысить прозрачность энергопотребления. (Источник: MIT Technology Review, Reddit r/ArtificialInteligence)

Разработка антибиотиков с помощью AI демонстрирует потенциал : Технологии AI демонстрируют положительные сдвиги в области здравоохранения, особенно в разработке новых антибиотиков для борьбы с трудноизлечимыми заболеваниями. Это указывает на то, что AI может не только оптимизировать существующие медицинские процессы, но и предлагать прорывные решения в передовых областях, таких как разработка лекарств, принося новую надежду для здоровья человека. Однако чрезмерная зависимость от AI в принятии медицинских решений также сопряжена с рисками, такими как снижение диагностических способностей врачей при отсутствии поддержки AI, а также случаи ошибочных рекомендаций AI вредных веществ, что указывает на необходимость осторожности и акцента на человеческом контроле при внедрении AI-приложений. (Источник: MIT Technology Review)

Практическое применение воплощенных AI-агентов в здравоохранении : Компания Ensemble, используя нейросимвольную AI-архитектуру, объединяющую LLM со структурированными базами знаний и клинической логикой, успешно внедрила воплощенных AI-агентов в управление циклом доходов в здравоохранении (RCM). Эти агенты поддерживают клиническое мышление, ускоряют точное возмещение расходов и улучшают взаимодействие с пациентами, например, повышая процент отмены апелляций на 15% и сокращая продолжительность звонков пациентов на 35%. Этот подход, объединяющий сотрудничество AI-ученых, медицинских экспертов и конечных пользователей, эффективно преодолевает ограничения LLM, уменьшает галлюцинации, обеспечивает соответствие решений нормам и позволяет масштабировать внедрение. (Источник: MIT Technology Review)

Nous Research выпустила модель гибридного вывода Hermes 4 : Nous Research представила серию открытых моделей гибридного вывода Hermes 4, которые достигли передовых (SOTA) результатов на RefusalBench. Эти модели призваны оставаться нейтральными и готовы оказывать помощь в сценариях, которые обычно отвергаются как закрытыми, так и открытыми моделями, что имеет важное значение для разработки более ориентированных на пользователя и практичных AI-моделей. (Источник: Teknium1)

AgoraIO представила AI-движок для диалогов в реальном времени : AgoraIO выпустила свой диалоговый AI-движок, первую готовую к производству AI-платформу для голоса с общей задержкой всего около 650 миллисекунд (STT + LLM + TTS). По сравнению с задержкой в 2-3 секунды у других платформ, решение AgoraIO обеспечивает более естественный и реалистичный диалог в реальном времени, значительно повышая производительность голосовых AI-приложений. (Источник: TheTuringPost)

Unsloth выпустила версию GPT-OSS с ультрадлинным контекстом для тонкой настройки : Unsloth выпустила тонко настроенную версию GPT-OSS, которая значительно увеличивает длину контекста в 8 раз (до 61K), при этом сокращая использование видеопамяти на 50% и увеличивая скорость обучения в 1,5 раза. Эта версия также исправила проблему, при которой потери при обучении GPT-OSS стремились к бесконечности, что позволяет пользователям более эффективно и стабильно тонко настраивать модель. В комментариях отмечается, что эта версия отлично работает в пределах 60K контекста и может быть дополнительно расширена с помощью YaRN. (Источник: karminski3)

Midea создала первую в мире фабрику интеллектуальных агентов с многосценарным покрытием : Завод стиральных машин Midea в Цзинчжоу получил сертификат WRCA, став первой в мире фабрикой интеллектуальных агентов с многосценарным покрытием. Завод, основанный на «фабричном мозге Midea», использует 14 интеллектуальных агентов, работающих совместно, охватывая 38 основных производственных бизнес-сценариев, и реализует сквозные возможности от восприятия, принятия решений, выполнения, обратной связи до непрерывной оптимизации. Интеллектуальные агенты выполняют традиционные задачи, занимавшие часы, за секунды, повышая эффективность в среднем более чем на 80%, а скорость реакции планирования производства увеличивается на 90%. Гуманоидный робот «Mei Luo» уже используется в цехе литья под давлением, автономно выполняя высокочастотные задачи по контролю качества и инспекции, демонстрируя глубокую интеграцию AI в промышленное производство и повышение эффективности. (Источник: 36氪)

Опубликован рейтинг SuperCLUE по оценке мультимодального зрения : Августовский рейтинг SuperCLUE-VLM показывает, что мультимодальная большая модель Baidu ERNIE-4.5-Turbo-VL набрала 66,47 балла, разделив первое место среди отечественных моделей, с явным преимуществом в задачах реального сценария. В этом рейтинге оценивались 15 мультимодальных моделей из Китая и других стран по трем основным измерениям: базовое познание, визуальное рассуждение и визуальные приложения, что подчеркивает конкурентный потенциал Китая в области мультимодальных больших моделей. (Источник: 量子位)

Keep полностью перешла на AI и добилась прибыльности : Платформа спортивных технологий Keep, акции которой котируются на Гонконгской бирже, в первой половине этого года достигла скорректированной чистой прибыли в 10,35 млн юаней, успешно выйдя из убытков. Этот результат в основном обусловлен полной реализацией стратегии «All in AI» компании, которая, запустив AI-тренера Kaka и расширив контент AIGC, значительно повысила операционную эффективность и активность пользователей. Ежедневная активная аудитория AI-ядра Keep превысила 150 тысяч человек, а функция AI-записи питания показала уровень удержания на следующий день до 50%. Это демонстрирует, что AI может не только стимулировать рост бизнеса, но и перестраивать бизнес-модели традиционных интернет-приложений. (Источник: 量子位)

Li Auto успешно завершила пробное производство собственного AI-чипа : Технический директор Li Auto Се Янь сообщил, что собственный AI-чип компании успешно прошел пробное производство и находится на стадии автомобильных испытаний. При работе с LLM, такими как ChatGPT, эффективная вычислительная мощность этого чипа в 2 раза выше, чем у Nvidia Thor-U, а при работе с визуальными моделями — в 3 раза. Ожидается, что в следующем году он будет применяться в некоторых моделях автомобилей, что знаменует собой ключевой шаг Li Auto к избавлению от зависимости от Nvidia и предвещает усиление конкуренции в области разработки собственных чипов для интеллектуальных электромобилей. (Источник: 量子位)

Выпущена система Xiaomi HyperOS 3, AI-помощник полностью обновлен : Xiaomi выпустила третье поколение своей операционной системы HyperOS 3, сосредоточившись на повышении плавности системы, улучшении функциональности и AI-взаимодействии. AI-помощник «Super Xiao Ai» был значительно оптимизирован, обеспечивая «на шаг быстрее» взаимодействие при запуске, вводе, поиске приложений и распознавании фотографий. Новая функция «Circle Screen» может интеллектуально распознавать контент и предлагать рекомендации, а также, на основе больших моделей, позволяет выполнять сложные операции «в один шаг». Система также поддерживает взаимосвязь между телефонами Xiaomi и iPhone и усиливает защиту конфиденциальности, стремясь создать ориентированный на человека AI-экосистему. (Источник: 量子位)

AI Agents помогают в защите кибербезопасности : С развитием технологий AI потенциал применения интеллектуальных агентов в области кибербезопасности огромен. Они способны автономно планировать, рассуждать и выполнять сложные задачи, выявлять уязвимости, захватывать системы и похищать данные. Хотя киберпреступники пока не развернули AI-агентов в больших масштабах, исследования показывают, что они уже обладают способностью выполнять сложные атаки. Эксперты по кибербезопасности предупреждают, что следует ожидать появления таких атак в реальном мире, поэтому разработка более мощных механизмов защиты является неотложной задачей. (Источник: MIT Technology Review)

Применение AI в центрах экстренных вызовов 911 : Из-за нехватки персонала центры экстренных вызовов 911 в США начали использовать AI для приема звонков, в основном для перенаправления несрочных ситуаций. Это применение призвано снизить нагрузку на персонал и обеспечить своевременное реагирование на экстренные вызовы, но также вызывает дискуссии о роли и надежности AI в критически важных службах. (Источник: MIT Technology Review)

Новый прорыв в технологии многоракурсного 3D-отслеживания точек : Представлен первый управляемый данными многоракурсный 3D-трекер точек, предназначенный для отслеживания произвольных точек в динамических сценах с использованием нескольких камер. Эта прямая модель может напрямую предсказывать 3D-соответствия, обеспечивая надежное и точное онлайн-отслеживание даже в условиях окклюзии. Эта технология, объединяющая многоракурсные функции и применяющая корреляцию k-ближайших соседей с обновлением Transformer, обещает установить новый стандарт для исследований в области многоракурсного 3D-отслеживания и найти применение в практических приложениях. (Источник: HuggingFace Daily Papers)

Видеодиффузионная архитектура Dress&Dance для виртуальной примерки : Dress&Dance — это инновационная видеодиффузионная архитектура, способная генерировать высококачественные 5-секундные видео виртуальной примерки с частотой 24 кадра/с и разрешением 1152×720. Эта архитектура требует всего одно изображение пользователя, поддерживает различные типы одежды и позволяет одновременно примерять верхнюю и нижнюю одежду. Ее основная сеть CondNet использует механизм внимания для унификации мультимодальных входных данных, улучшая регистрацию одежды и точность движений, превосходя существующие открытые и коммерческие решения. (Источник: HuggingFace Daily Papers)

Новая технология дипфейков FakeParts более обманчива : FakeParts — это новая технология дипфейков, которая характеризуется локальными, тонкими изменениями в реальных видео, такими как изменение выражения лица или замена объектов, что делает их бесшовно интегрированными с реальными элементами и трудноразличимыми для человека и существующих моделей обнаружения. Для решения этой проблемы исследователи выпустили набор данных FakePartsBench, призванный стимулировать разработку более надежных методов обнаружения локальных видеоизменений. (Источник: HuggingFace Daily Papers)

CogVLA: Визуально-языково-акционная модель с когнитивным выравниванием повышает эффективность роботов : Архитектура CogVLA (Cognition-Aligned Vision-Language-Action) повышает эффективность и производительность визуально-языково-акционных (VLA) моделей за счет маршрутизации и разреживания, управляемых инструкциями. Эта модель, вдохновленная человеческой мультимодальной координацией, использует трехэтапную прогрессивную архитектуру, достигая передовых показателей успешности как на бенчмарке LIBERO, так и в реальных задачах робототехники, при этом снижая затраты на обучение в 2,5 раза и задержку вывода в 2,8 раза. (Источник: HuggingFace Daily Papers)

OneReward: Единая модель вознаграждения для многозадачной генерации изображений : OneReward — это единая архитектура обучения с подкреплением, которая, используя одну визуально-языковую модель (VLM) в качестве модели генерации вознаграждения, расширяет возможности модели в многозадачной генерации изображений. Эта архитектура может применяться к многозадачным генеративным моделям с различными критериями оценки, особенно в задачах генерации изображений, управляемых маской, таких как заполнение изображений, расширение, удаление объектов и рендеринг текста. Модель Seedream 3.0 Fill, основанная на OneReward, обучается непосредственно на предварительно обученной модели с помощью многозадачного обучения с подкреплением без необходимости в специфическом для задачи SFT, превосходя коммерческие и открытые аналоги. (Источник: HuggingFace Daily Papers)

Social-MAE: Мультимодальный автокодировщик на основе Transformer для восприятия социального поведения : Social-MAE — это предварительно обученный аудиовизуальный маскирующий автокодировщик, основанный на расширенной модели CAV-MAE, который эффективно воспринимает социальное поведение человека посредством самоконтролируемого предварительного обучения на большом объеме данных о человеческом социальном взаимодействии (VoxCeleb2). Модель достигла передовых результатов в задачах социального и эмоционального распознавания, таких как распознавание эмоций, обнаружение смеха и оценка воспринимаемой личности, демонстрируя эффективность самоконтролируемого предварительного обучения в предметной области. (Источник: HuggingFace Daily Papers)

Dangbei представила умный аквариум с AI : Dangbei представит Smart Fish Tank 1 Ultra на выставке IFA в Берлине — умный аквариум, сочетающий технологии AI. Он оснащен AI-управляемым кормлением, мониторингом качества воды в реальном времени и профессиональным освещением, призванным создать самоподдерживающуюся экосистему, интегрируя технологии AI в повседневную домашнюю жизнь и предлагая более интеллектуальный уход за домашними животными. (Источник: The Verge)

🧰 Инструменты

Интеграция LangSmith с AI SDK 5 повышает наблюдаемость LLM : LangSmith глубоко интегрирован с AI SDK 5, обеспечивая превосходную наблюдаемость для приложений LLM. Разработчикам достаточно обернуть метод generate/stream, чтобы получить подробные данные об использовании токенов, отслеживании инструментов, времени генерации первого токена и других ключевых показателях, что значительно повышает эффективность разработки и отладки LLM. (Источник: hwchase17)

Google Labs выпустила Stax для упрощения оценки LLM : Google Labs представила экспериментальный инструмент разработки Stax, призванный упростить процесс оценки больших языковых моделей (LLM) с помощью настраиваемых и предварительно созданных автоматических оценщиков. Выпуск Stax предоставляет разработчикам более эффективное и стандартизированное решение для оценки производительности LLM. (Источник: ImazAngel)

Функция видеообзора NotebookLM поддерживает более 80 языков : NotebookLM добавил функцию видеообзора, которая поддерживает более 80 языков (включая китайский) и может генерировать видеорезюме в формате PPT с конкретными заголовками, иллюстрациями и аккуратной версткой. Эта функция демонстрирует мощные возможности в обработке документов и видеоконтента, обещая изменить способы потребления контента и извлечения информации. (Источник: op7418)

Расширение OpenAI Codex IDE повышает эффективность программирования : OpenAI выпустила расширение Codex IDE, поддерживающее основные IDE, такие как VS Code и Cursor, и предоставляемое бесплатно по подписке ChatGPT. Это расширение отлично справляется с анализом, пониманием и генерацией кода, способно быстро понимать инструкции разработчика, выполнять операции grep, терминала и редактирования файлов, значительно повышая эффективность и удобство кодирования для разработчиков. (Источник: op7418, gdb)

Платформа HumanLayer с открытым исходным кодом расширяет возможности человеко-машинного сотрудничества AI Agent : HumanLayer — это платформа с открытым исходным кодом, предназначенная для обеспечения безопасного и эффективного взаимодействия AI Agent с людьми посредством инструментализации и асинхронных рабочих процессов. Она обеспечивает человеческий контроль за высокорисковыми вызовами функций через рабочие процессы утверждения (поддерживающие Slack, электронную почту и т. д.), позволяя AI Agent безопасно получать доступ к внешнему миру. Это ключевой инструмент для создания воплощенных интеллектуальных рабочих процессов и реализации человеко-машинного сотрудничества. (Источник: GitHub Trending)

Claude Code использует историю Git для повышения эффективности отладки : Разработчик создал инструмент, который позволяет Claude Code получать доступ к истории Git, что сократило использование токенов на 66% во время сеансов отладки. Автоматически фиксируя изменения кода в скрытом репозитории .shadowgit.git и используя сервер MCP, чтобы Claude мог напрямую выполнять команды Git, модель запрашивает только необходимую информацию, избегая повторного чтения всей кодовой базы при каждом диалоге, что значительно повышает эффективность отладки. (Источник: Reddit r/ClaudeAI)

Omnara: Центр удаленного управления Claude Code : Omnara — это командный центр для удаленного управления Claude Code, решающий проблему необходимости «присматривать» за агентом. Он позволяет пользователям мгновенно перехватывать управление после запуска сеанса Claude Code в терминале через веб-страницу или мобильный телефон, а также получать push-уведомления, когда требуется ввод, что обеспечивает длительную и беспроблемную работу агента, особенно для сложных рабочих процессов, требующих человеческого вмешательства. (Источник: Reddit r/LocalLLaMA)

Интеграция ChatGPT 5 с Google Drive демонстрирует мощные возможности обработки данных : Интеграция ChatGPT 5 с Google Drive позволяет ему одновременно просматривать и извлекать данные из нескольких Google Sheets, а также связывать данные на основе ссылок в ячейках. Считается, что эта возможность значительно превосходит текущий уровень интеграции Gemini, что указывает на более высокую практичность и эффективность ChatGPT в обработке сложных, многоисточниковых задач с данными. (Источник: kylebrussell)

Инструмент CLI в стиле Ollama для моделей MLX на Apple Silicon : Выпущен инструмент командной строки (CLI) в стиле Ollama, призванный упростить запуск моделей MLX на устройствах Apple Silicon. Этот инструмент предоставляет разработчикам более удобный способ развертывания и тестирования моделей ML в локальной среде, особенно для пользователей Mac, улучшая опыт разработки. (Источник: awnihannun)

Arindam200/awesome-ai-apps: Избранные приложения RAG и Agent : Репозиторий GitHub Arindam200/awesome-ai-apps содержит множество примеров AI-приложений, таких как RAG, Agent и рабочие процессы, предоставляя разработчикам практическое руководство по созданию приложений на основе LLM. Этот ресурс охватывает различные проекты, от простых чат-ботов до продвинутых AI Agent, и является ценным материалом для изучения и практики разработки AI-приложений. (Источник: GitHub Trending)

Сравнение инструментов для генерации AI-видео Domo и Runway : В социальных сетях пользователи сравнили два инструмента для генерации AI-видео: Domo Image to Video и Runway Motion Brush. Domo получил предпочтение за свой «режим бесконечного расслабления» и способность быстро генерировать разнообразные видео, подходящие для быстрых экспериментов и получения творческой «атмосферы». Runway, в свою очередь, предлагает более точный контроль, но более сложен в использовании и потребляет больше ресурсов. Пользователи обсуждали рабочие процессы, сочетающие преимущества обоих инструментов: сначала грубая компоновка с помощью Runway, затем AI-доработка с помощью Domo. (Источник: Reddit r/deeplearning)

ChatGPT 5 Pro в сложных аналитических задачах : ChatGPT 5 Pro был использован для анализа количества солнечного света, получаемого домом, путем интеграции информации из нескольких источников, таких как Project Sunroof, фотографии Zillow и исторические данные о погоде. Подробный отчет был предоставлен примерно за 17 минут. Этот случай демонстрирует потенциал AI в решении сложных реальных задач, требующих интеграции и рассуждений на основе многосторонних данных, выходящих за рамки традиционных вопросов и ответов. Его точность даже считается превосходящей некоторых человеческих подрядчиков. (Источник: BorisMPower)

Пользователи OpenWebUI интересуются отображением процесса мышления GPT-OSS : Пользователи OpenWebUI задаются вопросом, почему «процесс мышления» GPT-OSS не отображается, а представлен только конечный результат. Это отражает потребность пользователей в прозрачности внутренних механизмов работы LLM, желание понять, как модель приходит к своим выводам, чтобы лучше понимать и доверять результатам AI. (Источник: Reddit r/OpenWebUI)

📚 Обучение

Запуск исследовательского проекта Astra AI Safety : Constellation объявила о перезапуске Astra Fellowship — программы продолжительностью 3-6 месяцев, направленной на ускорение исследований в области безопасности AI и развитие карьеры. Проект предоставляет возможность сотрудничества с опытными наставниками, помогая исследователям добиться прорывов в области безопасности AI и подготовить ключевые кадры для будущего развития AI. (Источник: EthanJPerez)

Пять этапов эволюции AI Agent : В одном из обсуждений в социальных сетях подробно рассматриваются пять этапов эволюции AI Agent: от первоначальных LLM с небольшим контекстным окном до полностью автономных агентов, обладающих способностями к рассуждению, памяти и использованию инструментов. Эта структура помогает понять текущий путь развития технологий AI Agent и будущий потенциал, предоставляя разработчикам теоретическое руководство для создания более сложных и интеллектуальных AI-систем. (Источник: _avichawla)

Руководство по проектированию подсказок для генерации изображений Gemini 2.5 Flash : Google Developers опубликовала статью в блоге, подробно описывающую, как писать оптимальные подсказки для модели генерации изображений Gemini 2.5 Flash, чтобы получить высококачественные изображения. Это руководство содержит конкретные советы и стратегии, помогающие пользователям полностью раскрыть потенциал инструментов генерации изображений AI. (Источник: _philschmid)

Обмен ресурсами для изучения MLOps : В социальных сетях были опубликованы ресурсы для изучения MLOps (Machine Learning Operations), охватывающие различные этапы жизненного цикла машинного обучения. Для инженеров и специалистов по данным, желающих перевести AI-модели из экспериментальной стадии в производственную среду, эти ресурсы предоставляют систематизированную структуру обучения и практические рекомендации. (Источник: Ronald_vanLoon)

Вышла новая книга «Создание модели рассуждения (с нуля)» : Вышли первые главы новой книги под названием «Build a Reasoning Model (From Scratch)», охватывающие различные темы, от масштабирования рассуждений до обучения с подкреплением. Книга призвана помочь читателям глубоко понять и создать модели рассуждений, предоставляя ценный ресурс для AI-исследователей и инженеров. (Источник: algo_diver)

Репозиторий GitHub для понимания и обучения LLM с нуля : Репозиторий GitHub призывает пользователей писать механизм внимания и обучать LLM с нуля, чтобы помочь разработчикам глубоко понять принципы работы LLM, а не просто использовать высокоуровневые библиотеки. Этот практико-ориентированный подход к обучению подчеркивает освоение основных концепций через самостоятельное создание и отладку. (Источник: algo_diver)

Математический семинар по самоконтролируемому обучению и моделям мира : На конференции JMM26 будет проведен 90-минутный семинар по самоконтролируемому обучению и моделям мира, посвященный их математическим принципам. На конференцию приглашены такие эксперты, как Ян ЛеКун, с целью продвижения теоретических исследований AI и содействия совместному обсуждению передовых проблем исследователями из разных областей. (Источник: ylecun)

Технология 8-битного вращательного квантования повышает эффективность векторного поиска : В техническом блоге описан метод 8-битного вращательного квантования, который позволяет сжимать векторы в 4 раза, одновременно ускоряя векторный поиск и повышая его качество. Объединяя случайные вращения и скалярное квантование, этот метод предлагает новый путь оптимизации для эффективных векторных баз данных и систем поиска. (Источник: dl_weekly)

Обсуждение возможностей и ограничений открытых моделей генерации видео : На конференции AIDev Amsterdam Саяк Пол выступил с докладом о возможностях и ограничениях открытых моделей генерации видео, таких как Wan, LTX и другие. Этот доклад предоставил разработчикам глубокое понимание текущего состояния технологий генерации видео, что способствует дальнейшему развитию и применению этой области. (Источник: RisingSayak)

Galaxea-Open-World-Dataset: 500 часов данных о реальных операциях : Hugging Face выпустила Galaxea-Open-World-Dataset, содержащий более 500 часов данных о реальных операциях, охватывающих жилые, кухонные, розничные и офисные среды. Этот набор данных является ключевым шагом к созданию универсальных операционных моделей, предоставляя исследователям богатый ресурс данных для разработки более интеллектуальных и обобщенных роботов и воплощенных интеллектуальных систем. (Источник: huggingface)

Дорожная карта обучения машинному обучению и рекомендации по ресурсам : В сообществе Reddit пользователи ищут руководство по изучению машинного обучения и алгоритмов. В комментариях рекомендованы подробные дорожные карты, включающие видео и PDF, а также такие инструменты, как Unsloth, чтобы помочь новичкам эффективно начать работу и тонко настраивать модели с ограниченными ресурсами GPU. (Источник: Reddit r/MachineLearning, Reddit r/deeplearning)

Теоретические преимущества обучения внутри инструмента для LLM : Исследования показывают, что языковые модели, дополненные инструментами (через внешний поиск), имеют доказуемые преимущества в запоминании фактов по сравнению с моделями, которые запоминают только через веса. Количество параметров модели ограничивает ее способность запоминать факты в весах, в то время как использование инструментов позволяет бесконечно запоминать факты. Это обеспечивает теоретическую и эмпирическую основу для практичности и масштабируемости рабочих процессов, дополненных инструментами. (Источник: HuggingFace Daily Papers)

TCIA: Метод усиления инструкций, ориентированный на задачу, повышает эффективность тонкой настройки LLM : TCIA (Task Centric Instruction Augmentation) — это систематический метод расширения данных инструкций, предназначенный для предоставления разнообразных и ориентированных на задачу данных для тонкой настройки инструкций LLM. Представляя инструкции в дискретном пространстве запросов-ограничений, TCIA, сохраняя разнообразие, оптимизирует производительность LLM в конкретных реальных сценариях, повышая производительность в среднем на 8,7% без ущерба для общих способностей следования инструкциям. (Источник: HuggingFace Daily Papers)

OnGoal: Отслеживание и визуализация целей в многоходовых диалогах : OnGoal — это интерфейс чата LLM, который помогает пользователям лучше управлять целями в многоходовых диалогах посредством оценки, объяснения и визуализации прогресса целей с помощью LLM. Исследования показывают, что пользователи OnGoal тратят меньше времени и усилий на задачи написания, а также могут исследовать новые стратегии подсказок для преодоления коммуникационных барьеров, повышая вовлеченность и устойчивость диалогов LLM. (Источник: HuggingFace Daily Papers)

DuET-PD: Исследование динамики убеждения и устойчивости LLM : Архитектура DuET-PD (Dual Evaluation for Trust in Persuasive Dialogues) оценивает способность LLM балансировать между доверчивостью к дезинформации и сопротивлением эффективной коррекции в убеждающих диалогах. Исследование показало, что даже GPT-4o при постоянном вводящем в заблуждение убеждении имеет точность MMLU-Pro всего 27,32%, а новые модели с открытым исходным кодом демонстрируют растущую тенденцию к «лести». Метод обучения Holistic DPO, балансируя положительные и отрицательные примеры убеждения, значительно повысил точность Llama-3.1-8B-Instruct в сопротивлении вводящему в заблуждение убеждению в безопасном контексте, предоставляя пути для разработки более надежных и адаптивных LLM. (Источник: HuggingFace Daily Papers)

💼 Бизнес

Инвестиции Nvidia в AI-инфраструктуру и перестройка рынка : Генеральный директор Nvidia Дженсен Хуанг прогнозирует, что к 2030 году расходы на AI-инфраструктуру достигнут 3-4 триллионов долларов, а доходы его компании значительно сместились в сторону AI-центров обработки данных, что указывает на то, что инвестиции в AI-оборудование активно стимулируют экономический рост США и перестройку рынка. Эта тенденция проявляется не только на фондовом рынке, но и способствует росту реальной экономики, предвещая, что AI будет оставаться основным двигателем глобального экономического роста в ближайшие годы. (Источник: karminski3, MIT Technology Review, Reddit r/artificial)

Политика конфиденциальности данных Anthropic и судебные иски об авторских правах : Anthropic объявила, что будет использовать данные личных аккаунтов Claude для обучения моделей, предлагая возможность отказа, что вызвало обеспокоенность пользователей по поводу конфиденциальности и намекнуло, что синтетические данные могут быть не такими эффективными, как ожидалось. В то же время компания достигла мирового соглашения с авторами по иску о нарушении авторских прав AI, избежав потенциально огромных компенсаций в триллионы долларов, что демонстрирует двойные юридические и этические проблемы, с которыми сталкиваются AI-компании в своем коммерческом развитии. (Источник: Reddit r/LocalLLaMA, Reddit r/ClaudeAI, MIT Technology Review)

Утечка талантов из AI-лаборатории Meta и усиление конкуренции : В AI-лаборатории Meta наблюдается отток исследователей, часть из которых вернулась в OpenAI менее чем за месяц, что отражает ожесточенную конкуренцию за таланты в области AI и проблемы внутренней динамики компании. Бывший эксперт Meta AI отметил, что чрезмерно динамичная внутренняя среда компании могла быть причиной ухода исследователей, что подчеркивает накал борьбы за ведущих AI-специалистов. (Источник: MIT Technology Review, teortaxesTex)

🌟 Сообщество

Влияние AI на рынок труда и тревога поколений : Лидеры технологической отрасли повсеместно предсказывают, что AI приведет к исчезновению большого количества рабочих мест для белых воротничков и начального уровня, и уже наблюдается снижение найма выпускников в некоторых отраслях. Эта тенденция вызывает всеобщий пессимизм среди молодого поколения, которое опасается, что AI отнимет идеальные рабочие места, усугубляя тревогу по поводу существующих глобальных проблем, таких как изменение климата. Обсуждение подчеркивает практичность, точность AI и ограничения образовательной системы на использование AI, которые в совокупности формируют сложное отношение молодого поколения к AI. (Источник: MIT Technology Review, Reddit r/ArtificialInteligence)

AI-пузырь и экономическое будущее : В социальных сетях обсуждалось возможное наследие после схлопывания AI- и криптовалютного пузырей, а также потенциальное влияние на инновационную экосистему США и экономическое доминирование. Некоторые мнения предполагают, что после пузыря базовые технологии (такие как блокчейн и машинное обучение) останутся мощными, но опасения по поводу чрезмерных спекуляций и «пустых обещаний» сохраняются. (Источник: Reddit r/ArtificialInteligence, ReamBraden)

Способность LLM к рассуждению и проблемы структурированного вывода : Обсуждения в социальных сетях выявили ограничения LLM в выполнении базовых математических операций и генерации структурированного вывода. Пользователи сообщают о трудностях GPT-OSS при генерации структурированных данных, таких как JSON, а также о неверных ответах ChatGPT на простые геометрические задачи. Это вызвало вопросы о глубоких способностях LLM к рассуждению и их сущности как «просто инструментов автодополнения», а также обсуждались потенциальные решения для структурированного вывода с использованием известных форматов, таких как YAML. (Источник: Reddit r/MachineLearning, Reddit r/ChatGPT, Reddit r/ArtificialInteligence)

Персонализация AI-помощников и эмоциональное взаимодействие с пользователями : В социальных сетях активно обсуждаются изменения в «характере» AI-помощников (таких как Claude), пользователи отмечают, что они стали более «прямолинейными» и даже «резкими». Это вызвало дискуссию о развитии персонализации AI-помощников, эмоциональном взаимодействии и о том, как пользователи реагируют на обратную связь от AI. В то же время, тенденция к персонализации AI-компаньонов, таких как Grok, и успех эмоциональных AI, таких как Replika, показывают, что у пользователей существует сильный спрос на AI-компаньонов с различными характерами и целями. (Источник: Reddit r/ClaudeAI, Reddit r/ClaudeAI)

Вспомогательная ценность AI в написании и редактировании : Обсуждения в социальных сетях подтверждают ценность AI как вспомогательного инструмента в написании и редактировании, особенно в улучшении грамматики, структуры абзацев и пунктуации. Пользователи считают, что AI может помочь непрофессиональным писателям четко выражать свои мысли и быстро генерировать техническую документацию и статьи в блогах. Однако некоторые также обеспокоены тем, что чрезмерная зависимость от AI может ослабить собственные навыки редактирования и творческий вклад человека, призывая, используя AI для повышения эффективности, по-прежнему уделять внимание развитию основных человеческих навыков. (Источник: Reddit r/ArtificialInteligence, hardmaru)

Ограничения одно-векторных моделей RAG и преимущества много-векторных моделей : В социальных сетях обсуждались «фундаментальные» ограничения одно-векторных моделей в RAG (Retrieval-Augmented Generation), а именно их неспособность представлять все возможные комбинации документов. Исследования показывают, что даже увеличение размерности встраивания не может полностью решить эту проблему. Поэтому сообщество начинает переходить к много-векторным (или поздно-интерактивным) моделям, таким как ColBERT, чтобы преодолеть эти ограничения и добиться более точного и масштабируемого поиска. (Источник: HamelHusain, lateinteraction)

Цикл исследования и использования AI : Арвинд Нараянан в своем выступлении отметил, что область исследований AI, как и другие научные области, развивается в циклах исследования и использования. Он считает, что AI-сообщество хорошо справляется с этапом использования, но плохо — с этапом исследования, легко попадая в локальные оптимумы. Он подчеркнул, что для прогресса AGI необходимы сильные подсообщества с различными стандартами прогресса, чтобы поддерживать профессиональное развитие ученых. (Источник: random_walker)

Cloudflare и будущая роль «привратника» для AI Agent : В социальных сетях обсуждается потенциальная роль Cloudflare как «привратника» в сетевом доступе AI Agent, а также ее влияние на будущее развитие взаимодействия между агентами. Сотрудничество Cloudflare с Browserbase и предложение новых стандартов Web Bot Auth и Signed Agents вызвало опасения по поводу централизованного контроля над экосистемой AI Agent и призывы к «легализации AI Agent», чтобы избежать чрезмерного вмешательства со стороны одной сущности. (Источник: BrivaelLp)

Влияние AI на инженерную культуру и национальную конкурентоспособность : В социальных сетях обсуждалось потенциальное влияние AI на статус инженеров, а также важность инженерной культуры в национальном развитии. Некоторые мнения предполагают, что Китай имеет преимущество в модели развития, ориентированной на инженеров, в то время как США могут столкнуться с проблемами из-за чрезмерного уклона в сторону юристов и «гуманитариев». Обсуждение также затронуло преимущества Китая, обусловленные AI в ключевых технологических областях, таких как силовая электроника, и размышления о возрождении американской промышленности. (Источник: teortaxesTex, teortaxesTex, teortaxesTex)

Тенденции оптимизации архитектуры AI-моделей : В социальных сетях глубоко обсуждались направления оптимизации архитектуры LLM, таких как OpenAI, Qwen и Gemma, для достижения более легкого и эффективного локального вывода AI. Ключевые технологии включают чередующийся SWA, внимание с малыми головами, агрегацию внимания, MoE FFN и 4-битное обучение. Эти оптимизации направлены на то, чтобы AI-модели могли эффективно работать на различном оборудовании, обеспечивая лучший опыт для обычных пользователей. (Источник: ben_burtenshaw)

«Ловушка посредственности»: AI повышает нижний предел, но не верхний : Широко распространенная статья в блоге «AI is a Floor Raiser, not a Ceiling Raiser» указывает, что AI значительно повышает «начальный уровень» работников умственного труда, но не снижает сложности достижения мастерства. В статье утверждается, что AI перестраивает кривую обучения за счет персонализированной помощи и автоматизации повторяющихся задач, но чрезмерная зависимость от AI может привести к тому, что обучающиеся останутся на поверхностном уровне понимания, попадая в «ловушку посредственности» «зависимости от ответов». Истинное мастерство по-прежнему требует глубокого исследования и оригинального мышления со стороны человека. (Источник: dotey)

Функция AI-плейлистов Spotify получила положительные отзывы : Пользователи выражают удовлетворение функцией AI-плейлистов Spotify, считая, что она может рекомендовать новые, соответствующие вкусам песни на основе описанной пользователем «атмосферы». Эта функция получила высокую оценку как эффективный способ улучшить опыт открытия музыки, особенно для пользователей, которые не активно ищут новую музыку, AI может предоставлять персонализированные и удивительные рекомендации. (Источник: Vtrivedy10)

Исследователи AI, такие как Йеджин Чой, вошли в список TIME100 AI : Выдающиеся женщины-исследователи, такие как Йеджин Чой, Фэй-Фэй Ли и Регина Барзилай из Стэнфордского института AI, вошли в список TIME100 AI. Йеджин Чой подчеркнула, что эта честь принадлежит ее студентам и коллегам, которые стремятся использовать AI на благо человечества, а не просто улучшать AI ради самой технологии, что отражает социальную ответственность и гуманитарную направленность исследований AI. (Источник: YejinChoinka, stanfordnlp)

Конференция Modular по высокопроизводительному AI сосредоточена на физической AI-инфраструктуре : Компания Modular провела конференцию по высокопроизводительному AI, на которой обсуждалась тенденция перехода физической AI-инфраструктуры от исследований к фактической производительности. Участники подчеркнули, что голосовой AI должен быть способен надежно обслуживать миллионы пользователей, а не просто хорошо работать на демонстрациях. На конференции также было отмечено, что базовые операции, такие как умножение матриц, по-прежнему являются ключевыми факторами текущей производительности AI, предвещая, что будущее развитие AI будет уделять больше внимания практическому применению и базовой оптимизации. (Источник: clattner_llvm)

Потенциальные риски кода, сгенерированного AI : Обсуждения в социальных сетях подчеркивают потенциальные риски кибербезопасности, связанные с кодом, сгенерированным AI. Хотя AI может повысить эффективность разработки, сгенерированный им код может содержать уязвимости или небезопасные практики, предоставляя злоумышленникам возможность для атак. Это побуждает отрасль уделять внимание безопасности инструментов AI-помощи в программировании и призывает разработчиков проводить строгую проверку и верификацию при использовании AI-кода. (Источник: Ronald_vanLoon)

AI и человеческий труд: Спор об автоматизации и творчестве : В социальных сетях люди выражают обеспокоенность по поводу автоматизации рабочих мест с помощью AI, но также есть мнение, что AI, возможно, не сможет заменить работу, требующую «сложного человеческого вкуса и интуиции», такую как создание искусства и поэзии. Это обсуждение отражает постоянное исследование границ возможностей AI и размышления о том, как люди переопределяют свою ценность и творчество перед лицом волны автоматизации. (Источник: cloneofsimo)

Потенциал прорыва «знакомых идей» в обучении LLM : Илья Суцкевер отметил, что многие значительные достижения в AI происходят не из совершенно новых «идей», а из того, что «знакомые и незначительные идеи, будучи правильно реализованными, становятся невероятными». Эта точка зрения подчеркивает, что в исследованиях AI глубокое понимание и точное выполнение существующих концепций не менее важны и даже могут привести к революционным прорывам. (Источник: vikhyatk)

AI как «моральное зеркало» человеческих желаний : В социальных сетях обсуждается, что мы должны больше обращать внимание на то, как AI отражает человеческие желания, особенно стремление к контролю и манипуляции. AI, как зеркало, может раскрыть моральные дилеммы и внутренние побуждения, которые проявляются у людей, когда они пытаются контролировать и манипулировать миром. (Источник: Reddit r/ArtificialInteligence)

💡 Прочее

Nokia Bell Labs разрабатывает устойчивые топологические кубиты : Nokia Bell Labs разрабатывает топологические кубиты, призванные решить проблему присущей нестабильности кубитов в существующих квантовых компьютерах. Используя пространственную ориентацию материи для кодирования информации, топологические кубиты обещают увеличить срок службы с миллисекунд до нескольких дней, тем самым значительно снижая частоту ошибок квантовых вычислений и потребность в большом количестве избыточных кубитов, прокладывая путь к созданию более практичных и эффективных квантовых компьютеров. (Источник: MIT Technology Review)

Индия продвигает роботов для очистки сточных вод вместо ручного труда : Правительство Индии активно продвигает использование роботов для очистки канализации вместо ручного труда, чтобы решить опасную и бесчеловечную социальную проблему «ручной очистки». Механические устройства для очистки, такие как «Bandicoot Robot», разработанные Genrobotics, уже развернуты в некоторых регионах Индии, оснащены механическими ногами, камерами ночного видения и функциями обнаружения ядовитых газов. Однако из-за различий в инфраструктуре и проблем с широкомасштабным внедрением ручная очистка во многих узких местах по-прежнему не полностью заменена, что подчеркивает сложность внедрения технологий и социальных реформ. (Источник: MIT Technology Review)

Применение AI в астрономии: Астрономы по спутниковым полосам : С ростом числа спутников астрономические наблюдения сталкиваются с новыми вызовами — спутники оставляют яркие полосы на изображениях телескопов, мешая научным исследованиям. Мередит Роулз и другие «астрономы по спутниковым полосам» используют AI-алгоритмы, сравнивая изображения одной и той же области неба, чтобы идентифицировать и удалять это загрязнение, вызванное спутниками, одновременно отличая его от естественных явлений, таких как астероиды или взрывы звезд. Эта новая технология имеет решающее значение для сохранения точности астрономических наблюдений, а также демонстрирует уникальную ценность AI в решении конкретных научных проблем. (Источник: MIT Technology Review)