AI Ежедневник — 2025-04-17(Утро)

Ключевые слова:AI, OpenAI, o3/o4-mini модель, Gemini 2.5 Pro, AI инструменты программирования, мультимодальные AI технологии, AI агенты, AI программирование, мультимодальный искусственный интеллект, интеллектуальные AI агенты, OpenAI технологии, o3/o4-mini модели ИИ, Gemini 2.5 Pro возможности, инструменты для AI разработки

🔥 В центре внимания

OpenAI потрясающе анонсирует o3 и o4-mini, открывая новую эру “мышления по изображениям”: OpenAI официально представила свою последнюю флагманскую модель для “рассуждений” o3 и упрощенную версию o4‑mini. Эти две модели впервые реализовали “мышление с использованием изображений”, позволяя встраивать и обрабатывать изображения (например, увеличивать, поворачивать) в цепочке рассуждений, сочетая их с текстовым анализом. Они также впервые могут автономно комбинировать и использовать все инструменты внутри ChatGPT (веб-поиск, выполнение кода Python, анализ файлов, генерация изображений) для решения сложных задач. o3 обновила рекорды SOTA во многих бенчмарках, таких как Codeforces, SWE-bench, MMMU, особенно выделяясь в визуальных рассуждениях и многошаговых задачах, при этом частота серьезных ошибок снизилась на 20% по сравнению с o1. o4-mini, в свою очередь, превосходит o3-mini в задачах по математике, программированию и зрению при меньшей задержке и стоимости. Одновременно OpenAI выпустила легковесного ИИ-агента для программирования в терминале Codex CLI с открытым исходным кодом и запустила программу грантов на миллион долларов. Новые модели уже доступны пользователям ChatGPT Plus/Pro/Team и разработчикам через API, что знаменует собой продвижение ИИ к более мощным мультимодальным и агентным возможностям.(Источник: OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰,首用图像思考,十倍算力爆表openaisamakarminski3karminski3samagdbkarminski3samadoteyopenaikarminski3op7418gdb

)

OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰,首用图像思考,十倍算力爆表

Google выпускает Gemini 2.5 Pro Experimental, занимая первое место в Chatbot Arena: Google представила первую модель из семейства Gemini 2.5 — Gemini 2.5 Pro Experimental, а также анонсировала версию с низкой задержкой Gemini 2.5 Flash. Модель поддерживает ввод текста, аудио, изображений, видео (до 1 миллиона токенов, в будущем планируется 2 миллиона) и вывод текста (до 65 тысяч токенов). Ее отличительной чертой являются мощные возможности рассуждения, достигаемые за счет генерации скрытых токенов рассуждений (цепочка мыслей) перед ответом. На Chatbot Arena Gemini 2.5 Pro Experimental превзошла GPT-4o и Grok 3 Preview с рейтингом Elo 1437, заняв первое место. В 12 бенчмарках она превзошла топовые модели, включая o3-mini, GPT-4.5, Claude 3.7 Sonnet, в 7 из них. Это свидетельствует о быстром прогрессе ИИ-моделей, особенно моделей для рассуждений. Google планирует в будущем наделить все новые модели возможностями рассуждения.(Источник: Google Unveils Gemini 2.5, MCP Gains Momentum, Behind Sam Altman’s Fall and Rise, LLMs That Understand Misspellings)

Google Unveils Gemini 2.5, MCP Gains Momentum, Behind Sam Altman’s Fall and Rise, LLMs That Understand Misspellings

🎯 Тенденции

OpenAI выпускает серию моделей GPT-4.1, ориентированную на низкую стоимость и высокую эффективность: OpenAI представила серию GPT-4.1, включающую GPT-4.1, GPT-4.1 Mini и GPT-4.1 Nano. Основные характеристики — снижение стоимости и повышение скорости. GPT-4.1 Mini превосходит GPT-4o во многих бенчмарках, имеет значительно меньшую задержку и на 83% ниже стоимость. GPT-4.1 Nano — первая сверхмалая модель, поддерживающая контекст в 1 миллион токенов, подходящая для задач с низкой задержкой. Все три модели увеличили размер контекстного окна со 128K до 1 миллиона токенов. По ценам: GPT-4.1 стоит $2/$8 за миллион токенов ввода/вывода, что на 26% дешевле GPT-4o; Nano стоит $0.1/$0.4. Этот шаг рассматривается как ответ на ценовую войну со стороны конкурентов, таких как DeepSeek. В то же время дорогостоящий проект GPT-4.5 приостановлен.(Источник: 压力给到梁文锋

)
Протокол контекста модели (MCP) получает поддержку OpenAI, экосистема ускоряет интеграцию: OpenAI объявила о поддержке Протокола контекста модели (MCP) в своих Agents SDK, десктопном приложении ChatGPT и Responses API. MCP был инициирован Anthropic в конце прошлого года с целью создания открытого стандарта для подключения ИИ-моделей к инструментам и источникам данных. Через MCP модели могут получать доступ к растущей экосистеме ресурсов, включая более 6000 серверов и коннекторов, созданных сообществом (например, веб-поиск, операции с файловой системой). Ранее Microsoft интегрировала MCP в CoPilot Studio, Cloudflare поддержала развертывание удаленных серверов MCP, а редактор кода Cursor также добавил поддержку. Присоединение OpenAI значительно ускорит превращение MCP в фактический стандарт для создания приложений AI Agent, упрощая разработчикам интеграцию различных сторонних инструментов и источников данных.(Источник: Google Unveils Gemini 2.5, MCP Gains Momentum, Behind Sam Altman’s Fall and Rise, LLMs That Understand Misspellings)

模型上下文协议(MCP)获OpenAI支持,生态系统加速整合

ByteDance выпускает Kling 2.0, улучшая качество генерации видео: Kling 2.0 — последняя модель генерации видео от ByteDance. Согласно отзывам пользователей и демонстрациям, Kling 2.0 отлично справляется с созданием плавных и реалистичных видеосцен, превосходя предыдущие версии и конкурентов, таких как Sora, особенно в преобразовании изображений в видео. Пользователи могут сначала использовать инструменты, такие как ChatGPT, для создания изображений с хорошей текстовой точностью, а затем использовать Kling 2.0 для их преобразования в динамическое видео. Это свидетельствует о постоянном прогрессе технологии генерации видео в плане связности сцен и реализма.(Источник:

)
Google выпускает DolphinGemma для исследования тайны общения дельфинов: Google AI запустил проект DolphinGemma, направленный на использование технологий ИИ для расшифровки способов общения дельфинов. Проект накопил огромный набор данных звуков дельфинов и обучил модель с 400 миллионами параметров (которая может работать на телефоне Pixel 9) для анализа этих звуков в поисках паттернов и правил, которые могут указывать на язык. Исследование находится на начальной стадии, и пока неясно, обладают ли дельфины сложным языком, подобным человеческому, но уже выявлены типы звуков, связанные с определенным поведением (например, именование, драки, ухаживание). Конечная цель — понять структуру и потенциальное значение звуков дельфинов и попытаться установить простое двустороннее общение с дельфинами путем генерации определенных звуков.(Источник:

)
IBM выпускает серию моделей Granite 3.3, включая распознавание речи: IBM представила серию моделей Granite 3.3, в которую входит модель распознавания речи с 8 миллиардами параметров (Granite Speech 3.3). Модель использует двухэтапный подход, направленный на обработку речи без снижения основных возможностей LLM. Новое семейство моделей призвано обеспечить более отточенные возможности рассуждения и улучшенную производительность RAG (Retrieval-Augmented Generation), а также поддерживает тонкую настройку LoRA. Эти модели могут быть интегрированы в ИИ-помощники в различных областях.(Источник: Reddit r/LocalLLaMA)

IBM发布Granite 3.3系列模型,包含语音识别

ИИ революционизирует прогнозирование погоды, значительно повышая эффективность: Искусственный интеллект незаметно меняет область прогнозирования погоды. Задачи прогнозирования, которые традиционно требовали больших команд экспертов и суперкомпьютеров, теперь могут выполняться с помощью ИИ-моделей на ноутбуке. ИИ способен обрабатывать и анализировать огромные объемы метеорологических данных, выявлять сложные закономерности, тем самым генерируя более быстрые и, возможно, более точные прогнозы погоды. Это знаменует собой важное применение ИИ в области научных вычислений и прогнозирования, обещая повысить своевременность и охват прогнозов.(Источник: Reddit r/ArtificialInteligence)
Приложение Google Gemini добавляет поддержку LaTeX: Приложение Google Gemini обновлено с добавлением поддержки LaTeX. Теперь пользователи могут использовать синтаксис LaTeX в приложении Gemini для отображения математических формул, научных символов и т. д. Обновление охватывает модели Gemini 2.0 Flash и 2.5 Pro, повышая практичность Gemini в академических и технических сценариях общения.(Источник: JeffDean)
Meta предлагает Byte Latent Transformer (BLT) для повышения устойчивости LLM к зашумленным входным данным: Исследователи из Meta и других организаций представили Byte Latent Transformer (BLT), предназначенный для замены традиционных токенизаторов. BLT напрямую обрабатывает последовательности байтов (символов), используя небольшой байтовый Transformer для прогнозирования вероятности следующего байта и динамически группируя байты на основе энтропии: низкая энтропия (высокая предсказуемость) — байт добавляется в текущую группу, высокая энтропия (низкая предсказуемость) — начинается новая группа. Система включает кодировщик, латентный Transformer и декодер, всего 8 миллиардов параметров. Эксперименты показывают, что BLT немного превосходит Llama 3 аналогичного размера в общих языковых и кодовых бенчмарках и демонстрирует значительно более высокую устойчивость к зашумленным входным данным, таким как орфографические ошибки и редкие языки, поскольку лучше понимает сходство на уровне символов.(Источник: Google Unveils Gemini 2.5, MCP Gains Momentum, Behind Sam Altman’s Fall and Rise, LLMs That Understand Misspellings)

Meta提出字节级潜 Transformer (BLT),提升LLM对噪声输入的鲁棒性

Новое исследование изучает масштабирование совместного рассуждения нескольких агентов во время тестирования: Статья под названием «Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning» была представлена на arXiv. Исследование фокусируется на том, как улучшить производительность в сложных задачах рассуждения, заставляя нескольких ИИ-агентов сотрудничать во время тестирования (вывода), исследуя путь масштабирования, который повышает возможности модели без увеличения затрат на обучение.(Источник: Reddit r/MachineLearning)
Управление ИИ-агентами становится новым фокусом: По мере роста возможностей ИИ-агентов (Agentic AI) вопрос их эффективного управления становится важной темой. Это включает обеспечение соответствия поведения агентов ожиданиям, их безопасности и управляемости, соблюдение этических норм и т. д. Необходимо создать соответствующие рамки, стандарты и механизмы регулирования для управления этими «синтетическими разумами», способными к автономным действиям и принятию решений.(Источник: Ronald_vanLoon)

Agentic #AI: Governance for the Synthetic Mind

ИИ генерирует высококачественные изображения быстрее существующих SOTA методов: Исследователи из Массачусетского технологического института (MIT) разработали новый инструмент искусственного интеллекта, который способен превосходить современные (SOTA) методы генерации высококачественных изображений, при этом работая быстрее. Это свидетельствует о продолжающихся прорывах в области генерации изображений как в эффективности, так и в качестве.(Источник: Ronald_vanLoon)

#AI tool generates high-quality images faster than state-of-the-art approaches

xAI представляет функцию, подобную Canvas, для Grok AI: xAI добавила в свой чат-бот Grok AI функцию, аналогичную ChatGPT Canvas. Функции типа Canvas обычно предоставляют бесконечный холст, позволяя пользователям более свободно и визуально организовывать информацию и взаимодействовать с ней, комбинируя текст, код, изображения и т. д. Этот шаг позволяет Grok догнать ChatGPT в плане пользовательского опыта взаимодействия, причем эта функция предоставляется бесплатно.(Источник: Reddit r/ArtificialInteligence)

xAI为Grok AI引入类Canvas功能

🧰 Инструменты

Anx Reader: Кроссплатформенный ридер электронных книг с интеграцией нескольких ИИ-движков: Anx Reader — это ридер электронных книг, поддерживающий множество форматов, таких как EPUB, MOBI, AZW3, FB2, TXT, и доступный на iOS/macOS/Windows/Android. Его особенностью является интеграция различных ИИ-возможностей от OpenAI, Claude, Gemini, DeepSeek и др., которые можно использовать для резюмирования контента, задания вопросов, быстрого получения информации и т. д. Приложение поддерживает синхронизацию прогресса чтения, файлов книг и заметок через WebDAV, предлагает широкие возможности настройки стиля чтения (межстрочный интервал, шрифт, цветовая схема и т. д.) и включает функции TTS-озвучивания, перевода, поиска, записи идей и др. Цель — предоставить интеллектуальный, сфокусированный и персонализированный опыт чтения.(Источник: Anxcye/anx-reader — GitHub Trending (all/daily))

Anx Reader:集成多AI引擎的跨平台电子书阅读器

OpenAI выпускает Codex CLI с открытым исходным кодом: легковесный ИИ-агент для программирования, работающий локально: В дополнение к выпуску o3/o4-mini, OpenAI открыла исходный код Codex CLI, ИИ-агента для программирования, который можно запускать в терминале. Он позволяет разработчикам с помощью команд на естественном языке заставлять ИИ выполнять задачи кодирования непосредственно на локальном компьютере, такие как написание кода, установка зависимостей, настройка среды, исправление ошибок и т. д. Codex CLI предназначен для использования мощных возможностей рассуждения моделей, таких как o3/o4-mini, и может сочетать мультимодальный ввод (например, скриншоты) с доступом к локальному коду. Инструмент призван упростить процесс разработки, особенно для новичков. OpenAI также запустила программу грантов на 1 миллион долларов для поддержки проектов на основе этого инструмента.(Источник: OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰,首用图像思考,十倍算力爆表samakarminski3doteysamadotey)

OpenAI开源Codex CLI:本地运行的轻量级编程AI智能体

Модели Cohere доступны на Hugging Face Hub, предоставляя услуги вывода: Cohere объявила, что ее модели стали первым сторонним поставщиком услуг вывода, поддерживаемым на Hugging Face Hub. Теперь пользователи могут напрямую получать доступ к моделям Cohere с открытым исходным кодом (например, серия Aya) и корпоративным моделям (например, серия Command) на Hub и выполнять быстрый вывод. Эти модели особенно сильны в использовании инструментов и многоязычных возможностях, а также предоставляют интерфейс, совместимый с OpenAI, что облегчает разработчикам интеграцию и создание приложений.(Источник: huggingfacehuggingfacehuggingface)

Cohere模型登陆Hugging Face Hub,提供推理服务

Выпущен LocalAI v2.28.0 и представлена локальная платформа ИИ-агентов LocalAGI: LocalAI, сервер для локального запуска LLM с предоставлением API, совместимого с OpenAI, обновлен до версии v2.28.0. Одновременно представлена совершенно новая платформа LocalAGI. LocalAGI — это самоуправляемая платформа оркестрации ИИ-агентов с веб-интерфейсом, позволяющая пользователям создавать сложные, многошаговые рабочие процессы ИИ-агентов (аналогично AutoGPT). Ключевым моментом является то, что эти агенты могут управляться локальными LLM, предоставляемыми через LocalAI или другие совместимые API (например, llama-cpp-python). В сочетании с локальным хранилищем памяти LocalRecall пользователи могут запускать автономных ИИ-агентов в полностью локализованной среде для выполнения таких задач, как исследования, кодирование, обработка контента и т. д.(Источник: Reddit r/LocalLLaMA)

LocalAI v2.28.0发布,并推出本地AI智能体平台LocalAGI

Фреймворк Droidrun с открытым исходным кодом: управление телефоном Android с помощью ИИ: Droidrun — это фреймворк, позволяющий пользователям управлять телефоном Android для выполнения задач с помощью ИИ (например, больших языковых моделей), теперь доступен с открытым исходным кодом на GitHub. Пользователи могут с помощью команд на естественном языке заставить ИИ выполнять операции на телефоне, такие как открытие приложений, нажатие кнопок, ввод текста и т. д. Для этого требуется установка инструмента ADB (Android Debug Bridge). Фреймворк демонстрирует новые возможности ИИ в автоматизации и взаимодействии с мобильными устройствами.(Источник: karminski3)

Droidrun框架开源:用AI控制安卓手机

Выпущен LLManager: автоматизированный рабочий процесс утверждения на основе памяти: LLManager — это рабочий процесс с открытым исходным кодом, созданный с использованием LangGraph, предназначенный для автоматизации задач утверждения с помощью ИИ-агентов, обладающих памятью. Система способна генерировать память через взаимодействие человека с циклом (human-in-the-loop), тем самым обучаясь и улучшая решения по утверждению со временем. Архитектура разработана для обработки повторяющихся процессов утверждения, повышая эффективность.(Источник: LangChainAI)

LLManager发布:基于记忆的自动化审批工作流

LangGraph.js интегрируется с Hono, поддерживая пользовательские HTTP-маршруты и промежуточное ПО: LangGraph.js (JS-версия библиотеки LangChain для создания многоагентных приложений с состоянием) теперь может интегрироваться с Hono (легковесный веб-фреймворк). Это позволяет разработчикам добавлять пользовательские HTTP-маршруты и промежуточное ПО (middleware) в приложения LangGraph.js, тем самым создавая более сложные бэкэнд-сервисы, такие как обработка webhook, создание полноценных API-приложений и т. д., расширяя сценарии применения LangGraph.js.(Источник: LangChainAI)

LangGraph.js集成Hono,支持自定义HTTP路由和中间件

Начались продажи гуманоидного робота Reachy 2 с открытым исходным кодом: Соучредитель Hugging Face Клем Деланж объявил, что на этой неделе начались продажи Reachy 2, первого гуманоидного робота с открытым исходным кодом, в разработке которого участвовала его команда. Робот стоит 70 000 долларов, ориентирован на исследовательский и образовательный рынки и уже используется в Корнельском университете, Университете Карнеги-Меллона и крупных лабораториях ИИ. Он имеет человекоподобную форму, всенаправленную мобильную базу, богатый набор датчиков (камеры, микрофоны, лидар и т. д.), основан на ROS 2 и LeRobotHF, поддерживает Python SDK и имеет модульную конструкцию, позволяющую настраивать его.(Источник: huggingface)

开源人形机器人Reachy 2开始销售

Perplexity запускает браузер Comet, исследуя нативный ИИ-браузинг: CEO Perplexity Арав Шринивас разрабатывает браузер под названием Comet и ищет идеи по росту продукта и функциональности. Comet стремится стать воплощением “агентной ОС” (agentic OS), управляя веб-приложениями и данными через браузер, используя ИИ для ответов на вопросы и выполнения задач. Идея заключается в том, что, поскольку большинство приложений находятся в вебе, ИИ, контролирующий браузер, может контролировать большую часть цифровой жизни. Проект подчеркивает начало с малого, избегая чрезмерных обещаний универсальных возможностей.(Источник: AravSrinivasAravSrinivasAravSrinivasAravSrinivasAravSrinivas)

cool query on my comet browser for handling my X addiction.

Приложение Claude поддерживает скрипт для автоматического утверждения запросов MCP: Пользователь сообщества поделился JavaScript-скриптом, который можно запустить в консоли инструментов разработчика приложения Claude для автоматического утверждения запросов MCP (Протокол контекста модели) из предопределенного списка доверенных инструментов. Это может избавить пользователей, часто использующих определенные локальные или удаленные инструменты, от необходимости каждый раз вручную нажимать «Разрешить», повышая эффективность рабочего процесса. Однако пользователи должны помнить о рисках безопасности и включать эту функцию только для полностью доверенных инструментов.(Источник: Reddit r/ClaudeAI)

Claude App支持自动批准MCP请求脚本

Рекомендации по обязательным серверам MCP для автоматизации кодирования и рабочих процессов: Пользователь сообщества поделился списком рекомендуемых серверов MCP (Протокол контекста модели), которые можно интегрировать с ИИ-моделями, поддерживающими MCP (например, Claude), или фреймворками Agent для повышения эффективности кодирования и автоматизации. Список рекомендаций включает: Sequential Thinking MCP для структурированного мышления, Puppeteer MCP для взаимодействия с веб-страницами, Memory Bank MCP для управления знаниями проекта, Playwright MCP для кросс-браузерного тестирования, GitHub MCP для операций с GitHub, Knowledge Graph Memory MCP для постоянной памяти, DuckDuckGo MCP для поиска без ключа API и MCP Compass для поиска других инструментов MCP.(Источник: Reddit r/ClaudeAI)

必备MCP服务器推荐,助力编码与工作流自动化

📚 Обучение

Репозиторий GitHub: Полное руководство по продвинутым техникам RAG: Репозиторий GitHub RAG_Techniques, созданный Ниром Диамантом, предоставляет самую полную на данный момент коллекцию учебных пособий по продвинутым техникам Retrieval-Augmented Generation (RAG). Репозиторий направлен на повышение точности, эффективности и контекстной насыщенности систем RAG, охватывая более 30 техник: от базовой реализации (LangChain/LlamaIndex), оптимизации разбиения текста (фиксированный размер, пропозициональное разбиение, семантическое разбиение), улучшения запросов (трансформация, HyDE, HyPE), обогащения контекста (заголовки блоков, извлечение релевантных фрагментов, расширение окна, дополнение документа), до продвинутого поиска (слияние, переранжирование, многоаспектная фильтрация, иерархическая индексация, интеграция, мультимодальность), итеративных техник (обратная связь, адаптация, итеративный поиск), оценки (DeepEval, GroUSE), интерпретируемости и передовых архитектур (Graph RAG, RAPTOR, Self-RAG, CRAG), с реализациями в Jupyter Notebook или Python скриптах. Проект управляется сообществом и поощряет вклад.(Источник: NirDiamant/RAG_Techniques — GitHub Trending (all/daily))

GitHub仓库:高级RAG技术全面指南

DeepLearning.AI запускает новый курс: Создание ИИ-агентов для браузера: Эндрю Ын объявил о сотрудничестве с AGI Inc. для запуска нового краткосрочного курса «Building AI Browser Agents». Курс ведут соучредители AGI Inc. Див Гарг и Наман Гарг, он посвящен созданию ИИ-агентов, способных взаимодействовать с веб-сайтами и выполнять задачи (например, извлечение информации, заполнение форм, клики, размещение заказов). Содержание курса включает принципы работы веб-агентов, архитектуру, ограничения, стратегии принятия решений, практическое создание веб-агента для извлечения курсов DeepLearning.AI и структурированного вывода, создание автономного агента для выполнения нескольких задач (поиск и резюмирование веб-страниц, заполнение форм, подписка), изучение фреймворка AgentQ (сочетание поиска по дереву Монте-Карло MCTS и прямой оптимизации предпочтений DPO для самокоррекции), углубленное изучение принципов MCTS, а также обсуждение текущего состояния и будущего ИИ-агентов.(Источник: AndrewYNg)
Hugging Face обновляет документацию по квантованию, предоставляя концептуальное руководство и бенчмарки для выбора: Hugging Face значительно обновила свою документацию по квантованию моделей. Новая документация призвана помочь пользователям лучше понять концепции квантования и выбрать подходящую технологию в соответствии с их потребностями. Обновленное содержание включает: объяснение основ квантования (например, схемы, int4, FP8), новое руководство по выбору (помогающее выбрать между технологиями, такими как bnb, AWQ, GPTQ, HQQ, в зависимости от потребностей и оборудования), а также данные бенчмарков точности и производительности для популярных методов квантования на моделях Llama 3.1 8B и 70B. Это предоставляет ценный справочный материал для разработчиков, желающих сжать модели и повысить эффективность вывода.(Источник: huggingface)

Hugging Face更新量化文档,提供概念指南与选型基准

Новый метод MODE: легковесная, интерпретируемая альтернатива RAG: Независимый исследователь Рахул Ананд предложил новый метод под названием MODE (Mixture of Document Experts) в качестве легковесной альтернативы традиционному процессу RAG. MODE не полагается на векторные базы данных и переранжировщики, а извлекает информацию путем кластеризации документов и использования поиска на основе центроидов. Утверждается, что этот метод эффективен и обладает высокой интерпретируемостью, особенно подходя для наборов данных малого и среднего размера. Автор ищет одобрения от arXiv (в области cs.AI) для публикации статьи.(Источник: Reddit r/MachineLearning)

新方法MODE:轻量级、可解释的RAG替代方案

Репозиторий GitHub Beyond-NanoGPT: Продвинутый ресурс для перехода от новичка в LLM к исследователю ИИ: Танишк Кумар открыл исходный код репозитория GitHub под названием beyond-nanoGPT. Проект призван помочь учащимся, уже освоившим основы LLM на уровне nanoGPT, глубже понять и реализовать сложные идеи, близкие к переднему краю исследований в области глубокого обучения. Репозиторий содержит тысячи строк аннотированного кода PyTorch, реализующего с нуля различные современные достижения в исследованиях ML, включая спекулятивное декодирование (speculative decoding), визуальные/диффузионные трансформеры, линейное/разреженное внимание и др. Цель проекта — помочь большему числу людей перейти в область исследований ИИ.(Источник: Reddit r/MachineLearning)
Учебник: Обучение чат-бота на основе репозитория GitHub с использованием AI Scraper и LLM: Статья, опубликованная в блоге Stackademic, описывает, как использовать AI Scraper (инструмент для веб-скрейпинга) и большие языковые модели (LLM) для обучения чат-бота, способного отвечать на вопросы о конкретном репозитории GitHub. Этот метод обычно включает извлечение кода, документации (например, README), Issues и другой информации из репозитория, ее обработку в формат, понятный LLM, а затем использование RAG (Retrieval-Augmented Generation) или тонкой настройки, чтобы чат-бот мог отвечать на вопросы на основе этой информации.(Источник: Reddit r/ArtificialInteligence)

教程:使用AI Scraper和LLM训练基于GitHub仓库的聊天机器人

Разбор статьи: Использование Layer-Wise Relevance Propagation (LRP) для объяснимого ИИ (XAI) на табличных данных: В блог-посте рассматривается, как использовать технику Layer-Wise Relevance Propagation (LRP) для объяснения процесса принятия решений моделями глубокого обучения при обработке табличных данных. LRP — это метод атрибуции, направленный на разложение прогноза модели на входные признаки, тем самым выявляя, какие признаки внесли наибольший вклад в окончательное решение. Применение LRP к табличным данным помогает понять поведение модели, повысить прозрачность и достоверность.(Источник: Reddit r/deeplearning)

XAI in Action: Unlocking Explainability with Layer-Wise Relevance Propagation for Tabular Data

💼 Бизнес

Zhipu AI начинает подготовку к листингу, планирует завершить в течение года: Китайская ИИ-компания Zhipu AI официально начала процесс подготовки к листингу под руководством CICC. Согласно отчету о подаче заявки, Zhipu AI планирует завершить подготовку к IPO в период с августа по октябрь 2025 года. Ранее CEO компании Чжан Пэн заявлял, что путь к AGI долог, а полученное финансирование — это лишь «дорожные расходы», и в будущем потребуется больше средств. Это IPO рассматривается как ключевой шаг для получения «больших дорожных расходов». Zhipu AI является важным игроком в области больших моделей в Китае, и процесс ее IPO привлекает большое внимание.(Источник: 压力给到梁文锋)
Стартап Gumloop из 2 человек привлек более 100 миллионов юаней с помощью ИИ: Платформа без кода Gumloop, имеющая всего двух основателей в качестве штатных сотрудников, недавно завершила раунд финансирования серии A на сумму 17 миллионов долларов США (около 124 миллионов юаней). Компания начинала с предоставления удобного пользовательского интерфейса для Auto-GPT, а затем превратилась в платформу для создания рабочих процессов ИИ AgentHub для нетехнических специалистов, способную интегрировать инструменты, такие как GitHub, Gmail, и автоматизировать обработку документов, веб-скрейпинг, SEO, CRM, email-маркетинг и другие задачи. Сама Gumloop активно использует ИИ-агентов для ведения бизнеса, а цель основателей — создать компанию с оценкой в 1 миллиард долларов с командой не более 10 человек. Это отражает возможность малых команд в эпоху ИИ достигать высокой эффективности и ценности с помощью ИИ-инструментов, а также предпринимательские возможности в решении проблемы «последней мили» внедрения ИИ-приложений.(Источник: 把AI当成“牛马”,2人创业团队,拿下了超1亿元融资)
Слухи: OpenAI планирует приобрести компанию по разработке ИИ-инструментов для программирования Windsurf (ранее Codeium) за 3 миллиарда долларов: По сообщению Bloomberg со ссылкой на информированные источники, OpenAI ведет переговоры о приобретении компании по разработке ИИ-инструментов для программирования Windsurf (ранее Codeium) примерно за 3 миллиарда долларов. Если сделка состоится, это будет крупнейшее приобретение в истории OpenAI, направленное на усиление ее конкурентоспособности на рынке ИИ-помощников для программирования в прямой конкуренции с Anthropic, GitHub Copilot, Anysphere (Cursor) и др. Windsurf была основана в 2021 году, ранее оценивалась в 1,25 миллиарда долларов и уже привлекла более 200 миллионов долларов финансирования. Эти слухи о приобретении также предвещают возможную консолидацию в области ИИ-инструментов для программирования.(Источник: dotey)
Компания Ильи Суцкевера Safe Superintelligence, по сообщениям, оценивается в 32 миллиарда долларов: По данным TechCrunch, новая компания Safe Superintelligence (SSI), основанная соучредителем OpenAI Ильей Суцкевером, в последнем раунде финансирования была оценена в 32 миллиарда долларов. Сообщается, что компания привлекла 2 миллиарда долларов инвестиций. Цель SSI — безопасное создание сверхинтеллекта, и ее высокая оценка отражает большие ожидания рынка в отношении ведущих талантов в области ИИ и видения AGI, несмотря на то, что компания пока не выпустила ни одного продукта.(Источник:

)
Торговая война США и Китая может повлиять на развитие ИИ, поставки чипов в центре внимания: Некоторые аналитики считают, что торговая война США с Китаем, особенно ограничения на экспорт высокопроизводительных ИИ-чипов (таких как серии NVIDIA H100/B200), а также потенциальные ответные меры Китая по ограничению экспорта редкоземельных минералов, создают проблемы для глобального развития ИИ. В отчетах указывается, что ИИ-компании (например, OpenAI) уже ощущают ограничения из-за нехватки поставок GPU. В то же время Китай добивается прогресса в производстве чипов (например, прорывы в технологиях 3 нм, 1 нм) и, возможно, в ближайшие несколько лет сможет производить высококачественные ИИ-чипы. В статье высказывается мнение, что текущие торговые ограничения могут замедлить темпы развития ИИ в США и даже позволить Китаю обогнать их в области ИИ, призывая к развитию ИИ через свободную торговлю.(Источник: Reddit r/ArtificialInteligence)
Обсуждение практического применения TPU в производственной среде: Google недавно выпустила новое поколение TPU (Tensor Processing Unit), оптимизированных для вывода. Однако в обсуждениях сообщества отмечается, что, хотя TPU существуют уже много лет и Google предлагает щедрую программу ресурсов для исследователей (TRC), в промышленной производственной среде применение TPU, по-видимому, менее распространено, чем использование GPU NVIDIA. Причины могут включать сложность настройки, неочевидные преимущества в производительности, нехватку сопутствующих функций платформы GCP (например, статических IP, инструментов наблюдаемости), трудности с отладкой (XLA) и опасения по поводу привязки к поставщику из-за возможности аренды только через GCP. В обсуждении призывают пользователей с реальным производственным опытом поделиться информацией об использовании TPU и связанных с этим проблемах.(Источник: Reddit r/MachineLearning)

探讨TPU在生产环境中的实际应用

ИИ вызывает разрыв доверия в страховой отрасли: В отчете Swiss Re отмечается, что применение генеративного ИИ в страховой отрасли сталкивается с проблемами доверия. Хотя потенциал ИИ огромен, существуют опасения относительно конфиденциальности данных, кибербезопасности, прозрачности принятия решений, что может привести к разрыву доверия между страховыми компаниями и клиентами. В отчете рассматривается, как использовать преимущества ИИ, одновременно решая связанные с этим риски и этические проблемы, чтобы построить и поддерживать доверие пользователей.(Источник: Ronald_vanLoon)

🌟 Сообщество

OpenAI o3/o4-mini вызывают бурное обсуждение: сочетание силы и хайпа: После выпуска o3 и o4-mini от OpenAI сообщество отреагировало бурно. Ранние тестировщики (например, Дэн Шиппер) хвалят их скорость, интеллект и агентные возможности, называя их предпочтительными моделями, способными выполнять тесты кодирования, настраивать персонализированные курсы, распознавать размытые изображения, анализировать тексты и т. д. Сэм Альтман ретвитнул и подчеркнул их уровень, “близкий или достигающий гениальности”. Однако есть и комментарии (например, в видео AI Explained), указывающие на то, что, несмотря на мощь моделей, утверждения вроде “AGI” и “отсутствие галлюцинаций” являются преувеличением, модели все еще допускают ошибки в некоторых задачах на здравый смысл и физическое рассуждение, а соотношение цены и качества может уступать Gemini 2.5 Pro. Сообщество в целом признает прогресс, особенно в кодировании и использовании инструментов, но сохраняет критический взгляд на их реальные возможности и ограничения.(Источник:

samasamakarminski3gdbnatolambert)

o3 is out and it is absolutely amazing!! i've been playing with it for a week or so and it's already my go-to model. it's fast, a...

Обсуждение в сообществе: Зависит ли достижение AGI в основном от прогресса вычислительной мощности?: Пользователь Reddit инициировал обсуждение о том, сводится ли достижение AGI (Общего Искусственного Интеллекта) в основном к увеличению чистой вычислительной мощности. Высказывается мнение, что даже при существующих ограничениях LLM, увеличение вычислительной мощности еще на порядок может привести к полезности, близкой к AGI, даже если это не будет “настоящий” AGI. Ключевой вопрос в том, является ли проблема AGI по своей сути “разрешимой” (tractable), и если да, то грубой силы вычислений (brute force) может быть достаточно. Однако есть и возражения, утверждающие, что одна лишь вычислительная мощность не сможет преодолеть фундаментальные ограничения LLM, и для AGI требуются дальнейшие парадигмальные прорывы.(Источник: Reddit r/ArtificialInteligence)
Обсуждение в сообществе: Какие отрасли первыми будут подорваны ИИ?: Пользователь Reddit инициировал обсуждение, предполагая, какие отрасли первыми пострадают от ИИ и “рухнут”. Среди названных отраслей: перевод/копирайтинг, поддержка клиентов, преподавание языков, управление инвестиционными портфелями, иллюстрация/коммерческая фотография. В комментариях добавили транспорт, дизайн (интерфейсы, брендинг, логотипы), PR/маркетинг/управление социальными сетями, преподавание (особенно частное репетиторство), блоги/подкасты (изменение способа создания контента), организация мероприятий и управление ими. Также отмечается, что не все области исчезнут полностью, например, узкоспециализированный перевод или иллюстрация, требующая ядра человеческого творчества, сохранят свое место.(Источник: Reddit r/ArtificialInteligence)
Пользовательский опыт: Отладка кода, сгенерированного ИИ, полна проблем: Разработчик поделился опытом отладки кода, сгенерированного LLM (при миграции с SAS на SQL/Python). Хотя ИИ-код выглядел “прилично”, на самом деле он был полон ошибок: вызывал неопределенные функции, путал похожую, но разную логику кода, пропускал плохо отформатированный, но правильный SQL, произвольно заменял ключевые значения и при многократных запусках генерировал неконсистентные результаты. Окончательный вывод: код совершенно непригоден, требует переписывания, а исправление рискованнее, чем переписывание с нуля. Это подчеркивает ограничения текущих возможностей генерации кода ИИ и необходимость ручной проверки и верификации.(Источник: Reddit r/ArtificialInteligence)
ИИ и трудовые отношения: Как должны реагировать профсоюзы?: В обсуждении отмечается, что по мере роста возможностей автоматизации с помощью ИИ в различных отраслях профсоюзам необходимо более активно реагировать на его потенциальное влияние на работников. В статье приводятся примеры прошлых забастовок и протестов, связанных с ИИ, таких как предложение использовать ИИ для замены аспирантов после забастовки, использование ИИ для мониторинга студенческих протестов, опасения по поводу автоматизации услуг в области психического здоровья, возможные забастовки учителей из-за применения ИИ в школах и т. д. Высказывается мнение, что работники (и их представительные организации) не должны ждать, а должны активно разрабатывать стратегии для应对 изменений, вызванных ИИ.(Источник: Reddit r/artificial)

AI与劳工关系:工会应如何应对?

Выпущен набор данных RealHarm: сбор реальных случаев сбоев ИИ-агентов: Команда Giskard выпустила набор данных RealHarm, содержащий общедоступные сообщения о реальных случаях проблем, возникших при практическом применении ИИ-агентов (особенно на основе LLM). Анализируя эти случаи, команда обнаружила, что репутационный ущерб является наиболее распространенным организационным вредом, дезинформация и галлюцинации — наиболее распространенными типами рисков, а существующие защитные механизмы не смогли эффективно предотвратить многие инциденты. Набор данных призван помочь исследователям и разработчикам лучше понять и предотвратить риски ИИ в реальном мире.(Источник: Reddit r/LocalLLaMA)

RealHarm数据集发布:收集真实世界AI Agent失败案例

Отчет раскрывает риски безопасности общедоступных серверов Ollama: Веб-сайт freeollama.com демонстрирует большое количество экземпляров серверов Ollama, выставленных в публичный интернет. Это указывает на то, что многие пользователи при развертывании локальных сервисов LLM не смогли правильно настроить меры безопасности (например, установили адрес прослушивания 0.0.0.0, но не добавили аутентификацию), что подвергает их модели и потенциальные данные риску несанкционированного доступа и использования. Напоминание пользователям о необходимости уделять внимание настройкам сетевой безопасности при развертывании локальных ИИ-сервисов.(Источник: Reddit r/LocalLLaMA)

报告揭示公开Ollama服务器的安全风险

Мнение: Модели с рассуждением и без него не следует строго разделять: Исследователь ИИ Натан Ламберт предлагает не делить модели строго на “рассуждающие” и “нерассуждающие”, а оценивать все модели во всех областях. “Рассуждающие модели” обычно хорошо показывают себя и в бенчмарках без рассуждений, в то время как обратное неверно. Это намекает на то, что модели с возможностями рассуждения могут быть более универсальными. В то же время он отмечает необходимость лучших моделей ценообразования, отражающих различные возможности и затраты.(Источник: natolambert)
Соучредитель DeepMind Демис Хассабис включен в список TIME100, подчеркивает сотрудничество в области безопасности ИИ: CEO Google DeepMind Демис Хассабис включен в список 100 самых влиятельных людей 2025 года по версии журнала Time. В интервью он подчеркнул, что надеется, что конкурирующие страны и компании смогут отложить разногласия и сотрудничать в области безопасности ИИ, поскольку обеспечение того, чтобы ИИ развивался во благо, отвечает интересам всех.(Источник: demishassabis)

DeepMind联合创始人Demis Hassabis入选TIME100,强调AI安全合作

Руководитель Google DeepMind: Обучение с подкреплением должно выйти за рамки человеческих знаний: Вице-президент Google DeepMind по обучению с подкреплением Дэвид Сильвер считает, что исследования ИИ должны выйти за рамки известных человеческих знаний и двигаться к системам, способным к самообучению и даже открытию новых научных знаний. Это подчеркивает потенциал обучения с подкреплением в продвижении автономного исследования и открытий ИИ.(Источник: GoogleDeepMind)
Мнение: Узкое место в развитии ИИ сместилось с вычислительной мощности на данные и оценку: В видео, анализирующем прогресс моделей Kling 2.0, GPT-4.1, o3 и др., ведущий канала AI Explained цитирует мнение руководителя OpenAI, указывая, что ограничивающими факторами в развитии ИИ в настоящее время стали в большей степени данные, особенно высококачественные, специфичные для предметной области данные и эффективные методы оценки (Evals), а не вычислительная мощность. Улучшение производительности моделей все больше зависит от поиска лучших данных и лучших способов измерения прогресса.(Источник:

)
График сравнения цен и производительности моделей без рассуждений: Сообщество Reddit поделилось графиком, сравнивающим цены (предположительно, стоимость API) различных LLM без рассуждений с их показателями производительности на LiveBench (платформа для бенчмаркинга в реальном времени). График наглядно демонстрирует соотношение цены и качества различных моделей на конкретном бенчмарке, например, показывая, что серия Gemma/Gemini выделяется по этому показателю.(Источник: Reddit r/LocalLLaMA)

非推理模型价格与性能对比图

💡 Прочее

Новый прогресс в интерфейсах мозг-компьютер: прямое преобразование мозговых волн в речь: Новое исследование демонстрирует имплантат интерфейса мозг-компьютер (BCI), способный в реальном времени декодировать мозговые волны парализованного человека и синтезировать их в естественную речь. Эта технология предоставляет новые возможности общения для людей, потерявших способность говорить из-за неврологических повреждений или заболеваний, и является значительным прорывом на стыке ИИ, вспомогательных технологий и нейронауки.(Источник: Ronald_vanLoonRonald_vanLoon)

Brain-to-Voice #AI Streams Natural Speech for People with Paralysis

Исследование ИИ-игр основателем miHoYo Цай Хаоюем: ИИ-компания Anuttacon, основанная бывшим CEO miHoYo Цай Хаоюем, выпустила трейлер и демоверсию экспериментальной ИИ-игры «Whispers From The Star». Игра основана на диалогах в реальном времени, управляемых ИИ, где игроки взаимодействуют с ИИ-персонажем Stella с помощью текста, голоса или видео, направляя ее выживание. В игре используются мультимодальные ИИ-технологии, эмоции, реакции и действия Stella генерируются ИИ в реальном времени, а выражения лица и движения выглядят естественно. Это отражает исследование Цай Хаоюем того, как AIGC может изменить разработку игр, но сталкивается с проблемами зрелости технологий, бизнес-моделей и принятия игроками. В статье также сравниваются различные стратегии применения ИИ в играх крупными компаниями, такими как Tencent и NetEase.(Источник: 原神之后,蔡浩宇的 AIGC 游戏野望)

原神之后,蔡浩宇的 AIGC 游戏野望

Unitree обновляет промышленного колесного робота B2-W: Unitree Robotics продемонстрировала обновленные возможности своего промышленного колесного робота B2-W. Хотя конкретные детали обновления не уточняются, такие роботы обычно интегрируют ИИ-технологии для навигации, обхода препятствий, выполнения задач и т. д., и это обновление может включать улучшенную автономность, грузоподъемность или применение в конкретных промышленных сценариях.(Источник: Ronald_vanLoon)
Роботы обучаются человеческим навыкам: Circuit Robotics демонстрирует, как роботы могут обучаться человеческим навыкам. Это обычно включает методы ИИ, такие как имитационное обучение (imitation learning) и обучение с подкреплением (reinforcement learning), позволяющие роботам осваивать сложные операционные задачи путем наблюдения за демонстрациями или методом проб и ошибок, что является важным направлением исследований на стыке робототехники и ИИ.(Источник: Ronald_vanLoon)
Роботы для покупок становятся реальностью: Видео или информация, которой поделился Фабрицио Бустаманте, свидетельствует о том, что использование роботов для совершения покупок становится реальностью. Это может относиться к автоматизированным роботам-сортировщикам на складах, роботам-доставщикам для потребителей, роботам-консультантам в магазинах и т. д., которые обычно требуют ИИ для планирования маршрутов, распознавания объектов и взаимодействия с человеком.(Источник: Ronald_vanLoon)
Применение ИИ и роботов в сельском хозяйстве: JC Niyomugabo обсуждает применение ИИ и роботов в сельском хозяйстве (AgriTech). Это включает использование ИИ для мониторинга посевов, диагностики болезней и вредителей, принятия решений о точном орошении и внесении удобрений, а также использование роботов для автоматизированного посева, прополки, сбора урожая и т. д. Цель — повышение эффективности, урожайности и устойчивости сельского хозяйства.(Источник: Ronald_vanLoon)
Нанороботы со “скрытым оружием” могут убивать раковые клетки: Исследование, которым поделилась Хулуд Альмани, показывает, что тип нанороботов, оснащенных “скрытым оружием” (конкретный механизм не уточняется), способен целенаправленно находить и убивать раковые клетки. Механизмы навигации и нацеливания нанороботов часто включают алгоритмы ИИ для идентификации целей и выполнения задач в сложных биологических средах, что является передовым применением в области здравоохранения.(Источник: Ronald_vanLoon)
Разработка бионической руки COVVI: Бионическая рука, разработанная компанией COVVI, призвана предоставить людям с ампутациями более гибкие и функциональные протезы. Такие передовые бионические руки обычно интегрируют датчики и алгоритмы ИИ для интерпретации мышечных сигналов пользователя (например, электромиографических сигналов EMG) или нервных сигналов, обеспечивая более естественное управление силой мысли и выполнение тонких манипуляций.(Источник: Ronald_vanLoon)
Китайский гуманоидный робот выполняет задачи контроля качества: WevolverApp сообщает, что китайские гуманоидные роботы используются для выполнения задач контроля качества. Это требует от роботов передовых возможностей визуального распознавания (возможно, на базе ИИ), точных манипуляционных способностей и определенных возможностей принятия решений для определения соответствия продукции стандартам, что является примером применения гуманоидных роботов в промышленной автоматизации.(Источник: Ronald_vanLoon)
Первая в мире операция на человеке, выполненная роботом-стоматологом: Gigadgets сообщает о первой в мире хирургической операции на человеке, полностью выполненной роботом-стоматологом. Хотя детали неизвестны, это обычно означает, что роботизированная система с поддержкой ИИ выполняет планирование, позиционирование и манипуляции во время операции с целью повышения точности и согласованности хирургического вмешательства, что является вехой в сочетании медицинской робототехники и ИИ.(Источник: Ronald_vanLoon)
ИИ движет цифровым прогрессом, строя умные нации: Статья Рональда ван Луна в сотрудничестве с Huawei рассматривает, как цифровые технологии, такие как ИИ, Интернет вещей (IoT), связь и анализ данных, могут способствовать прогрессу нации и построению более умных стран. Подчеркивается роль ИИ в оптимизации государственных услуг, управлении инфраструктурой, экономическом развитии и т. д.(Источник: Ronald_vanLoon)

Building Smarter Nations by Driving Digital Progress

Робот Velox, способный передвигаться по воде и суше: Робот Velox, которым поделился Паскаль Борне, является амфибийным роботом, способным передвигаться как в воде, так и на суше. Такая универсальность может сделать его пригодным для сложных сценариев, таких как поисково-спасательные операции, мониторинг окружающей среды, а его способность к автономной навигации и адаптации к различным средам может управляться ИИ.(Источник: Ronald_vanLoon)