Ключевые слова:AlphaEvolve, DeepSeek V3, GPT-4.1, Speech-02, Модель Claude, Falcon-Edge, BLIP3-o, AM-Thinking-v1, Эволюционный кодирующий агент на базе Gemini, Совместное проектирование программного и аппаратного обеспечения для снижения затрат на большие модели, Технология клонирования голоса с нулевым обучением, Экстремальные способности к рассуждению, Архитектура BitNet с 1.58 битами

🔥 聚焦

DeepMind推出AlphaEvolve:Gemini驱动的进化编码智能体,推动算法发现 : AlphaEvolve сочетает креативность модели Gemini с автоматическим оценщиком, используя эволюционную структуру для оптимизации алгоритмов. Он уже достиг прорывов во многих областях, таких как выполнение умножения комплексных матриц 4×4 за 48 скалярных умножений, улучшив алгоритм Strassen; обнаружение 593 конфигураций внешних сфер в 11-мерном пространстве, продвинув 300-летнюю «проблему целующихся чисел». Кроме того, AlphaEvolve также оптимизировал диспетчеризацию дата-центров Google (экономия 0.7% вычислительных ресурсов), проектирование TPU следующего поколения (удаление избыточных битов), обучение AI моделей (ускорение ключевых ядер на 23%) и др. Лауреат Филдсовской премии Теренс Тао также участвовал в исследовании его математических приложений. (Источник: DeepMind)

DeepMind представляет AlphaEvolve: эволюционный агент кодирования на базе Gemini, способствующий открытию алгоритмов

DeepSeek V3论文详解:软硬件协同设计降低大模型成本与功耗 : Команда DeepSeek опубликовала статью, в которой подробно описывается, как DeepSeek-V3 достигает экономической эффективности при крупномасштабном обучении и инференсе за счет совместного проектирования программного и аппаратного обеспечения. Ключевые технологии включают: 1) Оптимизация памяти: использование многоголового латентного внимания (MLA) для сжатия кэша ключ-значение, обучение со смешанной точностью FP8 для снижения потребления памяти. 2) Оптимизация вычислений: применение модели смеси экспертов (MoE), активирующей только часть параметров, в сочетании с обучением FP8, что значительно снижает вычислительные затраты. 3) Оптимизация связи: использование многоплоскостной топологии сети fat-tree и технологии двойного перекрытия микро-батчей (DualPipe) для уменьшения задержек и повышения эффективности использования GPU. 4) Ускорение инференса: внедрение фреймворка предсказания нескольких токенов (MTP), параллельно предсказывающего и проверяющего несколько токенов-кандидатов, что повышает скорость генерации. В статье также представлены пять перспективных направлений для будущего проектирования аппаратного обеспечения AI, включая поддержку вычислений с низкой точностью, расширение и интеграцию, оптимизацию сетевой топологии, оптимизацию системы памяти, а также надежность и отказоустойчивость. (Источник: arXiv)

Подробный разбор статьи о DeepSeek V3: совместное проектирование программного и аппаратного обеспечения для снижения стоимости и энергопотребления больших моделей

OpenAI GPT-4.1模型正式上线ChatGPT,用户可直接选用 : OpenAI объявила, что модель GPT-4.1 стала доступна в ChatGPT. Пользователи Plus, Pro и Team могут получить к ней доступ через селектор моделей, а пользователи Enterprise и Education получат доступ позже. GPT-4.1 mini также заменит GPT-4o mini для всех пользователей. GPT-4.1 привлек внимание своими выдающимися показателями в задачах кодирования и следования инструкциям, ранее версия API поддерживала контекстное окно до 1 миллиона токенов. Однако некоторые пользователи при тестировании обнаружили, что длина контекста версии GPT-4.1 в ChatGPT, по-видимому, все еще составляет 128k, не достигая 1M версии API, что вызвало некоторое разочарование. (Источник: OpenAI Developers)

Модель OpenAI GPT-4.1 официально запущена в ChatGPT, пользователи разочарованы результатами тестов

MiniMax新一代语音模型Speech-02登顶Artificial Analysis语音评测榜单 : Новейшая модель преобразования текста в речь (TTS) Speech-02 от MiniMax заняла первое место по рейтингу ELO в авторитетном международном рейтинге Artificial Analysis Speech Arena, обогнав аналогичные продукты от OpenAI и ElevenLabs. Модель показала отличные результаты по ключевым показателям, таким как частота ошибок слов (WER) и сходство с говорящим (SIM), особенно продемонстрировав преимущества в обработке китайского и кантонского языков. Ключевым нововведением Speech-02 является реализация настоящего клонирования голоса без предварительного обучения (требуется всего несколько секунд эталонного аудио, без текста), а также использование новой архитектуры Flow-VAE, которая улучшает естественность и эмоциональную выразительность генерируемой речи и поддерживает 32 языка. Ее стоимость также очень конкурентоспособна, составляя примерно 1/4 от стоимости конкурирующего продукта ElevenLabs. (Источник: 机器之心)

Новое поколение голосовой модели Speech-02 от MiniMax возглавило рейтинг Artificial Analysis Speech

🎯 动向

Anthropic新版Claude模型或将具备“极限推理”能力 : По данным The Information и наблюдениям сообщества, Anthropic может выпустить новые версии моделей Claude Sonnet и Claude Opus в ближайшие недели, главной особенностью которых станет способность к «экстремальному мышлению» (Extreme reasoning). Эта функция позволяет модели приостанавливаться при столкновении со сложными проблемами, переоценивать ситуацию и корректировать стратегию, а не сразу выдавать ответ. В задачах, таких как генерация кода, модель сможет автоматически тестировать и исправлять ошибки. Такой динамический циклический способ рассуждений и использования инструментов направлен на то, чтобы модель более интеллектуально справлялась со сложными проблемами, уменьшая зависимость от человеческого контроля и приближаясь к образу мышления человека-сотрудника. Некоторые пользователи уже обнаружили, что Anthropic тестирует модель под названием Claude Neptune (возможно, Claude 3.8), поддерживающую контекст в 128k токенов. (Источник: 量子位)

Новая версия модели Claude от Anthropic, возможно, будет обладать способностью к «экстремальному мышлению»

TII发布Falcon-Edge系列高效Bitnet模型及onebitllms微调工具包 : Технологический инновационный институт (TII) выпустил Falcon-Edge, серию высокосжатых языковых моделей на основе архитектуры BitNet, обладающих мощными, универсальными и настраиваемыми характеристиками. Одновременно они также открыли исходный код onebitllms, легковесного инструментария Python (устанавливаемого через pip), специально предназначенного для тонкой настройки или продолжения предварительного обучения этих 1.58-битных моделей. Этот шаг направлен на снижение порога использования больших моделей и содействие развитию и применению технологии 1-bit LLM. (Источник: younes)

TII выпускает серию эффективных моделей Bitnet Falcon-Edge и инструментарий для тонкой настройки onebitllms

Hugging Face Transformers库迎来重大升级,成为模型定义的中心标准 : Hugging Face объявила о значительных изменениях в своей библиотеке Transformers, стремясь сделать ее центральным стандартом для определения моделей на различных бэкэндах и исполнителях. Благодаря совместным усилиям с многочисленными партнерами по экосистеме, такими как vLLM, LlamaCPP, SGLang, MLX, DeepSpeed, Microsoft, NVIDIA и другими, продвигается стандартизация кода моделей с целью обеспечения большей согласованности и надежности для всей экосистемы AI. Эта инициатива получила широкое одобрение сообщества и считается важным шагом в развитии открытого AI. (Источник: Arthur Zucker)

Библиотека Hugging Face Transformers претерпевает крупное обновление, становясь центральным стандартом для определения моделей

Salesforce在Hugging Face发布BLIP3-o:全开源统一多模态模型系列 : Salesforce представила серию моделей BLIP3-o, семейство полностью открытых унифицированных мультимодальных моделей. Эта серия охватывает архитектуру моделей, методы обучения и наборы данных, направленные на содействие развитию и применению мультимодальных технологий AI. Выпуск BLIP3-o предоставляет исследователям и разработчикам мощные мультимодальные инструменты и ресурсы для обработки данных. (Источник: AK)

Salesforce выпускает на Hugging Face BLIP3-o: полностью открытую серию унифицированных мультимодальных моделей

英伟达展示利用合成数据推进全自动驾驶技术 : Nvidia опубликовала новое видео, демонстрирующее, как она использует синтетические данные для ускорения разработки технологии полного автопилота (FSD). Генерируя крупномасштабные, разнообразные виртуальные сценарии вождения и данные, Nvidia может более эффективно обучать и проверять свои алгоритмы автономного вождения, преодолевая ограничения сбора данных в реальном мире и продвигая технологию автономного вождения к большей безопасности и надежности. (Источник: SawyerMerritt)

A-M-team发布32B推理模型AM-Thinking-v1,部分性能超越DeepSeek-R1 : Китайская исследовательская группа A-M-team выложила в открытый доступ на Hugging Face модель для инференса AM-Thinking-v1 с 32 миллиардами параметров. Модель демонстрирует выдающиеся результаты в задачах математического мышления (оценка 85.3 по серии AIME) и генерации кода (оценка 70.3 по LiveCodeBench), и, по утверждениям, превосходит DeepSeek-R1 (671B MoE) в этих конкретных тестах, приближаясь к более крупным моделям, таким как Qwen3-235B-A22B. Команда сосредоточена на оптимизации способности к рассуждению 32-миллиардной плотной модели с помощью схем пост-тренировки (включая SFT с холодным стартом, отбор данных на основе коэффициента прохождения, двухэтапный RL), стремясь исследовать пути достижения сильного мышления в условиях ограниченных вычислительных ресурсов и открытых данных. (Источник: AI科技评论)

A-M-team выпускает модель для инференса AM-Thinking-v1 (32B), по некоторым показателям превосходящую DeepSeek-R1

Marigold更新:稳定扩散模型转深度估计器,支持单步推理和高分辨率 : Проект Marigold объявил о крупном обновлении. Эта технология позволяет преобразовать модель Stable Diffusion 2 в продвинутый оценщик глубины с помощью небольшого количества синтетических образцов и короткого времени обучения (2-3 дня на 1 GPU). Новые функции версии включают: быстрый одношаговый инференс, поддержку новых модальностей, вывод с высоким разрешением, поддержку библиотеки Diffusers и новые демонстрации. (Источник: Anton Obukhov)

千问3系列模型在开源社区表现强劲,英伟达OpenCodeReasoning选用其为基座 : Серия моделей Qwen3 от Alibaba продолжает привлекать внимание и находить применение в сообществе открытого исходного кода. Недавно выпущенная Nvidia серия моделей OpenCodeReasoning (включающая спецификации 7B, 14B, 32B) выбрала Qwen в качестве базовой основы. Qwen3 пользуется популярностью у разработчиков благодаря полному набору версий, постоянным обновлениям, нативной поддержке смешанных режимов вывода и процветающей экосистеме (более 300 миллионов загрузок по всему миру, более 100 тысяч производных моделей). Последние обновления включают мультимодальную модель для конечных устройств Qwen-omini 3B, сотрудничество с Unsloth для повышения эффективности тонкой настройки, публикацию подробных рекомендаций по гиперпараметрам развертывания, поддержку генерации предварительного просмотра веб-страниц в реальном времени, предоставление различных квантованных версий и публикацию технического отчета. (Источник: AI前线)

Серия моделей Qwen3 демонстрирует сильные позиции в сообществе открытого исходного кода, Nvidia OpenCodeReasoning выбрала ее в качестве основы

Hugging Face Accelerate v1.7.0发布,支持区域编译和FSDPv2的QLoRA : Официально выпущена версия Hugging Face Accelerate v1.7.0. Основные моменты этого выпуска включают: региональную компиляцию (Regional compilation), реализованную @IlysMoutawwakil, повышающую эффективность и гибкость компиляции; хуки для послойного приведения типов (Layerwise casting hook), внесенные @RisingSayak, широко используемая функция в библиотеке diffusers; а также поддержка QLoRA для FSDPv2, реализованная @winglian, что дополнительно оптимизирует обучение крупномасштабных моделей. (Источник: Marc Sun)

Выпущена Hugging Face Accelerate v1.7.0 с поддержкой региональной компиляции и QLoRA для FSDPv2

Llamafile 0.9.3发布,新增对Qwen3和Phi4模型支持 : Llamafile выпустила версию 0.9.3, в этом обновлении добавлена поддержка недавно популярных моделей серий Qwen3 и Phi4. Llamafile стремится упростить распространение и запуск приложений LLM, упаковывая веса моделей и необходимый для запуска код в один исполняемый файл, что обеспечивает удобное развертывание на различных операционных системах. (Источник: Phoronix)

Выпущен Llamafile 0.9.3 с поддержкой моделей Qwen3 и Phi4

腾讯发布混元图像大模型HunyuanImage 2.0 : Tencent официально выпустила новую версию своей большой модели для генерации изображений — HunyuanImage 2.0. Ожидается, что это обновление улучшит качество генерации изображений, управляемость и способность понимать сложные инструкции. Подробную техническую информацию и улучшения пользователи могут узнать через официальные каналы. (Источник: Hunyuan)

Tencent выпускает большую модель изображений HunyuanImage 2.0

Ollama v0.7发布,增强本地运行大模型体验 : Ollama выпустила версию v0.7, продолжая упрощать процесс запуска больших языковых моделей на локальных устройствах. Новая версия может включать оптимизацию производительности, поддержку новых моделей или улучшения пользовательского опыта. Пользователи могут посетить официальный сайт или GitHub для просмотра подробного журнала изменений и загрузки. (Источник: ollama)

llama.cpp合并PDF输入功能,支持直接处理PDF文档 : Проект llama.cpp недавно объединил важное обновление, добавив поддержку прямого ввода PDF-файлов. Это означает, что пользователи теперь могут удобнее использовать содержимое PDF-документов в качестве входных данных для обработки, анализа или ответов на вопросы локальными большими языковыми моделями, работающими на llama.cpp, что расширяет сценарии их применения. Эта функция реализована через внешний JS-пакет во встроенном веб-интерфейсе и не увеличивает нагрузку на основное обслуживание. (Источник: GitHub)

微软Copilot上线4o图像生成功能,提升视觉效果和文本一致性 : AI-помощник Microsoft Copilot теперь интегрирован с возможностями генерации изображений модели GPT-4o от OpenAI. Это обновление направлено на обеспечение более четких визуальных эффектов, более последовательной генерации текста и поддержку различных стилей, от фотореалистичных до забавных мультяшных. Пользователи могут испытать функции создания изображений на базе 4o через Copilot. (Источник: yusuf_i_mehdi)

Microsoft Copilot запускает функцию генерации изображений 4o, улучшая визуальные эффекты и согласованность текста

NVIDIA DRIVE Labs探讨无图驾驶未来,减少对高清地图依赖 : Последнее видео NVIDIA DRIVE Labs обсуждает будущее вождения без карт (mapless driving). Карты высокой четкости критически важны для автономного вождения, но их стоимость и проблемы с обслуживанием ограничивают развертывание. NVIDIA работает над уменьшением зависимости от карт высокой четкости за счет устранения информационных узких мест, повышения точности задач, ускорения времени обучения моделей и вывода, продвигая границы технологии автономного вождения. (Источник: NVIDIA DRIVE)

Dolphin 3.2(基于Qwen3训练)将提供系统提示开关,增强用户控制 : Предстоящая модель Dolphin 3.2, обученная на Qwen3, представит три переключателя системных подсказок: /no_think (возможно, для уменьшения избыточных шагов обдумывания), /uncensored (возможно, для уменьшения цензуры контента) и /china (возможно, для специфического китайского контекста или сервисов). Эти переключатели призваны предоставить пользователям больший контроль над развертыванием их моделей. (Источник: cognitivecompai)

Dolphin 3.2 (обученный на Qwen3) предоставит переключатели системных подсказок, расширяя контроль пользователя

🧰 工具

Runway推出参照功能,可学习并应用特定技术或风格于新创作 : Runway добавила новую функцию под названием “References”, которая позволяет пользователям демонстрировать платформе определенную технику или художественный стиль, а затем использовать его в качестве эталона для любого нового генерируемого контента. Эта функция предоставляет пользователям более точный контроль над стилем, делая AI-ассистированное творчество более персонализированным и целенаправленным. Пользователь Cristobal Valenzuela запустил конкурс, призывая сообщество делиться оригинальными примерами использования этой функции, и предоставит годовую бесплатную подписку Unlimited для 5 самых креативных примеров. (Источник: c_valenzuelab)

Runway представляет функцию ссылок, позволяющую изучать и применять определенные техники или стили к новым творениям

DSPy:为快速迭代而生的极简LLM编程框架 : Фреймворк DSPy привлек внимание своим минималистичным дизайном. Разработчики утверждают, что большинство его основных функций (Module или Optimizer) можно реализовать всего одной строкой кода, что призвано помочь пользователям быстро пробовать и итерировать идеи. В отличие от некоторых инструментов, требующих большого количества шаблонного кода и сложных концепций, DSPy подчеркивает простоту использования и эффективность. Пользователи отмечают, что, прочитав вводную документацию, можно быстро начать работу и в короткие сроки оптимизировать модели с помощью этого фреймворка, хотя использование моделей SOTA для циклической оптимизации может повлечь за собой определенные расходы. (Источник: lateinteraction)

Unsloth AI扩展至TTS和音频模型微调,提升速度并减少显存占用 : Unsloth AI объявила, что ее технология оптимизации теперь поддерживает тонкую настройку моделей преобразования текста в речь (TTS) и аудиомоделей. Пользователи могут использовать бесплатные ноутбуки Colab для обучения, запуска и сохранения моделей, таких как Sesame-CSM, OpenAI Whisper и других. Unsloth утверждает, что ее технология может увеличить скорость обучения TTS в 1.5 раза, одновременно снижая использование видеопамяти (VRAM) на 50%. Соответствующая документация и ноутбуки Colab уже доступны на их официальном сайте. (Источник: Unsloth AI)

Modal助力亚马逊3000万评论嵌入任务,L40S GPU实现小时级处理 : Платформа Modal продемонстрировала свою способность к горизонтальному масштабированию при обработке крупномасштабных задач встраивания на GPU L40S. В демонстрационном примере Modal успешно завершила обработку встраиваний 30 миллионов отзывов Amazon за один час. Это стало возможным благодаря обновленной масштабируемой системе генерации от команды Modal, которая упрощает и повышает эффективность крупномасштабной параллельной обработки. (Источник: charles_irl)

Modal помогает с задачей встраивания 30 миллионов отзывов Amazon, обработка на GPU L40S занимает часы

Lovart AI:集成多顶流模型的新晋AI视觉设计Agent : AI-агент для визуального дизайна под названием Lovart привлек внимание. Он может выполнять профессиональные задачи визуального дизайна, такие как создание плакатов, фирменного стиля (VI), раскадровок и т.д., с помощью инструкций на естественном языке. Ключевая способность Lovart заключается в его мультимодельной координации, интегрирующей множество ведущих моделей, таких как GPT image-1, Flux pro, OpenAI-o3, Gemini Imagen 3, Kling AI, Tripo AI, Suno AI и другие, а также встроенные профессиональные инструменты редактирования (такие как слои, маски, тонкая настройка текста), поддерживающие разделение изображений и текста и послойное редактирование. Этот продукт независимо управляется зарубежной дочерней компанией Liblib и нацелен на предоставление универсального, высококонтролируемого опыта AI-дизайна. (Источник: 量子位)

Lovart AI: новый AI-агент для визуального дизайна, интегрирующий несколько ведущих моделей

OpenHands 0.38.0发布:原生Windows支持与Chrome扩展提升易用性 : OpenHands выпустила версию 0.38.0, которая включает несколько важных обновлений. Среди них: нативная поддержка Windows (без WSL), что облегчает использование для пользователей Windows; функция создания скриншотов браузера; а также более гибкие возможности настройки песочницы. Кроме того, выпущено расширение для Chrome, позволяющее пользователям запускать OpenHands одним кликом с GitHub, что еще больше упрощает рабочий процесс. (Источник: All Hands AI)

Выпущена OpenHands 0.38.0: нативная поддержка Windows и расширение Chrome для повышения удобства использования

Tensorlake Cloud发布,提升文档提取和工作流构建能力 : Tensorlake объявила о запуске Tensorlake Cloud, нацеленного на оптимизацию извлечения документов и рабочих процессов для поддержки создания интеллектуальных приложений и сложных бизнес-процессов. Платформа использует передовые модели понимания макета документа (обученные на реальных данных, таких как формы ACORD, банковские выписки, исследовательские отчеты и т.д.) и модели извлечения таблиц для преобразования неструктурированных документов в чистые, структурированные данные, что особенно подходит для обработки сложных и плотных таблиц, восполняя пробелы визуально-языковых моделей (VLM) в этой области. (Источник: Tensorlake)

Patronus AI推出Percival:专用于调试和改进AI智能体的智能体 : Patronus AI выпустила новый инструмент Percival, AI-агента, специально разработанного для отладки и улучшения других AI-агентов. Percival способен мгновенно анализировать сложные журналы трассировки агентов, выявлять до 60 различных режимов сбоев и автоматически предлагать исправления для подсказок с целью повышения производительности. Этот инструмент решает ключевые проблемы, такие как «взрыв контекста» (когда агент обрабатывает миллионы токенов), и поддерживает адаптацию к конкретным областям применения, а также сложную оркестровку нескольких агентов. (Источник: Weaviate Podcast)

Patronus AI представляет Percival: агента, предназначенного для отладки и улучшения AI-агентов

Replit集成Semgrep实现“安全氛围编程”,自动扫描漏洞 : Replit объявила о сотрудничестве с Semgrep для запуска функции «Безопасное программирование с атмосферой» (Safe Vibe Coding). Теперь каждый раз, когда пользователь развертывает код на Replit, Semgrep автоматически запускает сканирование безопасности, помогая обнаруживать и исправлять потенциальные уязвимости, предотвращая случайное раскрытие конфиденциальной информации, такой как ключи API. Этот шаг направлен на повышение безопасности при использовании AI-ассистированного кодирования (например, при генерации кода с помощью LLM). (Источник: amasad)

Replit интегрирует Semgrep для реализации «безопасного программирования с атмосферой», автоматически сканируя уязвимости

Cursor AI 0.50版本发布,带来重大更新 : Инструмент для AI-ассистированного программирования Cursor выпустил версию 0.50, названную «самым большим обновлением за всю историю». Ожидается, что новая версия будет содержать множество улучшений функций и оптимизаций пользовательского опыта, направленных на дальнейшее повышение эффективности кодирования разработчиков и плавности взаимодействия с AI. Подробности обновления можно найти в официальных заметках о выпуске. (Источник: eric zakariasson)

Выпущена версия Cursor AI 0.50, приносящая значительные обновления

OpenMemory MCP:支持跨应用上下文共享的本地化记忆管理服务器 : OpenMemory MCP — это сервер управления памятью, предназначенный для повышения производительности AI-приложений. Он позволяет пользователям совместно использовать контекст между различными приложениями (такими как Cursor и Claude Desktop) и использовать PostgreSQL и Qdrant для локального хранения и индексации данных, обеспечивая конфиденциальность данных. Инструмент поддерживает семантический поиск и предоставляет панель управления для управления памятью и доступом приложений, решая проблему потери контекста между сеансами. (Источник: Reddit r/ClaudeAI)

OpenMemory MCP: локализованный сервер управления памятью с поддержкой совместного использования контекста между приложениями

Hugging Face Inference Endpoint结合vLLM和Gradio,实现快速Whisper转录 : Hugging Face продемонстрировала, как использовать свой сервис Inference Endpoint в сочетании с проектом vLLM и интерфейсом Gradio для развертывания модели Whisper от OpenAI, чтобы обеспечить сверхбыструю функцию транскрипции речи. Эта комбинация использует инструменты с открытым исходным кодом от AI-сообщества, предоставляя пользователям эффективное и простое в использовании решение для преобразования речи в текст. (Источник: Morgan Funtowicz)

A.I.T.E Ball:基于Orange Pi和Gemma 3 1B的自包含AI魔力8号球 : Разработчик продемонстрировал полностью автономный (не требующий подключения к сети) AI-управляемый проект «магического шара 8» — A.I.T.E Ball. Устройство работает на Orange Pi Zero 2W, использует whisper.cpp для преобразования текста в речь и llama.cpp для запуска модели Gemma 3 1B для ответов на вопросы. Это демонстрирует потенциал реализации локализованных AI-приложений на маломощном оборудовании. (Источник: Reddit r/LocalLLaMA)

A.I.T.E Ball: автономный AI-магический шар 8 на базе Orange Pi и Gemma 3 1B

OWL Agent:集成MCPToolkit的开源通用智能体 : Проект с открытым исходным кодом OWL Agent теперь имеет встроенную поддержку MCPToolkit. Пользователи могут легко подключаться к серверам MCP, таким как Playwright, desktop-commander, или к пользовательским инструментам Python, и OWL автоматически обнаружит и вызовет эти инструменты в своих многоагентных рабочих процессах, повышая его универсальность и возможности выполнения задач. (Источник: Reddit r/LocalLLaMA)

OWL Agent: универсальный агент с открытым исходным кодом, интегрированный с MCPToolkit

ElevenLabs推出SB-1无限音效板:集音效、鼓机、环境噪音生成于一体 : ElevenLabs выпустила SB-1 Infinite Soundboard — инструмент, объединяющий звуковую панель, драм-машину и генератор бесконечных фоновых шумов. Пользователи могут описать желаемый звуковой эффект, и SB-1 сгенерирует эти звуки с помощью своей модели преобразования текста в звуковые эффекты (Text-to-SFX), открывая новые возможности для создания аудио. (Источник: ElevenLabs)

Anytop项目:AI动画新进展,使未见生物体栩栩如生,支持动作学习与迁移 : Two Minute Papers представил проект Anytop, технологию AI-анимации, способную генерировать реалистичные движения для невиданных ранее существ (включая динозавров, диковинных насекомых и т.д.). Этот AI не только может самостоятельно генерировать движения, но и позволяет различным существам учиться и адаптировать движения друг друга (например, динозавр учится стоять на одной ноге, как фламинго). Он достигает обобщения на неизвестные формы, понимая семантическое сходство частей тела (например, общие понятия рук, ног). Кроме того, система может понимать семантику движений (например, атака, расслабление) и демонстрировать движения со схожими концепциями у разных животных, и даже может дополнять неполные входные движения. (Источник: )

Проект Anytop: новые достижения в AI-анимации, оживляющие невиданных существ, с поддержкой обучения и переноса движений

Sketch2Anim:AI将简笔画草图转化为完整3D动画 : Другая технология, представленная Two Minute Papers, Sketch2Anim, способна преобразовывать простые линейные наброски пользователя (указывающие траекторию движения) в полноценную 3D-анимацию персонажей. Этот AI способен понимать 3D-намерение, стоящее за 2D-наброском (например, различать удар кулаком вперед и удар в сторону), решая ограничения предыдущих подобных технологий, которые могли понимать инструкции только на 2D-уровне. Это позволяет непрофессионалам быстро создавать 3D-анимацию с помощью простых рисунков. (Источник: )

Sketch2Anim: AI преобразует простые наброски в полноценную 3D-анимацию

📚 学习

DeepSeek发布V3模型论文,分享扩展挑战与AI硬件架构思考 : Команда DeepSeek опубликовала на Hugging Face статью о модели DeepSeek-V3. В статье подробно рассматриваются проблемы, возникающие при масштабировании больших языковых моделей, а также представлены размышления и идеи относительно будущих направлений развития архитектуры аппаратного обеспечения AI. Это предоставляет ценную информацию для исследователей и разработчиков для понимания узких мест в обучении и развертывании крупномасштабных моделей, а также того, как их можно оптимизировать с помощью совместной работы аппаратного и программного обеспечения. (Источник: Adina Yakup)

免费模型上下文协议(MCP)课程发布,助力构建外部数据与工具的AI应用 : Ben Burtenshaw объявил о запуске бесплатного курса по MCP (Model Context Protocol). Курс предназначен для того, чтобы помочь учащимся пройти путь от новичка до эксперта, понять принципы работы MCP, как подключать LLM к серверам MCP и как использовать MCP для развертывания приложений AI-агентов, тем самым расширяя возможности AI-приложений за счет использования внешних данных и инструментов. (Источник: Ben Burtenshaw)

Выпущен бесплатный курс по протоколу контекста модели (MCP), помогающий создавать AI-приложения с внешними данными и инструментами

Flow-GRPO:将在线强化学习引入流匹配模型,提升图像生成准确率 : Flow-GRPO — это новый метод, который впервые применяет онлайн-обучение с подкреплением (RL) к моделям сопоставления потоков. Он реализуется с помощью двух инновационных стратегий: 1) Преобразование ODE в SDE: детерминированный процесс моделей потоков, основанный на обыкновенных дифференциальных уравнениях (ODE), преобразуется в стохастические дифференциальные уравнения (SDE), вводя случайность, необходимую для RL. 2) Ускорение обучения за счет сокращения шумоподавления: во время обучения количество шагов шумоподавления уменьшается, а при выводе используются полные шаги. С помощью Flow-GRPO точность моделей потоков в задачах генерации изображений повышается до более чем 92%. (Источник: TheTuringPost)

Flow-GRPO: внедрение онлайн-обучения с подкреплением в модели сопоставления потоков для повышения точности генерации изображений

ICML 2025论文PENCIL:交替“推理-擦除”实现大模型深度思考新范式 : Ян Чэньсяо и другие из Чикагского университета Тойоты (TTIC) предложили PENCIL (Pondering with Erasure Net for Contextual Inference Learning), новую парадигму глубокого мышления для больших моделей, основанную на чередовании «генерации» и «стирания» промежуточных результатов. Этот метод, заимствуя правила перезаписи из логики и управление памятью из функционального программирования, динамически стирает более ненужные промежуточные шаги, эффективно решая проблемы, с которыми сталкиваются традиционные длинные CoT (цепочки мыслей), такие как превышение лимита контекстного окна, трудности с извлечением информации и снижение эффективности генерации. Теоретически доказано, что PENCIL может моделировать вычисления любой машины Тьюринга с оптимальной пространственной и временной сложностью, решая все вычислимые проблемы. Эксперименты показали, что в задачах, таких как 3-SAT, QBF и загадка Эйнштейна, PENCIL значительно превосходит традиционные CoT. (Источник: 机器之心)

Статья ICML 2025 PENCIL: чередование «рассуждений-стираний» для реализации новой парадигмы глубокого мышления больших моделей

ICML 2025论文MemVR:模拟人类“看两次”机制缓解多模态大模型幻觉 : Исследователи из HKUST (Гуанчжоу) и других учреждений предложили метод MemVR (Memory-space Visual Retracing), который имитирует стратегию человека по двойной проверке неопределенных воспоминаний для смягчения проблемы галлюцинаций в мультимодальных больших языковых моделях (MLLM). MemVR использует визуальные токены в качестве дополнительных доказательств. На промежуточных слоях, где модель сталкивается с проблемами забывания при выводе, она «извлекает» визуальные знания через сеть прямого распространения (FFN) для калибровки предсказаний. Этот метод разработан с динамическим механизмом запуска, который выбирает запускающий слой на основе неопределенности вывода различных слоев. Эксперименты показывают, что MemVR достигает значительных результатов на нескольких бенчмарках оценки галлюцинаций и общих бенчмарках, а также имеет преимущества в эффективности по сравнению с другими методами. (Источник: PaperWeekly)

Статья ICML 2025 MemVR: имитация человеческого механизма «двойного взгляда» для смягчения галлюцинаций в мультимодальных больших моделях

SIGIR 2025论文PaRT:个性化实时检索提升主动社交聊天机器人体验 : Учреждения, включая Китайский научно-технический университет, предложили метод PaRT (Proactive Social Chatbots with Personalized Real-time ReTreival), направленный на улучшение опыта общения с проактивными социальными чат-ботами за счет сочетания персонализации и перезаписи запросов, управляемой распознаванием намерений, с поиском в реальном времени. Система PaRT включает три модуля: построение персонализированного профиля пользователя, распознавание намерений и перезапись запросов, а также генерация, улучшенная поиском в реальном времени. Она может активно инициировать или переключать темы разговора в соответствии с интересами пользователя и контекстом диалога, предоставляя более естественные и информативные ответы. Офлайн-эксперименты и онлайн-A/B-тестирование показали, что этот метод эффективно повышает персонализацию, информативность ответов и среднюю продолжительность диалога. (Источник: PaperWeekly)

Статья SIGIR 2025 PaRT: персонализированный поиск в реальном времени превращает проактивных социальных чат-ботов в «мастеров общения»

ICML 2025论文PreSelect:基于预测强度的高效预训练数据筛选方案 : Гонконгский университет науки и технологий совместно с vivo AI Lab предложили метод отбора данных PreSelect, который вводит понятие «прогностической силы» (Predictive Strength) для количественной оценки вклада данных в определенные способности модели. Этот метод использует согласованность между ранжированием оценок различных моделей на бенчмарках и ранжированием их потерь на данных для оценки ценности данных, а также использует легковесный классификатор fastText для приблизительной оценки, обеспечивая эффективный отбор больших объемов данных. Эксперименты показывают, что PreSelect может повысить эффективность данных в 10 раз, а отобранные данные при обучении моделей показывают значительно лучшие результаты, чем различные базовые методы, охватывая более широкий спектр высококачественных источников контента и уменьшая смещение по длине выборки. (Источник: 量子位)

Статья ICML 2025 PreSelect: эффективная схема отбора данных для предварительного обучения на основе прогностической силы

AI Evals课程邀请12位嘉宾分享评估框架与实践 : Курс AI Evals, организованный Hamel Husain, объявил состав из 12 приглашенных лекторов, включая создателя фреймворка inspect JJ Allaire, евангелиста Modal Charles Frye и других. Курс будет углубленно рассматривать различные аспекты оценки AI, включая фреймворки оценки, создание пользовательских приложений для разметки, практику оценки моделей и т.д., с целью помочь слушателям овладеть ключевыми навыками и инструментами для оценки производительности систем AI. (Источник: Hamel Husain)

Курс AI Evals приглашает 12 гостей для обмена опытом по фреймворкам и практикам оценки

FedRAG教程发布:构建和微调RAG系统的入门指南 : Проект FedRAG выпустил новые учебные ноутбуки и сопроводительные видео, чтобы помочь пользователям быстро освоить библиотеку. Учебник демонстрирует, как использовать интеграцию с Hugging Face для создания системы RAG, использовать базу знаний в памяти для хранения узлов, определить SentenceTransformer (Dragon+) в качестве ретривера, определить предварительно обученную модель (например, Qwen2.5-0.5B) в качестве генератора, а также использовать тренеры LSR и RALT для централизованной тонкой настройки ретривера и генератора. (Источник: nerdai)

Выпущен учебник FedRAG: руководство для начинающих по созданию и тонкой настройке систем RAG

LlamaIndex发布教程:在LlamaExtract中实现引用和推理 : Команда LlamaIndex выпустила новейший разбор кода от @tuanacelik, демонстрирующий, как реализовать функции цитирования и вывода в LlamaExtract. Учебное пособие включает: как определить пользовательскую схему, чтобы сообщить LLM, что извлекать из сложных источников данных, и как добавлять цитаты. Эта функция призвана помочь пользователям создавать многоэтапных AI-агентов, способных точно и обоснованно извлекать структурированную информацию из большого количества исходных документов. (Источник: LlamaIndex 🦙)

LlamaIndex выпускает учебник: реализация цитирования и вывода в LlamaExtract

LlamaIndex发布教程:使用事件驱动的智能体工作流构建多智能体文档助手 : LlamaIndex выпустила новый пошаговый учебник, демонстрирующий, как создать многоагентного помощника по работе с документами с использованием событийно-ориентированных рабочих процессов агентов. Этот помощник способен записывать содержимое веб-страниц в коллекции LlamaIndexDocs и WeaviateDocs, использовать оркестратор для определения момента вызова Weaviate QueryAgent для поиска и агрегации, использовать структурированный вывод для классификации запросов и опционально использовать FunctionAgent. (Источник: LlamaIndex 🦙)

LlamaIndex выпускает учебник: создание многоагентного помощника по документам с использованием событийно-ориентированных рабочих процессов агентов

Modular发布Mojo编译器内部技术讲座,探讨Mojo与GPU架构 : Компания Modular начала делиться своими внутренними техническими лекциями, первая из которых посвящена глубокому рассмотрению языка программирования Mojo и архитектуры GPU. Содержание включает внутреннее устройство компилятора Mojo, а также проблемы и решения, с которыми сталкивается команда при разработке для современных GPU, с целью поделиться с сообществом деталями своего технологического стека. (Источник: Modular)

AI by Hand工作坊:在Excel中从零构建Transformer模型 : ProfTomYeh продвигает свой воркшоп AI by Hand, цель которого — позволить участникам создать модель Transformer с нуля в Excel. Таким образом, учащиеся могут четко и наглядно понять каждый математический шаг Transformer, избегая восприятия его как «черного ящика», и тем самым сформировать глубокое понимание внутренних механизмов работы модели. (Источник: ProfTomYeh)

Воркшоп AI by Hand: создание модели Transformer с нуля в Excel

DeepLearning.AI发布The Batch第301期:探讨AI速度的商业价值及最新进展 : Andrew Ng в своем последнем выпуске The Batch обсуждает, что важность повышения скорости выполнения задач AI для создания коммерческой ценности недооценена. Он считает, что AI не только снижает затраты, но, что более важно, ускоряет инновации и исследования, сокращая время от идеи до прототипа. В этом выпуске также сообщается о выпуске серии для инференса Microsoft Phi-4, о том, что производительность DeepCoder-14B сравнялась с o1, о смягчении правил ЕС в отношении AI и других новостях. (Источник: DeepLearningAI)

💼 商业

AI角色动画初创公司Cartwheel融资1000万美元,简化3D动画流程 : Стартап Cartwheel, специализирующийся на AI-анимации персонажей, объявил о привлечении финансирования в размере 10 миллионов долларов. Компания занимается разработкой технологий, упрощающих процесс создания 3D-анимации, с целью позволить создателям быстрее и экономичнее производить высококачественную 3D-анимацию персонажей, одновременно усиливая контроль над конечным продуктом и устраняя трудоемкие задачи. (Источник: andrew_n_carr)

Hedra获3200万美元A轮融资,由a16z领投,加速角色驱动视频创作 : AI-видео стартап Hedra объявил о закрытии раунда финансирования серии A на сумму 32 миллиона долларов, который возглавил Andreessen Horowitz (a16z), а Matt Bornstein вошел в совет директоров. Существующие инвесторы a16z speedrun, Abstract и Index Ventures также приняли участие в этом раунде. Hedra стремится сделать создание видео с персонажами легким. С момента запуска в скрытом режиме в прошлом году почти 3 миллиона человек использовали их инструменты для создания более 10 миллионов видео. Новые средства будут направлены на ускорение разработки продукта, расширение команды для достижения быстрого, выразительного и интуитивно понятного создания контента. (Источник: Hedra)

Tripadvisor利用Qdrant构建AI行程规划,用户参与度提升2-3倍 : Tripadvisor использует векторную базу данных Qdrant для переосмысления опыта поиска путешествий. Анализируя более 1 миллиарда отзывов и фотографий, 11 миллионов предприятий и данные из 21 страны, Tripadvisor создает динамичные, генерируемые AI маршруты, а не полагается на традиционные фильтры. Результаты показывают, что пользователи, использующие эти AI-инструменты, тратят в 2-3 раза больше времени, что свидетельствует о огромном потенциале AI в персонализированном планировании путешествий. (Источник: qdrant_engine)

Tripadvisor использует Qdrant для создания AI-планировщика маршрутов, вовлеченность пользователей выросла в 2-3 раза

🌟 社区

Grok关于“白人种族灭绝”的言论引发争议,Sam Altman讽刺回应 : Модель Grok от xAI вызвала широкое обсуждение и критику из-за случайных высказываний о геноциде белых в Южной Африке. Paul Graham отметил, что такое поведение похоже на ошибку, внесенную недавним патчем, и выразил обеспокоенность тем, что широко используемый AI может мгновенно редактироваться его контролерами. Sam Altman ответил с сарказмом, заявив, что xAI предоставит прозрачное объяснение и рассмотрит эту проблему в контексте «геноцида белых в Южной Африке», намекая, что это результат стремления AI к истине и следованию инструкциям. Обсуждение этого инцидента в сообществе отражает общую обеспокоенность предвзятостью AI-моделей, их контролируемостью и скрытыми намерениями. (Источник: Paul Graham)

AI产品化思考:从用户任务全流程挖掘机会,而非简单叠加AI功能 : Жэнь Синь, партнер Cloud Nine Capital, поделился глубокими размышлениями о продуктизации AI, подчеркнув, что предприятия должны исходить из всего процесса выполнения задач пользователем, чтобы найти точки приложения AI, а не просто добавлять функции AI к существующим продуктам. Он привел аналогию «пользователю нужна не дрель, а дыра в стене», предложив декомпозировать задачи пользователя, найти болевые точки и оптимизировать их с помощью AI. Четыре уровня продуктизации AI включают: эффективное выполнение старых процессов, создание новых процессов, освоение совершенно новых рынков (снижение порога входа, обслуживание новых групп пользователей, даже сам AI) и создание инфраструктуры для будущего, в котором доминирует AI. Он считает, что технология AI становится общедоступной, и предприятия, не разбирающиеся в технологиях, также могут воспользоваться возможностями, суть которых в том, чтобы «помочь AI найти работу». (Источник: 混沌大学)

讨论:AI在职业发展中的角色与适应策略 : Пост на LinkedIn вызвал дискуссию о том, как AI влияет на карьерное развитие. Распространенное мнение гласит: «AI не заменит вашу работу, но люди, использующие AI, заменят». Однако это утверждение было названо слишком расплывчатым. Были подняты вопросы о том, как, например, фронтенд-инженеры с многолетним опытом могут внезапно переквалифицироваться в AI-инженеров, и о том, что не все могут стать AI-инженерами. Сообщество пришло к выводу, что фронтенд-разработчики могут научиться использовать AI-инструменты для повышения эффективности работы. Также высказывалось мнение, что AI заменит множество рабочих мест, и многим людям будет некуда идти. Более распространенным мнением является то, что будущее пока неясно, но креативность, способность выявлять проблемы, а также понимание и обращение к человеческой природе могут оказаться более защищенными. (Источник: Reddit r/ArtificialInteligence)

讨论:LLM在多轮对话中易“迷失”,重启对话或有助益 : В одном из исследований отмечается, что производительность как открытых, так и закрытых LLM значительно снижается в многораундовых диалогах. Большинство бенчмарков сосредоточены на однораундовых сценариях с четкими инструкциями. Исследование показало, что LLM часто делают (ошибочные) предположения на ранних этапах диалога и полагаются на эти предположения в последующих разговорах, с трудом исправляя их. Вывод заключается в том, что, когда многораундовый диалог не оправдывает ожиданий, перезапуск нового диалога с интеграцией всей релевантной информации в первый раунд ввода может помочь. (Источник: Reddit r/LocalLLaMA)

苹果与微信在AI发展上节奏相对缓慢的原因探讨:隐私安全与应用优先策略 : Вэй Си в своей статье анализирует, что, хотя Apple запустила «Apple Intelligence», а WeChat интегрировал DeepSeek и Yuanbao, темпы продвижения обеих компаний в основных функциях AI относительно медленные. Основных причин две: во-первых, высокая чувствительность к вопросам конфиденциальности и безопасности данных. Интеллект AI зависит от данных, а основные бизнес-модели Apple и WeChat предполагают крайнюю осторожность в обмене данными, что ограничивает обучение моделей и получение контекста приложений. Во-вторых, обе компании придерживаются стратегии «приоритета приложений», не стремясь конкурировать с ведущими AI-компаниями в максимальном уровне интеллекта моделей, а скорее сосредотачиваясь на интеграции возможностей AI в существующие функции и экосистемы, что приводит к возможным ограничениям в технологическом лидерстве и скорости итерации продуктов. (Источник: 卫夕指北)

Обсуждение причин относительно медленного темпа развития AI у Apple и WeChat: конфиденциальность и безопасность, а также стратегия приоритета приложений

OpenAI发起“从A到Z挑战赛”:用AI在亚马逊发现未知考古遗址 : OpenAI объявила о сотрудничестве с Kaggle для проведения специального хакатона «OpenAI to Z Challenge». Конкурс призывает участников использовать модели OpenAI o3, o4-mini или GPT-4.1 для поиска ранее неизвестных археологических объектов в регионе Амазонки. Участники могут делиться своим прогрессом, используя хэштег #OpenAItoZ. Мероприятие направлено на исследование потенциала AI в области археологии и геопространственного анализа. (Источник: OpenAI Developers)

对“AI律师”初创公司的批评:自动化“勒索信”或成社会负担 : Разработчик @swyx раскритиковал явление, когда некоторые венчурные капиталисты инвестируют в стартапы «AI-юристов». Он считает, что эти компании в основном автоматизируют генерацию «писем с требованием» (demand letters), по сути, автоматизируя вымогательство. Хотя некоторые требования могут быть обоснованными, он отмечает, что большинство таких действий в конечном итоге приносят пользу только юристам, становясь чистым налогом на общество. Он призывает бойкотировать, лишать финансирования и публично критиковать такие компании и их инвесторов. (Источник: swyx)

Критика стартапов «AI-юристов»: автоматизированные «письма-вымогательства» могут стать бременем для общества

💡 其他

煤炭研报现“击杀凋灵骷髅获得”离谱错误,引发对内容质量和AI幻觉的讨论 : В отраслевом отчете по углю стоимостью 8200 юаней появилось описание «уголь — это возобновляемый ресурс, получаемый путем убийства скелетов-иссушителей», взятое из игры «Minecraft», что вызвало бурное обсуждение в сети. Многие списали это на генерацию контента AI и галлюцинации. Однако отчет был опубликован в 2022 году, задолго до появления основных больших моделей, таких как ChatGPT, что указывает на типичный случай ручного копирования-вставки и халатности при проверке. Инцидент также вызвал глубокие размышления о качестве контента профессиональных отчетов, важности проверки информации и о том, как распознавать достоверность информации в эпоху AI. (Источник: caoz的梦呓)

Нелепая ошибка в отчете об угле «получается убийством скелетов-иссушителей» вызвала дискуссию о качестве контента и AI-галлюцинациях

研究人员利用定制基因编辑疗法治疗患有罕见代谢疾病的婴儿 : Врачи менее чем за семь месяцев разработали индивидуализированную терапию генного редактирования и успешно применили ее для лечения младенца со смертельным метаболическим заболеванием. Это первый случай, когда генное редактирование было использовано для создания индивидуализированного лечения для конкретного человека. Терапия направлена на исправление одной конкретной однобуквенной ошибки в гене младенца, демонстрируя точность новых технологий генного редактирования (таких как редактирование оснований). Хотя лечение показало ранние положительные признаки, оно также высветило проблемы стоимости и масштабируемости разработки персонализированных генных терапий для ультраредких заболеваний. (Источник: MIT Technology Review)

Исследователи используют индивидуализированную терапию генного редактирования для лечения младенца с редким метаболическим заболеванием

通用越狱提示词策略曝光,可绕过主流大模型安全护栏 : Исследователи из HiddenLayer обнаружили универсальную стратегию подсказок, способную заставить основные большие языковые модели, включая ChatGPT, Claude, Gemini, обходить защитные барьеры и генерировать вредоносный контент. Стратегия заключается в маскировке вредоносных инструкций под формат файлов политик, таких как XML, INI или JSON, в сочетании с вымышленными ролевыми сценариями, чтобы обмануть модель и заставить ее интерпретировать вредоносные команды как легитимные системные инструкции. Этот метод использует возможные системные уязвимости в обучающих данных моделей, а именно склонность игнорировать инструкции по безопасности при обработке данных, связанных с обучением или политиками. Эта техника также способна извлекать системные подсказки моделей, раскрывая их внутренние инструкции и ограничения безопасности. (Источник: 新智元)

Раскрыта универсальная стратегия джейлбрейк-подсказок, способная обходить защитные барьеры основных больших моделей

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *