Ключевые слова:Исследователь автоматизации, Модель ИИ, Обучение с подкреплением, Мультимодальный ИИ, Воплощенный интеллект, Квантовые вычисления, Тестирование производительности ИИ, Коммерческое применение ИИ, Способности к рассуждению GPT-5, Адаптивные способности робота Skild Brain, Мультимодальная модель Qwen3-Omni, Gemini Robotics 1.5, Экономический эталон GDPval
🔥 Фокус
Конечная цель OpenAI: создание автоматизированного исследователя : Главный научный сотрудник OpenAI Якуб Пачоцки (Jakub Pachocki) и главный исследователь Марк Чен (Mark Chen) в недавнем интервью рассказали, что конечная цель OpenAI — создать «автоматизированного исследователя», способного самостоятельно открывать новые идеи. GPT-5 выводит возможности рассуждения и Agentic-поведения в мейнстрим, и в будущем оценка будет сосредоточена на способности модели открывать новое и достигать реального прогресса в экономически значимых областях. Усиленное обучение (Reinforcement Learning) считается ключом к достижению этой цели; его универсальность и сочетание с языковыми моделями продолжают демонстрировать мощную жизнеспособность, и исследователи должны оставаться гибкими, не рассматривая текущее состояние как окончательное. Кроме того, при найме OpenAI больше ценит способность решать сложные задачи и настойчивость, а не «самых известных» людей. При наличии дополнительных ресурсов приоритет будет отдан вычислительным мощностям. (Источник: 量子位, 36氪)
Skild AI выпустила адаптивный робомозг, способный справляться с повреждениями конечностей : Компания Skild AI, оцениваемая в 4,5 миллиарда долларов, представила Skild Brain — робомозг, который может продолжать движение даже при столкновении с неизвестными неисправностями, такими как сломанные конечности или заклинившие моторы. Модель обучалась в виртуальной среде, содержащей сто тысяч различных поз роботов, в течение эквивалента тысячи лет, что позволило ей выработать универсальные стратегии для различных незнакомых сценариев и даже адаптироваться к совершенно новым формам тела. Выдающаяся контекстная память Skild Brain более чем в 100 раз превосходит традиционные контроллеры, что позволяет ему быстро адаптироваться и эффективно выполнять задачи при возникновении непредвиденных ситуаций, например, менять походку при заклинивании колеса. Это свидетельствует о том, что надежно работающий AGI в физическом мире должен обладать мощными адаптивными способностями. (Источник: 量子位)
Бенчмарк OpenAI GDPval: Claude Opus 4.1 превосходит GPT-5 : OpenAI выпустила новый бенчмарк под названием GDPval, предназначенный для измерения производительности моделей ИИ в реальных задачах, имеющих экономическую ценность. Бенчмарк охватывает 44 профессии в 9 отраслях, вносящих наибольший вклад в ВВП США, с общим доходом в 3 триллиона долларов. Результаты тестов показали, что Claude Opus 4.1 с 47,6% производительности был оценен как сопоставимый с человеческим экспертом, превзойдя GPT-5 (38,8%) и GPT-4o (12,4%). OpenAI отметила, что Claude выделяется в эстетических аспектах (например, форматирование документов, макет слайдов), в то время как GPT-5 лучше в точности. Исследование также показало, что модели ИИ почти удвоили свой процент выигрышей всего за один год, и в сочетании с человеческим контролем могут выполнять задачи более экономично и эффективно. (Источник: 量子位, Yuchenj_UW, scaling01, Smol_AI, markchen90, giffmana, tokenbender, BlackHC)
Модель Alibaba Qwen3-Omni преодолевает многомодальный барьер : Alibaba выпустила модель Qwen3-Omni-30B, которая разрушает «многомодальное проклятие», долгое время преследовавшее область ИИ, а именно жертвуя производительностью текстового рассуждения при интеграции визуальных и аудиовозможностей. Qwen3-Omni превосходит GPT-4o в 36 аудио-бенчмарках, при этом демонстрируя производительность на уровне GPT-4 в чистом текстовом рассуждении. Модель использует сквозную обученную кастомную архитектуру аудио-Transformer, достигая низкой задержки в 234 миллисекунды, поддерживает обработку 40-минутных аудиофайлов, понимание 19 разговорных языков и генерацию речи на 10 языках. Выпуск ее открытого исходного кода (Apache 2.0) предвещает конец эры одномодального ИИ и предоставляет лабораториям ИИ передовые многомодальные возможности. (Источник: NerdyRodent)
Arc Institute опубликовал крупные открытия в области биологии ИИ : Arc Institute объявил о трех прорывных открытиях в биологии, тесно интегрирующих ИИ с экспериментальной биологией влажной лаборатории. Среди них: первый функциональный геном, сгенерированный ИИ, использующий модель Evo 2 для создания совершенно нового генома фага и экспериментального подтверждения его эффективности; Germinal, система для проектирования новых антител с помощью ИИ, способная генерировать кандидаты на лекарства с более высокой вероятностью успеха; а также технология «мостового редактирования», позволяющая выполнять точное редактирование длиной до 1 миллиона пар оснований в клетках человека, что потенциально может лечить такие заболевания, как атаксия Фридрейха. Эти результаты демонстрируют огромный потенциал ИИ в биологическом цикле «чтения, мышления, письма» и подчеркивают важность межорганизационного сотрудничества в некоммерческой модели. (Источник: zachtratar, BlackHC)
🎯 Тенденции
Google выпустила Gemini Robotics 1.5, усиливая воплощенный ИИ : Google DeepMind выпустила серию моделей Gemini Robotics 1.5, направленную на повышение способностей роботов в физическом мире. Эта серия включает Gemini Robotics 1.5 (модель «зрение-язык-действие») и Gemini Robotics-ER 1.5 (модель «зрение-язык»). Первая отвечает за преобразование инструкций в точные команды движения робота, вторая выступает в роли высокоуровневого мозга для рассуждений о физическом мире, вызова цифровых инструментов и разработки многошаговых планов. Модель думает и демонстрирует процесс перед тем, как предпринять действие, поддерживает обучение в различных формах, а API уже доступен в AI Studio, что, как ожидается, будет способствовать развитию индустрии воплощенного ИИ. (Источник: op7418, GoogleDeepMind, osanseviero, jon_lee0, GoogleDeepMind)
Qualcomm выпустила новые чипы, полностью поддерживающие опыт Agent AI : Qualcomm представила процессоры для ПК серии Snapdragon X2 Elite и мобильную платформу пятого поколения Snapdragon 8 Extreme Edition, призванные проложить путь к опыту Agent AI. Snapdragon X2 Elite Extreme разработан специально для ПК ультра-премиум-класса, его NPU имеет производительность 80 TOPS и значительно улучшенную энергоэффективность. Пятое поколение Snapdragon 8 Extreme Edition впервые представляет функцию непрерывного обучения ИИ на устройстве, поддерживая персонализированных Agent AI-помощников, которые глубоко понимают пользователя через восприятие в реальном времени и многомодальные модели ИИ, предоставляя настраиваемые операции для различных приложений. Генеральный директор Qualcomm Амон подчеркнул, что ИИ — это новый UI, предвещая переход от смартфоноцентричной к агентоцентричной вычислительной архитектуре. (Источник: 量子位, 小米17 4499开卖,首发五代骁龙8!雷军:500亿砸自研芯片)
JD Logistics выпустила «Super Brain Large Model 2.0» и воплощенную интеллектуальную роботизированную руку «Yilang» : JD Logistics представила «Super Brain Large Model 2.0» и систему воплощенной интеллектуальной роботизированной руки «Yilang», направленные на ускоренное создание экосистемы приложений «ИИ+». Super Brain Large Model 2.0 полностью Agentic, что позволяет интеллектуальным устройствам принимать автономные решения, сокращая время решения моделей с миллионами переменных до 2 часов, повышая эффективность на передовой почти на 20% и эффективность человеко-машинного взаимодействия более чем на 20%. Роботизированная рука «Yilang» благодаря передовому визуальному восприятию и высокоточному управлению движением решает проблему автоматической укладки нестандартных посылок в логистических сценариях и уже 24 часа в сутки работает в интеллектуальных парках. Две новые разработки, работая в тандеме, формируют замкнутый цикл «облачный интеллект — терминальное исполнение», что знаменует переход логистической отрасли от «вспомогательного принятия решений» к новой стадии «воплощенного исполнения». (Источник: 量子位)
Google интенсивно обновляет продукты ИИ в сентябре : Google в сентябре интенсивно выпустила серию обновлений продуктов ИИ, включая Gemini Robotics 1.5, новейший Gemini Live, EmbeddingGemma, Veo 3 GA и обновления API, решения AI Edge on-device, поддержку встраивания Gemini Batch API, обновления Gemini Flash и Flash Lite, а также Chrome DevTools MCP и VaultGemma. Эти обновления охватывают множество областей, таких как робототехника, встроенный ИИ, мультимодальные модели, граничные вычисления и инструменты разработки, демонстрируя всестороннее развертывание Google в области ИИ и быструю итерацию. (Источник: osanseviero)
Apple представила первый унифицированный визуальный Tokenizer ATOKEN : Apple представила ATOKEN, первый унифицированный визуальный Tokenizer, способный объединять изображения, видео и 3D-активы в едином общем 4D-пространстве потенциалов/токенов. ATOKEN достигает производительности, соответствующей другим специализированным Tokenizer, одновременно обеспечивая унифицированное представление для различных типов визуальных данных, что имеет большое значение для развития мультимодальных моделей ИИ, обещая упростить процессы обработки мультимодальных данных, повысить эффективность модели и способность к обобщению. (Источник: menhguin)
NVIDIA активно развивает область квантовых вычислений : NVIDIA активно инвестирует в квантовые вычисления, демонстрируя свою приверженность этой области через CUDA-Q (гибридная квантово-классическая платформа программирования), DGX Quantum (эталонная архитектура, соединяющая квантовые системы управления с суперкомпьютерами ИИ), а также сотрудничество с аппаратными партнерами для создания специализированных квантовых исследовательских центров. Дженсен Хуанг (Jensen Huang) также через NVentures инвестирует в квантовые стартапы, такие как PsiQuantum, Quantinuum, QuEra, что предвещает стратегический сдвиг в графике коммерциализации квантовых вычислений к 2025 году, глубоко интегрируя ИИ и квантовые вычисления. (Источник: TheTuringPost, TheTuringPost)
Deemos выпустила модель 3D-генерации Rodin Gen-2 : Deemos представила свою новейшую модель 3D-генерации Rodin Gen-2, которая достигла значительных успехов в создании 3D-контента. Rodin Gen-2 предлагает 4-кратную точность сетки, возможности рекурсивной генерации деталей, поддерживает запекание высокополигональных моделей в низкополигональные и генерацию карт нормалей, а также функции HD-текстур. Кроме того, она включает такие функции, как 3D ControlNets, Quads на уровне частей, T/A Pose и PBR, предоставляя 3D-дизайнерам и разработчикам более мощные инструменты для творчества. (Источник: op7418)
ИИ все шире применяется в ветеринарии : ИИ находит широкое применение в ветеринарии, охватывая диагностику, мониторинг и прогнозирование заболеваний. Например, ИИ помогает диагностировать гипоадренокортицизм и лептоспироз у собак, прогнозировать мозжечковые аномалии и сирингомиелию у собак по данным МРТ и изображениям морды, а также проводить анализ фекалий для идентификации видов паразитов. В сельском хозяйстве ИИ через технологии оценки состояния тела, хромоты и идентификации заболеваний позволяет осуществлять ранний мониторинг и лечение молочных стад, повышая благосостояние животных и поддерживая управление антимикробными препаратами. Кроме того, ИИ используется для управления пастбищами и разработки биосенсоров, открывая новые возможности и вызовы для ветеринарной профессии. (Источник: aihub.org)
Технология лидаров для Robotaxi переживает три волны смены поколений : Развитие Robotaxi тесно связано с эволюцией технологии лидаров, которая прошла через три ключевые смены поколений. Изначально однолинейные лидары заложили основу, затем 64-линейные механические лидары стали стандартом для автономного вождения L4, решив проблему «с нуля». В настоящее время отрасль вступает в третью волну смены поколений, основанную на самостоятельно разработанных цифровых чипах, стремясь к тройному балансу высокой производительности, высокой надежности и низкой стоимости. Лидар EM4 от RoboSense использует цифровую архитектуру VCSEL+SPAD-SoC, обеспечивая высокочувствительное обнаружение, шумоподавление при дожде, тумане, снеге и пыли, способен обнаруживать картонную коробку размером 13×17 см на расстоянии 130 метров, удовлетворяя потребности Robotaxi в круглосуточной коммерческой эксплуатации в любых погодных условиях и местности, становясь новым стандартом отрасли. (Источник: 量子位)
Локальное выполнение ИИ и аппаратная автономия становятся центром внимания : С развитием технологий ИИ растет потребность пользователей в запуске LLM на локальных устройствах для достижения суверенитета ИИ и конфиденциальности данных. Например, запуск моделей LLM MLX на аппаратном обеспечении Apple Silicon, таком как Mac Mini M4 Pro, демонстрирует акцент на граничных вычислениях и персональных возможностях ИИ. Это касается не только производительности, но и желания пользователей контролировать системы ИИ, уменьшая зависимость от облачных сервисов и предоставляя разработчикам и индивидуальным пользователям больше автономных вариантов. (Источник: awnihannun)
Meta запустила платформу коротких видеороликов, генерируемых ИИ, Vibes : Meta представила новую функцию под названием «Vibes» — ленту коротких видеороликов, генерируемых ИИ, в приложении Meta AI. Платформа призвана позволить пользователям находить и создавать короткие видеоролики, генерируемые ИИ. Хотя некоторые пользователи выражают обеспокоенность по поводу качества контента и насыщенности рынка, этот шаг все же является важным шагом Meta в области генерации контента с помощью ИИ, стремясь с помощью технологий ИИ еще больше обогатить формы контента в социальных сетях. (Источник: cto_junior, teortaxesTex, Reddit r/artificial)
ChatGPT запускает функцию Pulse для проактивных персонализированных обновлений : OpenAI представила новую функцию под названием «Pulse» для ChatGPT, направленную на предоставление более проактивного и персонализированного пользовательского опыта. Pulse может автоматически генерировать ежедневные обновления и сводки на основе истории чатов пользователя, отзывов и подключенных приложений (например, календаря). Эта функция в настоящее время доступна для пользователей Pro на мобильных устройствах и призвана сделать ChatGPT интеллектуальным помощником, способным предвидеть потребности пользователя и предоставлять соответствующую информацию, тем самым помогая пользователям лучше управлять повседневными задачами и информационными потоками. (Источник: snsf, Reddit r/artificial)
Постоянно появляются новейшие модели с открытым исходным кодом, серия Qwen демонстрирует активность : Сообщество LLM с открытым исходным кодом в последнее время остается активным, выпущено множество новых моделей и обновленных версий. Среди них особенно выделяется серия Qwen, включающая Qwen3-Max, Qwen3-Omni (полномодальная), Qwen-Image-Edit-2509, Qwen3-VL-235B A22B (визуальная LLM) и Qwen3-4B Function Calling. Кроме того, DeepSeek-V3.1-Terminus, Meta Code World Model (CWM) 32B, Baidu Qianfan-VL (визуальная LLM) и Magistral 1.2 (мультимодальная) также были выпущены или обновлены, предоставляя исследователям и разработчикам богатый выбор. (Источник: Reddit r/LocalLLaMA)
Робот Reachy Mini впервые выступил на сцене : Робот Reachy Mini впервые выступил на сцене TEDAIVienna и продемонстрировал свой потенциал в качестве импровизационного актера. Это событие знаменует дальнейшее исследование робототехникой области исполнительского искусства и может предвещать новые применения роботов в развлечениях и человеко-машинном взаимодействии в будущем. (Источник: ClementDelangue)
🧰 Инструменты
Droid от FactoryAI демонстрирует выдающиеся результаты в бенчмарках разработки ПО : Droid от FactoryAI, ИИ-агент, занял первое место в Terminal-Bench (одном из самых сложных бенчмарков для общей разработки ПО), превзойдя такие популярные инструменты, как Claude Code и Codex CLI. Droid отлично справляется с такими задачами, как модернизация устаревшего кода и отладка, а его «безупречная» производительность впечатлила пользователей, демонстрируя мощный потенциал ИИ в сложных задачах программной инженерии. (Источник: matanSF, matanSF)
Convex Chef: первый конструктор ИИ-приложений, понимающий бэкенд : Convex Chef — это уникальный конструктор ИИ-приложений, который не только создает полнофункциональные веб-приложения, но и включает встроенную базу данных, аутентификацию без настройки, загрузку файлов, UI в реальном времени и фоновые рабочие процессы. Его мощные возможности обусловлены API открытой реактивной базы данных Convex, которые идеально подходят для генерации кода. Системные подсказки Chef доступны для просмотра или загрузки, они призваны упростить работу разработчиков веб-приложений и поддерживают API-ключи различных поставщиков моделей. (Источник: GitHub Trending)
Trend Finder: инструмент для анализа трендов в социальных сетях на основе ИИ : Trend Finder — это инструмент, использующий технологии ИИ для отслеживания популярных тем в социальных сетях и в интернете. Он отслеживает публикации ключевых инфлюенсеров (например, в Twitter/X) и обновления веб-сайтов, использует Together AI, DeepSeek или OpenAI для анализа контента, выявляет новые тренды, запуски продуктов и новости, а также анализирует настроения и релевантность. При обнаружении важных трендов он отправляет уведомления через Slack или Discord, помогая маркетинговым командам экономить время на ручной поиск и быстро реагировать на рыночные возможности. (Источник: GitHub Trending)
Qwen3-Coder-30b AWQ обеспечивает эффективное кодирование на потребительском оборудовании : Модель Qwen3-Coder-30b AWQ (4-битное квантование) продемонстрировала поразительную скорость вывода в 115 токенов в секунду на одной видеокарте RTX 3090. Эта модель не только эффективно работает, но и успешно «написала» игру Pac-Man в условиях zero-shot, демонстрируя свои мощные возможности в задачах кодирования и практичность на потребительском оборудовании, предоставляя высокопроизводительный вариант для локальной разработки и применения LLM. (Источник: QuixiAI)
Perplexity скоро запустит Browsing API : Perplexity AI объявила о скором запуске своего Browsing API, призванного предоставить превосходную инфраструктуру для поиска и просмотра. Ожидается, что этот API будет бесшовно интегрироваться с существующим открытым кодом, быстро реализуясь как настраиваемый инструмент, предоставляя пользователям более прямые ответы и меньше рекламы, чем традиционные поисковые системы. Этот шаг еще больше укрепит позиции Perplexity в области ИИ-нативного поиска и предоставит разработчикам мощные возможности для извлечения информации. (Источник: AravSrinivas, AravSrinivas)
Comet AI запускает интеллектуального торгового агента : Comet AI представила интеллектуального торгового агента, призванного упростить процесс покупок для пользователей. Пользователю достаточно дать инструкцию, например, «купи три книги, рекомендованные Druckenmiller», и агент автоматически выполнит задачу, проанализирует миллионы отзывов и найдет альтернативы. Этот агент избегает рекомендации случайных продуктов с помощью моделей семантической схожести и циклов обратной связи с пользователями, а также предоставляет оценки качества/долговечности на основе анализа отзывов, помогая пользователям находить более качественные альтернативы. (Источник: AravSrinivas)
Режим Kimi Agent «OK Computer»: полнофункциональный ИИ-помощник : Kimi представила свой режим Agent «OK Computer», позиционируемый как полнофункциональный ИИ-помощник, призванный повысить эффективность работы в сценариях продуктивности. Этот Agent поддерживает более 20 инструментов, таких как файловая система, браузер, терминал, написание кода, генерация изображений/аудио, и способен выполнять полный цикл от исследования, разработки продуктового решения, интерактивного дизайна до фронтенд-разработки. Он управляется специализированной моделью усиленного обучения, способен анализировать показатели акций, создавать прототипы сайтов для покупок и генерировать редактируемые PPT, демонстрируя мощные возможности многозадачности и высокую степень настраиваемости. (Источник: op7418, crystalsssup)
LMCache: расширение кэша с открытым исходным кодом для движков обслуживания LLM : LMCache — это расширение с открытым исходным кодом, разработанное для крупномасштабного производства вывода LLM, выступающее в качестве уровня кэширования для движков обслуживания LLM. Оно реализует интеллектуальное управление KV-кэшем, повторно используя состояния ключей-значений предыдущего текста на GPU, CPU и локальных дисках, может повторно использовать любые повторяющиеся текстовые фрагменты, а не только префиксы. Это приводит к снижению затрат на RAG в 4-10 раз, сокращению времени генерации первого токена (TTFT) и увеличению пропускной способности при высокой нагрузке, а также позволяет эффективно обрабатывать сценарии с длинным контекстом. NVIDIA уже интегрировала его в проект Dynamo Inference. (Источник: TheTuringPost)
Выпущен Swift Transformers 1.0, ориентированный на MLX и Agentic-сценарии использования : Hugging Face выпустила версию Swift Transformers 1.0, предназначенную для поддержки разработчиков Apple в интеграции локальных LLM на платформах Apple Silicon, таких как iPhone. Библиотека предоставляет компоненты Tokenizers, Hub и Models/Generation для обработки ввода, загрузки моделей и выполнения вывода. Версия 1.0 повышает Tokenizers и Hub до модулей верхнего уровня и сотрудничает с Джоном Маем (John Mai) для создания более быстрой библиотеки Swift Jinja. В будущем проект будет больше сосредоточен на исследовании MLX и Agentic-сценариев использования для лучшей интеграции с mlx-swift-examples. (Источник: HuggingFace Blog)
Exa-code призван устранить галлюцинации кода LLM : Exa-code — это важный инструмент, призванный значительно уменьшить галлюцинации кода LLM путем индексирования более 1 миллиарда страниц документов, репозиториев GitHub и постов StackOverflow. При получении запроса exa-code выполняет гибридный поиск по этому огромному объему данных и возвращает разделенную на блоки и объединенную, эффективную по токенам строку, тем самым предоставляя LLM более точную и надежную информацию для программирования, повышая качество генерации кода. (Источник: Teknium1)
Список рекомендованных топовых локальных LLM : Сообщество поделилось списком топовых локальных LLM, предоставляя пользователям мощные модели для запуска на потребительском оборудовании. Рекомендуемые модели включают: GLM-4.5-air (лучшая Agentic/кодирующая модель, сопоставимая с Claude 4-sonnet), Nousresearch/hermes-70B (полнофункциональная), GPT-OSS-120B (интеллект близок к GPT-4o), Qwen3-coder-30B-3A-instruct (эффективный кодирующий Agent) и Mistral-magistral-small (быстрая, эффективная, мультимодальная). Эти модели быстро работают локально, мощны и предоставляют высококачественный выбор для пользователей, не зависящих от проприетарных LLM. (Источник: Teknium1)
Демонстрация программирования в реальном времени с GPT-5-Codex : Разработчик провел демонстрацию программирования в реальном времени с использованием GPT-5-Codex. Эта демонстрация показала применение ИИ в задачах кодирования, где разработчик мог в реальном времени создавать и отлаживать код, взаимодействуя с GPT-5-Codex, что подчеркивает потенциал ИИ в помощи при разработке программного обеспечения. (Источник: pierceboggan)
Alibaba Wan2.5-Preview представляет редактирование изображений по инструкциям : Alibaba выпустила Wan2.5-Preview, предлагая мощные функции редактирования изображений. Эта модель поддерживает широкий спектр задач редактирования изображений по инструкциям, способна надежно следовать указаниям пользователя. Кроме того, она обладает визуальной согласованностью элементов, поддерживает генерацию по одной или нескольким ссылкам на изображения и может сохранять согласованность визуальных элементов, таких как лица, продукты и стили, что значительно повышает эффективность и гибкость создания и модификации изображений. (Источник: Alibaba_Wan)
Kling 2.5 в сочетании с Suno 5 обеспечивает «бесконечную» генерацию ИИ-видео : Версия 2.5 Kling AI, используя технологию «цепочки кадров» в сочетании с возможностями создания музыки Suno 5, реализовала «бесконечную» генерацию ИИ-видео. Эта технология позволяет пользователям легко создавать по сути бесконечный ИИ-видеоконтент, при этом качество музыки также значительно улучшилось по сравнению с предыдущими версиями. Пользователи могут выполнять большую часть операций в чате с помощью настраиваемых агентов, сосредоточившись на творческом направлении, что значительно снижает порог для производства видео. (Источник: fabianstelzer, Kling_ai)
Yaw AI запускает ИИ-помощника по покупкам, анализирующего поведение потребителей : Yaw AI разработала ИИ-помощника по покупкам, который помогает пользователям принимать более обоснованные решения о покупке, анализируя миллионы отзывов о продуктах и находя альтернативы в реальном времени. Система уже имеет 15 тысяч активных пользователей и обрабатывает более 2 миллионов отзывов в месяц. Исследование показало, что потребители не любят читать отзывы, а предпочитают сканировать, обращая внимание на звездный рейтинг и негативные сводки; эффект ценовой привязки силен, процент скидки важнее абсолютной экономии; лояльность к бренду часто превосходит логику, но значительные скидки могут побудить попробовать новый бренд. Помощник рекомендует не только более дешевые, но и более качественные продукты. (Источник: Reddit r/artificial)
Kwaipilot/KAT-Dev: LLM с открытым исходным кодом для программной инженерии : Kwaipilot выпустила KAT-Dev-32B, модель с 32 миллиардами параметров с открытым исходным кодом, специально предназначенную для задач программной инженерии. Эта модель достигла 62,4% решения в бенчмарке SWE-Bench Verified, заняв пятое место среди всех моделей с открытым исходным кодом, что является впечатляющей производительностью. Она основана на модели Qwen 3 32B и использует специфическую методологию, обещая обеспечить эффективное кодирование и Agentic-возможности на потребительском оборудовании. (Источник: Reddit r/LocalLLaMA)
📚 Обучение
Алгоритм ViSpec от Huawei Noah’s Ark Lab вошел в NeurIPS 2025 : Фреймворк спекулятивного вывода визуального восприятия (ViSpec), предложенный Huawei Noah’s Ark Lab, был включен в NeurIPS 2025. Этот алгоритм ускоряет вывод мультимодальных больших моделей (VLM) до 3,22 раз без ущерба для качества генерации. ViSpec решает проблемы эффективности черновиковых моделей при обработке высокоизбыточной информации изображений и проблему «промежуточного забывания» при генерации длинного текста путем введения легковесного визуального адаптера и глобальной инъекции визуальных признаков. Кроме того, команда, используя синтетические наборы данных для длинных ответов и специализированные стратегии обучения, обеспечила способность черновиковой модели к обобщению в реальных сценариях вывода, открывая новую эру для эффективного вывода VLM. (Источник: 量子位)
Tsinghua & Shanghai AI Lab преодолели два основных узких места в RL роботов, SimpleVLA-RL обновил SOTA : Совместная команда Университета Цинхуа и Shanghai AI Lab представила SimpleVLA-RL, сквозное решение для онлайн-обучения, направленное на устранение основных узких мест в моделях «зрение-язык-действие» (VLA) для усиленного обучения роботов (RL), а именно дефицита данных и недостаточной способности к обобщению. Этот фреймворк, основанный на veRL, значительно повышает эффективность данных и способность модели к обобщению в сценариях с изменением распределения благодаря интерактивной выборке траекторий, минималистичным наградам за результат и улучшенному дизайну исследования. Экспериментальные результаты показывают, что SimpleVLA-RL достигает производительности SoTA в бенчмарках, таких как LIBERO, и даже в условиях SFT с одной траекторией, уровень успеха может быть увеличен с 48,9% до 96,9%, а также могут появляться новые стратегии операций, выходящие за рамки человеческих демонстраций, такие как «Pushcut». (Источник: 量子位)
Последние новости о линейном кодировании порядка обучения в активациях LLM : Недавнее исследование показало, что активации больших языковых моделей (LLM) линейно кодируют недавний порядок обучения. Исследователи, последовательно дообучая модели на разных наборах данных, обнаружили, что средние активации шести соответствующих тестовых наборов данных согласуются с точным порядком обучения, а линии разных запусков обучения примерно параллельны. Это открытие указывает на то, что модель воспринимает «время», где время — это градиентный шаг в процессе предварительного обучения. Это имеет важное значение для понимания внутренних механизмов работы LLM и того, как они «запоминают» информацию в процессе обучения. (Источник: menhguin, JeffLadish, BlackHC)
Meta выпустила Code World Model (CWM) для улучшения понимания и генерации кода : Meta выпустила Code World Model (CWM), плотную LLM с 32 миллиардами параметров, разработанную для продвижения исследований в области генерации кода с помощью Agentic-рассуждений и мировых моделей. CWM способна отслеживать выполнение кода, подобно нейронному pdb, помогая модели фактически понимать код. Это нововведение, как ожидается, позволит модели демонстрировать более сильные способности в сложных задачах программирования, таких как рефакторинг кода, и решит проблему неравномерного распределения времени в традиционных моделях программирования при работе с простыми и сложными задачами. (Источник: giffmana, BlackHC)
Soft Tokens, Hard Truths: новый метод усиленного обучения LLM : Новое препринт-исследование «Soft Tokens, Hard Truths» представляет первый масштабируемый метод усиленного обучения (RL) с непрерывными токенами для больших языковых моделей (LLM). Этот метод не требует ссылки на CoT (цепочку мыслей), масштабируется до сотен токенов мыслей и использует «мягкие» токены при обучении и «жесткие» токены при выводе. Исследование показывает, что этот метод достигает того же уровня, что и жесткий CoT, на Pass@1, улучшается на Pass@32 и обладает лучшей устойчивостью. (Источник: menhguin)
Перереализация мировой модели DeepMind Genie 3: TinyWorlds : Мировая модель DeepMind Genie 3 была перереализована, в результате чего появилась TinyWorlds — мировая модель всего с 3 миллионами параметров, способная генерировать игровые среды. Этот результат демонстрирует потенциал небольших моделей в сложных задачах и делится опытом, полученным в процессе реализации, с помощью подробных демонстраций и кодовой базы, предоставляя новый взгляд и ресурсы для исследования мировых моделей. (Источник: hardmaru, NandoDF)
Sakana AI представила ShinkaEvolve: эффективный фреймворк с открытым исходным кодом для научных открытий : Sakana AI выпустила ShinkaEvolve, фреймворк с открытым исходным кодом, который способствует программной эволюции в научных открытиях с беспрецедентной эффективностью выборки. Этот фреймворк использует LLM для поиска самых современных решений сложных проблем, но с использованием значительно меньшего объема ресурсов. ShinkaEvolve достигает значительной эффективности выборки благодаря адаптивной стратегии выборки предков, фильтрации отклонений на основе новизны и интеграции LLM на основе Bandit, например, находя новые решения SOTA для классической задачи оптимизации круглых стопок с использованием всего 150 образцов. (Источник: hardmaru)
Запущен LIBERO VLA Leaderboard для продвижения оценки моделей «зрение-язык-действие» : Официально запущен первый рейтинг LIBERO VLA Leaderboard для моделей «зрение-язык-действие» (VLA). С быстрым развитием моделей VLA создание эффективного, справедливого общего бенчмарка и открытого сообщества становится крайне важным. Запуск этого рейтинга позволит исследователям лучше сравнивать и оценивать производительность различных моделей VLA, тем самым ускоряя технологический прогресс в этой области. (Источник: clefourrier)
Ограничения фреймворка оценки LLM-as-a-Judge и решение TrustJudge : Исследование выявило ключевые несоответствия при использовании LLM в качестве автоматических оценщиков (LLM-as-a-Judge), включая несоответствия в сравнении оценок и несоответствия в парной транзитивности. Эти проблемы возникают из-за потери информации в дискретной системе оценок и неоднозначных решений о ничьей. Для решения этой проблемы было предложено TrustJudge — вероятностный фреймворк, который повышает точность и надежность оценки за счет чувствительного к распределению оценивания и агрегации, учитывающей вероятность. Эксперименты показали, что TrustJudge значительно уменьшает несоответствия в оценке и повышает ее точность. (Источник: HuggingFace Daily Papers, BlackHC)
Карточки систем ИИ: план сквозной прозрачности и управления : В статье представлен фреймворк Hazard-Aware System Card (HASC), разработанный для повышения прозрачности и подотчетности при разработке и развертывании систем ИИ. HASC, основываясь на существующих концепциях карточек моделей и систем, интегрирует полную динамическую запись состояния безопасности системы ИИ и предлагает идентификаторы AI Safety Hazard (ASH) для дополнения существующих идентификаторов безопасности. Предоставляя единый, доступный источник достоверной информации, HASC позволяет разработчикам и заинтересованным сторонам принимать более обоснованные решения по безопасности на протяжении всего жизненного цикла системы ИИ и дополняет стандарт ISO/IEC 42001:2023. (Источник: HuggingFace Daily Papers)
Residual Off-Policy RL: новый метод тонкой настройки стратегий клонирования поведения : Исследование предлагает фреймворк остаточного обучения, сочетающий преимущества клонирования поведения (BC) и усиленного обучения (RL), предназначенный для тонкой настройки стратегий клонирования поведения. Этот метод использует стратегию BC в качестве черного ящика и изучает легковесные пошаговые остаточные корректировки с помощью эффективного по выборке RL вне политики. Исследование показывает, что этот метод, требующий лишь разреженного бинарного сигнала вознаграждения, может эффективно улучшать стратегии манипулирования в робототехнических системах с высокой степенью свободы и достигать самых современных результатов как в симуляции, так и в реальном мире, предоставляя практический путь для развертывания RL в реальном мире. (Источник: HuggingFace Daily Papers)
QuantVGGT: фреймворк квантования для моделей 3D-реконструкции : QuantVGGT — это первый фреймворк квантования для визуально-геометрических фундаментальных Transformer (VGGTs), разработанный для решения уникальных проблем, с которыми они сталкиваются при сжатии моделей с миллиардами параметров. Вводя двойное сглаженное мелкозернистое квантование и разнообразную выборку с фильтрацией шума, QuantVGGT эффективно смягчает проблемы распределения активаций с тяжелыми хвостами и нестабильности выбора калибровочных образцов. Этот фреймворк достигает самых современных результатов на различных бенчмарках и битовых глубинах, 4-битное квантование позволяет сократить память в 3,7 раза и ускорить вывод в 2,5 раза, сохраняя при этом более 98% точности реконструкции, предоставляя практическое решение для сценариев с ограниченными ресурсами. (Источник: HuggingFace Daily Papers)
AutoIntent: инструмент AutoML для классификации текста : AutoIntent — это инструмент автоматизированного машинного обучения, разработанный специально для задач классификации текста. В отличие от существующих решений, AutoIntent предлагает сквозную автоматизацию, включая выбор модели встраивания, оптимизацию классификатора и настройку порогов принятия решений, все это реализовано через модульный интерфейс в стиле sklearn. Фреймворк поддерживает многометовую классификацию и обнаружение вне диапазона, демонстрирует превосходные результаты на стандартных наборах данных для классификации намерений и позволяет пользователям балансировать эффективность и потребление ресурсов. (Источник: HuggingFace Daily Papers)
Recon-Act: саморазвивающаяся многоагентная система использования браузера : Recon-Act — это саморазвивающийся многоагентный фреймворк, основанный на парадигме поведения «разведка-действие», разработанный для решения проблем хаотичной последовательности действий агентов и чрезмерного количества проб и ошибок в многоэтапных, долгосрочных задачах с реальными веб-страницами. Система состоит из команды разведки и команды действий: первая проводит сравнительный анализ и генерацию инструментов, вторая отвечает за декомпозицию намерений, оркестрацию и выполнение инструментов. Сравнивая ошибочные и успешные траектории, команда разведки выводит корректирующие меры и абстрагирует их в универсальные инструменты, регистрируя их в архиве инструментов, реализуя замкнутый цикл обучения данных-инструментов-действий-обратной связи. (Источник: HuggingFace Daily Papers)
Недостатки дизайна бенчмарков LLM Judge и проблемы с валидностью : Исследование указывает на то, что недостатки дизайна бенчмарков для оценки LLM (LLM Judge) могут серьезно ослабить валидность результатов ранжирования из-за шума. Исследование вводит два механизма — «схематическое соответствие» и «психометрическую валидность» — для диагностики этих проблем, обнаруживая, что популярные оценщики страдают от серьезной схематической несогласованности и коллапса факторов. Например, необъясненная дисперсия DeepSeek-R1-32B превышает 90%, а большинство стандартных факторных корреляций выше 0,93. Исследование подчеркивает важность разработки бенчмарков для оценки LLM, которые будут более широкими по охвату и ориентированными на надежность. (Источник: HuggingFace Daily Papers)
BESPOKE: бенчмарк для персонализированной оценки LLM с усиленным поиском : BESPOKE — это реалистичный и диагностический бенчмарк для оценки персонализационных возможностей больших языковых моделей (LLM) с усиленным поиском. Этот бенчмарк, собирая реальные чаты и истории поиска людей, а также дополняя их детализированными оценками предпочтений и диагностической обратной связью, призван решить проблему недостаточного распознавания разнообразных потребностей пользователей в существующих оценках. BESPOKE, созданный благодаря долгосрочной, глубокой ручной аннотации, выявляет ключевые требования к эффективной персонализации в задачах извлечения информации, закладывая основу для детализированной оценки персонализированных LLM с усиленным поиском. (Источник: HuggingFace Daily Papers)
Thinking While Listening: фреймворк масштабирования во время тестирования для классификации аудио : Исследование предлагает фреймворк, позволяющий нейронным сетевым моделям «думать во время прослушивания», тем самым повышая производительность классификации аудио. Этот фреймворк направлен на интеграцию возможностей рассуждения в существующие процессы классификации аудио и разработку новых архитектур для поддержки мышления и масштабирования во время тестирования. Исследование показывает, что в обеих настройках модели демонстрируют более высокую точность классификации, и производительность продолжает улучшаться с увеличением количества траекторий выборки. Кроме того, легковесные методы (например, переобучение матрицы встраивания замороженных небольших моделей) могут превзойти текстовые модели рассуждений с миллиардами параметров. (Источник: HuggingFace Daily Papers)
Прогресс HVM4: быстрый параллельный верификатор доказательств и кодирование на C с помощью ИИ : HVM4 добился значительных успехов во встроенном SupGen и нативной системе типов, что позволяет ему работать непосредственно в интерактивной сети, становясь быстрым, параллельным верификатором доказательств. Ожидается, что его скорость будет на несколько порядков выше, чем у Lean, и планируется применять его для усиленного обучения доказательств теорем. Кроме того, кодирование с помощью ИИ сделало язык C «удивительно жизнеспособным» в кодовой базе HVM; вся кодовая база теперь на 100% написана на C, при этом качество кода поддерживается с помощью ИИ, что повышает стабильность и скорость. (Источник: VictorTaelin)
Мастер-класс по разработке, управляемой ИИ : AIDD (AI-Driven Development) запустил мастер-класс по разработке, управляемой ИИ, который представляет собой практический курс, призванный научить интегрировать ИИ в повседневные рабочие процессы разработки. Содержание курса включает использование рабочих процессов IDE, управляемых ИИ, интеллектуальных подсказок и настраиваемых агентов, создание многократно используемых конвейеров (таких как RAG, векторный поиск и чат-боты), применение ИИ в тестировании и дизайне UI, а также архитектуру производственных приложений с приоритетом ИИ. (Источник: Reddit r/artificial)
Совет по машинному обучению: используйте SMOTE для балансировки наборов данных : В области машинного обучения практический совет гласит: «Всегда используйте SMOTE (Synthetic Minority Over-sampling Technique) для балансировки наборов данных». С помощью этого метода можно значительно улучшить такие показатели производительности модели, как точность, полнота и F1-мера, особенно при работе с несбалансированными наборами данных. SMOTE эффективно генерирует образцы миноритарного класса, улучшая способность модели к обучению миноритарного класса. (Источник: Reddit r/MachineLearning)
Эволюция извлечения информации: от дворцов памяти до ИИ-встраиваний : Видео подробно рассматривает историю эволюции извлечения информации, от древних дворцов памяти до современных векторных встраиваний. Оно прослеживает развитие технологий поиска, включая каталоги Александрийской библиотеки, рождение метаданных, бумажную поисковую систему Mundaneum, статистическую революцию TF-IDF и векторные пространственные модели, заложившие основы современных ИИ-встраиваний 50 лет назад. Видео отмечает, что современные технологии, такие как Transformer и векторные базы данных, являются лишь последней главой этой долгой истории, и предвидит будущее Retrieval-Augmented Generation (RAG), полагая, что оно вернется к человеческому опыту задавания вопросов библиотекарю и получения правдивых ответов. (Источник: Reddit r/deeplearning)
Самая сложная задача нейросимволического ИИ: символическое заземление : Одной из самых сложных задач, стоящих перед нейросимволическим ИИ, является «символическое заземление» (Symbol Grounding). Эта проблема исследует, как связать высокоуровневые абстрактные символы с низкоуровневыми перцептивными данными и опытом физического мира, чтобы системы ИИ могли по-настоящему понимать мир и взаимодействовать с ним. Решение проблемы символического заземления имеет решающее значение для создания систем ИИ, способных к сложному рассуждению, пониманию естественного языка и осмысленному взаимодействию с окружающей средой. (Источник: Reddit r/deeplearning)
Китайский ученый Шэнь Динган получил награду MICCAI за долгосрочное влияние : Шэнь Динган, основатель и декан Школы биомедицинской инженерии Шанхайского университета науки и технологий, со-генеральный директор United Imaging Intelligence, получил награду за долгосрочное влияние (EIA) на ежегодной конференции Международного общества по медицинским изображениям и компьютерно-ассистированным вмешательствам (MICCAI) 2025 года, став первым китайским ученым, удостоенным этой награды за 17 лет ее существования. Награда присуждается за его выдающиеся достижения в области искусственного интеллекта для медицинских изображений, включая одно из первых применений глубокого обучения в медицинских изображениях, публикацию 760 статей SCI, H-индекс 162, а также активное продвижение глубокой интеграции промышленности, академических кругов и исследований. Под его руководством доля статей китайских ученых, опубликованных в MICCAI, выросла с 2-3% 20 лет назад до 48,7%, заняв первое место в мире. (Источник: 量子位)
Потенциал модели FLUX в физически достоверной генерации изображений : Исследование изучает возможности современных диффузионных моделей «текст-в-изображение», таких как FLUX, в физически достоверной генерации изображений. Исследование предлагает фреймворк SHINE — бесшовный, высокоточный фреймворк вставки без обучения, который с помощью потерь привязки, управляемых многообразием, подавления деградации и адаптивного смешивания фона, обеспечивает точное представление объектов и целостность фона, одновременно решая проблемы сложного освещения и ввода высокого разрешения. Исследование также вводит бенчмарк ComplexCompo для более строгой оценки производительности модели в сложных условиях, таких как низкое освещение, сильное освещение, сложные тени и отражающие поверхности. (Источник: HuggingFace Daily Papers)
Влияние позиционного кодирования RoPE и причинной маски на позиционную информацию Transformer : Исследование глубоко анализирует, как явное позиционное кодирование, такое как RoPE, а также причинная маска кодируют позиционную информацию в декодерах Transformer. Исследование доказывает, что даже без параметрических или входных причинных зависимостей причинная маска может индуцировать паттерны позиционной зависимости в оценках внимания, отдавая предпочтение близлежащим парам запрос-ключ, подобно поведению обычных позиционных кодировок. Эмпирический анализ подтверждает, что обученные модели также демонстрируют такое поведение, и выученные параметры дополнительно усиливают эти паттерны. Примечательно, что взаимодействие причинной маски и RoPE искажает паттерны относительных оценок внимания RoPE, превращая их в не относительные паттерны, что широко распространено в современных больших языковых моделях. (Источник: HuggingFace Daily Papers)
Неожиданная асимметрия между перцептивной оптимизацией и оценкой : Исследование выявило неожиданную асимметрию между перцептивной оптимизацией и оценкой качества изображения (IQA). Исследование показало, что метрики достоверности, хорошо зарекомендовавшие себя в IQA, не обязательно эффективны в перцептивной оптимизации, и это несоответствие становится более очевидным при adversarial-обучении. Кроме того, хотя дискриминатор эффективно подавляет артефакты в процессе оптимизации, его изученные представления имеют ограниченную пользу в качестве инициализации основы для моделей IQA. Исследование также показало, что дизайн дискриминатора имеет решающее значение для оптимизации, а патч-уровневые и сверточные архитектуры превосходят Transformer в реконструкции деталей. (Источник: HuggingFace Daily Papers)
V-GameGym: бенчмарк для генерации визуальных игр для LLM кода : V-GameGym — это комплексный бенчмарк, предназначенный для оценки возможностей больших языковых моделей кода в разработке визуальных игр. Существующие бенчмарки в основном сосредоточены на синтаксической корректности и точности выполнения, игнорируя ключевые показатели, специфичные для игр, такие как играбельность, визуальная эстетика и вовлеченность пользователя. V-GameGym содержит 2219 высококачественных образцов, охватывающих 100 тематических кластеров, и представляет мультимодальный фреймворк оценки и автоматизированный конвейер синтеза визуального кода, управляемый LLM, эффективно устраняя разрыв между точностью генерации кода и реальными рабочими процессами разработки игр. (Источник: HuggingFace Daily Papers)
Дискретная диффузионная рефлексивная модель «зрение-язык-действие» в автономном вождении : ReflectDrive — это новый фреймворк обучения, который с помощью дискретной диффузии интегрирует механизм рефлексии для генерации безопасных траекторий в автономном вождении. Этот метод сначала дискретизирует двухмерное пространство вождения для создания кодовой книги действий, а затем тонко настраивает предварительно обученную диффузионную языковую модель для задач планирования. Ядром является механизм рефлексии, учитывающий безопасность, который позволяет итеративную самокоррекцию без вычисления градиентов. Модель генерирует мультимодальное поведение вождения через генерацию траекторий, обусловленных целью, и применяет локальный поиск для идентификации небезопасных токенов в качестве безопасных якорей для восстановительной регенерации. В бенчмарке NAVSIM ReflectDrive демонстрирует значительное преимущество в генерации критически важных для безопасности траекторий. (Источник: HuggingFace Daily Papers)
MI-Fuse: слияние меток для неконтролируемой адаптации домена закрытых больших аудиоязыковых моделей : MI-Fuse — это фреймворк слияния меток с шумоподавлением, разработанный для решения проблемы несоответствия доменов в закрытых больших аудиоязыковых моделях (LALM) при распознавании речевых эмоций (SER). Этот фреймворк, при наличии только неразмеченного аудио целевого домена и LALM только с API, использует обученный на исходном домене SER-классификатор в качестве вспомогательного учителя, извлекает несколько случайных предсказаний от двух учителей и взвешивает их среднее распределение в соответствии с неопределенностью взаимной информации, стабилизируя обучение с помощью экспоненциально скользящего среднего учителя. Экспериментальные результаты показывают, что MI-Fuse обеспечивает последовательное улучшение на нескольких наборах данных и при кросс-доменной передаче, модель-ученик превосходит LALM и превосходит сильнейшую базовую линию на 3,9%. (Источник: HuggingFace Daily Papers)
💼 Бизнес
Alibaba Cloud прогнозирует десятикратный рост энергопотребления за десять лет, Kingsoft Cloud сталкивается с проблемами, делая ставку на ИИ : Руководство Alibaba Cloud прогнозирует, что к 2032 году энергопотребление их глобальных центров обработки данных увеличится в 10 раз по сравнению с 2022 годом, что свидетельствует об экспоненциальном росте инвестиций в вычислительные мощности ИИ. На этом фоне Kingsoft Cloud вновь привлекла более 2,7 млрд гонконгских долларов для развития ИИ-бизнеса, и хотя настроения на рынке ИИ благоприятные, отрицательная реакция ее акций отражает опасения инвесторов по поводу долгосрочных убытков и высоких капитальных затрат. Столкнувшись с конкуренцией со стороны таких гигантов, как Microsoft, Amazon, Google, а также отечественных Alibaba Cloud и Volcengine, облачные провайдеры второго и третьего эшелонов рискуют выбыть из игры, если не сделают ставку на ИИ. Глубокая привязка Kingsoft Cloud к экосистеме Xiaomi, особенно сотрудничество в области Xiaomi Auto, AIoT и WPS Office, обеспечивает предсказуемость роста ее ИИ-бизнеса, что, как ожидается, ослабит опасения по поводу прибыльности. (Источник: 36氪)
Horizon Robotics привлекает 5,8 млрд гонконгских долларов, ускоряя выход на рынок Robotaxi : Horizon Robotics объявила о планах привлечь около 5,8 млрд гонконгских долларов, часть из которых будет направлена на исследование области Robotaxi. Компания будет следовать стратегии «не производить автомобили», сотрудничая с поставщиками услуг мобильности (например, с уже объявленной Haro) для предоставления полнофункциональных решений и технической поддержки для интеллектуального вождения L4. Первая серийная модель Robotaxi HR1 от Haro уже представлена и планируется к массовому производству в объеме десятков тысяч единиц к 2026 году. Генеральный директор Horizon Robotics Ю Кай (Yu Kai) считает, что 2025 год станет поворотным моментом для индустрии интеллектуального вспомогательного вождения, и компания уже обладает условиями для перехода на более высокий уровень благодаря алгоритмам (сквозной алгоритм HSD), вычислительной мощности (чип J6P) и накопленным данным, стремясь стать «Tesla без производства автомобилей». (Источник: 量子位)
Huawei и GAC объединились для создания премиального бренда новых энергетических автомобилей «QiJing» : Huawei и GAC Group совместно создали премиальный бренд новых энергетических автомобилей «QiJing», официально объявив Лю Цзямина (Liu Jiaming) его генеральным директором, который ранее был операционным директором таких популярных автомобилей, как Highlander и Camry. Бренд QiJing будет полностью оснащен интеллектуальными технологиями Huawei, стремясь к взаимодополнению, используя пользовательскую экосистему и маркетинговые возможности бренда Huawei. Первая модель QiJing уже прошла летние испытания и, как ожидается, будет выпущена в следующем году, позиционируясь на рынке новых энергетических автомобилей стоимостью около 300 000 юаней. Этот шаг знаменует новый этап в помощи Huawei автопроизводителям в создании автомобилей и, как ожидается, ослабит давление на GAC Group в ее переходе к новым энергетическим автомобилям. (Источник: 量子位)
🌟 Сообщество
ChatGPT 4o был молчаливо перенаправлен на GPT-5, что вызвало сильное недовольство пользователей : Многие пользователи ChatGPT Plus сообщают, что даже если они явно выбрали модель GPT-4o, система молчаливо перенаправляет их запросы на GPT-5. Пользователи повсеместно отмечают снижение качества ответов GPT-5, отсутствие тонкости и креативности GPT-4o, что приводит к неудовлетворительному опыту. Этот «баг» считается тестированием новой модели или управлением нагрузкой модели со стороны OpenAI, но перенаправление без согласия пользователя вызвало вопросы о прозрачности OpenAI, праве выбора пользователя и надежности продукта, и многие пользователи призывают OpenAI как можно скорее исправить эту проблему. (Источник: Teknium1, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT)
Влияние ИИ на продуктивность разработчиков следует оценивать по нескольким параметрам : Обсуждение в сообществе указывает на то, что для оценки влияния ИИ на продуктивность разработчиков требуются более комплексные метрики, а не только количество строк кода (LOC) или количество отправленных запросов на слияние (PR). Предлагается проводить исследования по двум измерениям: «объем вывода» и «уровень сложности и критичности», например, учитывать критичность PR (P0-P2) и объем работы (низкий-высокий). Такая многоосевая оценка может дать более убедительные результаты, избегая общих рассуждений, и тем самым более точно отражать фактическую ценность и проблемы, которые ИИ приносит в разработку программного обеспечения. (Источник: tokenbender, tokenbender)
Новое поколение студентов использует ChatGPT для развития самостоятельного обучения : Существует мнение, что новое поколение выпускников университетов, сталкиваясь с проблемами, больше не ищет прямого руководства, а предпочитает сначала ввести проблему в ChatGPT для попытки, даже если результат не совсем верен. Этот поведенческий паттерн рассматривается как способ, которым ИИ развивает у молодежи способности к самостоятельному обучению и проактивному решению проблем, делая их более склонными к попыткам, а не к пассивному ожиданию инструкций. (Источник: dylan522p)
Обеспокоенность по поводу влияния генерации ИИ-контента на общество : Сообщество выражает обеспокоенность по поводу потенциального негативного влияния контента, генерируемого ИИ (особенно коротких видеороликов), полагая, что это может привести к «повреждению мозга» или «умственной деградации». Некоторые комментаторы сравнивают платформу коротких видеороликов Meta Vibes, генерируемых ИИ, с «бесконечной машиной для мусора ИИ-TikTok», опасаясь, что она еще больше опустошит мозг молодежи. Эта обеспокоенность отражает глубокие опасения по поводу неконтролируемого качества контента ИИ, алгоритмов, потворствующих низкопробному контенту, и долгосрочного влияния на когнитивные способности пользователей. (Источник: cloneofsimo, cloneofsimo, doodlestein, BlackHC)
США отвергают централизованный контроль и глобальное управление ИИ со стороны международного сообщества : США четко отвергают усилия международных организаций по централизованному контролю и глобальному управлению ИИ, подчеркивая суверенитет и независимость в области ИИ. Белый дом США считает, что идеологическая привязанность к социальной справедливости, климатическому катастрофизму и так называемым «экзистенциальным рискам» является препятствием для прогресса ИИ и ответственного использования технологий. Эта позиция демонстрирует, что США предпочитают продвигать развитие ИИ через свободные инновации, а не через регулирование сверху вниз, и опасаются, что глобальное управление может привести к цензуре и концентрации власти. (Источник: imjaredz, imjaredz, imjaredz)
Открытый ИИ сталкивается с проблемами разнообразия форматов моделей и несогласованности реализаций : Обсуждение в сообществе указывает на то, что одним из основных препятствий в области открытого ИИ является чрезмерное разнообразие форматов моделей, а также различия в реализации одной и той же модели у разных поставщиков. Это приводит к несогласованности производительности моделей, особенно в сценариях вызова инструментов, где код одного поставщика может быть неприменим к другому. Эта фрагментированная экосистема чрезвычайно затрудняет разработку и развертывание новых паттернов, таких как вызов инструментов и чередующийся вывод, что серьезно препятствует дальнейшему развитию открытого ИИ. (Источник: bookwormengr)
Передача данных роботом Unitree G1 в Китай вызывает опасения по поводу конфиденциальности : Появились сообщения о том, что гуманоидный робот Unitree G1 тайно и постоянно отправляет данные с датчиков и систем на китайские серверы без ведома или согласия пользователя. Это открытие вызвало опасения по поводу конфиденциальности данных и национальной безопасности. Хотя некоторые считают, что это может быть просто сбор данных для исследований и разработок, критики отмечают, что такое поведение лишено прозрачности, и что китайское оборудование повсеместно загружает ненужные данные, что усиливает опасения пользователей. (Источник: bookwormengr, teortaxesTex)
Применение ИИ в государственных услугах: интеллект не всегда лучший выбор : В исследовательской статье отмечается, что не все общественные проблемы требуют передовых решений ИИ; иногда более простые стратегии (например, увеличение числа социальных работников) оказываются более эффективными, чем сложные прогностические модели. Исследование показало, что машинное обучение наиболее ценно на «первой миле» и «последней миле» политики, а решения должны приниматься на основе бюджета, а не алгоритмов. В государственных услугах системы со средней прогностической способностью, расширяющие возможности скрининга, часто более ценны, чем улучшение прогностических моделей. Это оспаривает идею «больше значит лучше», подчеркивая, что в условиях ограниченных ресурсов простые, недорогие инструменты могут иметь большее влияние. (Источник: Reddit r/ArtificialInteligence)
Salesforce сталкивается с многочисленными исками из-за замены рабочих мест ИИ : Технологический гигант Salesforce сталкивается с 14 исками, что может быть связано с увольнением тысяч сотрудников и планами по замене части рабочих мест ИИ. Это событие вызвало широкое обсуждение влияния ИИ на рынок труда, подчеркнув юридические и социальные проблемы, с которыми могут столкнуться компании при внедрении технологий ИИ, а также опасения сотрудников по поводу замены человеческого труда ИИ. (Источник: Reddit r/ArtificialInteligence)
Модель Qwen демонстрирует «поэтическое» поведение : Пользователи обнаружили, что при обсуждении поэзии с моделью Qwen, модель переходит в «поэтический режим» и продолжает отвечать в стихотворной форме, даже отказываясь выходить из него, как будто она сама «воплощает поэзию». Этот поведенческий паттерн вызвал дискуссии о креативности моделей ИИ и «самосознании», то есть о том, может ли ИИ в определенных контекстах демонстрировать художественные выражения, выходящие за рамки предустановленных. (Источник: Reddit r/artificial)
Лицензионное соглашение открытого музыкального генератора SongBloom изменено на некоммерческое использование : Лицензионное соглашение открытого музыкального генератора SongBloom было изменено с Apache 2.0 на лицензию MIT с некоммерческими условиями. Это изменение вызвало в сообществе дискуссии о коммерциализации проектов с открытым исходным кодом и стабильности лицензионных соглашений. Хотя позиция разработчика понятна, для пользователей, зависящих от моделей с открытым исходным кодом для коммерческой разработки, такие изменения приносят неопределенность. Сообщество считает, что, хотя старые версии кода по-прежнему могут использоваться, будущие обновления и новые функции будут ограничены новой лицензией, что влияет на предпочтения разработчиков в отношении «действительно открытых» моделей с открытым исходным кодом. (Источник: Reddit r/LocalLLaMA)
Потребность в бенчмарках производительности локальных LLM с несколькими GPU : Пользователи сообщества призывают к проведению бенчмарков производительности локальных LLM в конфигурациях с несколькими GPU, особенно в отношении влияния различных скоростей PCIe (x4 против x16). В настоящее время отсутствуют экспериментальные данные для количественной оценки влияния скорости PCIe на потери производительности, особенно когда модель не может быть полностью загружена на одну видеокарту и при различных длинах контекста. Это важная информация для пользователей, рассматривающих обновление или покупку нескольких RTX 5090 или RTX Pro 6000. (Источник: Reddit r/LocalLLaMA)
Может ли технология TTS достичь уровня, неотличимого от человеческой речи? : Сообщество обсудило, может ли технология преобразования текста в речь (TTS) достичь уровня, неотличимого от человеческой речи. Неносители английского языка заявили, что им трудно отличить, но носители английского языка отметили, что, хотя передовые TTS, такие как Elevenlabs, могут обмануть слушателей на короткое время, они все же могут иметь недостатки в произношении или интонации. Общепризнано, что, если не будет достигнут уровень AGI, TTS вряд ли сможет полностью имитировать тонкие эмоции, паузы и акценты человеческой речи, особенно в повседневных разговорах, требующих корректировки в реальном времени и контекстного обучения. (Источник: Reddit r/LocalLLaMA)
Сравнение производительности ROCm и Vulkan на iGPU : Сообщество обсудило производительность ROCm и Vulkan при запуске LLM на интегрированных графических процессорах (iGPU). Хотя в генерации текста они схожи, Vulkan значительно опережает ROCm в скорости обработки подсказок на новых iGPU AMD, что противоречит предыдущей ситуации, когда ROCm был лучше. Некоторые пользователи отметили, что Vulkan по-прежнему уступает ROCm в обработке длинного контекста, и общая производительность драйверов AMD еще нуждается в улучшении. (Источник: Reddit r/LocalLLaMA)
ИИ-бот для знакомств от Meta раскритикован как «слишком поздно» : Facebook от Meta запустил ИИ-бота для знакомств, призванного облегчить «усталость от свайпов» у пользователей. Однако эксперты повсеместно считают этот шаг «слишком поздним». Критики отмечают, что Meta не хватает инноваций на рынке знакомств, а пользователи с осторожностью относятся к вмешательству ИИ в личные отношения. Эта попытка отражает исследования технологических компаний в области социальных приложений ИИ, но также выявляет их проблемы с принятием пользователями и выбором времени выхода на рынок. (Источник: Reddit r/artificial)
Сэм Альтман раскрывает ключевые человеческие навыки, которые ИИ не может заменить : Генеральный директор OpenAI Сэм Альтман (Sam Altman) отметил, что ключевой человеческий навык, который ИИ не может заменить, — это «забота и взаимодействие между людьми». Он считает, что с распространением инструментов ИИ то, как люди заботятся друг о друге, как они взаимодействуют и как они заботятся о том, что делают другие, будет становиться все более важным. Эта точка зрения подчеркивает, что в эпоху ИИ межличностное общение, эмоциональная эмпатия и внимание к социальным ценностям станут незаменимыми основными компетенциями человека. (Источник: Reddit r/ChatGPT)
«Закон Конвея» в эпоху ИИ: продукты отражают организационную культуру : Выдвинута идея «Закона Конвея в эпоху ИИ»: результаты, генерируемые моделями ИИ и продуктами ИИ, будут ограничены организационной структурой, механизмами стимулирования, мировоззрением и культурой компаний, которые их создают. Это означает, что дизайн и поведенческие паттерны продуктов ИИ часто будут отражать внутренние особенности их команд разработчиков. Таким образом, наблюдая за новой моделью или продуктом ИИ, люди часто могут сразу определить, кто стоит за его созданием, что дает новый взгляд на понимание характеристик продуктов ИИ. (Источник: c_valenzuelab)
Масштаб суперкомпьютеров ИИ и потребление энергии вызывают дискуссии : Сообщество обсудило огромные масштабы суперкомпьютеров ИИ и их энергопотребление. Например, Colossus 2 Илона Маска (Elon Musk), как ожидается, потребует 1,21 ГВт электроэнергии и вместит более 500 000 GPU. Дженсен Хуанг (Jensen Huang) назвал его «лучшим строителем в мире». Однако некоторые ставят под сомнение, почему 1 ГВт электроэнергии не используется для питания 50 миллионов «человеческих мозгов», полагая, что это создаст «центр обработки данных гениев». Это отражает размышления о модели роста вычислительной мощности ИИ, энергоэффективности и сравнении человеческого и машинного интеллекта. (Источник: scaling01, scaling01)
Связь между эмерджентными способностями моделей ИИ и самосознанием : Существует мнение, что между глубокой структурой моделей ИИ и emergent self-awareness (эмерджентным самосознанием) существует определенная связь. Эта точка зрения основана на том, что модель с 321 миллионом параметров способна создавать творческие работы о своем собственном процессе обучения, что намекает на то, что модель, достигнув определенной сложности и глубины, может проявлять поведение, похожее на самовосприятие. Это вызывает философские дискуссии о природе интеллекта ИИ и происхождении сознания. (Источник: Dorialexander)
Распространение ботов в социальных сетях и их влияние : Распространение ботов в социальных сетях становится все более серьезной проблемой, многие реальные пользователи даже неосознанно подписываются на этих ботов. Некоторые пользователи предлагают блокировать ботов, которые получают большое количество подписчиков, но могут быть спамом, чтобы уменьшить их способность вводить в заблуждение и влиять на других читателей. Это явление подчеркивает проблемы, с которыми сталкиваются платформы социальных сетей в борьбе с дезинформацией и поддержании подлинности сообщества. (Источник: teortaxesTex, iScienceLuvr)
Эволюция обучения LLM: сравнение 2023 и 2025 годов : Сообщество обсудило заметные изменения в обучении LLM между 2023 и 2025 годами. С быстрым развитием технологий методы обучения, масштабы и эффективность LLM значительно эволюционировали всего за два года. Это сравнение показывает, насколько быстро развивается область ИИ, а также постоянный прогресс моделей в возможностях и сложности, что побуждает исследователей и разработчиков постоянно адаптироваться к новым парадигмам обучения и инструментам. (Источник: awnihannun)
Генерация ИИ-видео сокращает бюджет на анимацию на 70% : Первый полнометражный ИИ-анимационный фильм «Critterz», в создании которого участвует OpenAI, планируется завершить за 9 месяцев с бюджетом в 30 миллионов долларов, что на 70% сокращает бюджет и время производства по сравнению с традиционными полнометражными анимационными фильмами (которые обычно требуют 100 миллионов долларов и 3 года). ИИ будет полностью участвовать в творческой концепции, предпросмотре сцен, актерской игре персонажей, постпроизводстве и адаптации на несколько языков. Эта модель, как ожидается, значительно снизит порог производства контента, изменит логику оценки стоимости контент-индустрии и подтолкнет Голливуд в эпоху ИИ. (Источник: 36氪)
Будущее ИИ-генерируемой речи: бесконечное видео и умственная деградация : Сообщество обсудило будущее влияние ИИ-генерируемой речи и бесконечных видеороликов. Некоторые опасаются, что бесконечный ИИ-видеоконтент может привести к «умственной деградации», в то время как прогресс в ИИ-генерируемой речи вызывает размышления об изменении роли ИИ в развлечениях и распространении информации. Эти дискуссии отражают осознание двойственности технологий ИИ, а именно того, что они могут принести удобство и эффективность, но также могут оказать глубокое влияние на человеческое познание и культуру. (Источник: cloneofsimo, cloneofsimo)
💡 Прочее
ММ-волновой радар и системы связи MIT расширяют диапазон сигнала : Исследователи Массачусетского технологического института разработали радар и систему связи, способные расширять диапазон сигнала в миллиметровом диапазоне частот. Эта технология имеет важное значение в развивающихся технологических областях и может применяться в сценариях, требующих дальней связи с высокой пропускной способностью и зондирования, таких как продвинутое автономное вождение, высокоточная медицинская визуализация или беспроводные сети следующего поколения, но ее прямая связь с ИИ в данной информации не указана. (Источник: Ronald_vanLoon)
Применение 5G и граничных вычислений в операционной трансформации : Технологии 5G и граничных вычислений способствуют операционной трансформации через различные сценарии использования. Эти технологии в сочетании с Интернетом вещей (IoT) и датчиками обеспечивают мощную инфраструктуру для цифровой трансформации. Например, они позволяют обрабатывать данные в реальном времени, обеспечивать связь с низкой задержкой и распределенные вычисления, тем самым оптимизируя эффективность и скорость реагирования в таких областях, как промышленная автоматизация, управление умными городами и удаленная медицина. (Источник: Ronald_vanLoon)