Ключевые слова:ИИ-правовая система, GPT-5, Kunlun Matrix-3D, ИИ-лечение рака, мультимодальные большие модели, ИИ для генерации видео, воплощенный искусственный интеллект, проблема галлюцинаций ИИ, генерация 3D-мира из одного изображения, ИИ-модель живых клеток, GLM-4.5V визуальное мышление, 360° генерация панорамного видео
🔥 Фокус
Применение AI в правовой системе и споры о медицинских рекомендациях GPT-5: Правовая система США изучает применение AI, например, для ускорения юридических исследований, обобщения дел и составления типовых постановлений, чтобы сократить отставание в рассмотрении дел. Однако проблема галлюцинаций AI привела к тому, что адвокаты подают ложные дела, а в экспертных показаниях появляются ошибки. Тем временем модель GPT-5 от OpenAI, несмотря на то, что ее производительность не оправдала ожиданий, начала явно рекомендовать пользователям использовать ее для консультаций по вопросам здоровья, что вызвало споры о безопасности и этичности применения AI в чувствительных областях и намекает на то, что AI-компании вторгаются в более рискованные сферы услуг. (Источник: MIT Technology Review)

Kunlun Wanwei Matrix-3D: Генерация свободно перемещаемого 3D-мира из одного изображения, устанавливая новый стандарт в отрасли: Kunlun Wanwei выпустила Matrix-3D, унифицированную платформу, объединяющую генерацию панорамного видео и 3D-реконструкцию. Модель может генерировать панорамное видео на 360° из одного изображения и напрямую восстанавливать свободно перемещаемое 3D-пространство, достигая результатов SOTA в задачах генерации панорамного видео. Ее ключевые преимущества включают глобальную согласованность сцены, крупномасштабную генерацию, высокую управляемость, сильную обобщающую способность и высокую скорость генерации. Технологические прорывы включают использование панорамных данных в качестве промежуточного представления, рендеринг сетки для улучшения геометрической и цветовой согласованности, а также оптимизацию 3DGS на основе прямой нейронной сети для ускорения 3D-генерации, а также создание высококачественного синтетического набора данных Matrix-Pano. Это знаменует собой значительный прогресс отечественного AI в области “пространственного интеллекта”. (Источник: 量子位)

AI в борьбе с раком: Tahoe Therapeutics привлекает $30 млн для создания AI-модели живых клеток: Стартап Tahoe Therapeutics привлек $30 млн финансирования для создания AI-модели живых клеток с целью поиска новых методов лечения рака. Компания разработала масштабируемый метод генерации данных и открыла набор данных Tahoe-100M, содержащий 100 миллионов данных о взаимодействии раковых клеток с молекулами. Ее AI-модель успешно разработала кандидатный препарат для одного из основных подтипов рака и перешла на стадию доклинических исследований. Платформа Mosaic от Tahoe может эффективно интегрировать клеточные данные из нескольких источников, ускоряя производство данных, с целью создания набора данных, содержащего более 1 миллиарда точек данных отдельных клеток, что повысит эффективность онкологических исследований. (Источник: 量子位)

🎯 Тенденции
Обновления модели OpenAI GPT-5 и Grok и споры о производительности: Модель GPT-5 от OpenAI недавно получила несколько обновлений, включая возможность для пользователей выбирать между режимами “Auto”, “Fast” и “Thinking” для баланса скорости и глубины рассуждений, а также улучшение задержки API и эффективности кэширования. Однако мнения пользователей о фактической производительности GPT-5 разделились: некоторые считают, что она отлично справляется со сложными задачами и кодированием, в то время как другие жалуются на снижение производительности и даже ставят под сомнение ценовую политику OpenAI и различия в моделях между различными уровнями пользователей. Кроме того, Grok также запустил функцию автоматического перевода на платформе X, и некоторые пользователи утверждают, что он устанавливает отраслевые стандарты. (Источник: Yuhu_ai_, sama, gdb, aidan_mclau, scaling01, scaling01)
Выпущены мультимодальные большие модели GLM-4.5V и LFM2-VL: Zhipu AI выпустила GLM-4.5V, которая считается “лучшей в мире моделью визуального вывода с эффектом 100B класса” (общий параметр 106B, активный параметр 12B), демонстрируя отличные результаты в 41 бенчмарке, особенно значительный прорыв в визуальном выводе. LiquidAI также представила LFM2-VL, эффективную модель визуального языка, доступную в версиях 440M и 1.6B, которая обеспечивает обработку в исходном разрешении через кодировщик SigLIP2 NaFlex, увеличивая скорость на GPU до 2 раз, сохраняя при этом конкурентоспособность. (Источник: code_star, mervenoyann, clefourrier, Reddit r/ArtificialInteligence)
Прогресс в моделях генерации видео AI: Hailuo 2 Pro и Wan2.2: Hailuo 2 Pro от MiniMax был признан сообществом лучшей моделью видео без звука, особенно выдающейся в генерации видео из изображений. В то же время модель Wan2.2 от Alibaba продемонстрировала способность генерировать реалистичные видео с вращением на 360° из одного изображения, а ее мощное следование инструкциям и физическое понимание позволяют ей выполнять сложную визуальную генерацию с помощью простых инструкций, что пользователи хвалят как “ужасающего ребенка” и “идеальный” инструмент для генерации видео, что еще больше расширяет технологические границы в области генерации видео. (Источник: Alibaba_Wan, lmarena_ai, Alibaba_Wan, lmarena_ai)
Прорывы в технологиях воплощенного интеллекта и человекоподобных роботов: В области робототехники продолжаются успехи, включая робота-скалолаза, разработанного Университетом Иллинойса, выпуск 5-футового 7-дюймового человекоподобного робота L7 китайской компанией Robot Era, выпуск домашнего человекоподобного робота NEO Beta компанией 1x_tech, а также робота-кунг-фу Booster T1 от Booster Robotics. Кроме того, человекоподобные роботы впервые сложили одежду, используя только нейронные сети и новые данные, а не модифицируя архитектуру, что предвещает улучшение способности роботов к обучению и обобщению. Эти достижения совместно продвигают потенциал применения воплощенного интеллекта в реальных задачах. (Источник: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, adcock_brett)
Расширение применения AI в финансовой сфере: Perplexity Finance расширилась на индийский рынок, предлагая комплексный анализ индийского рынка и последних новостей, цены акций BSE и NSE в реальном времени, бычий/медвежий анализ ключевых вопросов, объяснение колебаний цен и загрузку исторических данных, а также планирует запустить фильтрацию акций на естественном языке и оповещения о ценах. Кроме того, проект qqWen открыл серию полнофункциональных моделей тонкой настройки (от 1.5B до 32B) для нишевого финансового языка программирования Q, которые превзошли GPT-4.1 и Claude Opus-4 в бенчмарках Q, демонстрируя мощный потенциал AI в вертикальной финансовой сфере. (Источник: AravSrinivas, AravSrinivas, Dorialexander, HuggingFace Daily Papers)
Прогресс AI-моделей в игровых и симуляционных средах: Genie 3 от DeepMind продемонстрировала интерактивные мировые модели в реальном времени, и хотя она не является открытым исходным кодом, Matrix-Game 2.0 от Skywork, как первая открытая, интерактивная мировая модель с длинной последовательностью в реальном времени, поддерживает несколько минут взаимодействия со скоростью 25 FPS, что меняет правила игры. Кроме того, бенчмарк TextQuests показывает, что AI пока не может пройти длинные видеоигры без подсказок, но его возможности быстро улучшаются. Эти достижения показывают, что способность AI к пониманию и взаимодействию в сложных симуляциях и игровых средах постепенно улучшается. (Источник: QuixiAI, tokenbender, lmthang)
Значительный рост числа пользователей ChatGPT, Perplexity хочет приобрести Chrome: По состоянию на июль 2025 года ежемесячное количество активных пользователей ChatGPT выросло на 134,90% по сравнению с прошлым годом, что сделало его одним из самых быстрорастущих веб-сайтов в мире и заняло пятое место в списке по общему трафику. Тем временем AI-стартап Perplexity сделал ошеломляющее предложение в $34,5 млрд с целью приобретения браузера Chrome от Google, что подчеркивает растущие амбиции и конкуренцию AI-компаний в области интернет-доступа и трафика данных. (Источник: BorisMPower, Reddit r/ArtificialInteligence)
🧰 Инструменты
DocStrange: Инструмент для извлечения структурированных данных из изображений/PDF/документов: DocStrange — это библиотека с открытым исходным кодом, которая теперь предлагает бесплатное веб-приложение, поддерживающее извлечение структурированных данных из PDF, изображений и документов с выводом в форматах Markdown, CSV, JSON или в виде определенных полей. Этот инструмент отлично справляется с обработкой данных документов, особенно подходит для сценариев, требующих получения четкой, обрабатываемой информации из неструктурированных документов, таких как анализ судебных дел. Пользователи могут загружать большое количество файлов для обработки и поддерживается загрузка данных. (Источник: Reddit r/LocalLLaMA)

Runway Aleph: Точная замена и перестройка видеоконтента: Runway Aleph — это передовой инструмент для редактирования видео, который поддерживает точную замену, перетекстурирование или полную переработку определенных частей видео. Пользователи могут быстро придумывать и итерировать новые концепции с помощью текстовых инструкций и применять их к существующему материалу. Эта функция значительно упрощает процесс постпроизводства видео, повышает творческую эффективность и делает создание видеоконтента более гибким и управляемым. (Источник: c_valenzuelab)
WebWatcher: Мультимодальный AI-агент для глубоких исследований: WebWatcher — это прорывной мультимодальный агент для глубоких исследований, разработанный для решения проблемы, заключающейся в том, что существующие исследования в основном сосредоточены на текстовой информации и игнорируют визуальную информацию. Он использует высококачественные синтетические мультимодальные траектории для эффективного обучения с холодного старта и применяет различные инструменты для глубокого вывода, а также использует обучение с подкреплением для дальнейшего повышения способности к обобщению. WebWatcher значительно превосходит проприетарные базовые и открытые агенты в четырех сложных бенчмарках VQA, прокладывая путь к решению сложных задач поиска информации в разных модальностях. (Источник: HuggingFace Daily Papers, _akhaliq)
AI Avatar: Соответствие движений всего тела и эмоций: SynthesiaIO представила новую функцию AI Avatar, которая позволяет AI-персонажам соответствовать содержанию и тону сценария с помощью движений всего тела. Эти AI Avatar могут понимать текст и синхронно генерировать естественный язык тела и жесты, создавая более выразительный и связный видеоконтент. Этот прогресс делает видео, сгенерированные AI, более реалистичными и увлекательными, что, как ожидается, приведет к новым применениям в создании контента, образовании и маркетинге. (Источник: synthesiaIO)
Qwen Chat Deep Research: Поддержка ввода изображений и файлов: Qwen Chat Deep Research от Alibaba Cloud теперь поддерживает ввод изображений и файлов, что значительно расширяет его возможности глубокого исследования. Пользователи могут загружать изображения и документы, чтобы модель анализировала и извлекала информацию; например, один пользователь успешно использовал эту функцию для устранения неисправности кондиционера. Это обновление повышает практичность модели при обработке мультимодальной информации, позволяя ей лучше помогать пользователям в решении реальных проблем. (Источник: Alibaba_Qwen)
📚 Обучение
Предварительный обзор Международной объединенной конференции по искусственному интеллекту IJCAI-25: Международная объединенная конференция по искусственному интеллекту 2025 года (IJCAI-25) пройдет в августе в Монреале, Канада, и Гуанчжоу, Китай. Конференция будет включать основные доклады, учебные пособия, семинары и конкурсы, а также четыре тематические области: AI на благо общества, AI и искусство, человекоцентричный AI и AI, расширяющий возможности ключевых технологий. На конференцию приглашены несколько известных ученых для выступления с основными докладами, а также предлагаются обширные учебные пособия и семинары, охватывающие передовые области, такие как обучение LLM, оценка агентов, RAG, нейронная эволюция, справедливость, вычислительная патология, мультимодальные LLM и другие, предоставляя ценную платформу для обучения и обмена опытом для исследователей и разработчиков AI. (Источник: aihub.org)

Новые достижения в оценке и оптимизации LLM: GEPA (Reflective Prompt Evolution can Outperform Reinforcement Learning) предлагает метод оптимизации производительности LLM посредством эволюции рефлексивных подсказок, что является важным шагом в автоматизации оптимизации подсказок. В то же время исследование Curriculum Learning for Efficient Reasoning показывает, что путем постепенного сокращения бюджета токенов LLM может находить более эффективные решения и перерабатывать их в более лаконичные следы рассуждений, значительно повышая точность и эффективность токенов. Эти исследования предлагают новые идеи для оценки, оптимизации и эффективного вывода LLM. (Источник: davisblalock, EthanJPerez, Reddit r/deeplearning, HuggingFace Daily Papers)
Ресурсы для обучения AI и обмен практическим опытом: Сообщество поделилось несколькими ресурсами для обучения AI и практическим опытом, включая: 6 обязательных к прочтению статей о GPT-5 и GPT-OSS, охватывающих прогресс модели, пользовательский опыт и анализ архитектуры; еженедельный список последних исследовательских работ по AI/ML, охватывающих социальный интеллект, обучение агентов, обучение с подкреплением и другие передовые направления; а также учебное пособие по созданию механизма многоголового внимания с использованием Excel, помогающее глубже понять архитектуру Transformer. Эти ресурсы предоставляют любителям и профессионалам AI комплексный путь обучения от теории к практике. (Источник: TheTuringPost, TheTuringPost, ProfTomYeh)
Тонкая настройка LLM и технологии слияния моделей: Технический отчет подробно описывает метод полнофункциональной тонкой настройки для нишевого финансового языка программирования Q, включая предварительное обучение, SFT и RL, предоставляя план адаптации LLM для вертикальных областей. Кроме того, технологии слияния моделей значительно продвинулись за последний год, демонстрируя, как можно повысить производительность и эффективность путем объединения различных моделей. Эти технологии предоставляют разработчикам новые способы оптимизации LLM для конкретных задач, что особенно важно в сценариях с дефицитом данных или высокой специализацией предметной области. (Источник: maximelabonne, HuggingFace Daily Papers)
Архитектура генеративного слоя LLM и курс по генерации с расширенным поиском (RAG): Together Compute в сотрудничестве с Эндрю Ыном запустили курс RAG, который глубоко исследует архитектурные паттерны генеративного слоя LLM в производственных системах, подчеркивая, как эффективно строить генеративный слой для оптимизации производительности RAG. Курс призван помочь разработчикам понять и применить механизмы генерации LLM в реальных приложениях, обеспечивая качество и эффективность вывода модели, и имеет важное руководящее значение для инженеров, желающих достичь высококачественной генерации контента в приложениях RAG. (Источник: togethercompute)
Обсуждение этики AI и его применения в образовании: Сообщество широко обсуждает возможное влияние AI на рабочие места, личную конфиденциальность и психическое здоровье. Некоторые опасаются, что такие инструменты, как AI-юристы, заменят человеческий труд, но общее мнение заключается в том, что AI, скорее всего, повысит эффективность, а не полностью заменит, и создаст новые рабочие места. Что касается AI-компаньонов и эмоциональной связи между человеком и машиной, в обсуждении отмечается, что распознавание мозгом эмоциональных паттернов не зависит от “авторства”, но подчеркивается, что AI в настоящее время не имеет тела и истинного субъективного опыта. Кроме того, случаи “AI-психоза” вызывают опасения по поводу индуцированных AI заблуждений, а также жаркие дебаты о том, должен ли AI управлять экономическими и административными структурами, что подчеркивает глубокие социально-этические проблемы в развитии AI. (Источник: Reddit r/ArtificialInteligence, Reddit r/ArtificialInteligence)
💼 Бизнес
Китайские компании приостанавливают закупки чипов NVIDIA H20 и китайско-американская чиповая игра: Правительство Китая призвало технологические компании приостановить закупки чипов NVIDIA H20, ссылаясь на опасения по поводу безопасности, что является ударом по соглашению NVIDIA с правительством США. Китайские чиновники опасаются, что США могут встроить “бэкдоры” в чипы. Этот шаг отражает продолжающуюся технологическую и геополитическую борьбу между Китаем и США в области AI-чипов, а также решимость Китая продвигать отечественные альтернативы, что еще больше усиливает неопределенность в глобальной цепочке поставок полупроводников. (Источник: jeremyphoward, MIT Technology Review)
Zhipu AI сталкивается с вызовами в гонке больших моделей, ускоряя процесс IPO: Zhipu AI, как один из ведущих китайских разработчиков больших моделей, замедлила темпы обновлений после появления таких конкурентов, как DeepSeek, и ее доля рынка рискует сократиться. Хотя ее модель GLM-4.5 демонстрирует отличные результаты в выводе, кодировании и возможностях агентов, а также достигла прорыва в стоимости (цена вызова API составляет всего 0,8 юаня за миллион токенов), высокие инвестиции в исследования и разработки приводят к постоянным убыткам. Чтобы облегчить давление на денежный поток и воспользоваться рыночными дивидендами, Zhipu AI запустила процесс IPO на биржах A-share и Гонконга, оцениваясь более чем в 40 миллиардов юаней, стремясь сохранить лидирующие позиции в жесткой конкуренции и реализовать коммерциализацию. (Источник: 36氪)

OpenAI и Commonwealth Bank заключили партнерство, Anthropic приобрела Humanloop: OpenAI и Commonwealth Bank, крупнейший банк Австралии, заключили партнерство для совместного изучения передовых решений в области генеративного AI. Кроме того, Anthropic объявила о приобретении команды Humanloop с целью ускорения безопасного применения AI. Эти партнерства и приобретения показывают, что гиганты AI активно интегрируются с традиционными отраслями и инновационными командами, продвигая глубокое применение и коммерциализацию технологий AI в таких областях, как финансы и безопасность. (Источник: gdb, swyx, RazRazcle)
🌟 Сообщество
Эскалация словесной войны между Маском и Альтманом: спор о поддержке Grok и ChatGPT: Маск обвинил Apple App Store в предвзятости по отношению к OpenAI, а Альтман ответил, что Маск манипулирует алгоритмами платформы X. Затем AI-помощник Grok, принадлежащий Маску, неожиданно “встал на сторону” Альтмана, указав, что обвинения Маска необоснованны и что у него есть история манипулирования алгоритмами. Маск же опубликовал скриншот, на котором ChatGPT 5 Pro “встал на его сторону”, превратив этот спор в ироничную пьесу о “выборе стороны” AI-инструментами. Это не только выявило возможную предвзятость AI-систем в субъективных вопросах, но и вызвало глубокие дискуссии об этике AI и контроле над платформами. (Источник: 36氪, 36氪)

AI-галлюцинации и информационное загрязнение: углубление кризиса доверия в Интернете: Проблема AI-галлюцинаций становится все более острой, что приводит к быстрому распространению ложной информации через замкнутый цикл генерации AI, усиления СМИ и переработки AI. Например, “извинения” и “судебные решения” DeepSeek были процитированы СМИ как истинные. Это явление “кормления AI мусором” приводит к “индустриальному” загрязнению информации в Интернете, а чрезмерное доверие пользователей к AI и технократический культ усугубляют проблему. Комментарии указывают, что AI-галлюцинации являются его неотъемлемой характеристикой, и ключ к решению проблемы заключается в управлении, а не в устранении; в то же время роль человека как “привратника” также сталкивается с вызовами, и необходимо остерегаться массового производства ложной информации, подрывающей социальное доверие. (Источник: 36氪)

Социальное обсуждение влияния AI на человеческий труд и жизнь: Сообщество широко обсуждает возможное влияние AI на рабочие места, личную конфиденциальность и психическое здоровье. Некоторые опасаются, что такие инструменты, как AI-юристы, заменят человеческий труд, но общее мнение заключается в том, что AI, скорее всего, повысит эффективность, а не полностью заменит, и создаст новые рабочие места. Что касается AI-компаньонов и эмоциональной связи между человеком и машиной, в обсуждении отмечается, что распознавание мозгом эмоциональных паттернов не зависит от “авторства”, но подчеркивается, что AI в настоящее время не имеет тела и истинного субъективного опыта. Кроме того, случаи “AI-психоза” вызывают опасения по поводу индуцированных AI заблуждений, а также жаркие дебаты о том, должен ли AI управлять экономическими и административными структурами, что подчеркивает глубокие социально-этические проблемы в развитии AI. (Источник: Reddit r/ArtificialInteligence, Reddit r/ArtificialInteligence, Reddit r/ClaudeAI, Reddit r/ArtificialInteligence, Reddit r/artificial)
Споры о ценообразовании, производительности и лояльности пользователей ChatGPT: Ежемесячная плата в $20 за ChatGPT Plus стала ориентиром для ценообразования AI-продуктов, хотя процесс ценообразования был поспешным и быстро определен с помощью опроса сообщества Discord. Однако после выпуска GPT-5 некоторые пользователи жалуются на снижение производительности, даже считая ее хуже, чем у GPT-4o, что вызвало дискуссии о “нарушении доверия пользователей” и призывы к возвращению GPT-4o. В то же время некоторые пользователи обеспокоены чрезмерной зависимостью от определенных AI-моделей (таких как Claude Sonnet 3.5), опасаясь, что исчезновение модели повлияет на их средства к существованию, что отражает опасения пользователей по поводу стабильности продукта в условиях облачных сервисов. (Источник: Reddit r/ChatGPT, Reddit r/ClaudeAI, dotey, TheTuringPost)
Споры о производительности модели GPT-OSS и различиях между поставщиками: GPT-OSS-120B от OpenAI рекламируется как самая интеллектуальная модель, способная работать на H100 с нативной точностью, но ее производительность в бенчмарках GPQA Diamond и AIME25, полученная через API-провайдеров, таких как Microsoft и Amazon, значительно ниже официальных данных OpenAI, что вызывает сильные сомнения пользователей в “мошенничестве с производительностью”. В то же время базовая модель GPT-OSS-20B была успешно извлечена, и было обнаружено, что ее “выравнивание” с инструкциями по безопасности легко обратимо, и она может отвечать на конфиденциальные вопросы, что вызывает опасения по поводу безопасности модели и эффективности “выравнивания”. (Источник: Reddit r/LocalLLaMA, nrehiew_, Reddit r/LocalLLaMA, imjaredz, jpt401)
💡 Другое
Портативный локальный AI-сервер “SERVE-AI-VAL Box”: Разработчик создал портативный локальный AI-сервер под названием “SERVE-AI-VAL Box”, который может работать в автономном режиме, без подключения к сети, питаясь от солнечной энергии и ручного генератора, стоимостью менее $300. Устройство оснащено моделью Gemma3:4b, поддерживает ввод с камеры, микрофона, динамиков и сенсорного экрана, и предназначено для предоставления медицинских или выживательных знаний в чрезвычайных ситуациях, демонстрируя потенциал локального AI в экстремальных условиях. (Источник: Reddit r/LocalLLaMA)

Surya: Многоязычный набор инструментов OCR и анализа документов: Surya — это набор инструментов OCR для документов, который предлагает OCR для более чем 90 языков, построчное обнаружение текста, анализ макета (таблицы, изображения, заголовки и т. д.), обнаружение порядка чтения, распознавание таблиц и LaTeX OCR. Он превосходит облачные сервисы по производительности OCR и поддерживает различные типы документов. Этот набор инструментов написан на Python, предоставляет интерактивное приложение и интерфейс Python, а также поддерживает ускорение GPU, предлагая эффективное и комплексное решение для обработки данных документов. (Источник: GitHub Trending)

Запуск AI-приложения для примерки от Alibaba “Lookie”: Генерация личного цифрового образа и виртуальная примерка: Alibaba запустила независимое AI-приложение для примерки “Lookie”, где пользователи могут загружать фотографии для создания своего личного цифрового образа и быстро примерять одежду различных стилей. Приложение использует алгоритмы генерации изображений и текста Alibaba Wanxiang, чтобы создать интерактивную платформу, объединяющую демонстрацию брендов одежды и примерку, где пользователи могут делиться фотографиями примерки для получения советов по стилю, а продавцы могут точно улавливать модные тенденции. Несмотря на то, что имитация динамических эффектов ткани все еще представляет собой проблему, ожидается, что оно переопределит опыт онлайн-примерки и интегрируется с электронной коммерцией. (Источник: 36氪)
