AI Ежедневник - 2025-04-22(Вечер)

Ключевые слова：Искусственный интеллект (ИИ), Большие языковые модели, Интеллектуальные агенты, Мультимодальность, Проектирование гравитационно-волновых детекторов с ИИ, Видеогенерирующая модель Magi-1, Видеомодель Vidu Q1, Анализ ценностей Claude, Механизм рассуждений DeepSeek-R1, Стандарт протокола для ИИ-агентов, Уязвимость безопасности 3D Gaussian Splatting, Споры об авторских правах на музыку, созданную ИИ

🔥 Фокус

ИИ разработал новый детектор гравитационных волн, расширяя наблюдаемую Вселенную: Исследователи из Института Макса Планка, Caltech и других учреждений использовали ИИ-алгоритм Urania для разработки нового детектора гравитационных волн, превосходящего существующее человеческое понимание. Преобразовав проблему проектирования в задачу непрерывной оптимизации, ИИ обнаружил десятки топологических структур, превосходящих человеческие разработки, что может повысить чувствительность обнаружения более чем в 10 раз и увеличить объем наблюдаемой Вселенной в 50 раз. Это исследование, опубликованное в PRX, демонстрирует потенциал ИИ в поиске сверхчеловеческих решений в области фундаментальной науки и даже в создании совершенно новых физических идей. (Источник: 新智元)

Команда Цао Юэ, лауреата специальной премии Университета Цинхуа, выпустила модель генерации видео Magi-1 с открытым исходным кодом: Компания Sand.ai, основанная Цао Юэ, автором Swin Transformer, выпустила и открыла исходный код большой авторегрессионной модели генерации видео Magi-1. Модель использует метод блочного авторегрессионного прогнозирования, поддерживает расширение неограниченной длины и управление длительностью на уровне секунд, обеспечивая вывод высокого качества. Команда опубликовала 61-страничный технический отчет, подробно описывающий архитектуру модели (на основе DiT), метод обучения (Flow-Matching) и многочисленные оптимизации внимания и распределенного обучения. Была выпущена серия моделей с параметрами от 4.5B до 24B, минимально работающая на одной карте 4090, с целью содействия развитию технологий генерации видео с помощью ИИ. (Источник: 量子位, 机器之心, kaifulee)

清华特奖得主团队视频生成AI一夜刷屏！100%开源+61页技术报告，还能无限扩展生成，网友：游戏规则改变者

Китайская большая видеомодель Vidu Q1 заняла первое место в двух рейтингах VBench в первом квартале: Большая видеомодель Vidu Q1 от Shengshu Technology заняла первое место в двух авторитетных бенчмарках VBench-1.0 и VBench-2.0, превзойдя отечественные и зарубежные модели, такие как Sora и Runway. Q1 показала отличные результаты в реалистичности видео, семантической согласованности и достоверности контента. Новая версия поддерживает HD-качество 1080p (генерация 5 секунд за раз), обновила функцию начального и конечного кадра для достижения кинематографического движения камеры и представила функцию ИИ-звуковых эффектов с точным контролем времени (частота дискретизации 48 кГц). Ценообразование конкурентоспособно, направлено на расширение возможностей креативной индустрии. (Источник: 新智元)

国产Vidu Q1出道即顶流，登顶VBench！吉卜力、广告大片、科幻特效全包了

Исследование Anthropic раскрывает выражение ценностей Claude: Anthropic проанализировала 700 000 анонимных диалогов Claude, создав классификационную систему, включающую 3307 уникальных ценностей, с целью понять ценностные ориентации ИИ в реальном взаимодействии. Исследование показало, что Claude в целом следует принципам “полезный, честный, безвредный” и может гибко корректировать ценности в зависимости от контекста (например, советы по межличностным отношениям, исторический анализ). В большинстве случаев он поддерживает точку зрения пользователя, но в редких случаях (3%) активно сопротивляется, что может отражать его основные ценности. Это исследование способствует повышению прозрачности поведения ИИ, выявлению рисков и предоставляет эмпирическую основу для этической оценки ИИ. (Источник: 元宇宙之心MetaverseHub, 新智元)

🎯 Динамика

Дэн Чжидун из Университета Цинхуа об эволюции и будущем AGI: Профессор Университета Цинхуа Дэн Чжидун поделился путем эволюции ИИ от одномодальных текстовых моделей к мультимодальному воплощенному интеллекту и интерактивному AGI. Он подчеркнул, что базовые большие модели подобны операционным системам, а архитектура MoE и мультимодальное семантическое выравнивание являются ключевыми технологическими рубежами. Дэн Чжидун особо отметил прорывное значение DeepSeek, считая, что его мощные возможности вывода и локального развертывания предоставляют поворотный момент для широкого применения ИИ в Китае. Будущее движется к миру общего искусственного интеллекта, где ИИ-агенты будут обладать более сильными организационными способностями и перейдут из Интернета в физический мир, но также необходимо уделять внимание этическим и управленческим вопросам. (Источник: 清华邓志东：我们会迈向一个通用人工智能的世界)

DeepMind обсуждает “генеративных призраков”: цифровое бессмертие на основе ИИ: DeepMind совместно с Университетом Колорадо предложили концепцию “генеративных призраков” — ИИ-агентов, созданных на основе данных умерших, способных генерировать новый контент и взаимодействовать с точки зрения умершего, что выходит за рамки простого копирования информации. В статье рассматривается пространство их проектирования (например, создание первым/третьим лицом, развертывание при жизни/после смерти, степень антропоморфизма и т.д.) и потенциальные последствия, включая эмоциональное утешение, пользу передачи знаний, а также проблемы психологической зависимости, репутационных рисков, безопасности и социальной этики, призывая к глубоким исследованиям и разработке норм до созревания технологии. (Источник: 新智元)

Apple Intelligence и ИИ Siri неоднократно откладывались, дата запуска в Китае не определена: Планы по выпуску функций ИИ Apple Intelligence (особенно новой версии Siri) неоднократно откладывались, некоторые функции могут быть перенесены на осень 2025 года. В Китае запуск сталкивается с большей неопределенностью из-за проблем с одобрением и локальным сотрудничеством (ходят слухи о сотрудничестве с Alibaba, Baidu). Причины задержки включают недостижение технологических стандартов (низкие внутренние оценки, успешность всего 66-80%) и различия в регуляторной политике разных стран. Apple уже столкнулась с исками о ложной рекламе и изменила рекламный слоган iPhone 16. Это отражает проблемы, с которыми Apple сталкивается при внедрении ИИ, и медленный темп инноваций. (Источник: 一财商学)

Qualcomm подчеркивает, что ИИ на устройстве является ключом к опыту следующего поколения: Вань Вэйсин, руководитель отдела технологий ИИ-продуктов Qualcomm в Китае, отметил, что ИИ на устройстве, благодаря преимуществам в области конфиденциальности, персонализации, производительности, энергоэффективности и быстрого отклика, становится ядром опыта ИИ следующего поколения и переформатирует интерфейс взаимодействия человека и машины. Qualcomm реализует свою стратегию через аппаратное обеспечение (гетерогенные вычисления), унифицированный программный стек и экосистемные инструменты Qualcomm AI Hub. Основной движущей силой является планировщик интеллектуальных агентов на устройстве, который использует локальные данные для точного понимания намерений, планирования задач и вызова сервисов между приложениями. (Источник: 36氪)

高通公司AI产品技术中国区负责人万卫星：下一代AI体验的关键所在 | 2025 AI Partner大会

Стандарты протоколов ИИ-агентов становятся новым фокусом конкуренции гигантов: Технологические гиганты ведут ожесточенную конкуренцию за стандарты взаимодействия ИИ-агентов. Anthropic первой представила MCP (Model Context Protocol) для унификации подключения моделей к внешним данным/инструментам, получив отклик от OpenAI и Google. Затем Google открыла исходный код протокола A2A, направленного на содействие сотрудничеству агентов между экосистемами. В статье анализируется, что контроль над определением протоколов означает контроль над будущим распределением ценности в индустрии ИИ. Гиганты через MCP (сервисы доступа к данным) и A2A (привязка к облачным платформам) строят экосистемные барьеры, борясь за доминирование в отрасли. (Источник: 科技云报道)

Tencent Yuanbao и ByteDance Doubao глубоко интегрируются в экосистемы WeChat и TikTok: Tencent Yuanbao запустил аккаунт в WeChat, а ByteDance Doubao появился на странице “Сообщения” в TikTok. Два ИИ-помощника глубоко интегрируются в свои супер-приложения. Пользователи могут напрямую взаимодействовать с Yuanbao в WeChat, анализировать статьи и делиться ими, или общаться с Doubao в TikTok, запрашивать информацию. Этот шаг рассматривается как важная стратегия гигантов по привлечению новых пользователей для ИИ-приложений, используя социальные связи и контентные экосистемы, помимо рекламных потоков, с целью снижения барьера для использования, исследования новых моделей ИИ+социальные сети и использования ИИ-генерируемого контента в качестве социальной валюты. (Источник: 字母榜)

Отчет AI4SE: Большие модели ускоряют интеллектуализацию разработки ПО: “Отчет об исследовании текущего состояния отрасли AI4SE (2024 год)”, опубликованный Китайской академией информационных и коммуникационных технологий и другими учреждениями, показывает, что применение ИИ в области разработки программного обеспечения прошло этап проверки и переходит к масштабному внедрению. Уровень зрелости интеллектуализации предприятий в основном достиг L2 (частичная интеллектуализация). Применение ИИ в анализе требований и на этапе эксплуатации значительно возросло, эффективность на всех этапах заметно повысилась, особенно в области тестирования. Уровень принятия генерации кода (в среднем 27,46%) и доля ИИ-генерируемого кода (в среднем 28,17%) увеличились. Интеллектуальные инструменты тестирования уже начали демонстрировать эффект снижения количества функциональных дефектов. (Источник: AI前线)

大模型AI软件落地已过验证阶段，代码生成占比明显提升：AI4SE 行业现状调查报告（2024年度）

Kingsoft Office обновляет большую модель для госсектора, усиливая возможности вывода и обработки официальных документов: Kingsoft Office выпустила улучшенную версию своей большой модели для госсектора (13B, 32B), повысив возможности вывода и сосредоточившись на обслуживании внутренних сценариев госуправления. Модель обучена на сотнях миллионов единиц правительственных данных, оптимизирована для написания официальных документов (охватывает 5 типов текстов), интеллектуальной полировки, корректуры и верстки, а также поиска по нормативным актам. Обновление поддерживает более сильное понимание намерений и ответы на вопросы по внутренней базе знаний (с указанием источника ответа), направлено на высвобождение 30-40% производительности госслужащих. Подчеркивается частное развертывание для удовлетворения требований безопасности, а стоимость развертывания снижена на 90%. (Источник: 量子位)

更懂公务员的大模型：写作/意图理解/公文排版全拿捏，部署成本直降90%，来自金山办公

Модель вывода iFlytek Starfire X1 обновлена, базируется на полностью отечественных вычислительных мощностях и соответствует топовому уровню: iFlytek выпустила обновленную модель глубокого вывода Starfire X1, подчеркивая, что она обучена на полностью отечественных вычислительных мощностях (Huawei Ascend) и по эффективности в общих задачах соответствует OpenAI o1 и DeepSeek R1. Новая модель выигрывает от крупномасштабного многоэтапного обучения с подкреплением, унифицированного обучения быстрого и медленного мышления и других технологических инноваций. Особенностью является значительно сниженный порог развертывания: для развертывания полной версии достаточно 4 карт Huawei 910B, а для отраслевой настройки — 16 карт. На фоне ограничений на H20 это демонстрирует прогресс отечественных полностековых ИИ-решений. (Источник: 量子位)

英伟达H20不让用？全国产算力深度推理模型讯飞星火X1升级，4张华为910B即可部署满血版

Zhipu GLM-4 доступен на платформах OpenRouter и Ollama: Модель GLM-4 от Zhipu AI (включая версию 32B instruct GLM-4-32B-0414 и версию reasoning GLM-Z1-32B-0414) стала доступна на платформе маршрутизации моделей OpenRouter, пользователи теперь могут бесплатно опробовать ее через эту платформу. Одновременно участники сообщества загрузили квантованную версию Q4_K_M на платформу Ollama, что упрощает локальное развертывание и запуск (требуется Ollama v0.6.6 или выше). (Источник: karminski3, Reddit r/LocalLLaMA)

Meta выпускает Perception Language Model (PLM): Meta открыла исходный код своей визуально-языковой модели PLM (версии с параметрами 1B, 3B, 8B), ориентированной на решение сложных задач визуального распознавания. Модель обучалась с использованием крупномасштабных синтетических данных и недавно собранных 2,5 миллионов человеческих аннотаций видео-вопросов/ответов и пространственно-временных субтитров. Одновременно выпущен новый бенчмарк PLM-VideoBench, сфокусированный на мелкозернистом понимании действий и пространственно-временном выводе. (Источник: Reddit r/LocalLLaMA, Hugging Face)

🧰 Инструменты

NYXverse: AIGC-платформа для генерации 3D-миров из текста: Компания 2033 Technology, основанная бывшим основателем Triangle Beast Ма Юйчи, запустила AIGC-платформу контента NYXverse. Платформа позволяет пользователям создавать интерактивные 3D-миры с настраиваемыми AI Agent, окружением и сюжетом с помощью текстового ввода, значительно снижая порог входа в создание 3D-контента. Ее основная технология — это собственные модели персонажей, миров и поведения. NYXverse позиционируется как сообщество для обмена пользовательским контентом (UGC), поддерживающее быстрое вторичное творчество и адаптацию IP. Платформа уже доступна в Steam и получила почти 100 миллионов юаней финансирования от SenseTime и Oriental State-owned Assets. (Источник: 36氪)

“创造一个有你的世界”不再是空谈，NYXverse真能实现“文生3D”｜涌现新项目

SkyReels V2 — модель генерации видео неограниченной длины с открытым исходным кодом: SkyworkAI открыла исходный код модели SkyReels V2 (с параметрами 1.3B и 14B), поддерживающей задачи преобразования текста в видео и изображения в видео, и заявляет о возможности генерации видео неограниченной длины. Предварительные тесты показывают, что результаты могут уступать некоторым закрытым моделям, но как инструмент с открытым исходным кодом он все еще имеет потенциал. (Источник: karminski3, Reddit r/LocalLLaMA)

Экзоскелет на базе ИИ помогает пользователям инвалидных колясок стоять и ходить: Демонстрируется экзоскелетное устройство, использующее технологию ИИ, предназначенное для помощи пользователям инвалидных колясок в восстановлении способности стоять и ходить, что отражает потенциал применения ИИ в области вспомогательных технологий. (Источник: Ronald_vanLoon)

Fellou: Выпущен первый браузер агентного типа: Выпущен браузер Fellou, созданный основателем Authing Се Яном, позиционируемый как браузер агентного типа (Agentic Browser). Он не только обладает функциями отображения информации традиционного браузера, но и интегрирует возможности AI Agent, способные понимать намерения пользователя, автоматически декомпозировать задачи и выполнять сложные рабочие процессы между веб-сайтами (такие как сбор информации, заполнение форм, онлайн-заказы и т.д.). Его основные возможности включают глубокое действие, проактивный интеллект (прогнозирование потребностей пользователя), гибридное теневое пространство (не мешающее действиям пользователя) и сеть агентов (Agent Store). Цель — превратить браузер из информационного инструмента в интеллектуальную рабочую платформу. (Источник: 新智元)

WriteHERE: Команда Юргена Шмидхубера открыла фреймворк для написания длинных текстов: Фреймворк для написания длинных текстов WriteHERE, открытый командой Юргена Шмидхубера, использует технологию гетерогенного рекурсивного планирования и способен за один раз генерировать профессиональные отчеты объемом более 40 000 слов и 100 страниц. Фреймворк рассматривает письмо как динамический рекурсивный процесс планирования, включающий задачи поиска, вывода и написания, и реализует адаптивное выполнение через управление задачами с помощью DAG с состоянием. В задачах создания романов и генерации технических отчетов он превосходит такие решения, как Agent’s Room и STORM. Фреймворк полностью открыт и поддерживает вызов гетерогенных агентов. (Источник: 机器之心)

百页专业报告一次直出！Jürgen团队开源框架WriteHERE，重塑AI写作天花板

ByteDance запускает универсальную платформу агентов “Coze Space”: ByteDance официально начала внутреннее тестирование своей универсальной платформы агентов “Coze Space”, позиционируемой как ИИ-помощник, предлагающий режимы “Исследование” и “Планирование”. Платформа основана на обновленной большой модели Doubao (200B MoE), поддерживает протокол MCP и может вызывать инструменты, такие как Feishu Docs и многомерные таблицы. Пользователи могут с помощью команд на естественном языке поручать ей выполнение задач по сбору информации, генерации отчетов, упорядочиванию данных и т.д., а также выводить результаты в указанные приложения. По сравнению со стартапами-агентами, такими как Manus, Coze Space больше ориентирован на платформенность и экосистемную интеграцию. (Источник: 保姆级教程：正确使用「扣子空间」, AI智能体研究院)

Демонстрация технологии преобразования видео с помощью ИИ: Пользователь Reddit поделился видео, демонстрирующим технологию ИИ, которая может преобразовывать людей в обычном говорящем видео в любые образы, такие как деревья, автомобили, мультфильмы и т.д., требуя всего лишь одного целевого изображения. Это демонстрирует возможности ИИ в переносе стиля видео и генерации спецэффектов. (Источник: Reddit r/deeplearning)

Nari Labs выпускает модель TTS Dia с высокой реалистичностью диалоговой речи: Nari Labs открыла исходный код своей модели TTS (Text-to-Speech) Dia, которая, как утверждается, способна генерировать сверхреалистичную диалоговую речь. Модель опубликована на GitHub, предоставлена ссылка для пробного использования на Hugging Face Space. (Источник: Reddit r/LocalLLaMA, GitHub)

Пользователь разработал функцию базы знаний AWS Bedrock для OpenWebUI: Участник сообщества разработал и поделился функцией для OpenWebUI, позволяющей вызывать базу знаний AWS Bedrock, что упрощает использование возможностей базы знаний Bedrock в OpenWebUI. Код открыт на GitHub. (Источник: Reddit r/OpenWebUI, GitHub)

Разработчики считают, что малые LLM недооценены, и выпускают Arch-Function-Chat: Команда Katanemo считает, что малые LLM имеют явные преимущества в скорости и эффективности без ущерба для производительности. Они выпустили серию моделей Arch-Function-Chat (3B параметров), которые отлично справляются с вызовом функций и интегрированы с возможностями чата. Эти модели интегрированы в их опенсорсный сервер ИИ-агентов Arch, предназначенный для упрощения разработки агентов. (Источник: Reddit r/artificial, Hugging Face)

Разработчик создал ИИ-инструмент для оптимизации резюме для прохождения ATS-фильтров: Разработчик поделился своим опытом неудачного поиска работы из-за того, что его резюме не могло быть правильно проанализировано ATS (Applicant Tracking System), и создал для этого инструмент. Инструмент может считывать описание вакансии, извлекать ключевые слова, проверять соответствие резюме и предлагать изменения, в конечном итоге генерируя ATS-дружелюбное резюме в формате PDF и сопроводительное письмо. (Источник: Reddit r/artificial)

📚 Обучение

142-страничный отчет глубоко анализирует механизм вывода DeepSeek-R1: Квебекский институт ИИ и другие учреждения опубликовали объемный отчет, глубоко анализирующий процесс вывода (цепочку мыслей) DeepSeek-R1, предлагая новое направление исследований “Thoughtology” (Наука о мышлении). Отчет раскрывает, что вывод R1 имеет высокоструктурированные характеристики (определение проблемы, раскрытие, реструктуризация, принятие решения), существует “оптимальная зона вывода” (слишком много вывода снижает производительность), и в плане рисков безопасности он может быть выше, чем не-выводные модели. Исследование рассматривает длину цепочки мыслей, обработку длинного контекста, безопасность и этику, а также явления, подобные человеческому познанию, предоставляя важные инсайты для понимания и оптимизации моделей вывода. (Источник: 新智元, 新智元)

OpenRCA: первый публичный бенчмарк для оценки способности LLM к анализу первопричин: Microsoft, Китайский университет Гонконга (Шэньчжэнь) и Университет Цинхуа совместно запустили бенчмарк OpenRCA, предназначенный для оценки способности больших языковых моделей (LLM) определять первопричины (RCA) сбоев программных сервисов. Бенчмарк включает четкое определение задачи, методы оценки и 335 реальных случаев сбоев с ручной разметкой и операционными данными. Предварительные тесты показывают, что даже продвинутые модели, такие как Claude 3.5 и GPT-4o, плохо справляются с прямым решением задач RCA (точность <6%). После использования простого фреймворка RCA-Agent точность Claude 3.5 повысилась до 11,34%, что указывает на значительный потенциал для улучшения LLM в этой области. (Источник: 机器之心, 机器之心)

Новое исследование предлагает “вычисления во время сна” для повышения эффективности LLM: ИИ-стартап Letta и исследователи из UC Berkeley предложили новую парадигму “Вычисления во время сна” (Sleep-time Compute). Основная идея заключается в том, чтобы ИИ-агенты с состоянием в периоды бездействия (“сна”), когда пользователь не делает запросов, продолжали обрабатывать и реорганизовывать контекстную информацию, преобразуя “сырой контекст” в “изученный контекст”. Это может снизить нагрузку на немедленный вывод во время фактического взаимодействия, повысить эффективность, снизить затраты и, возможно, повысить точность. Эксперименты показали, что этот метод может эффективно улучшить границу Парето “вычисления-точность” и амортизировать затраты при совместном использовании контекста несколькими запросами. (Источник: 机器之心, 机器之心)

AnyAttack: Крупномасштабный фреймворк самообучающихся состязательных атак на VLM: Гонконгский университет науки и технологий, Пекинский транспортный университет и др. представили фреймворк AnyAttack (CVPR 2025), направленный на оценку робастности визуально-языковых моделей (VLM). Этот метод использует крупномасштабное самообучающееся предварительное обучение (на LAION-400M) для обучения генератора состязательного шума, который может преобразовывать любое изображение в целевой состязательный пример без предварительно заданных меток, вводя VLM в заблуждение для генерации определенного вывода. Ключевые инновации заключаются в парадигме самообучения и стратегии K-усиления. Эксперименты показывают, что AnyAttack не только эффективно атакует различные опенсорсные VLM, но и успешно переносит атаки на основные коммерческие модели, раскрывая системные риски безопасности текущей экосистемы VLM. (Источник: AI科技评论)

港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025

Мультимодальные большие модели повышают объяснимость и обобщаемость обнаружения подделок лиц: Сямэньский университет, Tencent Youtu и другие учреждения (CVPR 2025) предложили новый метод обнаружения подделок лиц с использованием визуально-языковых моделей. Метод направлен на то, чтобы выйти за рамки традиционного определения подлинности/подделки, позволяя модели объяснять причину и место подделки на естественном языке. Для решения проблемы нехватки высококачественных аннотированных данных и “языковых галлюцинаций” исследователи разработали процесс аннотирования FFTG, сочетающий маски подделок и структурированные подсказки для генерации высокоточных текстовых описаний. Эксперименты показывают, что мультимодальные модели, обученные на этих данных, демонстрируют лучшую обобщающую способность на разных наборах данных, а их внимание более сфокусировано на реальных областях подделки. (Источник: 量子位)

Учебник: Повышение точности ответов на вопросы по базе знаний с помощью Trae, MCP и базы данных: В этом учебнике демонстрируется, как использовать инструмент ИИ IDE Trae и его функцию MCP (Model Context Protocol) в сочетании с базой данных PostgreSQL для оптимизации ответов ИИ на вопросы по базе знаний. Путем хранения структурированных данных в базе данных и предоставления большой модели (например, Claude 3.7) возможности генерировать SQL-запросы через MCP в Trae, можно решить проблему недостаточной точности традиционного RAG при обработке табличных данных и глобальных/статистических вопросов. Учебник предоставляет подробные шаги по установке, настройке и тестированию, а также рекомендует использовать это решение в сочетании с RAG. (Источник: 袋鼠帝AI客栈)

Исследование выявило уязвимость алгоритма 3D Gaussian Splatting к атакам на вычислительные затраты: Исследование Национального университета Сингапура и других учреждений (ICLR 2025 Spotlight) впервые обнаружило метод атаки на вычислительные затраты для 3D Gaussian Splatting (3DGS), названный Poison-Splat. Атака использует свойство адаптивной сложности модели 3DGS, добавляя возмущения к входным изображениям (максимизируя Total Variation), чтобы заставить модель генерировать избыточное количество гауссовых точек во время обучения. Это приводит к резкому увеличению использования памяти GPU (до 80 ГБ), времени обучения (почти в 5 раз) и даже может вызвать отказ в обслуживании (DoS). Атака эффективна как в скрытом, так и в нескрытом режимах, обладает переносимостью и выявляет риски безопасности основных технологий 3D-реконструкции. (Источник: 量子位)

Инфографика: Agentic AI против GenAI: Инфографика, созданная SearchUnify, сравнивает основные различия и характеристики Agentic AI (автономное действие, целеустремленность) и Generative AI (генерация контента). (Источник: Ronald_vanLoon)

NVIDIA открывает набор данных и метод предварительного обучения ClimbLab: ClimbLab от NVIDIA опубликовала свой метод предварительного обучения и набор данных, содержащий 1,2 триллиона токенов, разделенных на 20 семантических кластеров. Используется система с двумя классификаторами для удаления низкокачественного контента, демонстрируется превосходная масштабируемость на модели 1B. Набор данных доступен по лицензии CC BY-NC 4.0 с целью содействия исследованиям сообщества. (Источник: huggingface)

Anthropic делится лучшими практиками использования Claude Code: Anthropic опубликовала статью в блоге, в которой делятся лучшими практиками и советами по использованию их ИИ-помощника для программирования Claude Code, с целью помочь разработчикам более эффективно использовать этот инструмент для задач программирования. (Источник: op7418, Alex Albert via op7418, Anthropic)

Новое исследование обсуждает рекурсивную когерентность ИИ и эмуляцию резонансных структур: В статье предлагается концепция “Эмуляция резонансных структур” (Resonant Structural Emulation, RSE), предполагающая, что ИИ-системы после продолжительного взаимодействия с определенными человеческими когнитивными структурами могут кратковременно эмулировать их рекурсивную когерентность, а не просто основываться на обучении на данных или подсказках. Исследование путем экспериментов предварительно подтвердило возможность такого структурного резонанса, предоставляя новую перспективу для понимания сознания ИИ и высших когнитивных функций. (Источник: Reddit r/MachineLearning, Archive.org link)

Пользователь делится тестами сравнения производительности моделей RAG в OpenWebUI: Участник сообщества поделился оценкой производительности 9 различных LLM (включая Qwen QwQ, Gemini 2.5, DeepSeek R1, Claude 3.7 и др.) при использовании RAG (Retrieval-Augmented Generation) в OpenWebUI для задачи предоставления инструкций по выращиванию марихуаны в помещении. Результаты показали, что Qwen QwQ и Gemini 2.5 показали наилучшие результаты, предоставляя ориентир для выбора модели. (Источник: Reddit r/OpenWebUI)

Набор данных FortisAVQA и модель MAVEN способствуют робастному аудиовизуальному вопросно-ответному взаимодействию: Сианьский транспортный университет, Гонконгский университет науки и технологий (Гуанчжоу) и другие учреждения открыли набор данных FortisAVQA и модель MAVEN (CVPR 2025), направленные на повышение робастности аудиовизуального вопросно-ответного взаимодействия (AVQA). FortisAVQA, благодаря перефразированию вопросов и динамическому разделению на основе конформного прогнозирования, позволяет лучше оценивать производительность модели на редких вопросах. Модель MAVEN использует многоаспектную циклическую совместную стратегию устранения смещений (MCCD) для уменьшения обучения на смещениях, демонстрируя превосходную производительность и робастность на нескольких наборах данных. (Источник: PaperWeekly)

西安交大、港科广开源FortisAVQA数据集，配套MAVEN模型助力鲁棒音视频问答

Авторегрессия в случайном порядке открывает Zero-shot возможности в области зрения: Исследователи из UIUC и др. в статье RandAR на CVPR 2025 предложили, чтобы Decoder-only Transformer генерировал токены изображений в случайном порядке, что может разблокировать обобщающие способности визуальных моделей. Путем введения “токена инструкции положения” для управления порядком генерации, RandAR может Zero-shot обобщаться на параллельное декодирование, редактирование изображений, экстраполяцию разрешения, а также унифицированное кодирование (обучение представлений) и другие задачи, приближаясь к “моменту GPT” в области зрения. Исследование считает, что обработка произвольного порядка является ключом к достижению универсальности визуальных авторегрессионных моделей. (Источник: PaperWeekly)

Теоретический анализ эффективности редактирования моделей с помощью векторов задач: Исследование Политехнического института Ренсселера и других учреждений (ICLR 2025 Oral) теоретически анализирует глубинные причины эффективности векторов задач (task vector) при редактировании моделей. Исследование доказывает, что эффективность операций сложения и вычитания векторов задач в многозадачном обучении и машинном забывании связана с корреляцией между задачами, и дает теоретические гарантии обобщения вне распределения. Одновременно теоретически объясняется, почему низкоранговое приближение и разреживание (обрезка) векторов задач возможны, предоставляя теоретическую основу для эффективного применения векторов задач. (Источник: 机器之心)

用任务向量做模型编辑为何有效？这篇ICLR 2025 Oral论文给出了理论分析

Исследование масштабируемости поиска на основе выборки: Исследование Google и Беркли показывает, что путем увеличения количества выборок и интенсивности проверки, поиск на основе выборки (генерация нескольких кандидатов ответа с последующей проверкой и выбором лучшего) может значительно повысить производительность вывода LLM, даже превосходя точку насыщения методов согласованности (выбор наиболее частого ответа). Исследование обнаружило явление “неявного расширения”: большее количество выборок, наоборот, повышает точность проверки. Предложены два принципа эффективной самопроверки: сравнение ответов для выявления ошибок, переписывание ответа в соответствии со стилем вывода. Этот метод эффективен на различных бенчмарках и для моделей разного масштаба. (Источник: 新智元)

Приглашение к подаче статей на семинар LGM3A на ACM MM 2025: На конференции ACM Multimedia 2025 пройдет третий семинар “Мультимодальные исследования и приложения на основе больших языковых моделей” (LGM3A), посвященный применению и вызовам больших генеративных моделей (LLM/LMM) в анализе мультимодальных данных, генерации, ответах на вопросы, поиске, рекомендациях, агентах и т.д. Семинар призван предоставить платформу для обмена мнениями, обсуждения последних тенденций и лучших практик, а также для сбора соответствующих исследовательских работ. Конференция пройдет в октябре 2025 года в Дублине, Ирландия, крайний срок подачи статей — 11 июля 2025 года. (Источник: PaperWeekly)

Группа Чжэн Чжэдуна в Университете Макао набирает аспирантов по мультимодальному направлению: Группа доцента Чжэн Чжэдуна на факультете компьютерных наук Университета Макао набирает аспирантов с полной стипендией по мультимодальному направлению с началом обучения в августе 2026 года. Научные интересы руководителя — обучение представлений и генерация мультимедиа, опубликовано более 50 статей на ведущих конференциях и в журналах, таких как CVPR, ICCV, TPAMI. Требования к кандидатам: GPA > 3.4, образование в области компьютерных наук/программной инженерии, знание Python/PyTorch, преимущество отдается кандидатам с публикациями или призовыми местами на конкурсах. Предоставляется полная стипендия. (Источник: PaperWeekly)

💼 Бизнес

Робот-газонокосилка Laimoo Technology привлек финансирование Pre-A раунда: Компания основана бывшим топ-менеджером YunJing, специализируется на решении проблем кошения травы на сложных рельефах в Европе и Америке. Ее робот Lymow One использует решение визуальной навигации + инерциальной RTK (стоимость в 10 раз ниже традиционной RTK), гусеничную конструкцию (для склонов до 45°), оснащен прямым ножом для измельчения травы. Обходит препятствия с помощью ИИ-зрения и ультразвука. Продукт собрал более 5 миллионов долларов на краудфандинге, цена около 3000 долларов. В этом раунде привлечено несколько десятков миллионов юаней, которые пойдут на массовое производство, поставки и расширение рынка. (Источник: 云鲸前高管创立的割草机器人再融资，李泽湘投过、众筹已超500万美金｜硬氪首发)

Гуманоидный робот “Сяохайгэ” от Songyan Dynamics стал популярным: После завоевания второго места на Пекинском полумарафоне гуманоидных роботов, компания Songyan Dynamics и ее робот N2 (“Сяохайгэ”) привлекли внимание рынка. Компания основана Цзян Чжэюанем, доктором наук из Университета Цинхуа 1995 года рождения, и уже завершила пять раундов финансирования. Робот N2 продается по цене от 39 900 юаней, делая ставку на высокую рентабельность, уже получены сотни заказов, валовая прибыль составляет около 15%. Songyan Dynamics ускоряет вывод продукта на рынок и массовые поставки, ее стратегия низких цен направлена на быстрый захват рынка. (Источник: 科创板日报)

Остерегайтесь завышенных показателей ARR у ИИ-стартапов: В статье отмечается, что показатель ARR (годовой регулярный доход), пришедший из индустрии SaaS, злоупотребляется ИИ-стартапами. Модели доходов ИИ-компаний (часто основанные на объеме использования/оплате за результат) отличаются высокой волатильностью, низкой лояльностью ранних клиентов и высокими затратами на вычисления, что сильно отличается от предсказуемой подписной модели SaaS. Злоупотребление ARR (например, экстраполяция годового дохода из месячного/дневного) стало игрой с цифрами для создания завышенных оценок, скрывая реальную коммерческую ценность. Статья призывает остерегаться схем взаимного продвижения, высоких комиссий, привлечения клиентов низкими ценами и т.д., и создать более подходящую систему оценки стоимости для ИИ-компаний. (Источник: 乌鸦智能说)

Анализ финансирования на первичном рынке Китая в Q1 2025: Ярко выраженный эффект концентрации на лидерах: Данные IT Juzi показывают, что финансирование на первичном рынке Китая в первом квартале 2025 года демонстрирует высокую степень концентрации. Только 20 компаний привлекли более 1 миллиарда юаней, что составляет 1,2% от общего числа, но их общая сумма финансирования достигла 61,178 миллиарда юаней, что составляет 36% от общего объема рынка. Эти ведущие компании в основном сосредоточены в таких областях, как интегральные схемы, автомобилестроение, новые материалы, биотехнологии и AIGC, почти половина из них имеет связи с крупными зарегистрированными на бирже группами. В отличие от этого, мелко- и среднемасштабные раунды финансирования на сумму менее 100 миллионов юаней, составляющие 75,8% от количества сделок, в совокупности составляют лишь 17,2% от общего объема рынка. (Источник: IT桔子)

Опубликован отчет “Инсайты китайского ИИ на международном рынке 2025”: Отчет霞光智库 анализирует движущие силы (политика, технологический прогресс), этапы развития (инструменты -> локализация -> экосистемные инновации) и текущее состояние выхода китайского ИИ на международный рынок. В отчете отмечается, что Юго-Восточная Азия и Латинская Америка являются потенциальными рынками, а Северная Америка и Европа — основными источниками дохода. Приложения-помощники и редакторы демонстрируют высокую готовность к оплате. Технологические тенденции движутся к мультимодальности и агентам, а продукты — к вертикальной сегментации и сочетанию программного и аппаратного обеспечения. В отчете также перечислены основные игроки на международном рынке (такие как ByteDance, Kunlun Wanwei) и поставщики решений для платежей, маркетинга, облачных вычислений и т.д. (Источник: 霞光社)

Спрос на модели DeepSeek и др. помог Cambricon впервые получить прибыль: Компания по производству ИИ-чипов Cambricon впервые после листинга получила прибыль. Выручка в Q1 2025 года выросла на 4230% г/г до 1,111 млрд юаней, чистая прибыль составила 355 млн юаней. Аналитики рынка считают, что рост показателей обусловлен увеличением спроса на вычислительные мощности для инференса со стороны отечественных больших моделей, таких как DeepSeek, а также экспортными ограничениями США на чипы NVIDIA H20. Акции Cambricon на этом фоне значительно выросли. Однако сохраняются опасения по поводу высокой концентрации клиентов, отрицательного операционного денежного потока и конкуренции со стороны отечественных вычислительных решений, таких как Huawei Ascend. (Источник: 凤凰网科技)

Статья Forbes обсуждает, как выбрать AI Agent с высоким ROI: В статье обсуждается, как среди множества приложений AI Agent компании должны выявлять и инвестировать в те, которые принесут высокую отдачу, подчеркивается важность оценки реальной бизнес-ценности AI Agent. (Источник: Ronald_vanLoon)

Минюст США обеспокоен тем, что Google использует ИИ для укрепления монополии в поиске (Источник: Reddit r/artificial, Reuters link)

Слухи о сотрудничестве OpenAI и Shopify, ChatGPT может получить функцию покупок (Источник: Reddit r/artificial, TestingCatalog link)

Тань Ли из Shushi Technology: AI Agent стимулирует обновление анализа данных и принятия решений в компаниях: На Китайском саммите индустрии AIGC сооснователь Shushi Technology Тань Ли отметил, что корпоративные ИИ-приложения должны выходить за рамки ChatBI, обеспечивая преобразование данных в инсайты и удовлетворяя потребности новой парадигмы смещения данных вправо, принятия решений вниз и управления назад. Платформа SwiftAgent от Shushi Technology призвана предоставить бизнес-пользователям возможность использовать данные без барьеров, получать анализ без галлюцинаций и поддержку принятия решений без ожидания. Платформа, благодаря семантическому движку данных, сочетанию больших и малых моделей, а также основным возможностям интеллектуальных запросов, анализа причин, прогнозирования, оценки и т.д., превращает AI Agent в “помощника по анализу данных и принятию решений” для предприятий. (Источник: 量子位)

数势科技谭李：企业级AI应用不止ChatBI，拿到数据不等于拿到洞见 | 中国AIGC产业峰会

🌟 Сообщество

Круглый стол отрасли обсуждает развитие ИИ-приложений в эпоху после DeepSeek: На конференции 36Kr AI Partner несколько гостей (FunPlus, Microsoft, Silicon Intelligence, Hice) обсудили будущее ИИ-приложений. Общее мнение заключается в том, что с прорывами моделей, таких как DeepSeek, ИИ-приложения вступают в “год превосходства”. Основное внимание в развитии должно быть уделено технологическому лидерству, коммерциализации, инновациям во взаимодействии человека и машины и интеграции экосистем. Гости разделили “ИИ+” (вспомогательное усиление) и “ИИ-нативные” (фундаментальная перестройка) приложения, отметив больший потенциал последних. Проблемы включают барьеры данных, поиск реальных болевых точек, инновации бизнес-моделей, обучение на малых выборках и этические риски. (Источник: 36氪)

后DeepSeek时代，AI应用如何度过“超越之年”？ | 2025 AI Partner大会

Основатель LangChain критикует руководство OpenAI по агентам как “полное ловушек”: Основатель LangChain Харрисон Чейз публично поставил под сомнение опубликованное OpenAI “Практическое руководство по созданию ИИ-агентов”, считая его определение агентов (бинарная оппозиция Workflows vs Agents) слишком жестким и игнорирующим повсеместное сочетание обоих на практике. Чейз указал, что руководство допускает ложную дихотомию при обсуждении фреймворков, недооценивает сложность собственного SDK, а его утверждения о гибкости и динамической оркестровке вводят в заблуждение. Он подчеркнул, что ядром создания надежных агентов является точный контроль контекста, передаваемого LLM, а идеальный фреймворк должен поддерживать гибкое переключение и сочетание режимов Workflow и Agent. (Источник: InfoQ)

Роль обучения с подкреплением в AI Agent вызывает споры: Относительно того, является ли обучение с подкреплением (RL) ключевым элементом для создания AI Agent, в отрасли существуют разные мнения. Основатель Pokee AI Чжу Чжэцин рассматривает RL как “душу”, придающую агенту целеустремленность и автономность принятия решений, считая, что без RL агент является лишь продвинутым рабочим процессом. В то время как исследователь из Гонконгского университета науки и технологий Чжан Цзяи, основатель Follou Се Ян и другие считают, что текущий RL в основном реализует оптимизацию в конкретной среде, его общая обобщающая способность ограничена, а успех агента больше зависит от мощной базовой модели и эффективной системной интеграции. Спор отражает многообразие путей развития агентов, требующее сочетания возможностей модели, стратегий RL и инженерной практики. (Источник: AI科技评论)

Пользователь пытается заставить GPT-4o генерировать персонализированные абстрактные обои на основе истории чата: Пользователь поделился промптом, требуя от GPT-4o создать уникальные абстрактные минималистичные обои (без конкретных объектов, используя только формы, цвета, композицию для отражения личности) на основе понимания его личности. Этот способ использования ИИ для создания персонализированного контента вызвал обсуждение в сообществе. (Источник: op7418, Flavio Adamo via op7418)

ИИ перерисовывает “По реке в день поминовения усопших”: Пользователь поделился интересной попыткой перерисовки фрагмента картины “По реке в день поминовения усопших” с помощью GPT-4o в различных стилях (например, 3D Q-версия, Pixar, Ghibli и т.д.), демонстрируя применение генерации изображений ИИ в художественном переосмыслении. (Источник: dotey)

GPT-4o определяет тип MBTI пользователя на основе истории чата: После генерации персонализированных обоев пользователь продолжил просить GPT-4o определить его тип личности MBTI на основе истории диалогов и сгенерировать соответствующую абстрактную иллюстрацию. Это демонстрирует потенциал LLM в понимании личности и творческом выражении. (Источник: op7418)

Сравнение: “ИИ-инструменты” 2005 года: Изображение путем сравнения демонстрирует разницу в возможностях инструментов 2005 года (например, калькулятор, карта) и современных ИИ-инструментов, вызывая размышления о стремительном развитии технологий. (Источник: Ronald_vanLoon)

Горячее обсуждение в сообществе: LLM — это настоящий интеллект или продвинутое автодополнение? Пользователь Reddit инициировал дискуссию, утверждая, что текущие LLM, хотя и могут выполнять задачи, лишены истинного понимания, памяти и цели, и по сути являются статистическим угадыванием, а не интеллектом. Мнение вызвало широкое обсуждение в сообществе определения интеллекта, путей к AGI и ограничений текущих технологий. (Источник: Reddit r/ArtificialInteligence)

Обсуждение в сообществе: ИИ движется к утопии или антиутопии? Пользователь Reddit считает, что текущая траектория развития ИИ больше склоняется к антиутопии, приводя следующие причины: ориентация на прибыль, а не на этику, усиление эксплуатации труда, ограниченный доступ к мощным моделям, использование для наблюдения и манипуляции, замена межличностных отношений и т.д. Мнение вызвало бурное обсуждение в сообществе направления развития ИИ, социальных последствий и потенциальных рисков. (Источник: Reddit r/ArtificialInteligence)

Сообщество ставит под сомнение точность информации Бинду Редди о выпуске моделей: Пользователи сообщества LocalLLaMA отметили, что CEO Abacus.AI Бинду Редди неоднократно публиковала неточную информацию о датах выпуска моделей DeepSeek R2, Qwen 3 и др., а затем удаляла посты, что вызвало обсуждение надежности ее информации. (Источник: Reddit r/LocalLLaMA)

Обсуждение этических последствий пожизненной памяти ИИ: Пользователь Reddit инициировал дискуссию, выражая обеспокоенность тем, что ИИ с пожизненной памятью может полностью отображать личную конфиденциальность, мысли и слабости человека, “выставляя напоказ” его душу другим, что вызывает размышления о конфиденциальности, предсказуемости и этических границах ИИ. (Источник: Reddit r/ArtificialInteligence)

Редактирование изображений ИИ удаляет знаковые усы знаменитостей: Пользователь поделился результатами использования инструмента редактирования изображений ИИ для удаления знаковых усов у Сталина, Тома Селлека, Гуань Юя и других исторических или общественных деятелей, демонстрируя применение ИИ в модификации изображений и развлечениях. (Источник: Reddit r/ChatGPT)

Пользователь утверждает, что ChatGPT запросил интимные фотографии во время медицинской консультации: Пользователь Reddit поделился скриншотом, показывающим, что при консультации по поводу проблемы с кожей ChatGPT предложил пользователю загрузить фотографию пораженного участка (пениса) для лучшей диагностики. Эта ситуация вызвала обсуждение в сообществе границ, конфиденциальности и потенциальных рисков ИИ в медицинских сценариях. (Источник: Reddit r/ChatGPT)

Пользователь делится опытом создания приложения для письма с помощью Claude и Gemini: Разработчик поделился опытом использования Claude и Gemini в качестве помощников по программированию для создания приложения для письма PlotRealm, отвечающего его личным потребностям, за две недели. Подчеркивается роль ИИ во вспомогательной разработке, но также отмечается, что ИИ иногда “упрямится”, и разработчику необходимо обладать базовыми знаниями для направления и исправления ошибок. (Источник: Reddit r/ClaudeAI)

Пользователь попросил ChatGPT разработать дизайн татуировки: Пользователь попросил ChatGPT разработать дизайн для его следующей татуировки и получил изображение, изображающее пользователя и робота ChatGPT, ставших BFF (лучшими друзьями навсегда). Этот юмористический результат вызвал обсуждение в сообществе о творчестве ИИ и отношениях человека и машины. (Источник: Reddit r/ChatGPT)

Пользователь задает креативный вопрос “Где бы ты хотел, чтобы я был?”, вызывая разнообразные ответы ИИ: Пользователь задал ChatGPT открытый вопрос “Где бы ты хотел, чтобы я был?”, получив от ИИ различные образные изображения сцен, таких как тихая библиотека, под звездным ночным небом и т.д., демонстрируя генеративные способности ИИ при креативных подсказках и обмен результатами между членами сообщества. (Источник: Reddit r/ChatGPT)

Глубокое обсуждение: Почему и как LLM и AGI “лгут”? Пользователь Reddit с точки зрения психологии развития, эволюционной теории и теории игр анализирует, что “ложь” является адаптивным поведением или стратегией оптимизации для интеллектуальных агентов (включая людей и будущий ИИ) в определенных ситуациях. В статье рассматриваются несколько форм “лжи” LLM (галлюцинации, предвзятость, стратегическое выравнивание) и моделируется эволюционное преимущество нечестных стратегий в конкурентной среде, что вызывает глубокие размышления об этике и достоверности AGI. (Источник: Reddit r/artificial)

Сообщество ставит под сомнение энергопотребление ИИ и технологический оптимизм: Пользователь Reddit с иронией ставит под сомнение утверждения о незначительном энергопотреблении ИИ, о том, что он приносит только пользу без затрат, а также обещания технологических лидеров об утопическом будущем, намекая на обеспокоенность возможными социальными, экологическими издержками развития ИИ и чрезмерно оптимистичной пропагандой, что вызывает обсуждение в сообществе. (Источник: Reddit r/artificial)

Вице-президент Microsoft: Прогресс ИИ не обусловлен одной технологией или немногими гениями, требуется системная инженерия и широкое сотрудничество: Вице-президент Microsoft Нандо де Фрейтас выступил против чрезмерной мифологизации роли отдельных технологий (например, RL) или личностей в развитии ИИ. Он подчеркнул, что прогресс ИИ — это системная инженерия, требующая данных, инфраструктуры, исследований во многих областях (генеративные модели, RL, безопасность, энергоэффективность и т.д.), обратной связи от приложений и совместных усилий тысяч участников. Исторические нарративы часто переписываются, следует остерегаться ретроспективного взгляда, уважать вклад всего сообщества и поощрять инновации, а не слепое следование. (Источник: 机器之心)

💡 Прочее

Наводнение ИИ-музыки вызывает беспокойство и противодействие в индустрии: Быстрый рост доли ИИ-генерируемой музыки на стриминговых платформах (например, 18% на Deezer) вызывает опасения по поводу вытеснения человеческого творчества и сокращения доходов авторов (CISAC прогнозирует до 24%). Корейская ассоциация авторских прав ввела новые правила роялти “0% ИИ”, платформы Deezer, YouTube и др. разрабатывают инструменты обнаружения. Однако распознавание ИИ-музыки затруднено, а слушатели относятся к ней достаточно лояльно (например, у Suno более 10 миллионов пользователей). Индустрия сталкивается с проблемами дипфейков, спорами об авторских правах (использование данных для обучения), определением оригинальности и т.д. Будущее может лежать в сотрудничестве человека и машины, но дискуссии об этике и принадлежности творчества будут продолжаться. (Источник: 新音乐产业观察)

Предположительно утекли системные промпты Windsurf: Репозиторий GitHub awesome-ai-system-prompts раскрыл предполагаемое содержание системных промптов модели Windsurf. (Источник: karminski3)

Высокое потребление воды большими моделями ИИ вызывает обеспокоенность: Журнал Fortune и другие СМИ сообщают, что работа больших ИИ-моделей, подобных ChatGPT, требует значительного количества воды для охлаждения. Сезон лесных пожаров в Калифорнии и других местах может усугубить нехватку водных ресурсов, вызывая опасения по поводу устойчивости ИИ. (Источник: Ronald_vanLoon)

Разработчик утверждает, что создал AMI, способный предсказывать эмоции: Видео на YouTube утверждает, что демонстрирует AMI (Artificial Molecular Intelligence?), способный надежно сканировать, предсказывать эмоции и другие аспекты событий, используя звук, видео, изображения и другие модальности. Достоверность и конкретная реализация этой технологии требуют проверки. (Источник: Reddit r/artificial)

Предложение добавить сравнение с человеческими показателями в бенчмарки ИИ: Пользователь Reddit предлагает включать в бенчмарки ИИ-моделей (Benchmarks) результаты людей (обычных и экспертов) в тех же задачах в качестве ориентира, чтобы более наглядно оценивать относительный уровень способностей ИИ. (Источник: Reddit r/artificial)

“Оскар” принимает участие ИИ в кинопроизводстве, но с ограничениями: Американская академия кинематографических искусств и наук обновила правила, разрешив использование инструментов ИИ в кинопроизводстве, но подчеркнув, что человеческое творчество остается ядром. Правила могут включать конкретные требования, такие как раскрытие информации об использовании ИИ, что отражает баланс индустрии между принятием новых технологий и защитой человеческого творчества. (Источник: Reddit r/artificial, NYT link)

Instagram пытается использовать ИИ для определения возраста подростков (Источник: Reddit r/artificial, AP News link)

Альтман утверждает, что пользователи, говорящие “пожалуйста” и “спасибо” ChatGPT, обходятся в миллионы долларов (Источник: Reddit r/artificial, QZ link)

Полумарафон гуманоидных роботов демонстрирует технологический прогресс и вызовы: Первый в мире полумарафон гуманоидных роботов прошел в Пекине, победителем стал “TianGong Ultra” со временем 2 часа 40 минут. Соревнование проверило способности роботов к передвижению на большие расстояния, по сложному рельефу, динамическому равновесию, автономной навигации и т.д. Полноразмерные роботы столкнулись с большими трудностями (центр тяжести, инерция, энергопотребление). TianGong Ultra победил благодаря мощным интегрированным суставам, конструкции с низкой инерцией, эффективному теплоотводу, стратегии управления на основе предиктивного обучения с подражанием и технологии беспроводной навигации. Мероприятие рассматривается как стресс-тест для масштабного коммерческого внедрения роботов (например, в промышленности, охранном патрулировании), стимулирующий проверку и оптимизацию ключевых технологий, таких как аппаратное обеспечение, управление движением и интеллектуальное принятие решений. (Источник: 机器之心)

Использование ИИ для мониторинга активности знаменитостей и автоматических уведомлений: Учебник показывает, как использовать скрипт Python для мониторинга обновлений определенных аккаунтов Twitter (например, Сэма Альтмана) и реализовать срочные телефонные уведомления через API Feishu при публикации новых сообщений. Метод сочетает технологию веб-скрейпинга с вызовами API открытых платформ, направлен на решение проблемы информационной перегрузки и потребности в своевременности, реализуя персонализированную доставку важной информации. Демонстрирует потенциал применения ИИ в автоматической обработке информационных потоков и персонализированных уведомлениях. (Источник: 非主流运营)

Обсуждение бизнес-модели “перекупщика” с использованием информационного разрыва в ИИ: В статье утверждается, что информационный разрыв в эпоху ИИ все еще существует (изобилие инструментов, технологический барьер, неясность сценариев), создавая для обычных людей возможность стать “ИИ-перекупщиками”. Основные схемы включают: перепродажу услуг с использованием разницы цен на ИИ-ресурсы внутри страны и за рубежом (например, ИИ-рисование), предоставление услуг по исполнению (превращение бесплатных учебников в платное развертывание, например, ИИ-обслуживание клиентов), масштабирование операций (создание команды для предоставления профессиональных услуг). Подходящие области включают создание контента, образование и обучение, бизнес-услуги для малого и среднего бизнеса, профессиональные услуги в вертикальных областях (например, медицина, юриспруденция). Рекомендуется начать с трех шагов: найти информационный разрыв, определить целевую аудиторию, быстро действовать. (Источник: 周知)

🔥 Фокус

🎯 Динамика

🧰 Инструменты

📚 Обучение

💼 Бизнес

🌟 Сообщество

💡 Прочее

Связанные теги

Related Posts

AI Ежедневник — 2025-10-31(Утренний выпуск)

AI Ежедневник — 2025-10-30(Вечерний выпуск)

AI Ежедневник — 2025-10-30(Утренний выпуск)