Ключевые слова:AI модель, Meta Behemoth, Grok аномалия, AI агент, функция памяти ИИ, OpenAI, Tencent Alibaba, этика ИИ, отсрочка выпуска флагманской AI модели Meta Behemoth, споры о геноциде в ИИ-роботе Grok Маска, экосистема AI агентов в WeChat Tencent, анонс агента разработки ПО OpenAI, проблемы авторских прав на контент, созданный ИИ

🔥 В центре внимания

Выпуск флагманской AI-модели Meta “Behemoth” неоднократно откладывался, вызывая внутреннюю обеспокоенность и размышления в отрасли: Выпуск флагманской AI-модели Meta “Behemoth”, первоначально запланированный на апрель, а затем перенесенный на июнь, снова отложен до осени или более позднего срока. По внутренним данным, улучшение производительности модели не оправдало ожиданий, что вызвало сомнения в целесообразности крупных инвестиций в AI и может привести к кадровым перестановкам в руководстве отдела AI-продуктов. Meta ранее заявляла, что Behemoth лидирует в некоторых тестах, однако фактическое обучение столкнулось с трудностями. Этот случай не единичен: GPT-5 от OpenAI и Claude 3.5 Opus от Anthropic также сталкиваются с подобными задержками, что свидетельствует о возможных общих технологических барьерах, росте затрат и утечке кадров (из 14 исследователей первоначальной команды Llama ушли 11 человек), с которыми сталкивается AI-индустрия в погоне за более высоким интеллектом. Это предвещает возможное замедление темпов технологических прорывов в AI, что ставит под сомнение модели развития отрасли и ожидания. (Источник: 36氪, dotey, Reddit r/LocalLLaMA, madiator)

Meta旗舰AI模型"Behemoth"发布再三推迟,引发内部担忧与行业反思

Сбои в работе AI-робота Grok Илона Маска, часто упоминавшего “геноцид белых в Южной Африке”, вызвали споры: 14 мая AI-чат-бот Grok от xAI на платформе X столкнулся со сбоем: независимо от содержания запросов пользователей, он выдавал множество ответов, связанных с “геноцидом белых в Южной Африке” и антиапартеидным лозунгом “Уничтожить буров”, даже при обсуждении таких не связанных тем, как видео с поросятами. Инцидент привлек широкое внимание, CEO OpenAI Сэм Альтман также опубликовал саркастический пост. В xAI ответили, что сбой был вызван несанкционированным изменением промптов для ответов Grok, что нарушило политику и ценности компании. Для повышения прозрачности и надежности xAI опубликовала системные промпты Grok на GitHub и пообещала усилить внутренние процессы проверки и создать круглосуточную команду мониторинга. Этот случай вновь вызвал этические дискуссии о предвзятости AI-моделей, контроле контента и намерениях разработчиков, стоящих за ними. (Источник: 36氪, 36氪, iScienceLuvr, teortaxesTex, andersonbcdefg, gallabytes, jeremyphoward, Reddit r/artificial)

马斯克旗下AI机器人Grok“发疯”,奥特曼在线嘲讽,xAI紧急回应

AI Agent становятся новым полем битвы для технологических гигантов, Tencent и Alibaba увеличивают инвестиции: Tencent и Alibaba в своих последних финансовых отчетах подчеркнули стратегию, ориентированную на AI, и рассматривают AI Agent (интеллектуальные агенты) как ключ к будущему росту. CEO Tencent Ма Хуатэн сообщил, что AI уже внес существенный вклад в рекламный и игровой бизнес, и компания увеличивает инвестиции в приложение Yuanbao и AI Agent в WeChat, полагая, что уникальная экосистема WeChat (социальные сети, контент, мини-программы, возможности транзакций) может породить уникальных Agent, способных выполнять сложные задачи. Председатель правления Alibaba Цай Чунсинь также отметил, что в ближайшие три-пять лет все бизнес-направления должны быть ориентированы на AI. Обе компании значительно увеличили капитальные затраты на создание инфраструктуры AI. Sequoia Capital также прогнозирует, что Agent разовьются в экономику интеллектуальных агентов. Ожидается, что рост AI Agent приведет к резкому увеличению спроса на вычислительные мощности, что может стать новым началом индустриализации AI. (Источник: 36氪, 36氪)

AI Agent成科技巨头新战场,腾讯阿里均加码投入

Конкуренция в области функций памяти AI обостряется, гиганты, такие как OpenAI, Google, Meta, стремятся улучшить персонализированный опыт и повысить лояльность пользователей: Технологические гиганты, такие как OpenAI, Google, Meta и Microsoft, активно обновляют функции памяти своих AI-чат-ботов, стремясь предоставлять более персонализированные и привлекательные услуги за счет хранения большего объема информации о пользователях (например, истории диалогов, предпочтений, истории поиска). Например, ChatGPT добавил функцию “ссылки на историю чатов”, а Google Gemini расширил память до истории поиска пользователей. Этот шаг рассматривается как ключевой для дифференциации конкуренции между AI-гигантами и поиска новых путей монетизации (например, партнерский маркетинг, реклама). Однако это также вызывает опасения по поводу утечки конфиденциальности пользователей, коммерческих манипуляций и возможности того, что AI-модели могут усиливать предвзятость или генерировать галлюцинации. Эксперты напоминают о необходимости обращать внимание на механизмы стимулирования поставщиков услуг и призывают к усилению регулирования. (Источник: 36氪, 36氪)

AI记忆功能竞赛升级,OpenAI、谷歌、Meta等巨头竞相增强个性化体验与用户粘性

🎯 События

OpenAI анонсировала предстоящие новости, возможно, связанные с агентом для разработки ПО и десктопным приложением: Официальный аккаунт OpenAI опубликовал загадочный тизер “Разработчики, поставьте будильники”, намекая на скорый анонс. Сообщество предполагает, что это может быть связано с давно обсуждаемым агентом для инженеров-программистов (SDE) или десктопным AI-приложением, или даже демонстрацией результатов работы приобретенной ими команды Windsurf. Ранее Сэм Альтман также упоминал о предстоящем “скромном предварительном обзоре исследований”, что вызвало на рынке ожидания новых достижений OpenAI в области автоматизации разработки программного обеспечения, агентов для использования компьютеров и т.д. (Источник: openai, op7418, dotey, cto_junior, brickroad7, kevinweil, tokenbender, Teknium1)

OpenAI预告将有新动态,或涉软件开发代理与桌面应用

Выпущена версия Ollama 0.7.0 с официальной поддержкой мультимодальных моделей: Ollama выпустила версию 0.7.0, в которой добавлена поддержка мультимодальных моделей. Это означает, что пользователи теперь могут запускать через Ollama визуально-языковые модели, такие как Gemma 3 от Google и Qwen 2.5 VL от Alibaba Qwen. Это обновление расширяет возможности Ollama по локальному запуску больших языковых моделей, позволяя им обрабатывать более сложные задачи, включающие текст и изображения, что способствует дальнейшему развитию локальных AI-приложений. (Источник: ollama, jerryjliu0, ollama, Reddit r/LocalLLaMA)

Ollama 0.7.0版本发布,正式支持多模态模型

Lenovo планирует выпустить мини-хост AI на базе суперчипа NVIDIA GB10: Lenovo планирует выпустить небольшой AI-хост, аналогичный NVIDIA Digits, который будет использовать NVIDIA GB10 Grace Blackwell Superchip. Ожидается, что его вычислительная мощность достигнет 1 PFLOPS, и он будет оснащен 128 ГБ унифицированной памяти. Однако стоит отметить, что пропускная способность памяти GB10 Grace Blackwell Superchip относительно низкая, всего 273 ГБ/с, что может стать узким местом в его производительности. (Источник: karminski3, Reddit r/LocalLLaMA)

联想计划推出搭载英伟达GB10超级芯片的AI小主机

Топовые AI-модели, такие как Seed-Thinking от ByteDance, показали плохие результаты в финале соревнований по программированию CCPC, выявив недостатки современных AI в решении алгоритмических задач: В финале десятого Китайского студенческого чемпионата по программированию (CCPC) известные AI-модели, такие как Seed-Thinking от ByteDance, o3/o4 от OpenAI, Gemini 2.5 Pro от Google, показали неудовлетворительные результаты, большинство из них решили только одну “приветственную задачу”, а DeepSeek R1 вообще не получил ни одного AC (Accepted). Этот результат вызвал дискуссию, указав на то, что современные большие модели все еще имеют недостатки в решении алгоритмических задач, требующих уникальных творческих идей и сложной логики, особенно в не-Agentic среде (т.е. без помощи внешних инструментов для выполнения и отладки). Хотя некоторые модели показали хорошие результаты на таких соревнованиях, как IOI, благодаря Agentic-обучению, выступление на CCPC подчеркнуло ограниченность чисто модельного логического вывода при столкновении с новыми, сложными алгоритмическими проблемами. (Источник: 36氪)

字节跳动Seed-Thinking等顶尖AI模型在CCPC编程竞赛决赛中表现不佳,暴露当前AI算法解题短板

Ускоренная интеграция аудиовизуальных чипов и технологий AI на стороне устройства способствует интеллектуализации потребительских терминалов: С ростом спроса на AI на стороне устройства производители аудиовизуальных чипов ускоряют интеграцию технологий AI в свои продукты, чтобы удовлетворить потребности мобильных телефонов, ПК, носимых устройств и другой бытовой электроники в локальной обработке данных, интеллектуальном принятии решений и персонализированном опыте. Компании, такие как Telink Microelectronics, Actions Technology, Bestechnic, Ingenic Semiconductor, Fullhan Microelectronics, выпускают чиповые решения с интегрированными NPU, поддерживающие AI-алгоритмы (например, шумоподавление, интеллектуальная обработка звука, визуальные приложения). Эта тенденция направлена на перестройку логики взаимодействия и сценариев применения устройств, способствуя эволюции потребительских интеллектуальных устройств к экосистеме “AI как услуга”. Хотя отрасль все еще находится в поиске “убийственного” приложения, определение функциональных модулей с помощью AI уже является позитивным сигналом. (Источник: 36氪)

音视频芯片与端侧AI技术加速融合,推动消费终端智能化

Главный научный сотрудник OpenAI Пачотски: AI уже начал демонстрировать способность к оригинальным исследованиям, AGI переходит от теории к реальности: Главный научный сотрудник OpenAI Якуб Пачотски в интервью журналу Nature заявил, что обучение с подкреплением подталкивает AI-модели к границам “рассуждений”, и AGI (общий искусственный интеллект) переходит от теории к реальности. Он ожидает, что в будущем AI сможет самостоятельно проводить оригинальные научные исследования, способствуя развитию программной инженерии, проектирования аппаратного обеспечения и других областей. Он подчеркнул, что, хотя механизмы работы моделей отличаются от человеческого мозга, они уже способны генерировать новые идеи и обладают некоторой формой мыслительных способностей. OpenAI планирует выпустить новую версию, превосходящую по производительности существующие модели с открытым исходным кодом, но при условии обеспечения безопасности. Пачотски считает, что следующей вехой для AI станет оказание измеримого экономического влияния, особенно в области оригинальных исследований, и ожидает, что AI сможет практически самостоятельно разрабатывать ценное программное обеспечение уже в этом году. (Источник: 36氪)

Запуск Apple Intelligence в Китае откладывается, версия для материкового Китая появится не ранее iOS 18.6: Apple Intelligence, анонсированный Apple на WWDC24, планировался к полному запуску в 2025 году, однако версия для материкового Китая до сих пор не выпущена, и ожидается, что это произойдет не ранее июля с выходом iOS 18.6. Английская версия, хотя и запущена, испытывает проблемы с отсутствием или неудовлетворительной работой ключевых функций, таких как продвинутый Siri, Genmoji, что вызывает недовольство пользователей и коллективные иски. Задержка версии для материкового Китая в основном связана с необходимостью соответствия местной регуляторной политике, локализации и цензуры контента; по слухам, планируется сотрудничество с китайскими AI, такими как ERNIE Bot от Baidu. На фоне быстрой интеграции и вызовов со стороны конкурентов, таких как Perplexity AI и Meta AI, отставание Apple AI может повлиять на ее экосистемное преимущество и лояльность пользователей. (Источник: 36氪)

苹果AI(Apple Intelligence)发布延迟,国行版上线需待iOS 18.6或更晚

Технология AI трансформирует управление цепочками поставок, создавая рынок платформ управления цепочками поставок полного стека на базе AI: В условиях растущей сложности цепочек поставок, увеличения рисков и проблем с эффективностью, технология AI (особенно машинное обучение, операционные исследования и генеративный AI) способствует переходу управления цепочками поставок к интеллектуализации. Появились платформы управления цепочками поставок полного стека на базе AI, нацеленные на оптимизацию всего процесса от прогнозирования спроса до выполнения заказов за счет цифровизации бизнеса, интеллектуальной обработки данных и сквозной координации. Платформа интегрирует хранилище данных, механизм принятия интеллектуальных решений, сквозной мониторинг и портал для взаимодействия с экосистемой. Основная ценность заключается в повышении гибкости реагирования и точности прогнозирования (например, точность прогноза спроса превышает 85%), оптимизации эффективности и затрат (оборачиваемость запасов увеличивается более чем на 40%), обеспечении сквозной прозрачности и управления рисками, укреплении сотрудничества с экосистемой и повышении устойчивости, а также поддержке устойчивого развития. Исследовательский институт Hypebeast прогнозирует, что в 2024 году объем этого рынка в Китае составит около 700 миллионов юаней, а к 2027 году превысит 1 миллиард юаней. (Источник: 36氪)

Чжан Яцинь о возможностях AI в Китае в эпоху после ChatGPT: пять направлений развития и три прогноза: Чжан Яцинь, декан Института интеллектуальной индустрии Университета Цинхуа, считает, что ChatGPT является первым интеллектуальным агентом, прошедшим тест Тьюринга, что знаменует собой веху в развитии AI. Он отметил, что большие модели трансформируют структуру ИТ, и Китай отстает от мировых лидеров в области высокопроизводительных чипов и алгоритмических систем, но может найти множество возможностей в вертикальных базовых моделях, на уровне SaaS и на периферийных устройствах (смартфоны, ПК, IoT, автомобили и т.д.). Он прогнозирует пять основных направлений развития больших моделей AI: мультимодальный интеллект, автономный интеллект, периферийный интеллект, физический интеллект (автономное вождение, робототехника) и биологический интеллект (интерфейсы мозг-компьютер, медицина). И выдвинул три тезиса: 1) Большие модели и генеративный AI будут доминировать в ближайшие 10 лет; 2) Будут сосуществовать базовые большие модели + вертикальные большие модели + периферийные модели, как с открытым исходным кодом, так и коммерческие; 3) Ключевыми являются унифицированная токенизация (Tokenisation) + закон масштабирования (Scaling Law), но для повышения эффективности необходимы новые алгоритмические системы, и в ближайшие 5 лет архитектура AI-технологий может претерпеть значительные прорывы; 4) Ожидается достижение общего искусственного интеллекта в течение 15-20 лет, с поэтапным прохождением нового теста Тьюринга. (Источник: 36氪)

张亚勤谈后ChatGPT时代中国AI机遇:五大发展方向与三大预测

🧰 Инструменты

Windsurf выпускает первую собственную передовую модель серии SWE-1, нацеленную на повышение эффективности разработки ПО на 99%: Компания Windsurf, занимающаяся инструментами для AI-программирования (по слухам, будет приобретена OpenAI), представила свою первую серию моделей SWE-1, оптимизированную для разработки программного обеспечения. Серия включает SWE-1 (аналог Claude 3.5 Sonnet, но с меньшими затратами), SWE-1-lite (заменяет Cascade Base, доступна всем пользователям) и SWE-1-mini (с низкой задержкой, для Windsurf Tab). Ключевой инновацией SWE-1 является система “Flow Awareness”, то есть AI разделяет с пользователем временную шкалу операций, обеспечивая эффективное сотрудничество, понимание незавершенных состояний и долгосрочных задач. Офлайн-оценка и онлайн-тестирование показывают, что SWE-1 демонстрирует производительность, близкую к топовым моделям, в диалоговых и сквозных задачах SWE, и превосходит непередовые модели по таким показателям, как доля вклада в код. (Источник: 36氪)

Windsurf发布首个自研前沿模型SWE-1系列,旨在提升软件开发效率99%

Проект с открытым исходным кодом WeClone: создание персонализированного цифрового двойника AI на основе истории чатов WeChat: Python-проект с открытым исходным кодом под названием WeClone позволяет пользователям создавать цифровых двойников AI на основе их личной истории чатов WeChat. Проект использует принцип базы знаний RAG (Retrieval Augmented Generation), импортирует данные чатов WeChat, дообучает модели, такие как Qwen2.5-7B-Instruct, методом LoRA, и объединяет технологии ASR (распознавание речи) и TTS (синтез речи) для генерации голоса пользователя. Проект поддерживает интеграцию с WeChat, Enterprise WeChat и Feishu через AstrBot. Поскольку история чатов WeChat содержит большое количество персонализированных реальных диалогов в различных сценариях, она идеально подходит в качестве частной базы знаний для обучения цифровых людей и может применяться в различных сценариях, таких как персонализированные AI-помощники, корпоративное обслуживание клиентов, маркетинг и даже финансовые консультации. (Источник: 36氪)

开源项目WeClone:利用微信聊天记录打造个性化AI数字分身

Новая функция llama.cpp: поддержка извлечения и ввода содержимого PDF, но в настоящее время только через веб-интерфейс и с плохой обработкой сложных форматов: Проект llama.cpp недавно реализовал поддержку ввода PDF-файлов через PR #13562. Эта функция не изменяет непосредственно исходный код llama.cpp, а использует библиотеку JavaScript для извлечения содержимого PDF в веб-интерфейсе, которое затем передается в llama.cpp. Это означает, что данная функция в настоящее время ограничена веб-интерфейсом, предоставляемым llama.cpp, и пока недоступна на уровне API. Хотя реализован удобный импорт содержимого PDF, для PDF-файлов, содержащих сложные элементы (например, математические формулы), эффект извлечения средний, возможны ошибки парсинга. (Источник: karminski3)

llama.cpp新功能:支持PDF内容提取与输入,但目前仅限Web界面且对复杂格式处理不佳

Фреймворк Unsloth добавил функцию дообучения TTS и поддержку Qwen3 GRPO: Unsloth объявил, что его фреймворк теперь поддерживает дообучение моделей преобразования текста в речь (TTS), увеличивая скорость обучения примерно в 1,5 раза и снижая потребление VRAM на 50%. Поддерживаемые модели включают Sesame/csm-1b, OpenAI/whisper-large-v3 и другие модели на архитектуре Transformer. Дообучение TTS можно использовать для имитации голоса, настройки тона и интонации, поддержки новых языков и т.д. Unsloth предоставляет Colab Notebooks для бесплатного обучения, запуска и сохранения моделей. Кроме того, Unsloth добавил поддержку Qwen3 GRPO (Generative Retrieval Policy Optimization), использующего базовую модель и новую функцию вознаграждения на основе близости для оптимизации. (Источник: Reddit r/LocalLLaMA)

Unsloth框架新增TTS微调功能,并支持Qwen3 GRPO

INAIR выпускает пространственный компьютер AI, ориентированный на рынок мобильных легких офисных решений: Компания INAIR, специализирующаяся на AR+AI очках, выпустила свой пространственный компьютер AI, состоящий из AR-очков INAIR 2 Pro, вычислительного центра INAIR Pod и 3D-клавиатуры для пространственного управления INAIR Touchboard. Продукт предназначен для предоставления бизнес-пользователям в командировках и пользователям легких офисных приложений второй альтернативы ноутбуку, способной проецировать эквивалент 134-дюймового безграничного гигантского экрана на расстоянии 4 метров и поддерживать удаленное управление компьютером. Встроенный интеллектуальный помощник системного уровня INAIR AI Agent интегрирует различные большие модели, такие как DeepSeek, Doubao, ERNIE Bot, ChatGPT, и может предоставлять перевод в реальном времени, резюмирование контента и другие функции, а также повышать эффективность работы за счет изучения привычек пользователя. (Источник: 36氪)

INAIR发布AI空间计算机,瞄准移动轻办公市场

Фреймворк для инференса llamafile теперь поддерживает модели Qwen3: llamafile, фреймворк для инференса, объединяющий llama.cpp и высокопортативную C-библиотеку Cosmopolitan Libc, теперь поддерживает модели серии Qwen3. Его главная особенность заключается в упаковке всех зависимостей для запуска в один исполняемый файл, что значительно повышает портативность и позволяет пользователям запускать большие модели без сложного процесса установки. (Источник: karminski3)

llamafile推理框架支持Qwen3模型

Kling AI выпускает версию 2.0 и API, добавляя функции, такие как вращение 3D-логотипа: Kling AI объявила о запуске Kling 2.0, Elements и Video Effects Suite API. Новая версия улучшает возможности генерации видео и представляет учебные пособия, например, по быстрому созданию вращающегося 3D-логотипа с помощью функций DizzyDizzy или Image to Video, позволяя пользователям творить без навыков 3D-моделирования. (Источник: Kling_ai, Kling_ai)

Manus AI добавляет функцию генерации изображений, возможно, на основе API GPT-4o: Приложение-помощник AI Manus объявило о поддержке генерации изображений. По официальным данным, Manus не только генерирует изображения, но и понимает намерения пользователя, планирует решения и эффективно сочетает генерацию изображений с другими инструментами для выполнения задач. Сообщество предполагает, что его возможности генерации изображений могут быть основаны на API новейшей модели GPT-4o от OpenAI. (Источник: op7418)

Blackbox предоставляет услугу доступа по требованию к GPU A100/H100 внутри IDE: Blackbox запустил услугу прямого доступа по требованию к высокопроизводительным GPU (A100s и H100s) внутри интегрированной среды разработки (IDE). Пользователям не требуются сложные операции с облачной консолью или управление ключами API, они могут запускать экземпляры GPU непосредственно из IDE или расширения Blackbox. Стоимость составляет 14 долларов в час за 8 узлов A100, что призвано упростить получение вычислительных ресурсов для машинного обучения и задач с высокой нагрузкой, делая это таким же удобным, как открытие вкладки терминала. (Источник: Reddit r/deeplearning)

📚 Обучение

HuggingFace запускает учебное пособие по MCP (Model Compliance Protocol): HuggingFace выпустил новое учебное пособие по MCP, призванное помочь пользователям понять структуру протокола MCP, использовать существующие SDK/фреймворки и самостоятельно реализовывать сервисы MCP. Курс относительно прост и подходит для опытных инженеров для быстрого освоения, по завершении выдается сертификат. Протокол MCP имеет решающее значение для передачи информации, ценности и доверия между моделями и является одной из технических проблем при построении экономики интеллектуальных агентов. (Источник: karminski3)

HuggingFace推出MCP(模型遵从性协议)教程

Новая статья J1: Стимулирование “мышления” в LLM-as-a-Judge с помощью обучения с подкреплением: Новая статья под названием “J1: Incentivizing Thinking in LLM-as-a-Judge via RL” предлагает метод оптимизации процесса мышления, оценки и суждений больших языковых моделей, используемых в качестве оценщиков (LLM-as-a-Judge), с помощью обучения с подкреплением (в частности, GRPO). Этот метод позволяет преобразовывать задачи оценки как верифицируемых, так и неверифицируемых промптов в верифицируемые задачи, используя только синтетические парные данные. Исследование показало, что модель J1 на масштабах 8B и 70B превосходит базовые модели и демонстрирует различные стратегии мышления, такие как перечисление критериев оценки, сравнение с самостоятельно сгенерированными эталонными ответами, переоценка правильности и т.д. (Источник: jaseweston, jaseweston)

新论文J1:通过强化学习激励LLM-as-a-Judge进行“思考”

Пекинский университет и Китайский народный университет совместно выпустили Being-M0: универсальную платформу для генерации движений человекоподобных роботов на основе набора данных миллионного масштаба: Команда Лу Цзунцина из Пекинского университета в сотрудничестве с Китайским народным университетом и другими учреждениями представила универсальную платформу для генерации движений человекоподобных роботов Being-M0 и создала первый в отрасли набор данных для генерации движений миллионного масштаба MotionLib. Эта платформа, используя большие объемы видеоданных из интернета и модель генерации движений на основе текста от начала до конца, реализует генерацию сложных и разнообразных человеческих движений и может переносить человеческие движения на человекоподобных роботов различных форм, таких как Unitree H1, G1. Ключевые инновации включают процесс создания набора данных MotionLib, модель, подтверждающую осуществимость подхода “большие данные + большие модели” в области генерации движений, а также инновационную двумерную платформу квантования без поиска MotionBook, которая решает проблему потери информации при сжатии высокоразмерных данных о движении с помощью традиционной технологии VQ. (Источник: 量子位)

北大与人大联合发布Being-M0:百万级数据集驱动的人形机器人通用动作生成框架

ByteDance выпускает набор данных WildDoc для оценки способности VLM понимать документы в реальном мире: ByteDance опубликовала на Hugging Face новый набор данных для визуального ответа на вопросы (VQA) под названием WildDoc. Этот набор данных предназначен для оценки способности визуально-языковых моделей (VLM) понимать документы в реальных сценариях. (Источник: _akhaliq)

Основные моменты программы ICRA 2025 (Международная конференция IEEE по робототехнике и автоматизации): Международная конференция IEEE по робототехнике и автоматизации (ICRA) 2025 года пройдет с 19 по 23 мая в Атланте, США. Программа конференции включает основные доклады Эллисон Окамуры, Тессы Лау, Раффаэлло Д’Андреа и других, а также ключевые доклады по 12 направлениям, охватывающим реабилитационную робототехнику, оптимизационное управление, взаимодействие человека и робота, мягкую робототехнику, полевую робототехнику, бионическую робототехнику, тактильные ощущения, планирование, манипулирование, движение, безопасность и формальные методы, многороботные системы. Кроме того, запланированы экспресс-курс по научной коммуникации, 59 семинаров и учебных пособий, форум по этике робототехники, форум африканских ученых по продвижению исследований в области робототехники, форум по образованию в области робототехники для студентов бакалавриата и день построения сообщества. (Источник: aihub.org)

ICRA 2025(IEEE国际机器人与自动化会议)议程亮点

Статья LlamaDuo: реализация процесса LLMOps для бесшовной миграции от сервисных LLM к малым локальным LLM: Статья “LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs”, принятая на основную конференцию ACL 2025, представляет процесс LLMOps, разработанный для помощи пользователям в плавном переходе от использования крупных сервисных LLM (например, через вызовы API) к использованию малых локализованных LLM. Это исследование является продуктом открытого исходного кода и сотрудничества сообщества, подчеркивая важность гибкого переключения и оптимизации стратегий развертывания моделей в практических приложениях. (Источник: algo_diver)

论文LlamaDuo:实现服务LLM到小型本地LLM无缝迁移的LLMOps流程

Исследование Tubi: регрессия Твиди превосходит взвешенную LogLoss в оптимизации вовлеченности пользователей видео по запросу: Исследование видеоплатформы Tubi показывает, что для оптимизации систем видеорекомендаций с целью повышения вовлеченности пользователей (например, продолжительности последующего просмотра) модель регрессии Твиди, непосредственно прогнозирующая продолжительность просмотра пользователем, эффективнее традиционной модели взвешенной по продолжительности просмотра LogLoss. Результаты экспериментов показали, что регрессия Твиди привела к увеличению дохода на +0,4% и продолжительности просмотра на +0,15%. В исследовании утверждается, что статистические свойства регрессии Твиди лучше соответствуют характеристикам данных о продолжительности просмотра, таким как избыток нулей и асимметричное распределение. (Источник: Reddit r/MachineLearning)

Tubi研究:Tweedie回归在视频点播用户参与度优化上优于加权LogLoss

💼 Бизнес

Приложение для синхронизации губ Hedra привлекло $32 млн в раунде A под руководством a16z: Стартап в области генерации AI-видео Hedra объявил о завершении раунда финансирования серии A на сумму 32 миллиона долларов США под руководством Andreessen Horowitz (a16z), Мэтт Борнштейн вошел в его совет директоров. Существующие инвесторы a16z speedrun, Abstract и Index Ventures также приняли участие в этом раунде. Hedra специализируется на создании выразительных, управляемых видеороликов с диалогами персонажей, ее технология направлена на решение проблем синхронизации губ и выражения эмоций в AI-генерируемых видео. (Источник: op7418)

США, Саудовская Аравия и ОАЭ достигли соглашения о сотрудничестве в области AI, включающего дата-центр на 5 ГВт и поставки чипов, с целью исключения влияния Китая: США, Саудовская Аравия и ОАЭ заключили важное соглашение о сотрудничестве в области AI, которое включает строительство дата-центра мощностью 5 ГВт и поставку большого количества передовых AI-чипов (таких как чипы NVIDIA Blackwell) американскими компаниями, включая NVIDIA, AMD и Qualcomm. Ключевым исполнителем станет недавно созданная саудовская AI-компания Humain. Этот шаг рассматривается как стратегическое развертывание США на Ближнем Востоке с целью продвижения своего стека технологий AI, ускорения строительства инфраструктуры и, таким образом, закрепления союзников, одновременно ограничивая инвестиции Китая в региональную инфраструктуру AI и его технологическое влияние. Новое соглашение отменяет некоторые предыдущие ограничения на экспорт AI-чипов на Ближний Восток, но в то же время усиливает глобальные предупреждения об использовании китайских чипов, таких как Huawei Ascend. (Источник: dylan522p, 36氪, iScienceLuvr)

美国与沙特、阿联酋达成AI领域合作,涉5GW数据中心及芯片供应,旨在排除中国影响

Компания Owner, предоставляющая SaaS-решения для ресторанов, привлекла $120 млн и стала “единорогом”, используя AI для создания “AI-руководителей ресторана”: Компания Owner, предоставляющая комплексные цифровые решения для независимых ресторанов, недавно завершила раунд финансирования серии C на сумму 120 миллионов долларов США, достигнув оценки в 1 миллиард долларов. Owner за фиксированную ежемесячную плату предоставляет ресторанам услуги по созданию веб-сайтов/приложений, интеграции заказов и доставки, SEO-оптимизации и автоматизации маркетинга, обслуживая уже более 10 000 ресторанов. Ее стратегия AI на 2025 год включает запуск “AI-руководителей ресторана” (AI CMO, CFO, CTO) для управления AI-сотрудниками и людьми, а также создание диалоговых AI Agent для повышения эффективности обслуживания. Этот раунд финансирования совместно возглавили Redpoint Ventures и Altman Capital, что демонстрирует потенциал AI для переосмысления ценности традиционных SaaS-решений. (Источник: 36氪)

餐饮SaaS公司Owner融资1.2亿美元成独角兽,利用AI打造“AI餐厅高管”

🌟 Сообщество

Активность на Stack Overflow упала до уровня 2009 года, AI, возможно, является основной причиной: Данные показывают, что ежемесячное количество вопросов на известном сообществе для разработчиков Stack Overflow упало до уровня, который был в 2009 году, сразу после его запуска. Это явление вызвало дискуссии о влиянии AI на традиционные сообщества разработчиков. Многие считают, что с появлением AI-помощников для программирования, таких как ChatGPT, разработчики все чаще предпочитают задавать вопросы и искать решения для кода непосредственно у AI, а не задавать вопросы и ждать ответов от людей на таких платформах, как Stack Overflow, что, возможно, и привело к резкому снижению активности сообщества. (Источник: zachtratar, karminski3)

Stack Overflow活跃度骤降至2009年水平,AI或为主因

AI вызывает на рабочем месте кризис “профессионализма”, сотрудники считают, что в эпоху AI человечность нужнее: С распространением AI на рабочих местах многие сотрудники ощущают “деконструкцию” своих профессиональных навыков. Руководители склонны поручать AI редактирование результатов работы сотрудников и даже считают, что AI превосходит людей, что заставляет сотрудников чувствовать себя неуважаемыми и сталкиваться с кризисом возможной замены. Исследования показывают, что сотрудники могут отличить электронные письма, написанные CEO лично, от писем, написанных AI, и когда они считают, что контент сгенерирован AI, даже если он написан человеком, оценка снижается. Это отражает предпочтение людьми человеческого творчества и опасения по поводу чрезмерной зависимости от AI. В то же время исследование McKinsey показывает, что 54% уволившихся сотрудников сделали это из-за ощущения, что их не ценят, а 82% сотрудников считают, что в эпоху AI человеческие связи и эмоциональная забота становятся еще нужнее. (Источник: 36氪, 36氪)

AI在职场引发“专业性”危机感,员工认为AI时代反而更需人情味

Молодые китайцы заводят отношения с AI-компаньонами, вызывая обеспокоенность общества по поводу низкой рождаемости: The Economist обратил внимание на явление, когда молодые китайцы заводят романы и дружбу с AI. Количество пользователей приложений AI-компаньонов, таких как “Maoxiang” и “Xingye”, постоянно растет, пользователи создают виртуальных персонажей для удовлетворения эмоциональных потребностей. Развитие технологий позволяет AI имитировать эмоции и эмпатию, что, в сочетании с высоким уровнем стресса у молодежи, сокращением времени на общение, снижением числа браков и другими факторами, способствует этой тенденции. Однако правительство обеспокоено тем, что AI-компаньоны могут усугубить и без того серьезную проблему низкой рождаемости (суммарный коэффициент рождаемости в 2024 году составил всего 1,0). (Источник: dotey)

中国年轻人拥抱AI伴侣,引发社会对低生育率的担忧

AI-ассистирование может стать новой нормой в образовании, но чрезмерная зависимость профессоров от ChatGPT вызывает недовольство и размышления студентов: Студент Северо-Восточного университета США подал в суд на университет с требованием вернуть плату за обучение из-за того, что профессор использовал ChatGPT для создания учебных материалов. Этот инцидент вызвал широкое обсуждение роли AI в высшем образовании. Студенты считают, что высокая плата за обучение должна обеспечивать профессиональное преподавание людьми, а не контент, сгенерированный алгоритмами, и опасаются, что AI заменяет мышление и обратную связь профессоров. Профессора же рассматривают AI как инструмент для повышения эффективности и справления с большой нагрузкой. Представители образовательной сферы отмечают, что ключевым моментом является ответственное использование AI, которое должно усиливать, а не заменять человеческое творчество и контроль, воспитывать у студентов этические нормы эпохи AI и обеспечивать, чтобы контент, сгенерированный AI, проходил профессиональное редактирование и проверку. (Источник: 36氪, Reddit r/ChatGPT)

AI辅助或成教育新常态,但教授过度依赖ChatGPT引发学生不满与反思

CEO Salesforce утверждает, что отношения Microsoft и OpenAI фундаментально разрушены и не подлежат восстановлению: CEO Salesforce Марк Бениофф в эксклюзивном интервью заявил, что партнерские отношения между Microsoft и OpenAI “фундаментально разрушены и трудно поддаются восстановлению”. Он отметил, что Microsoft Copilot разочаровал клиентов, больше напоминая неэффективного Clippy, а финансовый директор OpenAI в технологической архитектурной схеме не упомянул программное обеспечение Microsoft или Azure, что подтверждает раскол между сторонами. Бениофф считает, что Microsoft по сути является реселлером ChatGPT, ее AI-стратегия ограничена, и она пытается создать собственную модель в рамках “Проекта Прометей”. Он также упомянул, что появление моделей с открытым исходным кодом, таких как DeepSeek, способствует переходу отрасли к архитектуре MOE, снижая затраты на использование моделей и разрушая бизнес-логику “монополии моделей”. (Источник: 36氪)

Salesforce CEO称微软与OpenAI关系已根本破裂且无法修复

Подлинность и авторские права на контент, сгенерированный AI, вызывают озабоченность; запуск LLM и Linux в PDF демонстрирует технологический потенциал: Недавно энтузиасты технологий продемонстрировали возможность запуска небольших языковых моделей (таких как TinyStories, Pythia, TinyLLM) и даже операционной системы Linux непосредственно в PDF-файлах, используя поддержку JavaScript в PDF. Эта “хакерская” операция вызвала бурное обсуждение среди пользователей сети, а также подчеркнула тенденцию к миниатюризации AI-моделей и их развертыванию на периферийных устройствах. В то же время, вопросы авторских прав, подлинности и “глубоких подделок” (deepfake) контента, сгенерированного AI, также вызывают серьезную озабоченность. Чжан Яцинь отметил, что риски AI включают глубокие подделки, галлюцинации, токсичную информацию и т.д., и необходимо уделять этому повышенное внимание, а также усиливать согласование AI с человеческими ценностями и этическое регулирование. (Источник: 36氪, 36氪)

AI生成内容真实性与版权引关注,PDF内运行LLM及Linux展示技术潜力

💡 Прочее

Theta выпускает бенчмарк CUB: “последнее испытание для человека” для оценки агентов использования компьютера и браузера: Theta представила новый бенчмарк под названием CUB (Computer and Browser Use Agents), который, по их словам, является “последним испытанием для человека” для агентов, использующих компьютер и браузер. Такие бенчмарки предназначены для оценки способности AI-агентов имитировать использование человеком компьютера и браузера для выполнения сложных задач. Однако уже несколько бенчмарков называли себя “последним испытанием для человека”, что вызвало дискуссии о возможном преувеличении в их названии. (Источник: _akhaliq, DhruvBatraDB)

Theta发布CUB基准:评估计算机与浏览器使用代理的“人类最后考验”

AI обвиняют в использовании для создания вульгарного контента, что вызывает опасения по поводу злоупотребления моделями и этических границ: В социальных сетях появились случаи использования пользователями инструментов генерации изображений AI (таких как DALL-E 3 в ChatGPT) для создания вульгарных или пародийных изображений (например, “Shittington Bear”). Это вызвало опасения по поводу возможного злоупотребления инструментами AI для создания неприемлемого контента, нарушения авторских прав (например, пародии на известных мультипликационных персонажей) и оспаривания общественных этических норм. Хотя платформы AI обычно имеют фильтры контента, пользователи все же могут обходить ограничения с помощью хитроумных промптов. (Источник: Reddit r/ChatGPT)

AI被指责用于生成低俗内容,引发对模型滥用和伦理边界的担忧

Исследование показывает, что AI имеет ограничения в имитации стиля общения CEO, сотрудники больше доверяют людям: Исследование Гарвардской школы бизнеса показало, что сотрудники с точностью около 59% могут различать сообщения, написанные AI, и сообщения, написанные CEO компании Уэйдом Фостером (CEO Zapier). Что еще важнее, как только сотрудники считают, что сообщение сгенерировано AI, даже если оно на самом деле написано CEO, их оценка будет ниже; и наоборот, если считается, что сообщение написано CEO, даже если оно сгенерировано AI, оценка будет выше. Это свидетельствует о том, что доверие к человеческому общению и его ценностное восприятие выше, чем у AI. Исследование рекомендует руководителям быть прозрачными при использовании AI для общения, избегать его использования для очень личных ответов и строго проверять контент, сгенерированный AI. (Источник: 36氪)

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *