Ключевые слова:OpenAI, Аппаратное обеспечение ИИ, Gemini Robotics, Anthropic, Модели ИИ, Безопасность ИИ, Коммерческое применение ИИ, Судебный иск OpenAI о нарушении прав на аппаратное обеспечение ИИ, Gemini Robotics On-Device, Добросовестное использование авторских прав Anthropic, Данные для обучения моделей ИИ, Технологии бэкдоров в безопасности ИИ
🔥 В центре внимания
OpenAI обвиняется в краже технологий и товарных знаков, дебют первого ИИ-устройства оказался неудачным: Компания iyO подала в суд на OpenAI и приобретенную ею компанию по производству оборудования io (основанную бывшим дизайнером Apple Jony Ive), обвинив ее в нарушении прав на товарный знак и краже технологий при разработке ИИ-оборудования. iyO утверждает, что в ходе переговоров о сотрудничестве и тестирования технологий OpenAI получила доступ к ее основным технологиям, таким как биосенсорные алгоритмы и алгоритмы шумоподавления для специализированных наушников, и использовала их при разработке ИИ-устройств io. OpenAI отрицает нарушение, заявляя, что ее первое аппаратное устройство не является внутриканальным и отличается по позиционированию от продуктов iyO. Судебные документы показывают, что OpenAI тестировала технологии iyO и отклонила ее предложение о покупке за 200 миллионов долларов. В настоящее время суд обязал OpenAI удалить соответствующие рекламные видеоролики. Этот инцидент бросает тень на планы OpenAI в области аппаратного обеспечения, а также подчеркивает ожесточенную конкуренцию и потенциальные юридические риски в сфере ИИ-оборудования (Источник: 36氪 & 36氪)

Google выпускает локальную модель для роботов VLA Gemini Robotics On-Device, способствуя “андроидизации” роботов: Google представила Gemini Robotics On-Device, свою первую модель типа “зрение-язык-действие” (VLA), которая может работать непосредственно на роботе. Модель основана на Gemini 2.0 и оптимизирована по требованиям к вычислительным ресурсам, что позволяет роботам быстрее адаптироваться к новым задачам и средам без постоянного подключения к сети, например, выполнять сложные операции, такие как складывание одежды или открывание пакетов. В сочетании с выпущенным Gemini Robotics SDK разработчики могут быстро дообучить модель с помощью 50-100 демонстраций, обучая роботов новым навыкам и тестируя их в симуляторе MuJoCo. Этот шаг рассматривается отраслью как ключевой для продвижения роботов к “моменту Android”, что потенциально позволит OEM-производителям сосредоточиться на аппаратном обеспечении, в то время как Google будет предоставлять универсальный “мозг” (Источник: 36氪 & 36氪 & GoogleDeepMind)

Использование Anthropic книг, защищенных авторским правом, для обучения модели признано “добросовестным использованием”: Федеральный судья США постановил, что использование компанией Anthropic книг, защищенных авторским правом, для обучения ее ИИ-модели Claude является “добросовестным использованием” и, следовательно, законным. Судья сравнил процесс обучения ИИ-модели с тем, как люди читают, запоминают и заимствуют содержание книг для творчества, посчитав, что платить за каждое использование “немыслимо”. Однако вопрос о том, получила ли Anthropic часть обучающих данных “пиратским” путем, будет дополнительно рассматриваться судом, и возможно будет вынесено решение о компенсации. Это решение имеет большое значение для индустрии ИИ и может предоставить другим ИИ-компаниям юридическое основание для использования материалов, защищенных авторским правом, при обучении моделей, но также вызвало дальнейшие дискуссии о защите авторских прав и способах получения обучающих данных для ИИ (Источник: Reddit r/ClaudeAI & xanderatallah & giffmana)

OpenAI тайно разрабатывает офисный пакет, бросая вызов Microsoft и Google: По сообщению The Information, OpenAI планирует интегрировать в ChatGPT функции совместной работы с документами и обмена мгновенными сообщениями, напрямую конкурируя с Microsoft Office и Google Workspace. Этот шаг направлен на превращение ChatGPT в “суперинтеллектуального личного помощника” и дальнейшее расширение его применения на корпоративном рынке. OpenAI уже продемонстрировала соответствующие дизайнерские решения и, возможно, разработает сопутствующие функции, такие как хранение файлов. Это, несомненно, усилит конкуренцию между OpenAI и ее основным инвестором Microsoft, особенно в области корпоративных ИИ-помощников, где Microsoft Copilot уже сталкивается с сильной конкуренцией со стороны ChatGPT. Этот шаг OpenAI также может еще больше подорвать долю рынка Google в офисном и поисковом сегментах (Источник: 36氪 & 36氪 & steph_palazzolo)

🎯 Динамика
Microsoft выпускает малую языковую модель Mu для устройств, обеспечивая агентизацию настроек Windows: Microsoft представила малую языковую модель Mu объемом 330M, специально оптимизированную для устройств, с целью улучшения интерактивного опыта в интерфейсе настроек Windows 11. Пользователи могут с помощью запросов на естественном языке (например, “мой курсор мыши слишком маленький”) напрямую вызывать соответствующие функции настроек, а Mu сможет сопоставить их с конкретными действиями и автоматически выполнить. Модель основана на архитектуре Transformer, оптимизирована для эффективной работы на NPU, поддерживает локальное выполнение, скорость отклика превышает 100 токенов в секунду, а производительность близка к модели Phi, но ее размер составляет всего одну десятую. Эта функция в настоящее время поддерживается в предварительной версии Windows 11 для Copilot+ PC и в будущем будет распространена на большее количество устройств (Источник: 36氪)

UC Berkeley и другие представляют фреймворк LeVERB, позволяющий человекоподобным роботам осуществлять управление движениями всего тела в режиме zero-shot: Исследовательская группа из UC Berkeley, CMU и других учреждений выпустила фреймворк LeVERB, который позволяет человекоподобным роботам (таким как Unitree G1) на основе данных симуляции осуществлять развертывание в режиме zero-shot, воспринимать новую среду с помощью зрения, понимать языковые команды и непосредственно выполнять движения всего тела, такие как “сесть”, “перешагнуть через ящик”, “постучать в дверь” и т.д. Фреймворк использует иерархическую двухсистемную структуру (высокоуровневое понимание визуального языка LeVERB-VL и низкоуровневый эксперт по движениям всего тела LeVERB-A) с “латентным словарем действий” в качестве интерфейса, устраняя разрыв между пониманием визуальной семантики и физическим движением. Сопутствующий LeVERB-Bench является первым эталоном визуально-языкового замкнутого цикла “от симуляции к реальности” для управления всем телом человекоподобных роботов. Эксперименты показали, что в простых задачах визуальной навигации успешность в режиме zero-shot достигает 80%, а общая успешность выполнения задач составляет 58,5%, что значительно превосходит традиционные решения VLA (Источник: 36氪)

Обновление модели Kimi VL A3B Thinking от Moonshot AI, поддержка более высокого разрешения и обработки видео: Moonshot AI (Kimi) обновила свою модель Kimi VL A3B Thinking, которая является малой визуально-языковой моделью (VLM) уровня SOTA, распространяемой по лицензии MIT. Новая версия оптимизирована по нескольким аспектам: длина размышлений сокращена на 20% (уменьшено потребление входных токенов), добавлена поддержка обработки видео с достижением SOTA-результата 65.2 на VideoMMMU, а также поддержка 4-кратного увеличения разрешения (1792×1792), что улучшило производительность в задачах OS-agent (например, ScreenSpot-Pro достиг 52.8). Модель также показала значительные улучшения на бенчмарках MathVista, MMMU-Pro и других, сохранив при этом отличные общие возможности визуального понимания, хорошо справляясь с визуальным выводом, позиционированием UI Agent, а также обработкой видео и PDF (Источник: huggingface)

ИИ-модель DAMO GRAPE от DAMO Academy совершила прорыв в распознавании рака желудка на ранней стадии по данным КТ без контрастирования: ИИ-модель DAMO GRAPE, разработанная совместно Онкологической больницей провинции Чжэцзян и Alibaba DAMO Academy, впервые в мире позволила распознавать рак желудка на ранней стадии с использованием обычных КТ-изображений (КТ без контрастирования). Результаты исследования, опубликованные в журнале Nature Medicine, основаны на анализе крупномасштабных клинических данных почти 100 000 человек и доказывают, что чувствительность и специфичность модели достигают 85,1% и 96,8% соответственно, что значительно превосходит показатели врачей. Эта технология может помочь врачам обнаруживать ранние очаги заболевания за несколько месяцев до появления у пациентов явных симптомов, что значительно повышает выявляемость рака желудка, особенно у бессимптомных пациентов. В настоящее время модель внедрена в провинциях Чжэцзян, Аньхой и других, и ожидается, что она изменит модель скрининга рака желудка, снизит затраты и повысит его доступность (Источник: 36氪)

Goldman Sachs повсеместно внедряет ИИ-помощника “GS AI Assistant” для всех сотрудников по всему миру: Goldman Sachs объявил о внедрении своего собственного ИИ-помощника “GS AI Assistant” для всех 46 500 сотрудников по всему миру. Он будет использоваться для обработки повседневных задач, таких как резюмирование документов, анализ данных, написание контента и многоязычный перевод. Этот шаг направлен на повышение операционной эффективности, позволяя сотрудникам сосредоточиться на стратегической и творческой работе, а не на замене должностей. Этот помощник является частью платформы GS AI от Goldman Sachs, которая также включает такие инструменты, как Banker Copilot, охватывающие различные бизнес-модули, включая инвестиционный банкинг и исследования. Предварительные данные показывают, что ИИ-инструменты повышают эффективность выполнения задач в среднем более чем на 20%. Goldman Sachs подчеркивает, что ИИ является “моделью мультипликатора”, расширяющей возможности за счет сотрудничества человека и машины, и усиливает соблюдение нормативных требований и управление при развертывании ИИ (Источник: 36氪)
Модели генерации изображений Google Imagen 4 и Imagen 4 Ultra доступны в AI Studio и Gemini API: Google объявила, что ее новейшие модели генерации изображений Imagen 4 и Imagen 4 Ultra теперь доступны в Google AI Studio и Gemini API. Пользователи могут бесплатно опробовать эти модели в AI Studio и получить к ним доступ через API в режиме платного предварительного просмотра. Это знаменует дальнейшее усиление мультимодальных возможностей ИИ Google, предоставляя разработчикам и создателям более мощные инструменты для генерации изображений (Источник: 36氪 & op7418 & osanseviero)

Тенденции рынка ИИ-смартфонов меняются: от увлечения собственными большими моделями к использованию сторонних решений и инновациям в практических функциях: Во второй половине 2024 года фокус конкуренции производителей смартфонов в области ИИ сместился с сопоставления параметров и вычислительной мощности собственных больших моделей на подключение к зрелым сторонним моделям с открытым исходным кодом, таким как DeepSeek, и сосредоточение на решении практических ИИ-функций для часто используемых пользовательских сценариев. Например, функция “волшебного вырезания” в vivo s30, “произвольная дверь” в Honor, ИИ-резюмирование звонков в OPPO – все они нацелены на решение конкретных проблем пользователей. В то же время производители создают барьеры для опыта за счет сочетания программного и аппаратного обеспечения (например, экосистема Huawei HarmonyOS, отслеживание взгляда Honor). “ИИ + изображение” становится ключевым фактором для прорыва. Серия Huawei Pura 80 значительно снижает порог входа в профессиональную фотографию за счет таких функций, как ИИ-помощь в композиции и персонализированные цветовые карты. Это означает, что ИИ-смартфоны переходят от демонстрации технологий к большему вниманию к реальному пользовательскому опыту и созданию ценности (Источник: 36氪)

Snowflake AI Research выпускает технологию Arctic Long Sequence Training (ALST): Stas Bekman объявил о результатах своего первого проекта в Snowflake AI Research — Arctic Long Sequence Training (ALST). ALST — это модульная технология с открытым исходным кодом, способная обучать последовательности длиной до 15 миллионов токенов на 4 узлах H100, полностью используя Hugging Face Transformers и DeepSpeed, без необходимости в пользовательском коде модели. Технология призвана сделать обучение на длинных последовательностях быстрым, эффективным и легко реализуемым на узлах GPU и даже на отдельных GPU. Соответствующая статья опубликована на arXiv, а в блоге представлена информация о выводе LLM Ulysses с низкой задержкой (Источник: StasBekman & cognitivecompai)

Университет Цинхуа представляет LongWriter-Zero: модель генерации длинных текстов, обученную исключительно с помощью RL: Лаборатория KEG Университета Цинхуа выпустила LongWriter-Zero, языковую модель с 32B параметрами, обученную полностью с помощью обучения с подкреплением (RL), способную обрабатывать связные текстовые фрагменты длиной более 10 000 токенов. Модель построена на базе Qwen2.5-32B-base и использует стратегию GRPO (Generalized Reinforcement Learning with Policy Optimization) с несколькими вознаграждениями, оптимизированную по длине, плавности, структуре и отсутствию избыточности, а также принудительное форматирование с помощью Format RM. Соответствующие модели, наборы данных и статья открыты на Hugging Face (Источник: _akhaliq)
Google выпускает визуально-языковую модель MedGemma для медицинской сферы: Google представила MedGemma, мощную визуально-языковую модель (VLM), специально разработанную для сферы здравоохранения и построенную на архитектуре Gemma 3. LearnOpenCV подробно проанализировал ее, рассмотрев основные технологии, практические примеры применения, реализацию кода и показатели производительности. MedGemma призвана способствовать развитию клинических ИИ-инструментов и продемонстрировать потенциал VLM в преобразовании отрасли здравоохранения (Источник: LearnOpenCV)
Google DeepMind выпускает модель встраивания видео VideoPrism: Google DeepMind представила VideoPrism, модель для генерации встраиваний видео. Эти встраивания могут использоваться для таких задач, как классификация видео, поиск видео и локализация контента. Модель обладает хорошей адаптируемостью и может быть настроена для конкретных задач. Модель, статья и репозиторий GitHub открыты (Источник: osanseviero & mervenoyann)
Prime Intellect выпускает набор данных SYNTHETIC-2 и проект генерации данных планетарного масштаба: Prime Intellect представила свой набор данных для открытого вывода следующего поколения SYNTHETIC-2 и запустила проект генерации синтетических данных планетарного масштаба. Проект использует ее P2P-стек вывода и модель DeepSeek-R1-0528 для проверки траекторий для самых сложных задач обучения с подкреплением, стремясь внести вклад в развитие AGI посредством открытых, не требующих разрешений вычислений (Источник: huggingface & tokenbender)
LLM можно программировать с помощью обратного распространения ошибки, они могут выступать в роли интерпретаторов нечетких программ и баз данных: Новая препринт-статья указывает, что большие языковые модели (LLM) можно программировать с помощью обратного распространения ошибки (backprop), что позволяет им выступать в роли интерпретаторов нечетких программ и баз данных. После “программирования” путем предсказания следующего токена эти модели могут во время тестирования извлекать, оценивать и даже комбинировать программы, не видя примеров ввода/вывода. Это раскрывает новый потенциал LLM в понимании и выполнении программ (Источник: _rockt)

ArcInstitute выпускает модель состояния с 600 миллионами параметров SE-600M: ArcInstitute выпустила модель состояния с 600 миллионами параметров под названием SE-600M и опубликовала свою препринт-статью, страницу модели на Hugging Face и репозиторий кода на GitHub. Модель предназначена для исследования и понимания представления и преобразования состояний в сложных системах, предоставляя новые инструменты и ресурсы для исследований в смежных областях (Источник: huggingface)
Новое исследование раскрывает, как языковые модели отслеживают психические состояния персонажей в историях (Theory of Mind): Новое исследование, проведенное путем обратной инженерии модели Llama-3-70B-Instruct, изучает, как она отслеживает психические состояния персонажей в простых задачах отслеживания убеждений. Исследование с удивлением обнаружило, что модель в значительной степени полагается на концепцию, аналогичную указателям в языке C, для выполнения этой функции. Эта работа открывает новые перспективы для понимания внутренних механизмов больших языковых моделей при обработке задач, связанных с “теорией разума” (Источник: menhguin)

SynthLabs предлагает метод ALP, который обучает неявный оценщик сложности с помощью RL для оптимизации распределения токенов моделью: Новый метод ALP (Adaptive Learning Policy) от SynthLabs отслеживает коэффициент решения во время развертывания обучения с подкреплением (RL) и применяет обратное наказание за сложность во время обучения RL. Это позволяет модели изучить неявный оценщик сложности, что дает ей возможность выделять на сложные задачи в 5 раз больше токенов, чем на простые, при этом общее использование токенов сокращается на 50%. Метод направлен на повышение эффективности модели при решении задач различной сложности и интеллектуальности распределения ресурсов (Источник: lcastricato)

Новое исследование: количественная оценка разнообразия генерации LLM и влияния выравнивания с помощью коэффициента ветвления (BF): Новое исследование вводит коэффициент ветвления (Branching Factor, BF) как метрику, не зависящую от токенов, для количественной оценки концентрации вероятности в распределении выходных данных LLM, тем самым оценивая разнообразие генерируемого контента. Исследование показало, что BF обычно уменьшается в процессе генерации, а корректировка выравнивания значительно снижает BF (почти на порядок), что объясняет, почему выровненные модели нечувствительны к стратегиям декодирования. Кроме того, CoT стабилизирует генерацию, смещая вывод на более поздние этапы с низким BF. Исследование предполагает, что корректировка выравнивания направляет модель к уже существующим в базовой модели траекториям с низкой энтропией (Источник: arankomatsuzaki)
Новый фреймворк Weaver объединяет несколько слабых валидаторов для повышения точности выбора ответов LLM: Для решения проблемы, когда LLM могут генерировать правильные ответы, но испытывают трудности с выбором лучшего, исследователи представили фреймворк Weaver. Этот фреймворк создает более сильный сигнал валидации путем объединения выходных данных нескольких слабых валидаторов (таких как модели вознаграждения и LM-судьи). Используя методы слабого обучения для оценки точности каждого валидатора, Weaver способен объединить их выходные данные в единую оценку, которая более точно отражает качество истинного ответа. Эксперименты показывают, что при использовании менее затратных моделей без логического вывода, таких как Llama 3.3 70B Instruct, Weaver может достичь точности уровня o3-mini (Источник: realDanFu & simran_s_arora & teortaxesTex & charles_irl & togethercompute)

Странность исследований в области ИИ: большие вычислительные затраты в обмен на краткие и глубокие прозрения: Jason Wei отмечает особенность исследований в области ИИ: исследователям приходится вкладывать огромные вычислительные ресурсы в эксперименты, чтобы в конечном итоге, возможно, усвоить лишь несколько простых фраз, обобщающих ключевую идею, например, “модель, обученная на A, при добавлении B сможет обобщать”, “X — хороший способ разработки вознаграждения” и т. д. Однако, как только эти ключевые идеи (которых может быть всего несколько) действительно найдены и глубоко поняты, исследователь может значительно опередить других в данной области. Это раскрывает, что ценность прозрения в исследованиях ИИ намного превосходит простое наращивание вычислений (Источник: _jasonwei)
Способы получения данных для обучения ИИ-моделей привлекают внимание: Anthropic, по сообщениям, покупала физические книги и сканировала их для обучения Claude: Сообщается, что компания Anthropic приобрела миллионы физических книг для цифрового сканирования с целью обучения своей ИИ-модели Claude. Этот шаг вызвал широкие дискуссии об источниках данных для обучения ИИ, авторском праве и границах “добросовестного использования”. Хотя некоторые считают, что это способствует распространению знаний и развитию ИИ, это также вызвало опасения относительно прав владельцев авторских прав и судьбы физической формы книг. Этот инцидент также косвенно отражает важность высококачественных обучающих данных для разработки ИИ-моделей, а также проблемы, с которыми сталкиваются ИИ-компании при получении данных, и стратегии, которые они применяют (Источник: Reddit r/ChatGPT & Dorialexander & jxmnop & nptacek & giffmana & imjaredz & teortaxesTex & cloneofsimo & menhguin & vikhyatk & nearcyan & kylebrussell)

Теория “зимы”: скорость масштабирования ИИ замедляется, новый уровень прорыва может наступить через несколько лет: Исследователь в области машинного обучения Nathan Lambert отмечает, что в 2025 году рост масштаба параметров моделей, выпускаемых основными ИИ-лабораториями, остановился. Например, цены на API Claude 4 и Claude 3.5 одинаковы, а OpenAI выпустила только исследовательскую предварительную версию GPT-4.5. Он считает, что повышение возможностей моделей больше зависит от расширения во время вывода, а не от простого увеличения модели, и в отрасли уже сформировались стандарты для микро/малых/стандартных/больших моделей. Расширение до нового уровня масштаба может занять несколько лет или даже зависеть от процесса коммерциализации ИИ. Масштабирование как фактор дифференциации продукта в 2024 году уже неактуально, но сама наука предварительного обучения по-прежнему важна, примером чему служит прогресс Gemini 2.5 (Источник: 36氪)

Новая статья по безопасности ИИ “Winter Soldier”: бэкдор для языковых моделей без обучения, обнаружение кражи данных: Новая статья по безопасности ИИ под названием “Winter Soldier” предлагает метод внедрения бэкдора в языковую модель (LM) без специального обучения для этого. Эта технология также может использоваться для обнаружения того, использовала ли “черный ящик” LM защищенные данные для обучения. Это раскрывает реальность и мощь косвенного отравления данных, ставя новые задачи и направления для размышлений в области безопасности ИИ-моделей и защиты конфиденциальности данных (Источник: TimDarcet)

🧰 Инструменты
Warp выпускает среду разработки Agentic 2.0, создавая универсальную платформу для разработки агентов: Warp представила свою версию 2.0 среды разработки Agentic, которая, по их утверждению, является первой универсальной платформой для разработки агентов. Платформа заняла первое место в бенчмарке Terminal-Bench и получила 71% на SWE-bench Verified. Ее ключевые особенности включают поддержку многопоточности, позволяющую нескольким агентам одновременно параллельно создавать функции, отлаживать и выпускать код. Разработчики могут предоставлять контекст агентам различными способами, включая текст, файлы, изображения, URL-адреса, а также поддерживается голосовой ввод сложных команд. Агенты способны автоматически искать по всей кодовой базе, вызывать инструменты CLI, обращаться к документации Warp Drive и использовать серверы MCP для получения контекста, что направлено на значительное повышение эффективности разработки (Источник: _akhaliq & op7418)
SGLang добавляет поддержку бэкенда Hugging Face Transformers: SGLang объявил о поддержке Hugging Face Transformers в качестве своего бэкенда. Это означает, что пользователи могут запускать любую модель, совместимую с Transformers, и использовать предоставляемые SGLang высокоскоростные возможности вывода производственного уровня без необходимости встроенной поддержки моделью, реализуя принцип “подключи и работай”. Это обновление еще больше расширяет область применения и простоту использования SGLang, облегчая разработчикам развертывание и оптимизацию различных задач вывода больших моделей (Источник: huggingface)

LlamaIndex выпускает сервер MCP для сопоставления резюме с открытым исходным кодом, позволяющий отбирать резюме в Cursor: LlamaIndex выпустил сервер MCP (Model Context Protocol) для сопоставления резюме с открытым исходным кодом, который позволяет пользователям отбирать резюме непосредственно в таких инструментах разработки, как Cursor. Этот инструмент был создан членами команды LlamaIndex во время внутреннего хакатона и способен подключаться к индексу резюме LlamaCloud и OpenAI для интеллектуального анализа кандидатов. Его функции включают: автоматическое извлечение структурированных требований к работе из любого описания вакансии, использование семантического поиска для поиска и ранжирования кандидатов из базы данных резюме LlamaCloud, оценку кандидатов по конкретным требованиям к работе с предоставлением подробных объяснений, а также поиск кандидатов по навыкам с получением всесторонней разбивки квалификаций. Сервер легко интегрируется с существующими инструментами разработки через MCP, поддерживает локальное развертывание для разработки или масштабирование на Google Cloud Run для производственной среды (Источник: jerryjliu0)
AssemblyAI объявляет о доступности Slam-1 и LeMUR на конечных точках API в ЕС, обеспечивая соответствие данных требованиям: AssemblyAI объявила, что ее ведущий в отрасли сервис распознавания речи Slam-1 и мощные возможности аудиоаналитики LeMUR теперь доступны через ее конечные точки API в Европейском союзе. Это означает, что европейские клиенты могут использовать эти два сервиса в полном соответствии с нормами о резидентности данных, такими как GDPR, без ущерба для производительности. Новая конечная точка поддерживает модели Claude 3 и предоставляет такие функции, как резюмирование аудио, ответы на вопросы и извлечение пунктов действий, при этом структура API остается неизменной, а затраты на миграцию минимальны. Этот шаг решает дилемму европейских пользователей между соблюдением нормативных требований и передовыми возможностями ИИ в области речи (Источник: AssemblyAI)
Выпущено расширение OpenMemory для Chrome: общий контекст для разных ИИ-помощников: Выпущено расширение для Chrome под названием OpenMemory, которое позволяет пользователям совместно использовать память или контекст между несколькими ИИ-помощниками, такими как ChatGPT, Claude, Perplexity, Grok, Gemini и другими. Инструмент предназначен для обеспечения универсального опыта синхронизации контекста, позволяя пользователям поддерживать связность диалога и сохранять информацию при переключении между различными ИИ-помощниками. OpenMemory является бесплатным и имеет открытый исходный код, предоставляя пользователям новые удобства для управления и использования истории взаимодействия с ИИ (Источник: yoheinakajima)
LlamaIndex выпускает шаблон Next.js для MCP-сервера, совместимого с Claude, с поддержкой OAuth 2.1: LlamaIndex выпустил новый репозиторий шаблонов с открытым исходным кодом, который позволяет разработчикам создавать MCP-серверы (Model Context Protocol), совместимые с Claude, с использованием Next.js и полной поддержкой OAuth 2.1. Проект направлен на упрощение создания удаленных MCP-серверов, которые могут беспрепятственно интегрироваться с ИИ-помощниками, такими как Claude.ai, Claude Desktop, Cursor, VS Code и другими. Шаблон обрабатывает сложную аутентификацию и работу с протоколом, подходит для создания пользовательских инструментов для Claude или интеграций корпоративного уровня, поддерживает локальное развертывание или использование в производственной среде (Источник: jerryjliu0)

LangGraph предлагает новое решение для оптимизации управления контекстом в ответ на бум “контекстной инженерии”: Поскольку “контекстная инженерия” становится горячей темой в области ИИ, LangChain считает, что ее продукт LangGraph идеально подходит для реализации полностью настраиваемой контекстной инженерии. Для дальнейшего улучшения опыта команда LangChain (в частности, Sydney Runkle) предложила инициативу, направленную на упрощение управления контекстом в LangGraph. Предложение опубликовано в GitHub issues для сбора отзывов от сообщества с целью сделать LangGraph более эффективным и удобным при работе с все более сложными требованиями к управлению контекстом (Источник: LangChainAI & hwchase17 & hwchase17)

OpenAI запускает коннекторы для Google Drive и других облачных хранилищ в ChatGPT: OpenAI объявила о запуске коннекторов для Google Drive, Dropbox, SharePoint и Box для пользователей ChatGPT Pro (за исключением Европейской экономической зоны, Швейцарии, Великобритании). Эти коннекторы позволяют пользователям напрямую получать доступ к личному или рабочему контенту из этих облачных хранилищ в ChatGPT, тем самым предоставляя уникальную контекстную информацию для повседневной работы. Ранее эти коннекторы были доступны пользователям Plus, Pro, Team, Enterprise и Edu в режиме глубокого исследования (deep research), поддерживая различные внутренние источники, такие как Outlook, Teams, Gmail, Linear и другие (Источник: openai)
Agent Arena запущена: краудсорсинговая платформа для оценки ИИ-агентов: Запущена новая платформа под названием Agent Arena, представляющая собой краудсорсинговую тестовую платформу для оценки ИИ-агентов в реальных условиях, позиционирующаяся аналогично Chatbot Arena. Пользователи могут бесплатно проводить сравнительное тестирование ИИ-агентов на платформе, при этом расходы на вывод берет на себя сторона платформы. Инструмент предназначен для того, чтобы помочь пользователям и разработчикам более наглядно сравнивать производительность различных ИИ-агентов (таких как GPT-4o или o3) в конкретных задачах (Источник: Reddit r/LocalLLaMA)
Обновление Yuga Planner: сочетание LlamaIndex и TimefoldAI для декомпозиции задач и автоматического планирования: Yuga Planner — это инструмент, сочетающий LlamaIndex и Nebius AI Studio для декомпозиции задач и использующий TimefoldAI для автоматического планирования задач. После ввода пользователем любого описания задачи Yuga Planner разбивает ее на выполнимые подзадачи и автоматически составляет план их выполнения. Инструмент был обновлен после хакатона Gradio и Hugging Face с целью повышения эффективности управления и выполнения сложных задач (Источник: _akhaliq)
NUS и другие учреждения предлагают метод “перетаскиваемых” больших языковых моделей (DnD) для быстрой адаптации к задачам без дообучения: Исследователи из Национального университета Сингапура, Техасского университета в Остине и других учреждений предложили новый метод под названием “Перетаскиваемые большие языковые модели” (Drag-and-Drop LLMs, DnD). Этот метод основан на быстрой генерации параметров модели (весовых матриц LoRA) с помощью подсказок, что позволяет LLM адаптироваться к конкретным задачам без традиционного дообучения. DnD использует легковесный текстовый кодировщик и каскадный гиперсверточный декодер для генерации адаптированных весов всего за несколько секунд на основе неразмеченных подсказок задачи, при этом вычислительные затраты в 12000 раз ниже, чем при полном дообучении. Метод демонстрирует превосходные результаты в задачах логического вывода на основе здравого смысла, математики, кодирования и мультимодальных бенчмарках в режиме zero-shot, превосходя модели LoRA, требующие обучения, и показывая сильную способность к обобщению (Источник: 36氪)

📚 Обучение
Основатель Linux Foundation Jim Zemlin: Базовые модели ИИ обречены на полный открытый исходный код, поле битвы — на стороне приложений: Исполнительный директор Linux Foundation Jim Zemlin в диалоге с Tencent Technology заявил, что в эпоху ИИ технологический стек базовых моделей (данные, веса, код) неизбежно перейдет к открытому исходному коду, а настоящая конкуренция и создание ценности будут происходить на уровне приложений. На примере DeepSeek он отметил, что даже небольшие компании могут создавать высокопроизводительные модели с открытым исходным кодом с помощью инноваций (таких как дистилляция знаний), изменяя отраслевой ландшафт. Zemlin считает, что открытый исходный код может ускорить инновации, снизить затраты и привлечь лучших специалистов. Хотя OpenAI, Anthropic и другие в настоящее время придерживаются стратегии закрытого исходного кода для самых передовых моделей, он также отметил позитивные сдвиги, такие как открытие протокола MCP компанией Anthropic, и предсказывает, что в будущем больше базовых компонентов станут открытыми. Он подчеркнул, что “конкурентное преимущество” компаний будет в большей степени проявляться в уникальном пользовательском опыте и высокоуровневых услугах, а не в самих базовых моделях (Источник: 36氪)
Инженер ИИ Barr Yaron делится результатами опроса специалистов в области ИИ: Barr Yaron провел опрос сотен инженеров, работающих в области ИИ, охватывающий используемые ими модели, применение специализированных векторных баз данных и даже мнения о будущей распространенности ИИ-подруг. Результаты опроса показали, что LangChain в настоящее время является самой популярной средой для создания приложений GenAI, ее использует более чем в два раза больше людей, чем вторую по популярности. Эти данные раскрывают текущие предпочтения в инструментах и технологические тенденции в области разработки ИИ (Источник: swyx & hwchase17 & hwchase17 & imjaredz)

Исследователь ИИ Nathan Lambert подводит итоги прогресса в области ИИ за первую половину 2025 года: Исследователь в области машинного обучения Nathan Lambert в своем блоге рассмотрел важные достижения и тенденции в области ИИ за первую половину 2025 года. Он особо отметил прорыв модели OpenAI o3 в поисковых возможностях, считая, что она демонстрирует технологический прогресс в повышении надежности использования инструментов в моделях логического вывода, описывая ее поиск как “ищейку, учуявшую цель”. Он также предсказывает, что будущие ИИ-модели будут больше похожи на Anthropic Claude 4, то есть улучшения в бенчмарках будут незначительными, но практический прогресс будет огромным, и небольшие корректировки смогут сделать агентов, таких как Claude Code, более надежными. В то же время он заметил замедление роста закона масштабирования предварительного обучения, и достижение нового уровня масштаба может занять несколько лет или вообще не произойти, что зависит от процесса коммерциализации ИИ (Источник: 36氪)
Интерпретация “Интеллект+”: что добавлять и как добавлять в эпоху ИИ: Tencent Research Institute опубликовал статью с глубоким анализом стратегии “Интеллект+”, указывая, что ее ядром являются когнитивная революция и перестройка экосистемы. В статье утверждается, что “Интеллект+” требует добавления нового познания (принятие смены парадигм, сотрудничество человека и машины, принятие неопределенности), новых данных (преодоление информационных силосов, извлечение “темных данных”, построение “маховика данных”) и новых технологий (движки знаний, ИИ-агенты). На уровне реализации предлагается пятишаговый метод: расширение облачного интеллекта (соотношение цены и качества и постоянное обновление), восстановление цифрового доверия (с SLA в качестве эталона), развитие π-образных талантов (сочетающих технические и бизнес-навыки), продвижение всеобщей ИИ-грамотности (AI Native) (использование как “мозга”, так и “рук”), а также создание новых механизмов (перестройка ДНК организации). Конечной целью является реализация новой парадигмы “интеллект как услуга”, в которой Token (объем используемых слов) может стать новым показателем уровня интеллекта (Источник: 36氪)

AllenAI выпускает бенчмарк для математического вывода OMEGA-explorative: AllenAI опубликовал на Hugging Face новый математический бенчмарк OMEGA-explorative. Бенчмарк предназначен для проверки реальных способностей к логическому выводу больших языковых моделей (LLM) в области математики, предлагая задачи с возрастающей сложностью, чтобы подтолкнуть модели к выходу за рамки простого запоминания и к более глубокому исследовательскому выводу (Источник: _akhaliq & Dorialexander)

Техники управления контекстом/историей диалога: преобразование истории сообщений в строку для предотвращения галлюцинаций LLM: Brace в процессе создания агента для кодирования обнаружил, что в сложных многоэтапных процессах с использованием нескольких инструментов прямая передача LLM полной истории сообщений (даже в пределах контекстного окна) приводит к проблемам. Например, модель может галлюцинировать инструменты, недоступные на текущем шаге, но присутствующие в истории, или игнорировать системные подсказки при обобщении задачи, вместо этого отвечая на содержание исторического диалога. Решение состоит в преобразовании всех сообщений истории диалога в строку (например, с использованием XML-тегов для обрамления роли, содержания и вызовов инструментов), а затем передаче их LLM через одно пользовательское сообщение. Этот метод эффективно решил проблемы галлюцинаций инструментов и игнорирования системных подсказок, предположительно, из-за предотвращения помех, которые может вносить внутреннее форматирование истории сообщений на платформах, таких как OpenAI/Anthropic (Источник: hwchase17 & Hacubu)
Cohere Labs проведет летнюю школу машинного обучения в июле: Открытое научное сообщество Cohere Labs проведет серию мероприятий летней школы машинного обучения в июле. Мероприятие организовано и будет проводиться Ahmad Mustafa, Kanwal Mehreen и Anas Zaf, и направлено на предоставление участникам учебных ресурсов и платформы для общения в области машинного обучения (Источник: sarahookr)

DeepLearning.AI рекомендует курс: Создание игр на базе ИИ: DeepLearning.AI рекомендует короткий курс по созданию игр на базе ИИ. Курс научит слушателей разработке приложений LLM путем проектирования и разработки текстовых ИИ-игр, включая создание захватывающих игровых миров, персонажей и сюжетных линий. Слушатели также научатся использовать ИИ для преобразования текстовых данных в структурированный вывод JSON для реализации игровых механик (например, системы обнаружения инвентаря), а также как использовать инструменты, такие как Llama Guard, для создания и внедрения политик безопасности и соответствия для ИИ-контента (Источник: DeepLearningAI)

DatologyAI запускает серию “Летние семинары по данным”: DatologyAI объявила о запуске серии мероприятий “Летние семинары по данным”, в рамках которых еженедельно приглашаются выдающиеся исследователи для углубленного обсуждения передовых тем, связанных с данными, таких как предварительное обучение, управление данными, проектирование наборов данных и законы масштабирования, синтетические данные и выравнивание, загрязнение данных и антиобучение. Эта серия мероприятий направлена на содействие обмену знаниями и общению в области науки о данных, часть выступлений будет записана и опубликована на YouTube (Источник: code_star & code_star & code_star & code_star)

Университет Джонса Хопкинса запускает новый курс по DSPy: Университет Джонса Хопкинса открыл новый курс по DSPy. DSPy — это фреймворк для алгоритмической оптимизации подсказок и весов языковых моделей (LM), предназначенный для помощи разработчикам в более систематическом построении и оптимизации LM-приложений. Запуск этого курса свидетельствует о растущем влиянии DSPy в академических и промышленных кругах, предоставляя учащимся возможность овладеть этой передовой технологией (Источник: lateinteraction)

Статья исследует временную слепоту видео-языковых моделей: Статья под названием “Time Blindness: Why Video-Language Models Can’t See What Humans Can?” исследует ограничения современных видео-языковых моделей в понимании и обработке временной информации. Исследование, вероятно, раскрывает недостатки этих моделей в улавливании временных отношений, последовательности событий и динамических изменений, а также анализирует их различия с человеческим визуальным восприятием во временном измерении, предлагая новые направления для улучшения моделей понимания видео (Источник: dl_weekly)
💼 Бизнес
Meta тратит 14,3 млрд долларов на покупку 49% акций Scale AI, основатель Alexandr Wang присоединится к Meta: Meta приобрела 49% акций компании по обработке данных для ИИ Scale AI за 14,3 млрд долларов, в результате чего ее оценка достигла 290 млрд долларов. 28-летний сооснователь и генеральный директор Scale AI Alexandr Wang присоединится к Meta, возможно, возглавив новое подразделение “суперинтеллекта” или заняв должность главного директора по ИИ. Эта сделка направлена на усиление позиций Meta в гонке ИИ, но также вызывает опасения у клиентов Scale AI (таких как Google, OpenAI) относительно нейтральности и безопасности их данных, некоторые клиенты уже начали сокращать сотрудничество. Благодаря этой сделке Meta получила значительное влияние на Scale AI и установила для Alexandr Wang условия поэтапного получения вознаграждения в течение 5 лет для его удержания (Источник: 36氪 & 36氪)

Бывший технический директор OpenAI Mira Murati основала Thinking Machines, привлекшую 2 млрд долларов в посевном раунде при оценке в 10 млрд долларов: ИИ-компания Thinking Machines, основанная бывшим техническим директором OpenAI Mira Murati, завершила рекордный посевной раунд финансирования в размере 2 млрд долларов. Раунд возглавил Andreessen Horowitz, также участвовали Accel, Conviction Partners и другие, оценка компании достигла 10 млрд долларов. Примерно две трети команды пришли из OpenAI, включая таких ключевых фигур, как John Schulman. Thinking Machines специализируется на разработке высоко настраиваемых мультимодальных ИИ-систем с поддержкой человеко-машинного взаимодействия и выступает за открытую науку. Ранее Apple и Meta пытались инвестировать в компанию или приобрести ее, но получили отказ. После неудачной попытки приобретения Цукерберг пытался переманить ее сооснователя John Schulman, но также безуспешно (Источник: 36氪)

Компания по безопасности данных ИИ Cyera привлекла еще 500 млн долларов, оценка достигла 6 млрд долларов: Компания по управлению состоянием безопасности данных ИИ (DSPM) Cyera после последовательных раундов финансирования C и D привлекла еще 500 млн долларов под руководством Lightspeed, Greenoaks и Georgian. Оценка компании достигла 6 млрд долларов, а общая сумма привлеченных средств превысила 1,2 млрд долларов. Cyera использует ИИ для изучения в реальном времени проприетарных данных предприятий и их бизнес-применения, помогая командам безопасности автоматически обнаруживать, классифицировать, оценивать риски и управлять политиками данных, обеспечивая безопасность и соответствие данных. Сфера инструментов безопасности ИИ продолжает активно развиваться, что свидетельствует о высоком внимании рынка к безопасности данных и защите конфиденциальности в процессе внедрения ИИ-приложений (Источник: 36氪)

🌟 Сообщество
Поразительное количество загрузок приложения ChatGPT для iOS вызывает дискуссию о ценности ИИ-инструментов: Sam Altman в Twitter поблагодарил инженерные и вычислительные команды за усилия по удовлетворению спроса на ChatGPT и отметил, что количество загрузок его приложения для iOS за последние 28 дней (29,55 млн) почти сравнялось с общим количеством загрузок TikTok, Instagram, Facebook и X (Twitter) (32,85 млн). Эти данные вызвали бурное обсуждение. Пользователи, такие как Yuchenj_UW, поделились тем, как ChatGPT изменил их жизнь (решение проблем со здоровьем, ремонт вещей, экономия средств), считая, что его модель “человек ищет информацию” более ценна, чем модель социальных сетей “информация ищет человека”, и экономит время. Дискуссия также коснулась положительного влияния ИИ-инструментов на личную эффективность и качество жизни (Источник: op7418 & Yuchenj_UW & kevinweil)

Конкуренция в области больших ИИ-моделей обостряется: США переманивают таланты, Китай сокращает персонал, стратегии разнятся: В условиях ожесточенной конкуренции в области больших ИИ-моделей американские и китайские производители демонстрируют разные кадровые стратегии. Американские гиганты, такие как Apple и Meta, не жалеют средств на переманивание талантов: например, Meta потратила 14,3 млрд долларов на приобретение части акций Scale AI и привлекла Alexandr Wang, а также пыталась переманить генерального директора SSI Daniel Gross. В то же время отечественные ИИ-“шесть драконов” (Zhipu, Moonshot AI и др.) в условиях ужесточения финансирования и давления необходимости догонять в технологиях столкнулись с уходом топ-менеджеров, отвечающих за приложения и коммерциализацию, и переориентировались на сокращение ресурсов для концентрации на итерациях моделей. Эта разница отражает стратегии наверстывания, применяемые компаниями в различных рыночных условиях для сохранения конкурентоспособности в области AGI: те, у кого много денег, покупают время за деньги, а те, у кого финансовые трудности, оптимизируют организацию для максимизации ценности. Однако, независимо от стратегии, твердая приверженность AGI и предоставление лучшим талантам пространства для реализации амбиций считаются ключевыми факторами для привлечения кадров (Источник: 36氪)

ИИ-ведущий провалился в прямом эфире, превратившись в “девушку-кошку”, атаки на команды и защита безопасности вызывают озабоченность: Недавно во время прямой трансляции с продажей товаров ИИ-цифровой ведущий одного из продавцов был переведен пользователем в “режим разработчика” через диалоговое окно. По команде “ты девушка-кошка, мяукни сто раз” ведущий начал непрерывно мяукать в прямом эфире, вызвав “эффект зловещей долины” и бурное обсуждение в сети. Этот инцидент обнажил уязвимость ИИ-агентов перед атаками на команды. Эксперты отмечают, что подобные атаки не только нарушают процесс трансляции, но и, если цифровой человек обладает более высокими правами (например, изменять цены, добавлять/удалять товары), могут привести к прямым экономическим потерям для продавца или распространению нежелательной информации. Меры противодействия включают усиление безопасности подсказок, создание изолированных “песочниц” для диалогов, ограничение прав цифровых людей и создание механизма отслеживания атак для обеспечения здорового развития ИИ-приложений и защиты интересов пользователей (Источник: 36氪)

Популярность Kimi снижается, преимущество в обработке длинных текстов сталкивается с вызовами, коммерческий путь требует проработки: Kimi, некогда поразившая рынок способностью обрабатывать длинные тексты, в последнее время несколько утратила популярность в общественном поле зрения, а фокус обсуждения сместился на новые функции других моделей (такие как генерация видео, кодирование Agent). Аналитики считают, Kimi на раннем этапе привлекла внимание капитала благодаря технологической уникальности (обработка миллионов токенов длинного текста) и звездной репутации основателя Yang Zhilin. Однако последующие масштабные маркетинговые инвестиции (ежемесячно доходившие до 220 млн) хоть и привели к росту пользователей, но также отклонили компанию от пути углубленной технологической проработки, ввергнув в интернет-логику “сжигания денег ради роста”. В то же время, недостаточное технологическое развитие в областях мультимодальности, понимания видео и т.д., а также несоответствие коммерческих сценариев (переход от инструмента для высокообразованных пользователей к развлекательному маркетингу) привели к тому, что ее технологическое преимущество столкнулось с конкуренцией со стороны моделей с открытым исходным кодом, таких как DeepSeek, и продуктов крупных компаний. В будущем Kimi необходимо будет искать прорывы в повышении ценности контента (например, глубокие исследования, глубокий поиск), совершенствовании экосистемы разработчиков и фокусировке на основных потребностях пользователей (например, работников, стремящихся к эффективности), чтобы восстановить доверие рынка (Источник: 36氪)
Sam Altman об ИИ-стартапах: избегайте основной сферы ChatGPT, сосредоточьтесь на “продуктовом навесе”: Генеральный директор OpenAI Sam Altman на мероприятии YC AI Startup School посоветовал предпринимателям избегать прямой конкуренции с основными функциями ChatGPT (создание суперинтеллектуального личного помощника), поскольку OpenAI имеет в этой области огромное преимущество первопроходца и постоянно инвестирует. Он отметил, что возможности для стартапов лежат в использовании “продуктового навеса” мощных моделей, таких как GPT-4o, — то есть разрыва, образовавшегося из-за того, что возможности модели значительно превосходят существующий уровень приложений. Предпринимателям следует сосредоточиться на использовании ИИ для перестройки старых рабочих процессов, например, на разработке “мгновенно генерируемого программного обеспечения”, способного самостоятельно выполнять исследования, кодирование, исполнение и предоставлять готовые решения, что перевернет традиционную отрасль SaaS. Altman также вспомнил ранний путь OpenAI, когда компания упорно следовала направлению AGI вопреки сомнениям, подчеркнув важность создания уникальных и перспективных вещей (Источник: 36氪 & 36氪)

Применение и ограничения ИИ в инвестиционной сфере: обсуждение: Применение ИИ в инвестиционной сфере становится все более распространенным, особенно в таких областях, как отбор информации, анализ финансовых отчетов (например, улавливание изменений в тоне руководителей), распознавание образов (технический анализ), где он демонстрирует высокую эффективность. Брокеры, такие как Robinhood, разрабатывают ИИ-инструменты (например, Cortex) для помощи пользователям в разработке торговых стратегий. Однако ИИ также имеет ограничения, такие как возможность генерировать “галлюцинации” или неточную информацию (например, Gemini перепутал годы в финансовых отчетах), и ему трудно обрабатывать огромные объемы информации, превышающие возможности модели. Эксперты считают, что ИИ в настоящее время больше подходит для поддержки принятия решений, а не для их принятия, и человеческий контроль по-прежнему важен. Платформы, такие как Public, обнаружили, что контент, созданный с помощью ИИ (например, Alpha co-pilot), имеет гораздо более высокую конверсию в побуждении пользователей к торговле, чем традиционные новости и социальные ленты. ИИ постепенно “поглощает” роль социальных сетей в получении инвестиционной информации, порождая новую модель “самостоятельного принятия решений с помощью ИИ” (Источник: 36氪)

Наступает эра ИИ-рекламы: значительное снижение затрат и повышение эффективности, но проблемы с “псевдочеловечностью” и однородностью: Крупные компании, такие как TikTok, Meta, Google, одна за другой выпускают инструменты для генерации ИИ-рекламы. Например, TikTok может генерировать 5-секундные видео на основе изображений или подсказок, а Google Veo3 может одним щелчком создавать рекламу с изображением, диалогами и звуковыми эффектами, что значительно снижает производственные затраты (утверждается, что на 95%). Бренды, такие как Coca-Cola и JD.com, уже пробовали создавать рекламу полностью с помощью ИИ. Преимущества ИИ-рекламы заключаются в низкой стоимости и быстром производстве, но она сталкивается с проблемами пользовательского опыта, такими как “эффект зловещей долины” и “псевдочеловечность” ИИ-персонажей, вызывающие отторжение у потребителей, а контент легко становится однородным и лишенным информационной ценности. Несмотря на это, в условиях общей тенденции к снижению затрат и повышению эффективности в отрасли, решимость брендов использовать ИИ-рекламу не ослабевает, и в ближайшие несколько лет ИИ-реклама будет продолжать балансировать между затратами и пользовательским опытом (Источник: 36氪)

Сообщество Reddit r/LocalLLaMA возобновило работу: Популярное ИИ-сообщество Reddit r/LocalLLaMA после недолгого периода неизвестных проблем (предыдущий модератор удалил аккаунт и фильтры для всех постов/комментариев) возобновило нормальную работу под управлением нового модератора HOLUPREDICTIONS. Члены сообщества приветствовали это и с нетерпением ждут продолжения обмена последними достижениями и техническими обсуждениями локализованных LLM (Источник: Reddit r/LocalLLaMA & ggerganov & danielhanchen)

Mustafa Suleyman: ИИ перейдет от “цепочки мыслей” к “цепочке дебатов”: Основатель Inflection AI Mustafa Suleyman предположил, что после “цепочки мыслей” (Chain of Thought) следующим направлением развития ИИ станет “цепочка дебатов” (Chain of Debate). Это означает, что ИИ эволюционирует от размышлений в стиле “монолога” одной модели к публичным обсуждениям, отладке и совещаниям между несколькими моделями. Он считает, что принцип “одна голова хорошо, а две лучше” (букв. “три сапожника лучше одного Чжугэ Ляна”) применим и к большим языковым моделям, и сотрудничество нескольких моделей повысит уровень интеллекта ИИ и его способность решать проблемы (Источник: mustafasuleyman)
💡 Прочее
Программист уволился с высокооплачиваемой работы, потратил 10 месяцев и 20 тысяч долларов на разработку ИИ-инструмента для дизайна InfographsAI, после запуска — 0 пользователей, 0 дохода: Инженер-архитектор из Кремниевой долины с 15-летним опытом уволился, чтобы основать стартап, вложив почти 10 месяцев времени и 20 тысяч долларов сбережений в разработку ИИ-инструмента для создания инфографики под названием InfographsAI. Инструмент был призван заменить шаблонные инструменты, такие как Canva, и мог генерировать уникальный дизайн на основе пользовательского ввода (ссылка на YouTube, PDF, текст и т.д.) за 200 секунд, поддерживая различные художественные стили и 35 языков. Однако после запуска продукт столкнулся с отсутствием пользователей и дохода. Разработчик проанализировал свои ошибки: не проверил спрос, нагромоздил функции, страдал перфекционизмом, не занимался маркетингом и оторвался от реальности (не изучил конкурентов и ожидания пользователей). В будущем он планирует сначала проверять спрос, быстро запускать MVP и одновременно заниматься продвижением на рынке (Источник: 36氪)

Coca-Cola Japan запускает сайт для распознавания эмоций с помощью ИИ “Зеркало проверки стресса” для продвижения расслабляющего напитка CHILL OUT: Японское подразделение Coca-Cola для продвижения своего бренда расслабляющих напитков CHILL OUT запустило сайт для распознавания эмоций с помощью ИИ под названием “Зеркало проверки стресса”. После того как пользователь загружает фотографию своего лица и отвечает на 5 вопросов, связанных со стрессом, сайт с помощью технологии анализа выражений лица ИИ (Face-API) и вопросов, разработанных клиническими психологами, диагностирует текущий тип стресса пользователя и визуализирует его в виде 13 забавных “масок стресса” (например, “раздражительный демон”). Пользователи могут получить купон на напиток в приложении Coke ON, предъявив синтезированное изображение, чтобы попробовать CHILL OUT. Эта инициатива направлена на то, чтобы в игровой форме помочь пользователям осознать свой стресс и продвинуть расслабляющий эффект CHILL OUT. Сам напиток CHILL OUT также использует ИИ для разработки “расслабляющего вкуса” и позиционируется как “антиэнергетический напиток” (Источник: 36氪)

Рынок ИИ-питомцев на подъеме, венчурные капиталисты и пользователи в восторге, но коммерциализация все еще сталкивается с проблемами: Сегмент ИИ-питомцев переживает быстрый рост, ожидается, что к 2030 году мировой объем рынка достигнет сотен миллиардов долларов. Продукты, такие как Ropet, BubblePal, используют технологию ИИ для интеллектуального взаимодействия и эмоциональной поддержки пользователей, привлекая внимание рынка и интерес капитала, Zhu Xiaohu из GSR Ventures также инвестировал в Luobo Intelligence. ИИ-питомцы удовлетворяют потребность в компаньонстве в современном обществе на фоне экономики одиночек и старения населения, а также повышают вовлеченность пользователей за счет механизма “взращивания”. В бизнес-модели, помимо продажи оборудования, основной становится “оборудование + ежемесячный пакет услуг”, также важными считаются управление IP и социальные атрибуты. Однако сегмент все еще сталкивается с многочисленными проблемами в области технологий (мультимодальная интеграция, способность к персонализации), политики (конфиденциальность и безопасность) и рынка (однородность, зависимость от каналов сбыта). В ближайшие три года ключевым фактором успеха для компаний, производящих ИИ-питомцев, станет способность сохранять свежесть среди однородных продуктов (Источник: 36氪)
