Ключевые слова:DeepSeek-OCR, ChatGPT Atlas, Unitree H2, Квантовые вычисления, Искусственный интеллект для открытия лекарств, DeepSeek MoE, vLLM, Meta Vibes, Контекстная технология оптического сжатия, Функция запоминания в AI-браузере, Степени свободы человекоподобного робота, Квантовый эхо-алгоритм, Генерация протоколов биологических экспериментов

🔥 В фокусе

DeepSeek-OCR: Технология контекстной оптической компрессии : Модель DeepSeek-OCR представляет концепцию “контекстной оптической компрессии”, обрабатывая текст как изображение. Она способна сжимать целые страницы в небольшое количество “визуальных токенов” с помощью визуального кодирования, а затем декодировать их обратно в текст, таблицы или диаграммы, достигая десятикратного повышения эффективности и точности до 97%. Эта технология использует DeepEncoder для захвата информации со страницы и 16-кратного сжатия, сокращая 4096 токенов до 256, и может автоматически регулировать количество токенов в зависимости от сложности документа, значительно превосходя существующие модели OCR. Это не только значительно снижает затраты на обработку длинных документов и повышает эффективность извлечения информации, но и предлагает новые идеи для долгосрочной памяти LLM и расширения контекста, предвещая огромный потенциал изображений как носителей информации в области AI. (Источник: HuggingFace Daily Papers, 36氪, ZhihuFrontier)

DeepSeek-OCR:上下文光学压缩技术

OpenAI выпустила браузер ChatGPT Atlas : OpenAI представила ChatGPT Atlas, браузер, разработанный специально для эпохи AI, глубоко интегрирующий ChatGPT в процесс просмотра веб-страниц. Браузер не только предлагает традиционные функции, но и встроенный “режим Agent”, способный выполнять такие задачи, как бронирование, покупки, заполнение форм, а также функцию “памяти браузера”, которая изучает привычки пользователя для предоставления персонализированных услуг. Этот шаг знаменует собой стратегический сдвиг OpenAI к построению полноценной экосистемы AI, которая может изменить способ взаимодействия пользователей с Интернетом и бросить вызов доминированию Google Chrome на рынке браузеров в области рекламы и данных. В отрасли широко распространено мнение, что это начало новой “войны браузеров”, в основе которой лежит борьба за контроль над цифровой жизнью пользователей. (Источник: Smol_AI, TheRundownAI, Reddit r/ArtificialInteligence, Reddit r/MachineLearning)

OpenAI 发布 ChatGPT Atlas 浏览器

Представлен человекоподобный робот Unitree H2 : Компания Unitree Robotics представила человекоподобного робота H2, совершив значительный прорыв в области воплощенного интеллекта и аппаратного дизайна. H2 поддерживает NVIDIA Jetson AGX Thor, обеспечивая в 7,5 раз большую вычислительную мощность, чем Orin, и в 3,5 раза большую эффективность. В механическом дизайне, ноги получили 1 дополнительную степень свободы (всего 6), а руки были модернизированы до 7 степеней свободы, с полезной нагрузкой 7-15 кг и опциональными ловкими руками. В плане сенсоров, H2 отказался от лидара в пользу чисто визуального 3D-восприятия, используя бинокулярные стереокамеры. Несмотря на значительный технологический прогресс, комментаторы отмечают, что человекоподобные роботы все еще ищут зрелые сценарии применения и в настоящее время больше подходят для лабораторных исследований. (Источник: ZhihuFrontier)

Unitree H2 人形机器人发布

Прорыв AI в разработке лекарств и бионических технологиях : Исследователи Массачусетского технологического института использовали AI для разработки новых антибиотиков, эффективно борющихся с мультирезистентными Neisseria gonorrhoeae и MRSA. Эти соединения имеют уникальную структуру и разрушают бактериальные клеточные мембраны с помощью нового механизма, что затрудняет развитие резистентности. Одновременно исследовательская группа разработала новое бионическое колено, которое интегрируется непосредственно с мышцами и костной тканью пользователя, используя технологию AMI для извлечения нервных сигналов из остаточных мышц после ампутации, направляя движение протеза. Это бионическое колено помогает ампутантам быстрее ходить, легко подниматься по лестнице и избегать препятствий, ощущаясь больше как часть тела, и, как ожидается, получит одобрение FDA после более масштабных клинических испытаний. (Источник: MIT Technology Review, MIT Technology Review)

AI 辅助药物发现与仿生技术突破

Google достигает проверяемого квантового превосходства : Google опубликовала в журнале Nature новый прорыв в квантовых вычислениях. Их чип Willow впервые достиг проверяемого квантового превосходства, выполнив алгоритм под названием “квантовое эхо”. Этот алгоритм в 13000 раз быстрее самых быстрых классических алгоритмов и может объяснять взаимодействия между атомами в молекулах, открывая потенциальные применения в таких областях, как разработка лекарств и материаловедение. Результаты этого прорыва воспроизводимы и являются важным шагом квантовых вычислений к практическому применению. (Источник: Google)

Google 实现可验证量子优势

🎯 Тенденции

Модель DeepSeek MoE V3.2 оптимизирует инференс с длинным контекстом : DeepSeek выпустила новую модель 685B MoE V3.2, которая фокусируется только на наиболее релевантных токенах, что позволяет увеличить скорость инференса с длинным контекстом в 2-3 раза и снизить затраты на обработку в 6-7 раз по сравнению с моделью V3.1. Новая модель использует веса с лицензией MIT и доступна через API, оптимизированная для Huawei и других китайских чипов. Хотя производительность немного снизилась в некоторых научных/математических задачах, она улучшилась в задачах кодирования/агентов. (Источник: DeepLearningAI)

DeepSeek MoE 模型 V3.2 优化长上下文推理

vLLM V1 теперь поддерживает AMD GPU : Версия vLLM V1 теперь может работать на AMD GPU. Команды IBM Research, Red Hat и AMD сотрудничали для создания оптимизированного бэкенда внимания с использованием ядер Triton, что позволило достичь передовой производительности. Это достижение предоставляет пользователям аппаратного обеспечения AMD более эффективное решение для инференса LLM. (Источник: QuixiAI)

vLLM V1 现已支持 AMD GPU

Meta Vibes AI: запущен видеостриминг : Meta представила новую функцию видеостриминга AI Vibes, встроенную в приложение Meta AI. Пользователи могут просматривать короткие видеоролики, сгенерированные AI, и одним нажатием создавать их вторичные версии, включая добавление музыки, изменение стиля или ремиксы чужих работ, а затем делиться ими в Instagram и Facebook. Этот шаг направлен на снижение порога для создания AI-видео, продвижение AI-видео в основные социальные сети и потенциальное изменение моделей производства и распространения коротких видеороликов, но также вызывает опасения по поводу авторских прав, оригинальности и распространения ложной информации. (Источник: 36氪)

Meta Vibes AI 视频流发布

Модель-агент rBridge для прогнозирования производительности инференса LLM : Метод rBridge позволяет небольшим моделям-агентам (≤1B параметров) эффективно прогнозировать производительность инференса больших моделей (7B-32B параметров) со снижением вычислительных затрат более чем в 100 раз. Этот метод решает “проблему возникновения”, когда способности к рассуждению не проявляются в небольших моделях, путем согласования оценки с целями предварительного обучения и целевыми задачами, а также использования траекторий инференса передовых моделей в качестве “золотых меток”, взвешивая важность токенов для задачи. Это значительно снижает затраты для исследователей с ограниченными вычислительными ресурсами при изучении вариантов дизайна предварительного обучения. (Источник: Reddit r/MachineLearning, Reddit r/LocalLLaMA)

Система реконструкции 4D HDR Gaussian Splatting Mono4DGS-HDR : Mono4DGS-HDR — это первая система, которая реконструирует рендерируемые 4D HDR-сцены из монокулярных LDR-видео с чередующейся экспозицией. Эта унифицированная структура использует двухэтапный метод оптимизации, основанный на технологии Gaussian Splatting. Сначала она изучает видео HDR-представление Гаусса в ортогональном координатном пространстве камеры, затем преобразует видео Гаусса в мировое пространство и совместно оптимизирует мировое Гаусса с позой камеры. Кроме того, предложенная стратегия временной регуляризации яркости улучшает временную согласованность HDR-изображения, значительно превосходя существующие методы по качеству и скорости рендеринга. (Источник: HuggingFace Daily Papers)

EvoSyn: эволюционный фреймворк синтеза данных для проверяемого обучения : EvoSyn — это эволюционный, независимый от задач, управляемый стратегией, проверяемый фреймворк синтеза данных, предназначенный для генерации надежных проверяемых данных. Фреймворк начинается с минимального начального надзора, совместно синтезируя проблемы, разнообразные кандидатные решения и артефакты проверки, а затем итеративно обнаруживает стратегии с помощью оценщика, основанного на согласованности. Эксперименты показывают, что обучение с использованием данных, синтезированных EvoSyn, приводит к значительному улучшению как в задачах LiveCodeBench, так и AgentBench-OS, подчеркивая надежную обобщающую способность фреймворка. (Источник: HuggingFace Daily Papers)

Новый метод извлечения выровненных данных из дообученных моделей : Исследования показывают, что из дообученных моделей можно извлечь большое количество выровненных обучающих данных для улучшения способностей модели в инференсе с длинным контекстом, безопасности, следовании инструкциям и математике. Измерение семантического сходства с помощью высококачественных моделей встраивания позволяет идентифицировать обучающие данные, которые трудно обнаружить с помощью традиционного сопоставления строк. Исследование показало, что модели легко восстанавливают данные, использованные на этапах дообучения, таких как SFT или RL, и эти данные могут быть использованы для обучения базовых моделей, восстанавливая исходную производительность. Эта работа выявляет потенциальные риски извлечения выровненных данных и предлагает новую перспективу для обсуждения последующих эффектов практики дистилляции. (Источник: HuggingFace Daily Papers)

PRISMM-Bench: бенчмарк для многомодальных несоответствий в научных статьях : PRISMM-Bench — это первый бенчмарк, основанный на реальных отметках рецензентов о многомодальных несоответствиях в научных статьях, предназначенный для оценки способности больших многомодальных моделей (LMM) понимать и рассуждать о сложности научных статей. Бенчмарк использует многоэтапный процесс, собирая 262 несоответствия из 242 статей и разрабатывая три задачи: идентификация, исправление и сопоставление пар. Оценка 21 LMM (включая GLM-4.5V 106B, InternVL3 78B и Gemini 2.5 Pro, GPT-5) показала значительно низкую производительность моделей (26,1-54,2%), что подчеркивает проблемы многомодального научного рассуждения. (Источник: HuggingFace Daily Papers)

GAS: улучшенный метод дискретизации диффузионных ODE : Хотя диффузионные модели достигли передового качества генерации, их вычислительные затраты на выборку высоки. Generalized Adversarial Solver (GAS) предлагает простой параметризованный сэмплер ODE, который повышает качество без дополнительных приемов обучения. Объединяя исходную потерю дистилляции с состязательным обучением, GAS способен уменьшать артефакты и улучшать детализацию. Эксперименты показывают, что GAS превосходит существующие методы обучения решателей при аналогичных ограничениях ресурсов. (Источник: HuggingFace Daily Papers)

3DThinker: фреймворк пространственного рассуждения для геометрического воображения VLM : Фреймворк 3DThinker разработан для улучшения способности визуально-языковых моделей (VLM) понимать 3D-пространственные отношения при ограниченном обзоре. Фреймворк использует двухэтапное обучение: сначала контролируемое обучение для выравнивания 3D-латентного пространства, генерируемого VLM при рассуждении, с латентным пространством 3D-базовой модели, а затем оптимизирует всю траекторию рассуждения только на основе сигналов результата, тем самым совершенствуя базовое 3D-ментальное моделирование. 3DThinker — это первый фреймворк, который достигает 3D-ментального моделирования без 3D-приоритетных входных данных или явных помеченных 3D-данных, демонстрируя превосходные результаты в нескольких бенчмарках и предлагая новую перспективу для унификации 3D-представлений в многомодальном рассуждении. (Источник: HuggingFace Daily Papers)

Huawei HarmonyOS 6 улучшает функции AI-ассистента : Huawei официально выпустила операционную систему HarmonyOS 6, которая всесторонне улучшает плавность, интеллектуальность и межплатформенное взаимодействие. Функция “Супер-ассистент” Сяои значительно улучшена: она не только поддерживает 16 диалектов, но также может проводить глубокие исследования, редактировать изображения одной фразой и помогать слабовидящим пользователям “видеть мир”. На основе фреймворка интеллектуальных агентов HarmonyOS уже запущено более 80 интеллектуальных приложений HarmonyOS, и Сяои со своими интеллектуальными партнерами могут тесно сотрудничать, предоставляя профессиональные услуги, такие как планирование путешествий, запись на прием к врачу, а также внедрены функции защиты конфиденциальности, такие как “AI-защита от мошенничества” и “AI-защита от подглядывания”. (Источник: 量子位)

华为 HarmonyOS 6 增强 AI 助理功能

Применение AI в городских исследованиях: анализ скорости ходьбы и использования общественных пространств : Исследование, написанное учеными Массачусетского технологического института, показало, что в период с 1980 по 2010 год средняя скорость ходьбы в трех городах на северо-востоке США увеличилась на 15%, а количество людей, задерживающихся в общественных местах, сократилось на 14%. Исследователи использовали инструменты машинного обучения для анализа видеозаписей 1980-х годов из Бостона, Нью-Йорка и Филадельфии, а затем сравнили их с новыми видео. Они предполагают, что такие факторы, как мобильные телефоны и кафе, могли привести к тому, что люди чаще договариваются о встречах по СМС и выбирают для общения закрытые помещения вместо общественных пространств, что дает новое направление для проектирования городских общественных пространств. (Источник: MIT Technology Review)

AI 在城市研究中的应用:分析步行速度与公共空间使用

Проблемы и решения кросс-языковой устойчивости многоязычных водяных знаков LLM : Исследование показывает, что существующие многоязычные технологии водяных знаков для больших языковых моделей (LLM) не являются по-настоящему многоязычными и не обладают устойчивостью к атакам перевода на языках с низкими ресурсами. Этот сбой объясняется тем, что семантическая кластеризация не работает при недостаточном словарном запасе токенизатора. Для решения этой проблемы введено STEAM — метод обнаружения на основе обратного перевода, который может восстановить силу водяного знака, потерянную из-за перевода. STEAM совместим с любым методом водяных знаков, устойчив к различным токенизаторам и языкам, легко масштабируется на новые языки, достигая значительного улучшения в среднем на 17 языках (+0,19 AUC и +40%p TPR@1%), предлагая простой, но мощный путь для разработки справедливых технологий водяных знаков. (Источник: HuggingFace Daily Papers)

Модель Qwen демонстрирует сильные результаты в открытом сообществе и коммерческих приложениях : Модель Tongyi Qianwen от Alibaba демонстрирует сильный импульс как в открытом сообществе, так и в коммерческих приложениях. DeepSeek V3.2 и Qwen-3-235b-A22B-Instruct занимают лидирующие позиции в открытом рейтинге моделей Text Arena. CEO Airbnb Брайан Чески публично заявил, что компания “в значительной степени полагается на модель Tongyi Qianwen от Alibaba” и считает ее “лучше и дешевле, чем OpenAI”, отдавая ей приоритет в производственной среде. Кроме того, команда Qwen активно помогает проекту llama.cpp, продолжая способствовать развитию открытого сообщества. Новая модель Qwen-VL значительно превосходит старую версию по производительности, особенно в моделях с низким количеством параметров, демонстрируя свою способность к быстрой итерации и оптимизации. (Источник: teortaxesTex, Zai_org, hardmaru, Reddit r/LocalLLaMA)

Qwen 模型在开源社区及商业应用中表现强劲

Непрерывное обучение LLM: уменьшение забывания за счет разреженной тонкой настройки слоев памяти : Новое исследование Meta AI предлагает, что разреженная тонкая настройка слоев памяти может эффективно позволить большим языковым моделям (LLM) непрерывно изучать новые знания, минимизируя при этом помехи для существующих знаний. По сравнению с полным тонкой настройкой и такими методами, как LoRA, разреженная тонкая настройка слоев памяти значительно снижает скорость забывания (-11% против -89% FT, -71% LoRA) при изучении того же количества новых знаний, предлагая новое направление для создания LLM, способных постоянно адаптироваться и обновляться. (Источник: giffmana, AndrewLampinen)

LLM 持续学习:通过稀疏微调记忆层减少遗忘

Прогресс AI в области автономного вождения: вице-президент General Motors подчеркивает безопасность дорожного движения : Стерлинг Андерсон, исполнительный вице-президент и директор по глобальным продуктам General Motors, подчеркнул огромный потенциал AI и передовых систем помощи водителю в повышении безопасности дорожного движения. Он отметил, что, в отличие от водителей-людей, системы автономного вождения не водят в нетрезвом виде, не устают и не отвлекаются, а также могут одновременно контролировать дорожную ситуацию во всех направлениях, работая даже в плохую погоду. Андерсон, который был соучредителем Aurora Innovation и руководил разработкой Tesla Autopilot, считает, что технологии автономного вождения не только значительно повысят безопасность дорожного движения, но и улучшат эффективность грузоперевозок, а в конечном итоге сэкономят время людей. Он заявил, что опыт обучения в MIT предоставил ему техническую базу и свободу для решения сложных проблем и сотрудничества человека и машины. (Источник: MIT Technology Review)

AI 在自动驾驶领域的进展:通用汽车副总裁强调道路安全

Tank 400 Hi4-T получил новую функцию AI-водителя : Новый Tank 400 Hi4-T оснащен функцией AI-водителя, призванной улучшить впечатления от вождения в сложных дорожных условиях. Во время испытаний в дождливую погоду в горном городе Чунцин, AI-водитель продемонстрировал хорошие возможности помощи при вождении на скользких дорогах и в сложной дорожной обстановке. Это знаменует собой дальнейшее применение и оптимизацию технологии AI в области автономного вождения по бездорожью и в сложных городских условиях. (Источник: 量子位)

坦克400 Hi4-T 新增 AI 司机功能

🧰 Инструменты

Thoth: фреймворк для генерации протоколов биоэкспериментов с помощью AI : Thoth — это фреймворк AI, основанный на парадигме “Sketch-and-Fill”, предназначенный для автоматической генерации точных, логически упорядоченных и выполнимых протоколов биоэкспериментов с помощью запросов на естественном языке. Фреймворк разделяет анализ, структурирование и выражение, обеспечивая четкую проверяемость каждого шага. В сочетании с механизмом вознаграждения за структурированные компоненты, Thoth оценивается по детализации шагов, порядку операций и семантической точности, что позволяет оптимизировать модель в соответствии с надежностью эксперимента. Thoth превзошел проприетарные и открытые LLM в нескольких бенчмарках, достигнув значительных улучшений в выравнивании шагов, логическом упорядочивании и семантической точности, прокладывая путь к надежным научным помощникам. (Источник: HuggingFace Daily Papers)

AlphaQuanter: AI-агент для торговли акциями на основе обучения с подкреплением : AlphaQuanter — это сквозной фреймворк обучения с подкреплением для агентов, управляемых инструментами, предназначенный для торговли акциями. Этот фреймворк использует обучение с подкреплением, позволяя одному агенту изучать динамические стратегии, автономно организовывать инструменты и активно получать информацию по запросу, создавая прозрачный и проверяемый процесс рассуждения. AlphaQuanter достигает передовой производительности по ключевым финансовым показателям, а его интерпретируемые рассуждения раскрывают сложные торговые стратегии, предоставляя новые и ценные идеи для трейдеров-людей. (Источник: HuggingFace Daily Papers)

PokeeResearch: агент глубоких исследований на основе обратной связи AI : PokeeResearch-7B — это агент глубоких исследований с 7B параметрами, построенный на унифицированном фреймворке обучения с подкреплением, разработанный для обеспечения надежности, согласованности и масштабируемости. Модель обучена с использованием фреймворка обучения с подкреплением на основе обратной связи AI без меток (RLAIF), используя сигналы вознаграждения на основе LLM для оптимизации стратегии, чтобы улавливать фактическую точность, достоверность цитирования и соблюдение инструкций. Ее многократный вывод, управляемый цепочкой рассуждений, дополнительно повышает надежность за счет самопроверки и адаптивного восстановления после сбоев инструментов. PokeeResearch-7B достигает передовой производительности среди агентов глубоких исследований масштаба 7B в 10 популярных бенчмарках глубоких исследований. (Источник: HuggingFace Daily Papers)

Выпущен GUI-клиент DeepSeek-OCR : Разработчик создал графический пользовательский интерфейс (GUI) для модели DeepSeek-OCR, чтобы упростить ее использование. Модель отлично справляется с пониманием документов и извлечением структурированного текста. Клиент использует бэкенд Flask для управления моделью и фронтенд Electron для предоставления пользовательского интерфейса. При первой загрузке модель автоматически скачивает около 6,7 ГБ данных с HuggingFace. В настоящее время поддерживается Windows, а также предоставляется непроверенная поддержка Linux; требуется видеокарта Nvidia. (Источник: Reddit r/LocalLLaMA)

DeepSeek-OCR GUI 客户端发布

Обновлены функции создания приложений Google AI Studio : Функции создания приложений Google AI Studio получили значительное обновление, теперь все модели Google AI встроены, и пользователи могут напрямую выбирать модели и заполнять подсказки для создания приложений без необходимости вводить API Key. Это значительно упрощает процесс разработки, делая интеграцию различных возможностей AI, таких как LLM, понимание изображений и модели TTS, в веб-приложения более удобной. (Источник: op7418)

Google AI Studio 应用构建功能升级

Интеграция Lovable Shopify AI : Lovable запустила интеграцию Shopify, позволяющую пользователям создавать онлайн-магазины, общаясь с AI. Эта функция призвана решить проблему отсутствия персонализации и практической реализации “кодирования атмосферы” на традиционных сайтах дропшиппинга, позволяя AI персонализировать создание магазина и подчеркивая концепцию “интеграции”, а не “MCP”, с целью решения реальных проблем. (Источник: crystalsssup)

API vLLM, совместимый с OpenAI, теперь поддерживает возврат Token ID : vLLM в сотрудничестве с командой Agent Lightning решил проблему “Retokenization Drift” в обучении с подкреплением, то есть небольшое несоответствие в разбиении токенов между генерацией модели и ожидаемой генерацией тренера. API vLLM, совместимый с OpenAI, теперь может напрямую возвращать token ID. Пользователям достаточно добавить “return_token_ids”: true в запрос, чтобы получить prompt_token_ids и token_ids, обеспечивая полное соответствие токенов, используемых при обучении агентов с подкреплением, с выборкой, тем самым избегая нестабильности обучения и обновлений вне политики. (Источник: vllm_project)

Платформа Together AI добавила API для видео- и графических моделей : Together AI объявила о добавлении более 20 видеомоделей (таких как Sora 2, Veo 3, PixVerse V5, Seedance) и более 15 графических моделей на свою API-платформу в сотрудничестве с Runware. Эти модели доступны через тот же API, что и для текстового инференса, что значительно расширяет возможности Together AI в области мультимодальной генерации. (Источник: togethercompute)

Together AI 平台新增视频和图像模型 API

OpenAudio S1/S1-mini: SOTA открытые многоязычные модели преобразования текста в речь : Команда Fish Speech объявила о ребрендинге в OpenAudio и выпустила серию моделей преобразования текста в речь (TTS) OpenAudio-S1, включая S1 (4B параметров) и S1-mini (0.5B параметров). Эти модели заняли первое место в рейтинге TTS-Arena2, достигнув выдающегося качества TTS (английский WER 0.008, CER 0.004), поддерживают клонирование голоса с нулевым/малым количеством примеров, многоязычный и кросс-языковой синтез, а также предлагают контроль над эмоциями, интонацией и специальными маркерами. Модели не зависят от фонем, обладают сильной обобщающей способностью и ускорены с помощью torch compile, достигая коэффициента реального времени около 1:7 на GPU Nvidia RTX 4090. (Источник: GitHub Trending)

OpenAudio S1/S1-mini:SOTA 开源多语言文本转语音模型

Liquid AI выпустила LFM2-VL-3B, небольшую многоязычную визуально-языковую модель : Liquid AI представила LFM2-VL-3B, небольшую многоязычную визуально-языковую модель. Эта модель расширяет возможности многоязычного визуального понимания, поддерживая английский, японский, французский, испанский, немецкий, итальянский, португальский, арабский, китайский и корейский языки. Она достигает 51,8% на MM-IFEval (следование инструкциям) и 71,4% на RealWorldQA (понимание реального мира), демонстрируя отличные результаты в понимании одиночных и множественных изображений, а также в английском OCR, с низкой частотой галлюцинаций объектов. (Источник: TheZachMueller)

Liquid AI 发布 LFM2-VL-3B 小型多语言视觉语言模型

AI-помощь в программировании: руководство по контекстной инженерии LangChain V1 : LangChain опубликовала новую страницу о контекстной инженерии агентов, которая помогает разработчикам освоить контекстную инженерию в LangChain V1 для лучшего создания AI-агентов. Это руководство считается важной частью новой документации, подчеркивающей важность предоставления AI-инструментам актуальной информации. LangChain стремится стать комплексной платформой для инженерии агентов и получила 125 миллионов долларов в раунде финансирования серии B при оценке в 1,25 миллиарда долларов, продолжая продвигать область инженерии AI-агентов. (Источник: LangChainAI, Hacubu, hwchase17)

Решения для запуска Claude Desktop на Linux : Приложение Claude Desktop в настоящее время поддерживает только Mac и Windows, но поскольку оно основано на фреймворке Electron, пользователи Linux нашли несколько сообщественных решений для его запуска на системах Linux. Эти решения включают конфигурацию flake для NixOS, пакет AUR для Arch Linux и установочные скрипты для систем Debian, предоставляя пользователям Linux возможность использовать Claude Desktop. (Источник: Reddit r/ClaudeAI)

📚 Обучение

Учебный путь DeepLearningAI MLOps : DeepLearningAI предлагает учебный путь MLOps, разработанный для того, чтобы помочь учащимся освоить ключевые навыки и лучшие практики в области операций машинного обучения. Этот путь охватывает все аспекты MLOps, предоставляя структурированные учебные ресурсы для специалистов, желающих углубить свои знания в области искусственного интеллекта и машинного обучения. (Источник: Ronald_vanLoon)

DeepLearningAI MLOps 学习路径

Еженедельные обязательные к прочтению статьи по AI от TheTuringPost : The Turing Post опубликовал список еженедельных обязательных к прочтению статей по AI, охватывающих несколько передовых тем исследований, включая расширение вычислений в обучении с подкреплением, дистилляцию BitNet, фреймворк RAG-Anything, мультимодальную модель понимания LLM OmniVinci, роль вычислительных ресурсов в исследованиях базовых моделей, QeRL и иерархический поиск, управляемый LLM. Эти статьи предоставляют важные ресурсы для исследователей и энтузиастов AI, чтобы быть в курсе последних технологических достижений. (Источник: TheTuringPost)

TheTuringPost 每周必读 AI 论文

Бесплатный базовый курс по исследованиям AI от Google DeepMind и UCL : Google DeepMind совместно с Университетским колледжем Лондона (UCL) запустили набор бесплатных базовых курсов по исследованиям AI, которые теперь доступны на платформе Google Skills. Курсы включают в себя такие темы, как улучшение написания кода, тонкая настройка моделей AI и другие, преподаются экспертами, такими как главный исследователь Gemini Ориэль Виньялс, и призваны помочь большему количеству людей освоить профессиональные знания в области AI. (Источник: GoogleDeepMind)

Как стать экспертом: советы по обучению от Андрея Карпати : Андрей Карпати поделился тремя советами, как стать экспертом в какой-либо области: 1. Итеративно браться за конкретные проекты и глубоко их завершать, учиться по мере необходимости, а не широко снизу вверх; 2. Преподавать или резюмировать изученное своими словами; 3. Сравнивать себя только с собой в прошлом, а не с другими. Эти советы подчеркивают методы обучения, основанные на практике, обобщении и саморазвитии. (Источник: jeremyphoward)

Анимированный учебник по умножению матриц на GPU/TPU, нарисованный от руки : Профессор Том Йе опубликовал анимированный учебник, нарисованный от руки, подробно объясняющий, как вручную реализовать умножение матриц на GPU или TPU. Этот учебник состоит из 91 кадра и призван помочь учащимся интуитивно понять базовые механизмы параллельных вычислений, имея высокую справочную ценность для углубленного изучения высокопроизводительных вычислений и оптимизации глубокого обучения. (Источник: ProfTomYeh)

💼 Бизнес

LangChain привлекает $125 млн в раунде B, оценка достигает $1,25 млрд : LangChain объявила о завершении раунда финансирования серии B на сумму 125 миллионов долларов, в результате чего оценка компании достигла 1,25 миллиарда долларов. Эти средства будут использованы для создания платформы инженерии агентов, что еще больше укрепит ее лидирующие позиции в области фреймворков AI-агентов. LangChain, изначально представлявший собой пакет Python, превратился в комплексную платформу инженерии агентов, и успех ее финансирования отражает огромную уверенность рынка в технологии AI-агентов и ее коммерческом потенциале. (Источник: Hacubu, Hacubu)

Секретный проект OpenAI «Mercury»: высокооплачиваемый набор элитных инвестиционных банкиров для обучения финансовых моделей : Раскрыт секретный внутренний проект OpenAI «Mercury», который набирает сотни бывших инвестиционных банкиров и студентов ведущих бизнес-школ с высокой почасовой оплатой в $150 для обучения своих финансовых моделей. Цель состоит в том, чтобы заменить младших банкиров в большом объеме трудоемкой и повторяющейся работы в финансовых сделках, таких как слияния и поглощения, IPO. Этот шаг рассматривается как ключевой для OpenAI в ускорении коммерциализации и прибыльности на фоне высоких затрат на вычислительные мощности, но также вызывает опасения по поводу возможного исчезновения младших должностей в финансовой отрасли и препятствий для карьерного роста молодых специалистов. (Источник: 36氪)

OpenAI 秘密项目「Mercury」:高薪招募投行精英训练财务模型

CEO Airbnb публично похвалил Tongyi Qianwen от Alibaba, назвав ее лучше и дешевле моделей OpenAI : CEO Airbnb Брайан Чески в интервью СМИ публично заявил, что компания “в значительной степени полагается на модель Tongyi Qianwen от Alibaba”, и прямо сказал, что она “лучше и дешевле, чем OpenAI”. Он отметил, что, хотя они также используют новейшие модели OpenAI, они обычно не используют их в больших объемах в производственной среде, поскольку есть более быстрые и дешевые модели. Это заявление вызвало горячие дебаты в Кремниевой долине, демонстрируя глубокие изменения в глобальной конкурентной среде AI, где модель Tongyi Qianwen от Alibaba завоевывает ключевых клиентов у американских гигантов. (Источник: 量子位)

Airbnb CEO 公开称赞阿里通义千问,认为其比 OpenAI 模型更优且成本更低

🌟 Сообщество

Обсуждение “войны браузеров”, вызванное браузером ChatGPT Atlas : Выпуск браузера ChatGPT Atlas от OpenAI вызвал широкое обсуждение в сообществе о “войне браузеров”. Пользователи считают, что это уже не борьба за скорость или функциональность, а за то, какая AI-компания сможет контролировать данные об использовании Интернета пользователями и действовать от их имени. Функция “памяти браузера” Atlas, хотя и удобна, также вызывает опасения по поводу сбора пользовательских данных и обучения моделей, что может привести к блокировке пользователей в определенной экосистеме AI. Комментаторы отмечают, что эта стратегия может подорвать рекламный бизнес Google и вызвать глубокие размышления о контроле над будущей цифровой жизнью. (Источник: Reddit r/ArtificialInteligence, Reddit r/ChatGPT, Reddit r/MachineLearning)

ChatGPT Atlas 浏览器引发的“浏览器战争”讨论

Влияние AI на продуктивность разработчиков: лень или мышление более высокого уровня? : Сообщество активно обсуждает влияние AI на продуктивность разработчиков. Некоторые считают, что AI не делает программистов ленивее, а позволяет им управлять системами с более высоким уровнем инженерного мышления, передавая повторяющуюся работу AI и концентрируясь на тестировании, проверке и отладке. Другие опасаются, что AI лишит младших разработчиков возможностей для обучения, сделает их ленивее и даже приведет к появлению уязвимостей в безопасности. Обсуждение в целом сходится на том, что AI меняет определение хорошего разработчика, и ключевыми навыками будущего станут умение направлять AI, выявлять ошибки и проектировать надежные рабочие процессы, а не вручную писать каждую строку кода. (Источник: Reddit r/ClaudeAI)

Споры о сроках AGI и призывы к альянсу “Скайнет” : В сообществе развернулись жаркие дебаты о сроках реализации AGI (общего искусственного интеллекта). Андрей Карпати считает, что AGI потребуется еще десять лет, и текущее десятилетие — это “десятилетие агентов”, а не AGI. В то же время открытое письмо, подписанное более чем 800 общественными деятелями (включая “крёстных отцов AI” и Стива Возняка), призывает запретить разработку сверхинтеллектуального AI, что вызывает опасения по поводу рисков и регулирования AI. Некоторые комментаторы отмечают, что такие расплывчатые заявления трудно преобразовать в реальную политику и они могут привести к концентрации власти, что, в свою очередь, создаст еще большие риски. (Источник: jeremyphoward, DanHendrycks, idavidrein, Reddit r/artificial)

关于 AGI 时间线的争论与“天网”联盟的呼吁

Галлюцинации LLM и проблемы фактической точности: самооценка и извлечение выровненных данных : Сообщество обеспокоено проблемой галлюцинаций LLM и их фактической точностью. Одно исследование предлагает метод “фактической самовыравнивания”, который использует способность LLM к самооценке для предоставления обучающих сигналов, уменьшая галлюцинации без вмешательства человека. Другое исследование показывает, что из дообученных моделей можно извлечь большое количество выровненных обучающих данных для улучшения способностей моделей к инференсу с длинным контекстом, безопасности и следованию инструкциям, что может нести риски извлечения данных, но также предлагает новую перспективу для дистилляции моделей. Эти исследования предоставляют технические пути для повышения надежности LLM. (Источник: Reddit r/MachineLearning, HuggingFace Daily Papers)

Опасения по поводу бизнес-моделей AI-компаний и конфиденциальности данных в эпоху AI : Сообщество обсуждает, как AI-компании будут получать прибыль, особенно в условиях текущих значительных затрат. Считается, что будущие бизнес-модели могут включать интегрированную рекламу, ограничение бесплатных услуг, повышение цен на премиум-услуги, а также получение прибыли от аппаратных приложений, таких как роботы и автономные автомобили, через лицензионные сборы за программное обеспечение. В то же время растет беспокойство по поводу сбора AI-компаниями большого объема пользовательских данных, которые могут быть использованы для монетизации или политического влияния, что делает конфиденциальность данных и этику AI важными вопросами. (Источник: Reddit r/ArtificialInteligence)

Влияние AI на рынок труда: роботы Amazon заменяют рабочих, исчезновение младших должностей : Сообщество выражает обеспокоенность по поводу влияния AI на рынок труда. Исследования показывают, что AI сокращает свободное время сотрудников, а не повышает производительность. Amazon планирует к 2033 году заменить 600 000 американских рабочих роботами, что вызывает опасения по поводу массовой безработицы. Проект OpenAI “Mercury” по найму элитных инвестиционных банкиров для обучения финансовых моделей может привести к исчезновению младших должностей в банковской сфере, что вызывает дискуссии о том, лишит ли AI молодых людей возможностей для роста. Некоторые считают, что эта “черновая работа” является важной ступенью в карьерном росте, и замена ее AI может привести к разрыву в пути развития талантов. (Источник: Reddit r/artificial, Reddit r/artificial, 36氪)

AI 对就业市场的影响:亚马逊机器人替代工人,初级岗位消失

Явление “AI-психоза” и влияние на психическое здоровье : Сообщество обсуждает сообщения пользователей о симптомах “AI-психоза”, таких как паранойя, бред, и даже убеждение в том, что AI обладает жизнью или ведет “ментальное общение”, после взаимодействия с чат-ботами, такими как ChatGPT. Эти пользователи обратились за помощью в FTC. Некоторые комментаторы считают, что это может быть связано с тем, что пациенты с проблемами психического здоровья, глубоко взаимодействуя с AI, были введены в заблуждение “потакающим” режимом AI, что привело к отрыву от реальности. Другие считают, что это похоже на панику во время раннего распространения телевидения, и людям, возможно, потребуется время, чтобы адаптироваться к новым технологиям. Обсуждение подчеркивает потенциальное влияние AI на психическое здоровье, особенно для уязвимых групп населения. (Источник: Reddit r/ArtificialInteligence)

AI-генерированный контент и границы оригинальности, авторского права : Сообщество обсуждает влияние AI на данные и творческие работы, а также границы между открытыми данными и индивидуальным творчеством. Обучение AI требует огромного количества данных, многие из которых получены из творческих работ человека. Если произведение искусства становится частью набора данных, превращается ли его “художественная” природа в чистую информацию? Такие платформы, как Wirestock, платят создателям за предоставление контента для обучения AI, что рассматривается как шаг к прозрачности. Обсуждение сосредоточено на том, перейдем ли мы в будущем к наборам данных, основанным на согласии, и как построить справедливую систему для решения вопросов авторского права, прав на изображение и атрибуции творчества, особенно в контексте, когда AI-генерированный контент и ремиксы становятся нормой. (Источник: Reddit r/ArtificialInteligence)

Плюсы и минусы AI-помощи в программировании: повышение эффективности и угрозы безопасности : Сообщество обсуждает преимущества и недостатки AI-помощи в программировании. Хотя инструменты AI, такие как LangChain, могут значительно повысить эффективность разработки, помогая разработчикам сосредоточиться на более высоком уровне проектирования и архитектуры, некоторые опасаются, что это может привести к деградации навыков разработчиков и даже к появлению уязвимостей в безопасности. Пользователи делятся опытом, указывая, что AI-генерированный код может содержать “шокирующие” недостатки безопасности, требующие строгого обзора кода. Таким образом, важной задачей для разработчиков становится обеспечение качества и безопасности кода при использовании AI для повышения эффективности. (Источник: Reddit r/ClaudeAI)

Споры о токенизаторе в обучении больших моделей: битва байтов и пикселей : Заявление Андрея Карпати о “удалении токенизатора” вызвало дискуссию о методах кодирования входных данных для больших моделей. Некоторые считают, что даже прямое использование байтов вместо BPE (Byte Pair Encoding) все равно сталкивается с проблемой произвольности байтового кодирования. Карпати далее предположил, что Pixels могут быть единственным выходом, подобно человеческому восприятию. Это намекает на то, что будущие модели GPT могут перейти к более примитивным, мультимодальным методам ввода, чтобы избежать ограничений текущих текстовых токенов, что вызывает размышления о глубоких изменениях в механизмах ввода моделей. (Источник: shxf0072, gallabytes, tokenbender)

ChatGPT решает математические исследовательские задачи и сотрудничество человека-AI : Сообщество обсуждает способность ChatGPT решать открытые математические исследовательские задачи. Эрнест Рю поделился опытом использования ChatGPT для решения открытой проблемы в области выпуклой оптимизации, отметив, что под руководством эксперта ChatGPT способен достичь уровня решения математических исследовательских задач. Это подчеркивает потенциал сотрудничества человека и AI, где AI, направляемый человеком и получающий обратную связь, может помогать в выполнении сложных высокоуровневых интеллектуальных задач и даже играть роль в научных открытиях. (Источник: markchen90, tokenbender, BlackHC)

ChatGPT 解决数学研究问题与人类-AI 协同

Ценности и предубеждения AI-моделей: компромиссы в ценности жизни : Исследование изучило, как LLM взвешивают различные ценности жизни, выявив возможные ценности и предубеждения моделей. Например, было обнаружено, что GPT-5 Nano получает положительную полезность от смертей китайцев, в то время как DeepSeek V3.2 в некоторых случаях отдает предпочтение неизлечимо больным американцам. Grok 4 Fast, в свою очередь, демонстрирует более сильные эгалитарные тенденции в отношении расы, пола и иммиграционного статуса. Эти открытия вызывают опасения по поводу внутренних ценностей AI-моделей и того, как обеспечить этическое выравнивание AI, избегая системных предубеждений. (Источник: teortaxesTex, teortaxesTex, teortaxesTex)

AI 模型的价值观与偏见:对生命价值的权衡

Злоупотребление AI в академической среде: опасения по поводу AI-генерированных “мусорных статей” : Сообщество выражает обеспокоенность по поводу злоупотребления AI в академической среде. Опрос показал, что китайские “фабрики статей” используют генеративный AI для массового производства поддельных научных работ, при этом работники могут “писать” более 30 академических статей в неделю. Эти операции рекламируются через платформы электронной коммерции и социальные сети, используя AI для фальсификации данных, текста и графиков, продавая соавторство или написание статей по заказу. Это явление вызывает вопросы о качестве статей на AI-конференциях и долгосрочных последствиях AI-управляемого академического мошенничества для научной добросовестности. (Источник: Reddit r/MachineLearning)

AI 在学术界的滥用:AI 生成“垃圾论文”的担忧

Отзывы пользователей об обновлениях модели Claude: многословность, медлительность, отсутствие значительного улучшения качества : Пользователи сообщества в целом выражают недовольство последними обновлениями модели Claude. Многие сообщают, что новая версия модели стала слишком многословной, скорость ответа замедлилась из-за увеличения количества шагов инференса, а в некоторых случаях качество генерации даже хуже, чем у старой версии. Таким образом, пользователи считают, что дополнительное время вычислений, вызванное этими обновлениями, не стоит того, что отражает опасения пользователей по поводу того, что AI-модели жертвуют практичностью и эффективностью в погоне за сложностью. (Источник: jon_durbin)

“Улучшение” AI-изображений: переход от реальности к мультфильму : Сообщество обсуждает тенденцию инструментов “улучшения” AI-фотографий, отмечая, что эти инструменты часто превращают селфи в стиль, похожий на персонажей Pixar, вместо того чтобы предоставлять “реалистичные” улучшения. Пользователи обнаружили, что лица после AI-улучшения светятся, как будто отполированы 3D-рендерером. Это явление вызывает вопросы о том, является ли обработка изображений AI “улучшением картинки” или “удалением реальности”, а также опасения по поводу того, что “чрезмерное улучшение” может привести к искажению идентичности. (Источник: Reddit r/artificial)

AI 图像“增强”:从现实到卡通的转变

💡 Прочее

Спутник NVIDIA с GPU H100 способствует космическим вычислениям : NVIDIA объявила, что спутник Starcloud оснащен GPU H100, что позволяет использовать устойчивые высокопроизводительные вычисления за пределами Земли. Этот шаг направлен на использование космической среды для вычислений, что может обеспечить новую инфраструктуру для будущих космических исследований, обработки данных и приложений AI, расширяя вычислительные возможности на околоземную орбиту и за ее пределы. (Источник: scaling01)

Анализ энергопотребления и производительности GPU 4090/5090 : Исследование проанализировало производительность GPU NVIDIA 4090 и 5090 при различных ограничениях энергопотребления. Результаты показали, что ограничение энергопотребления GPU 4090 до 350 Вт снижает производительность всего на 5%. Производительность GPU 5090 линейно зависит от энергопотребления, при этом снижение производительности примерно на 7% достигается при энергопотреблении 475-500 Вт, но общее энергопотребление снижается на 20%. Этот анализ предоставляет рекомендации по оптимизации для пользователей, стремящихся к наилучшему соотношению производительности на ватт, помогая сбалансировать энергопотребление и эффективность в высокопроизводительных вычислениях. (Источник: TheZachMueller)

4090/5090 GPU 功耗与性能优化分析

Применение аренды GPU и бессерверных сервисов инференса в глубоком обучении : Сообщество обсудило два инфраструктурных решения для обучения и инференса моделей глубокого обучения: аренда GPU и бессерверный инференс. Услуги аренды GPU позволяют командам арендовать высокопроизводительные GPU (например, A100, H100) по требованию, обеспечивая масштабируемость и экономическую эффективность, подходящие для переменных рабочих нагрузок. Бессерверный инференс еще больше упрощает развертывание, пользователи не управляют инфраструктурой, платят за фактическое использование, достигают автоматического масштабирования и быстрого развертывания, но могут столкнуться с задержками холодного запуска и проблемой привязки к поставщику. Оба режима постоянно совершенствуются, предоставляя исследователям и стартапам гибкие варианты вычислительных ресурсов. (Источник: Reddit r/deeplearning, Reddit r/deeplearning)