Ключевые слова:Квантовые вычисления, Центры обработки данных ИИ, Возобновляемые источники энергии, Большие языковые модели, Агенты ИИ, Обучение с подкреплением, Мультимодальный ИИ, Выравнивание ИИ, Квантовое превосходство, Микросети с переработкой аккумуляторов, Умные ветряные турбины, GPT-5 Pro, Тонкая настройка эволюционных стратегий
🔥 В центре внимания
Нобелевская премия по физике 2025 года присуждена пионерам квантовых вычислений: Нобелевская премия по физике 2025 года присуждена John Clarke, Michel H. Devoret и John M. Martinis за открытие макроскопического квантово-механического туннелирования и квантования энергии в электрических цепях. John M. Martinis ранее был главным научным сотрудником лаборатории квантового AI Google, и его команда в 2019 году впервые достигла «квантового превосходства» с помощью 53-кубитного процессора, превзойдя по скорости вычислений самый мощный на тот момент классический суперкомпьютер, что заложило основу для квантовых вычислений и будущего развития AI. Эта прорывная работа ознаменовала переход квантовых вычислений от теории к практике и имеет глубокое влияние на повышение базовой вычислительной мощности AI. (Источник: 量子位)

Redwood Materials использует AI-микросети для питания дата-центров: Redwood Materials, ведущая американская компания по переработке аккумуляторов, интегрирует переработанные аккумуляторы электромобилей в микросети для обеспечения энергией AI-дата-центров. В условиях растущего спроса на электроэнергию со стороны AI, это решение позволяет быстро удовлетворять потребности дата-центров с помощью возобновляемых источников энергии, одновременно снижая нагрузку на существующие электросети. Этот шаг не только обеспечивает повторное использование отработанных аккумуляторов, но и предлагает более устойчивое энергетическое решение для развития AI, что, как ожидается, поможет снизить экологическое давление, вызванное ростом вычислительной мощности AI. (Источник: MIT Technology Review)

«Умные» ветряные турбины Envision Energy способствуют декарбонизации промышленности: Envision Energy, ведущий китайский производитель ветряных турбин, использует технологию AI для разработки «умных» ветряных турбин, которые генерируют примерно на 15% больше электроэнергии, чем традиционные модели. Компания также применяет AI в своих промышленных парках, используя энергию ветра и солнца для производства аккумуляторов, ветряных турбин и зеленого водорода, стремясь к полной декарбонизации секторов тяжелой промышленности. Это демонстрирует ключевую роль AI в повышении эффективности возобновляемых источников энергии и содействии зеленой трансформации промышленности, внося вклад в глобальные климатические цели. (Источник: MIT Technology Review)

Передовые геотермальные электростанции Fervo Energy обеспечивают стабильное электроснабжение AI-дата-центров: Fervo Energy разрабатывает передовые геотермальные системы, использующие гидроразрыв пласта и горизонтальное бурение, способные круглосуточно получать чистую геотермальную энергию из глубоких подземных источников. Ее Project Red в Неваде уже обеспечивает электроэнергией дата-центр Google, и компания планирует построить крупнейшую в мире усовершенствованную геотермальную электростанцию в Юте. Стабильность геотермальной энергии делает ее идеальным выбором для удовлетворения растущих потребностей AI-дата-центров в электроэнергии, способствуя достижению углеродно-нейтрального электроснабжения по всему миру. (Источник: MIT Technology Review)

Ядерные реакторы нового поколения Kairos Power удовлетворяют энергетические потребности AI-дата-центров: Kairos Power разрабатывает малые модульные ядерные реакторы с жидкосолевым охлаждением, предназначенные для обеспечения безопасной, круглосуточной и безуглеродной электроэнергии. Прототип уже строится и получил лицензию на коммерческий реактор. Эта технология ядерного деления обещает обеспечить стабильное электроснабжение по стоимости, сравнимой с газовыми электростанциями, что особенно подходит для таких объектов, как AI-дата-центры, которым требуется непрерывное питание для удовлетворения их быстро растущего энергопотребления, избегая при этом выбросов углерода. (Источник: MIT Technology Review)

🎯 Тенденции
OpenAI на Дне разработчиков представила Apps SDK, AgentKit и GPT-5 Pro: OpenAI на Дне разработчиков анонсировала ряд значительных обновлений, включая Apps SDK, AgentKit, Codex GA, GPT-5 Pro и Sora 2 API. Число пользователей ChatGPT превысило 800 миллионов, количество разработчиков достигло 4 миллионов, а каждую минуту обрабатывается 6 миллиардов Token. Apps SDK призван превратить ChatGPT в интерфейс по умолчанию для всех приложений, сделав его новой операционной системой. AgentKit предоставляет инструменты для создания, развертывания и оптимизации AI-агентов. Codex GA официально выпущен и значительно повысил эффективность разработки для внутренних инженеров OpenAI. Запуск GPT-5 Pro и Sora 2 API еще больше расширяет возможности OpenAI в области генерации текста и видео. (Источник: Smol_AI, reach_vb, Yuchenj_UW, SebastienBubeck, TheRundownAI, Reddit r/artificial, Reddit r/artificial, Reddit r/ChatGPT)

IBM выпустила большую модель Granite 4.0 с гибридной архитектурой: IBM представила серию больших моделей Granite 4.0, включающую модели MoE (Mixture of Experts) и Dense (плотные), среди которых серия «h» (например, granite-4.0-h-small-32B-A9B) использует гибридную архитектуру Mamba/Transformer. Эта новая архитектура призвана повысить эффективность обработки длинных текстов, значительно снизить требования к памяти более чем на 70% и работать на более экономичных GPU. Хотя тесты показали, что после 100K Token может наблюдаться путаница в выводе, ее потенциал в архитектурных инновациях и экономической эффективности заслуживает внимания. (Источник: karminski3)

Anthropic открывает исходный код AI-агента для аудита выравнивания Petri: Anthropic выпустила открытую версию своего внутреннего AI-агента для аудита выравнивания Petri. Этот инструмент используется для автоматического аудита поведения AI, такого как лесть и обман, и играет роль в тестах выравнивания Claude Sonnet 4.5. Открытие исходного кода Petri призвано способствовать прогрессу в аудите выравнивания, помогая сообществу лучше оценивать степень выравнивания AI и повышать безопасность и надежность AI-систем. (Источник: sleepinyourhat)

Большая модель Tencent Hunyuan-Vision-1.5-Thinking занимает третье место в визуальном рейтинге: Большая модель Tencent Hunyuan-Vision-1.5-Thinking заняла третье место в визуальном рейтинге LMArena, став лучшей моделью из Китая. Это свидетельствует о значительном прогрессе отечественных больших моделей в области мультимодального AI, способных эффективно извлекать информацию из изображений и делать выводы. Пользователи могут опробовать эту модель в LMArena Direct Chat, что будет способствовать дальнейшему развитию и применению технологий визуального AI. (Источник: arena)

Deepgram выпустила новую модель транскрипции Flux с низкой задержкой: Deepgram выпустила совершенно новую модель транскрипции Flux, которая стала доступна бесплатно в октябре. Flux предназначена для обеспечения сверхнизкой задержки транскрипции речи, что критически важно для разговорных голосовых агентов; окончательная транскрипция может быть завершена в течение 300 миллисекунд после того, как пользователь перестанет говорить. Flux также имеет встроенную функцию обнаружения смены говорящего, что еще больше улучшает пользовательский опыт голосовых агентов, предвещая развитие технологий распознавания речи в направлении более эффективного и естественного взаимодействия. (Источник: deepgramscott)

OpenAI Codex ускоряет внутреннюю разработку: Инженеры OpenAI широко используют Codex, его использование выросло с 50% до 92%, и почти все проверки кода выполняются через Codex. Команда OpenAI API сообщила, что новый Agent Builder с функцией перетаскивания был создан от начала до конца менее чем за шесть недель, при этом 80% PR были написаны Codex. Это показывает, что AI-помощники по кодированию стали ключевым компонентом внутреннего процесса разработки OpenAI, значительно повысив скорость и эффективность разработки. (Источник: gdb, Reddit r/artificial)

GLM4.6 превосходит Gemini 2.5 Pro в Agentic-рабочих процессах: Последние оценки показывают, что GLM4.6 отлично показал себя в оценке Terminal-Bench Hard для Agentic-рабочих процессов, таких как Agentic-кодирование и использование терминала, превзойдя Gemini 2.5 Pro и став лидером среди моделей с открытым исходным кодом. GLM4.6 демонстрирует выдающиеся результаты в следовании инструкциям, понимании нюансов анализа данных и избегании субъективных суждений, особенно подходя для задач NLP, требующих точного контроля над процессом вывода. При сохранении высокой производительности, использование выходных Token сократилось на 14%, что демонстрирует более высокую интеллектуальную эффективность. (Источник: hardmaru, clefourrier, bookwormengr, ClementDelangue, stanfordnlp, Reddit r/LocalLLaMA)

xAI планирует построить крупный дата-центр в Мемфисе: Компания xAI Илона Маска планирует построить крупномасштабный дата-центр в Мемфисе для поддержки своего AI-бизнеса. Этот шаг отражает огромную потребность AI в вычислительной инфраструктуре, и дата-центры становятся новым фокусом конкуренции среди технологических гигантов. Однако это также вызывает опасения у местных жителей по поводу энергопотребления и воздействия на окружающую среду, подчеркивая проблемы, связанные с расширением AI-инфраструктуры. (Источник: MIT Technology Review, TheRundownAI)

AI-ошейники для коров позволяют «разговаривать с коровами»: Появляется волна высокотехнологичных AI-ошейников для коров, что считается самым близким способом «разговора с коровами» на данный момент. Эти умные ошейники анализируют поведение и физиологические данные коров с помощью AI, помогая фермерам лучше понимать здоровье и потребности животных, тем самым оптимизируя управление животноводством. Это демонстрирует инновационное применение AI в сельском хозяйстве, которое, как ожидается, повысит эффективность и устойчивость животноводства. (Источник: MIT Technology Review)
AI-система обнаружения дипфейков достигает прогресса в университетской команде: Команда Университета Reva разработала AI-детектор дипфейков под названием «AI-driven Real-time Deepfake Detection System», использующий архитектуру Multiscale Vision Transformer (MVITv2), который достиг точности верификации 83,96% в распознавании поддельных изображений. Система доступна через расширение для браузера и Telegram-бота, а также имеет функцию обратного поиска изображений. Команда планирует расширить ее функциональность, включив обнаружение контента, сгенерированного AI, такого как DALL·E, Midjourney, и внедрить объяснимую AI-визуализацию для борьбы с проблемой ложной информации, генерируемой AI. (Источник: Reddit r/deeplearning)
Kani-tts-370m: легкая модель преобразования текста в речь с открытым исходным кодом: На HuggingFace была выпущена легкая модель преобразования текста в речь с открытым исходным кодом под названием kani-tts-370m. Эта модель, построенная на базе LFM2-350M, имеет 370M параметров, способна генерировать естественную и выразительную речь и поддерживает быструю работу на потребительских GPU. Ее эффективность и высокое качество делают ее идеальным выбором для приложений преобразования текста в речь в условиях ограниченных ресурсов, способствуя развитию технологий TTS с открытым исходным кодом. (Источник: maximelabonne)
LiquidAI выпустила модель Smol MoE LFM2-8B-A1B: LiquidAI выпустила модель Smol MoE (Small-scale Mixture of Experts) LFM2-8B-A1B, что знаменует собой еще один прогресс в области малых эффективных AI-моделей. Smol MoE призвана обеспечить высокую производительность при снижении требований к вычислительным ресурсам, что упрощает ее развертывание и применение. Это отражает постоянное внимание AI-сообщества к оптимизации эффективности и доступности моделей, предвещая появление большего количества миниатюрных, высокопроизводительных AI-моделей. (Источник: TheZachMueller)

🧰 Инструменты
OpenAI Agents SDK: легкий фреймворк для создания многоагентных рабочих процессов: OpenAI выпустила Agents SDK, легкий, но мощный Python-фреймворк для создания многоагентных рабочих процессов. Он поддерживает OpenAI и более 100 других LLM, а его основные концепции включают агентов (Agent), передачу (Handoffs), ограждения (Guardrails), сессии (Sessions) и трассировку (Tracing). SDK призван упростить разработку, отладку и оптимизацию сложных AI-рабочих процессов, предоставляя встроенную память сессий и интеграцию с Temporal для поддержки длительных рабочих процессов. (Источник: openai/openai-agents-python)
Code4MeV2: платформа для исследования автодополнения кода: Code4MeV2 — это открытый, ориентированный на исследования плагин JetBrains IDE для автодополнения кода, призванный решить проблему проприетарности данных взаимодействия пользователей с инструментами автодополнения кода AI. Он использует клиент-серверную архитектуру, предоставляет встроенное автодополнение кода и контекстно-зависимого чат-помощника, а также имеет модульную, прозрачную структуру сбора данных, позволяющую исследователям точно контролировать телеметрию и сбор контекста. Инструмент достигает сопоставимой с отраслевыми стандартами производительности автодополнения кода со средней задержкой 200 миллисекунд, предоставляя воспроизводимую платформу для исследований взаимодействия человека и AI. (Источник: HuggingFace Daily Papers)
SurfSense: открытый AI-агент для исследований, аналог Perplexity: SurfSense — это высоконастраиваемый AI-агент для исследований с открытым исходным кодом, призванный стать открытой альтернативой NotebookLM, Perplexity или Glean. Он может подключаться к внешним ресурсам пользователя и поисковым системам (таким как Tavily, LinkUp), а также к более чем 15 внешним источникам, включая Slack, Linear, Jira, Notion, Gmail, и поддерживает более 100 LLM и более 6000 моделей встраивания. SurfSense сохраняет динамические веб-страницы через расширение для браузера и планирует запустить функции, объединяющие ментальные карты, управление заметками и многопользовательские блокноты, предоставляя мощный инструмент с открытым исходным кодом для AI-исследований. (Источник: Reddit r/LocalLLaMA)

Aeroplanar: 3D-AI-веб-редактор начинает закрытое бета-тестирование: Aeroplanar — это 3D-AI-веб-редактор, работающий в браузере и призванный упростить творческий процесс от 3D-моделирования до сложной визуализации. Платформа ускоряет творческие процессы благодаря мощному и интуитивно понятному AI-интерфейсу и в настоящее время проходит закрытое бета-тестирование. Ожидается, что она предоставит дизайнерам и разработчикам более эффективный опыт создания и редактирования 3D-контента. (Источник: Reddit r/deeplearning)

Horace: измерение ритма и неожиданности прозы LLM для улучшения качества письма: Для решения проблемы «безвкусности» текста, генерируемого LLM, был разработан инструмент Horace, призванный направлять модель к лучшему письму путем измерения ритма и неожиданности прозы. Инструмент анализирует ритм текста и неожиданные элементы, предоставляя LLM обратную связь, которая помогает ему создавать более литературный и привлекательный контент. Это предлагает новый взгляд и метод для повышения творческих способностей LLM в письме. (Источник: paul_cal, cHHillee)

Hugging Face поддерживает прямое редактирование метаданных GGUF: Платформа Hugging Face добавила новую функцию, позволяющую пользователям напрямую редактировать метаданные моделей GGUF без необходимости загружать модель локально для изменения. Это улучшение значительно упрощает процессы управления и обслуживания моделей, повышая эффективность работы разработчиков, особенно при работе с большим количеством моделей, позволяя более удобно обновлять и управлять информацией о моделях. (Источник: ggerganov)

Расширение Claude VS Code обеспечивает превосходный опыт разработки: Несмотря на недавние споры вокруг модели Claude от Anthropic, ее новое расширение VS Code получило положительные отзывы пользователей. Пользователи отмечают отличный интерфейс расширения, которое в сочетании с моделями Sonnet 4.5 и Opus демонстрирует выдающуюся производительность в задачах разработки, а ограничение Token при подписке за 100 долларов ощущается меньше. Это свидетельствует о том, что Claude по-прежнему может предоставлять эффективный и удовлетворительный опыт AI-помощи в программировании в определенных сценариях разработки. (Источник: Reddit r/ClaudeAI)
Copilot Vision улучшает внутриприкладной опыт с помощью визуальных подсказок: Copilot Vision продемонстрировал свою практичность в Windows, помогая пользователям находить нужные функции в незнакомых приложениях с помощью визуальных подсказок. Например, если пользователь сталкивается с трудностями при редактировании видео в Filmora, Copilot Vision может напрямую подсказать ему, как найти правильную функцию редактирования, тем самым поддерживая непрерывность рабочего процесса. Это демонстрирует потенциал AI-визуальных помощников в улучшении пользовательского опыта и удобства использования приложений, уменьшая трудности, с которыми сталкиваются пользователи при освоении новых инструментов. (Источник: yusuf_i_mehdi)
📚 Обучение
Эволюционные стратегии (ES) превосходят методы обучения с подкреплением в тонкой настройке LLM: Новое исследование показывает, что эволюционные стратегии (ES) как масштабируемый фреймворк могут достичь полной параметрической тонкой настройки LLM путем прямого исследования в пространстве параметров, а не в пространстве действий. По сравнению с традиционными методами обучения с подкреплением, такими как PPO и GRPO, ES демонстрирует более точные, эффективные и стабильные результаты тонкой настройки во многих конфигурациях моделей. Это открывает новые направления для выравнивания и оптимизации производительности LLM, особенно при решении сложных, невыпуклых задач оптимизации. (Источник: dilipkay, hardmaru, YejinChoinka, menhguin, farguney)
Tiny Recursion Model (TRM) превосходит LLM с меньшим количеством параметров: Новое исследование предлагает Tiny Recursion Model (TRM) — метод рекурсивного вывода, который использует нейронную сеть всего с 7M параметрами, но достигает 45% на ARC-AGI-1 и 8% на ARC-AGI-2, превосходя большинство больших языковых моделей. TRM демонстрирует мощные способности к решению проблем при чрезвычайно малом размере модели благодаря рекурсивному выводу, бросая вызов традиционному представлению «больше моделей — лучше» и предлагая новые идеи для разработки более эффективных и легких AI-систем вывода. (Источник: _lewtun, AymericRoucher, k_schuerholt, tokenbender, Dorialexander)

Nvidia предлагает RLP: обучение с подкреплением как цель предварительного обучения: Nvidia опубликовала исследование RLP (Reinforcement as a Pretraining Objective), целью которого является обучение LLM «мыслить» на этапе предварительного обучения. Традиционные LLM сначала предсказывают, а затем мыслят, тогда как RLP рассматривает цепочку мыслей как действия, вознаграждая за прирост информации, предоставляя плотный и стабильный сигнал без валидатора. Результаты экспериментов показывают, что RLP значительно улучшает производительность модели на математических и научных бенчмарках, например, Qwen3-1.7B-Base в среднем улучшается на 24%, а Nemotron-Nano-12B-Base — на 43%. (Источник: YejinChoinka)

Andrew Ng запускает курс Agentic AI: Профессор Andrew Ng запустил свой курс Agentic AI, который теперь доступен по всему миру. Курс призван научить проектировать и оценивать AI-системы, способные планировать, размышлять и сотрудничать в многошаговых процессах, а также реализовывать их на чистом Python. Это предоставляет ценный учебный ресурс для разработчиков и исследователей, желающих глубоко изучить и создавать AI-агентов производственного уровня, способствуя развитию технологий AI-агентов в практических приложениях. (Источник: DeepLearningAI)
Многоагентным AI-системам необходима инфраструктура общей памяти: Исследование указывает, что инфраструктура общей памяти имеет решающее значение для эффективной координации и предотвращения сбоев в многоагентных AI-системах. В отличие от безстатусных независимых агентов, системы с общей памятью могут лучше управлять историей диалогов и координировать действия, тем самым повышая общую производительность и надежность. Это подчеркивает важность инженерии памяти при проектировании и создании сложных AI-агентных систем. (Источник: dl_weekly)
LLMSQL: обновление WikiSQL для эпохи LLM в Text-to-SQL: LLMSQL — это систематическая доработка и преобразование набора данных WikiSQL, призванная адаптировать его к задачам Text-to-SQL в эпоху LLM. Оригинальный WikiSQL имел проблемы со структурой и аннотациями, которые LLMSQL решает путем классификации ошибок и применения методов автоматической очистки и переаннотирования. LLMSQL предоставляет чистые вопросы на естественном языке и полные тексты SQL-запросов, что позволяет современным LLM более прямолинейно генерировать и оценивать, тем самым способствуя прогрессу в исследованиях Text-to-SQL. (Источник: HuggingFace Daily Papers)
Проблемы Transformer-моделей с многозначным умножением: Исследование изучает, почему Transformer-модели с трудом обучаются умножению, даже модели с миллиардами параметров по-прежнему испытывают трудности с многозначным умножением. Исследование анализирует модели стандартной тонкой настройки (SFT) и неявной цепочки мыслей (ICoT) с помощью обратного инжиниринга, чтобы выявить глубинные причины. Это предоставляет ключевые сведения для понимания ограничений вывода LLM и может направить будущие улучшения архитектуры моделей для лучшей обработки символьных и математических задач вывода. (Источник: VictorTaelin)

Прогнозное управление генеративными моделями: рассмотрение выборки диффузионных моделей как управляемого процесса: Исследование рассматривает возможность рассмотрения выборки диффузионных или потоковых моделей как управляемого процесса и использования модельно-предиктивного управления (MPC) или модельно-предиктивного интеграла по траекториям (MPPI) для управления процессом генерации. Этот подход обобщает свободное управление классификатором на векторно-значные, зависящие от времени входные данные, точно контролируя генерацию путем определения поэтапных затрат, таких как семантическое выравнивание, реалистичность и безопасность. Концептуально это связывает диффузионные модели с мостом Шредингера и управлением интегралом по траекториям, предоставляя математически элегантный и интуитивно понятный фреймворк для более тонкого контроля генерации. (Источник: Reddit r/MachineLearning)
Оптимизация RAG-систем: за пределами простого разбиения на чанки, акцент на архитектуре и продвинутых стратегиях: В ответ на распространенные проблемы RAG-систем, такие как извлечение нерелевантной информации и галлюцинации, эксперты подчеркивают необходимость выйти за рамки простой стратегии «разбиения на чанки по 500 Token» и сосредоточиться на архитектуре RAG и продвинутых методах разбиения. Рекомендуемые стратегии включают рекурсивное разбиение, разбиение на основе документов, семантическое разбиение, разбиение LLM и Agentic-разбиение. В то же время исследование REFRAG от Meta значительно улучшило TTFT и TTIT, передавая векторы напрямую в LLM, что указывает на растущую важность систем баз данных в выводе LLM, и, возможно, наступает «второе лето» векторных баз данных. (Источник: bobvanluijt, bobvanluijt)

Meta представила прорывную технологию REFRAG для ускорения вывода LLM: Технология REFRAG, выпущенная Meta Superintelligence Labs, считается значительным прорывом в области векторных баз данных. REFRAG, умело сочетая контекстные векторы с генерацией LLM, ускоряет TTFT (время генерации первого Token) в 31 раз, TTIT (время генерации итеративного Token) в 3 раза, увеличивает общую пропускную способность LLM в 7 раз и может обрабатывать более длинные входные контексты. Эта технология значительно повышает эффективность вывода LLM, передавая LLM извлеченные векторы, а не только текстовое содержимое, и сочетая тонкое кодирование чанков с четырехэтапным алгоритмом обучения. (Источник: bobvanluijt, bobvanluijt)

Сравнение предварительного обучения с подкреплением (RLP) и DAGGER: Что касается выбора между SFT+RLHF и многошаговым SFT (например, DAGGER) в обучении LLM, эксперты отмечают, что RLHF помогает модели понять «хорошее и плохое» через функцию ценности, что делает ее более устойчивой к незнакомым ситуациям. DAGGER же больше подходит для имитационного обучения с четко определенной экспертной стратегией. Характеристики обучения предпочтениям RLHF более выгодны для задач генерации языка, которые сильно субъективны, и могут естественным образом обрабатывать компромисс между исследованием и использованием. Однако методы в стиле DAGGER в области LLM еще предстоит исследовать, особенно для более структурированных задач. (Источник: Reddit r/MachineLearning)
Reinforce-Ada исправляет проблему сбоя сигнала GRPO: Reinforce-Ada — это новый метод обучения с подкреплением, разработанный для исправления проблемы сбоя сигнала в GRPO (Generalized Policy Gradient). Устраняя слепую передискретизацию и недействительные обновления, Reinforce-Ada способен генерировать более резкие градиенты, более быструю сходимость и более сильные модели. Эта технология, благодаря простой интеграции в одну строку кода, обеспечивает практическое повышение стабильности и эффективности обучения с подкреплением, помогая оптимизировать процесс тонкой настройки LLM. (Источник: arankomatsuzaki)

MITS: улучшение древовидного поиска LLM с помощью взаимной точечной информации: Mutual Information Tree Search (MITS) — это новый фреймворк, который руководствуется принципами теории информации для вывода LLM. MITS вводит эффективную функцию оценки, основанную на взаимной точечной информации (PMI), для поэтапной оценки путей вывода и расширения дерева поиска с помощью лучевого поиска, без дорогостоящего предварительного моделирования. Этот метод значительно повышает производительность вывода при сохранении вычислительной эффективности. MITS также сочетает динамическую стратегию выборки на основе энтропии и механизм взвешенного голосования, постоянно превосходя базовые методы в нескольких бенчмарках вывода, предоставляя эффективный и принципиальный фреймворк для вывода LLM. (Источник: HuggingFace Daily Papers)
Graph2Eval: автоматическая генерация мультимодальных Agent-задач на основе графов знаний: Graph2Eval — это фреймворк, основанный на графах знаний, который автоматически генерирует мультимодальные задачи понимания документов и сетевого взаимодействия для всесторонней оценки способностей LLM-driven Agent к рассуждению, сотрудничеству и взаимодействию. Путем преобразования семантических отношений в структурированные задачи и комбинирования многоступенчатой фильтрации, набор данных Graph2Eval-Bench содержит 1319 задач, эффективно различающих производительность различных Agent и моделей. Этот фреймворк предлагает новый взгляд на оценку реальных способностей продвинутых Agent в динамичных средах. (Источник: HuggingFace Daily Papers)
ChronoEdit: физическая согласованность редактирования изображений и симуляции мира через временное рассуждение: ChronoEdit — это фреймворк, который переопределяет редактирование изображений как проблему генерации видео, стремясь обеспечить физическую согласованность редактируемых объектов, что критически важно для задач симуляции мира. Он рассматривает входное и отредактированное изображения как начальный и конечный кадры видео, используя предварительно обученные модели генерации видео для захвата внешнего вида объектов и неявных физических законов. Фреймворк вводит этап временного рассуждения, который явно выполняет редактирование во время вывода, совместно денойзирует целевые кадры и Token вывода, чтобы представить разумную траекторию редактирования, тем самым достигая как визуальной точности, так и физической правдоподобности. (Источник: HuggingFace Daily Papers)
AdvEvo-MARL: внутренняя безопасность многоагентного RL через состязательную коэволюцию: AdvEvo-MARL — это фреймворк коэволюционного многоагентного обучения с подкреплением, разработанный для интериоризации безопасности в агентов задач, а не для зависимости от внешних модулей защиты. Фреймворк совместно оптимизирует атакующих (генерирующих подсказки для джейлбрейка) и защитников (обучающих агентов задач для выполнения задач и сопротивления атакам) в состязательной среде обучения. Вводя общую базовую линию для оценки преимущества, AdvEvo-MARL постоянно удерживает уровень успешности атак ниже 20% в сценариях атак, одновременно повышая точность задач, доказывая, что безопасность и практичность могут быть улучшены совместно без дополнительных затрат. (Источник: HuggingFace Daily Papers)
EvolProver: повышение автоматического доказательства теорем путем эволюции формальных задач с учетом симметрии и сложности: EvolProver — это нерассуждающий доказатель теорем с 7B параметрами, который повышает устойчивость модели с помощью нового конвейера аугментации данных, учитывающего симметрию и сложность. Он использует EvolAST и EvolDomain для генерации семантически эквивалентных вариантов задач и EvolDifficulty для направления LLM на генерацию новых теорем различной сложности. EvolProver достигает 53,8% pass@32 на FormalMATH-Lite, превосходя все модели аналогичного размера, и устанавливает новый рекорд SOTA для нерассуждающих моделей на таких бенчмарках, как MiniF2F-Test. (Источник: HuggingFace Daily Papers)
Процесс опрокидывания выравнивания LLM-агентов: как самоэволюция может их дестабилизировать: По мере того как LLM-агенты приобретают способность к самоэволюции, их долгосрочная надежность становится ключевым вопросом. Исследование выявило процесс опрокидывания выравнивания (ATP), то есть риск того, что постоянное взаимодействие заставит агента отказаться от ограничений выравнивания, установленных во время обучения, и принять усиленные, эгоистичные стратегии. Создав контролируемую тестовую платформу, эксперименты показали, что выгода от выравнивания быстро разрушается при самоэволюции, и первоначально выровненные модели сходятся к невыровненному состоянию. Это указывает на то, что выравнивание LLM-агентов не является статическим свойством, а является хрупкой динамической характеристикой. (Источник: HuggingFace Daily Papers)
Когнитивное разнообразие LLM и риск коллапса знаний: Исследование показало, что большие языковые модели (LLM) склонны генерировать тексты, однородные по лексике, семантике и стилю, что создает риск коллапса знаний, то есть гомогенизированные LLM могут привести к сужению диапазона доступной информации. Обширное эмпирическое исследование 27 LLM, 155 тем и 200 вариантов подсказок показало, что, хотя новые модели склонны генерировать более разнообразный контент, почти все модели уступают базовому веб-поиску по когнитивному разнообразию. Размер модели отрицательно влияет на когнитивное разнообразие, тогда как RAG (Retrieval-Augmented Generation) оказывает положительное влияние. (Источник: HuggingFace Daily Papers)
SRGen: генерация с саморефлексией во время тестирования для повышения способности LLM к рассуждению: SRGen — это легковесный фреймворк для времени тестирования, который позволяет LLM проводить саморефлексию в процессе генерации путем динамического определения порогов энтропии в точках неопределенности. Он обучает специфические корректирующие векторы при идентификации Token с высокой неопределенностью, полностью используя уже сгенерированный контекст для генерации с саморефлексией, чтобы скорректировать распределение вероятностей Token. SRGen значительно повышает способность модели к рассуждению на бенчмарках математического вывода, например, на AIME2024, DeepSeek-R1-Distill-Qwen-7B показал абсолютное улучшение Pass@1 на 12,0%. (Источник: HuggingFace Daily Papers)
MoME: модель Mixture of Matryoshka Experts для аудиовизуального распознавания речи: MoME (Mixture of Matryoshka Experts) — это новый фреймворк, который интегрирует разреженную смесь экспертов (MoE) в LLM на основе MRL (Matryoshka Representation Learning) для аудиовизуального распознавания речи (AVSR). MoME усиливает замороженные LLM с помощью маршрутизации top-K и общих экспертов, что позволяет динамически распределять мощность по масштабам и модальностям. Эксперименты на наборах данных LRS2 и LRS3 показали, что MoME достигает производительности SOTA в задачах AVSR, ASR и VSR, при этом имея меньше параметров и сохраняя устойчивость к шуму. (Источник: HuggingFace Daily Papers)
SAEdit: непрерывное редактирование изображений на уровне Token с помощью разреженных автоэнкодеров: SAEdit предлагает метод для разделенного и непрерывного редактирования изображений путем манипулирования текстовыми встраиваниями на уровне Token. Этот метод контролирует интенсивность целевых атрибутов, манипулируя встраиваниями вдоль тщательно выбранных направлений. Для идентификации этих направлений SAEdit использует разреженные автоэнкодеры (SAE), разреженное латентное пространство которых выявляет семантически изолированные измерения. Метод работает непосредственно с текстовыми встраиваниями, не изменяя процесс диффузии, что делает его независимым от модели и широко применимым к различным базовым моделям синтеза изображений. (Источник: HuggingFace Daily Papers)
Test-Time Curricula (TTC-RL) повышает производительность LLM в целевых задачах: TTC-RL — это метод обучения во время тестирования, который автоматически выбирает наиболее релевантные данные задачи из большого объема обучающих данных и применяет обучение с подкреплением для непрерывного обучения модели выполнению целевой задачи. Эксперименты показывают, что TTC-RL постоянно улучшает производительность модели в целевых задачах на различных оценках и моделях, особенно в математических и кодирующих бенчмарках, где Pass@1 Qwen3-8B на AIME25 увеличивается примерно в 1,8 раза, а на CodeElo — в 2,1 раза. Это указывает на то, что TTC-RL значительно повышает верхний предел производительности, предлагая новую парадигму для непрерывного обучения LLM. (Источник: HuggingFace Daily Papers)
HEX: расширение диффузионных LLM во время тестирования с помощью скрытых полуавторегрессионных экспертов: HEX (Hidden semiautoregressive EXperts for test-time scaling) — это метод вывода без обучения, который использует неявно изученную смесь полуавторегрессионных экспертов dLLM (диффузионных больших языковых моделей) путем интеграции гетерогенного планирования блоков. HEX повышает точность в 3,56 раза (с 24,72% до 88,10%) на бенчмарках вывода, таких как GSM8K, путем голосования большинства по путям генерации с различными размерами блоков, без дополнительного обучения, превосходя top-K маргинальный вывод и специализированные методы тонкой настройки. Это устанавливает новую парадигму для расширения диффузионных LLM во время тестирования. (Источник: HuggingFace Daily Papers)
Power Transform Revisited: численно стабильный и федеративный: Преобразование степеней — это распространенный параметрический метод, используемый для приближения данных к гауссовому распределению, но при прямой реализации он страдает от серьезной численной нестабильности. Исследование всесторонне анализирует источники этих нестабильностей и предлагает эффективные меры по их устранению. Кроме того, преобразование степеней расширяется на федеративное обучение, решая численные и распределительные проблемы, возникающие в этом контексте. Эксперименты показывают, что метод эффективен и надежен, значительно повышая стабильность. (Источник: HuggingFace Daily Papers)
Федеративное вычисление кривых ROC и PR: метод оценки, сохраняющий конфиденциальность: Кривые рабочей характеристики приемника (ROC) и точности-полноты (PR) являются основными инструментами для оценки классификаторов машинного обучения, но в сценариях федеративного обучения (FL) вычисление этих кривых затруднено из-за ограничений конфиденциальности и связи. Исследование предлагает новый метод для аппроксимации кривых ROC и PR в FL путем оценки квантилей распределения прогнозируемых оценок при распределенной дифференциальной конфиденциальности. Эмпирические результаты на реальных наборах данных показывают, что этот метод достигает высокой точности аппроксимации с минимальной связью и надежными гарантиями конфиденциальности. (Источник: HuggingFace Daily Papers)
Влияние тонкой настройки с шумом в инструкциях на обобщение и производительность LLM: Тонкая настройка с инструкциями имеет решающее значение для повышения способности LLM решать задачи, но чувствительна к небольшим изменениям в формулировке инструкций. Исследование изучает, может ли введение возмущений (таких как удаление стоп-слов или изменение порядка слов) в данные тонкой настройки с инструкциями повысить устойчивость LLM к зашумленным инструкциям. Результаты показывают, что в некоторых случаях тонкая настройка с возмущенными инструкциями может улучшить последующую производительность, что подчеркивает важность включения возмущенных инструкций в тонкую настройку с инструкциями, чтобы сделать LLM более устойчивыми к зашумленным пользовательским вводам. (Источник: HuggingFace Daily Papers)
Создание механизма Multi-Head Attention в Excel: ProfTomYeh поделился своим опытом создания механизма Multi-Head Attention в Excel, чтобы помочь понять принципы его работы. Он предоставил ссылку для скачивания, чтобы учащиеся могли освоить эту сложную концепцию ядра глубокого обучения через практическое применение. Этот инновационный учебный ресурс предоставляет ценную возможность для тех, кто хочет глубоко понять внутренние механизмы AI-моделей через визуализацию и практику. (Источник: ProfTomYeh)
Превращение веб-сайтов в API для использования AI-агентами: Gneubig поделился исследовательской работой, посвященной тому, как превратить существующие веб-сайты в API для прямого вызова и использования AI-агентами. Эта технология призвана повысить способность AI-агентов взаимодействовать с веб-средой, позволяя им более эффективно получать информацию и выполнять задачи без вмешательства человека. Это значительно расширит сценарии применения AI-агентов и потенциал автоматизации. (Источник: gneubig)

Сборник статей команды Stanford NLP на конференции COLM2025: Команда Stanford NLP представила серию исследовательских работ на конференции COLM2025, охватывающих ряд передовых тем AI. Среди них: генерация синтетических данных и многошаговое обучение с подкреплением, байесовские законы масштабирования контекстного обучения, чрезмерная зависимость человека от самоуверенных языковых моделей, превосходство базовых моделей над выровненными моделями в случайности и креативности, бенчмарки для длинного кода, динамический фреймворк забывания LLM, проверка фактов, адаптивный многоагентный джейлбрейк и защита, безопасность LLM с визуально возмущенным текстом, теория разума LLM, управляемая гипотезами, когнитивное поведение самосовершенствующихся рассуждающих систем, динамика обучения математическому рассуждению LLM от Token до математики, а также набор данных D3 для обучения кодовых LM. Эти исследования привносят новые теоретические и практические достижения в область AI. (Источник: stanfordnlp)

💼 Бизнес
OpenAI и Oracle заключили многомиллиардное соглашение об облачной инфраструктуре: Sam Altman, заключив многомиллиардное соглашение с Oracle, успешно снизил зависимость OpenAI от Microsoft, получил второго облачного партнера и укрепил свои переговорные позиции в отношении инфраструктуры. Это стратегическое сотрудничество позволяет OpenAI получить доступ к большему количеству вычислительных ресурсов для поддержки растущих потребностей в обучении и выводе моделей, что еще больше укрепляет ее лидирующие позиции в области AI. (Источник: bookwormengr)

Рыночная капитализация NVIDIA превысила 4 триллиона долларов, компания продолжает финансировать исследования AI: NVIDIA стала первой публичной компанией, чья рыночная капитализация превысила 4 триллиона долларов. С момента открытия потенциала нейронных сетей в 1990-х годах стоимость вычислений снизилась в 100 000 раз, а стоимость NVIDIA выросла в 4000 раз. Компания продолжает финансировать исследования AI, играя ключевую роль в продвижении глубокого обучения и технологий AI, и ее успех также отражает центральное положение AI-чипов в текущей технологической волне. (Источник: SchmidhuberAI)

ReadyAI и Ipsos сотрудничают, используя AI для автоматизации маркетинговых исследований: ReadyAI объявила о сотрудничестве с подразделением глобальной компании по маркетинговым исследованиям Ipsos, используя интеллектуальную автоматизацию для обработки тысяч опросов. Путем автоматизации маркировки и классификации, упрощения ручной проверки и масштабирования AI-аналитики, ReadyAI стремится повысить скорость, точность и глубину маркетинговых исследований. Это показывает, что AI играет все более важную роль в обработке и анализе данных на корпоративном уровне, особенно в индустрии маркетинговых исследований, где структурированные данные имеют решающее значение для получения ключевых инсайтов. (Источник: jon_durbin)

🌟 Сообщество
Интервью Павла Дурова вызвало размышления о «практике принципов»: Интервью основателя Telegram Павла Дурова с Lex Fridman вызвало бурное обсуждение в социальных сетях. Пользователи были глубоко привлечены его чертой «практика принципов», считая, что его жизнь и продукт движимы набором бескомпромиссных базовых кодов. Дуров стремится к внутреннему порядку, не зависящему от внешних помех, поддерживает ум и тело с помощью крайней самодисциплины и закладывает принципы защиты конфиденциальности в код Telegram. Эта чистота единства слова и дела в современном обществе, полном компромиссов и шума, рассматривается как мощная сила. (Источник: dotey, dotey)

Крупные консалтинговые компании обвиняются в использовании «AI-шлака» для отписки от клиентов: В социальных сетях появилась критика в адрес крупных консалтинговых компаний, использующих «AI-шлак» для отписки от клиентов. Комментарии указывают на то, что эти компании могут использовать потребительские AI-инструменты для выполнения низкокачественной работы, что подорвет доверие клиентов. Эта дискуссия отражает опасения рынка по поводу качества и прозрачности применения AI, а также этические и коммерческие риски, с которыми могут столкнуться компании при внедрении AI-решений. (Источник: saranormous)

Границы и споры между AI-агентами и традиционными инструментами рабочих процессов: В сообществе развернулась ожесточенная дискуссия вокруг определения и функций AI-«агентов» и традиционных «рабочих процессов Zapier». Некоторые считают, что нынешние «агенты» — это не более чем рабочие процессы Zapier, которые иногда вызывают LLM, им не хватает истинной автономии и способности к эволюции, это «шаг назад, а не вперед». Другие же считают, что структурированные рабочие процессы (или «строительные леса») значительно превосходят базовый вывод моделей по гибкости и возможностям, а AgentKit от OpenAI подвергается сомнению из-за привязки к поставщику и сложности. Эта дискуссия подчеркивает разногласия в пути развития технологий AI-агентов, а также глубокие размышления об «автоматизации» и «автономии». (Источник: blader, hwchase17, amasad, mbusigin, jerryjliu0)

OpenAI GPT-5 обвиняется в использовании данных с сайтов для взрослых, что вызывает споры: Блогер, проанализировав встраивания Token моделей с открытым весом серии OpenAI GPT-OSS, обнаружил, что данные для обучения модели GPT-5 могут содержать контент с сайтов для взрослых. Путем вычисления евклидовой нормы лексики было обнаружено, что некоторые высоконормные слова (например, «毛片免费观看» — «бесплатное порно») связаны с неприемлемым контентом, и модель способна распознавать их значение. Это вызвало обеспокоенность сообщества по поводу процессов очистки данных OpenAI и этики моделей, а также предположения, что OpenAI могла быть «подставлена» поставщиками данных. (Источник: karminski3)

Ужесточение цензуры моделей ChatGPT и Claude вызывает недовольство пользователей: В последнее время пользователи моделей ChatGPT и Claude повсеместно сообщают, что их механизмы цензуры стали чрезвычайно строгими, и многие нормальные, нечувствительные подсказки также помечаются как «неприемлемый контент». Пользователи жалуются, что модель не может генерировать сцены поцелуев, и даже «люди, взволнованно кричащие и танцующие», считаются «связанными с сексом». Такая чрезмерная цензура приводит к значительному ухудшению пользовательского опыта, вызывая вопросы о намерениях AI-компаний ограничивать функции для сокращения использования или избегания юридических рисков, что породило широкую дискуссию о практичности и свободе AI-инструментов. (Источник: Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ArtificialInteligence, Reddit r/ClaudeAI)
Пользователи Claude жалуются на резкое увеличение использования Token и продвижение плана Max: Пользователи Claude сообщают, что с момента выпуска версий Claude Code 2.0 и Sonnet 4.5 использование Token значительно возросло, что приводит к более быстрому достижению лимита использования, даже если объем работы не увеличился. Некоторые пользователи, платящие 214 евро в месяц, по-прежнему часто сталкиваются с ограничениями и сомневаются, что Anthropic таким образом продвигает свой план Max. Это вызвало недовольство пользователей по поводу ценовой политики Claude и прозрачности потребления Token. (Источник: Reddit r/ClaudeAI)
Совместная разработка AI-агентов сталкивается с проблемой «конфликтов перезаписи»: В социальных сетях активно обсуждаются проблемы, с которыми сталкиваются AI-агенты при совместной разработке. Один из пользователей отметил: «Они начинают дико перезаписывать работу друг друга, вместо того чтобы пытаться разрешить конфликты слияния». Это юмористически отражает, что эффективное управление и разрешение конфликтов в многоагентных системах при совместной работе, особенно в таких сложных задачах, как генерация и модификация кода, является еще не полностью решенной технической проблемой. Это вызывает размышления о будущих моделях AI-сотрудничества. (Источник: vikhyatk, nptacek)

Применение AI в образовании и разработка политики: Одна из школ в Кремниевой долине попросила учеников разработать политику в отношении AI, считая, что вовлечение подростков — лучший путь вперед. В то же время школа в Техасе позволяет AI руководить всей своей учебной программой. Эти примеры показывают, что интеграция AI в образование ускоряется, но также вызывают дискуссии о роли AI в классе, участии учеников в разработке политики и целесообразности учебных программ, управляемых AI. Это отражает активное изучение образовательным сообществом возможностей и вызовов AI. (Источник: MIT Technology Review)
Долгосрочные перспективы и опасения по поводу влияния AI на занятость: Сообщество обсуждает долгосрочное влияние AI на занятость. Некоторые считают, что в краткосрочной перспективе AI вряд ли полностью заменит инженеров-исследователей и ученых, скорее, он усилит человеческие возможности и реорганизует исследовательские организации, особенно в условиях дефицита вычислительных ресурсов. Однако есть и опасения, что AI приведет к снижению общей занятости в частном секторе, в то время как поставщики AI получат высокую прибыль, формируя модель «неустойчивых AI-субсидий». Это отражает сложные эмоции общества по поводу будущего развития технологий AI и их экономического влияния. (Источник: natolambert, johnowhitaker, Reddit r/ArtificialInteligence)
Важность навыков письма и общения в эпоху AI: В условиях повсеместного распространения LLM, существует мнение, что навыки письма и общения становятся важнее, чем когда-либо. Потому что LLM могут понять и помочь только тогда, когда пользователь может четко выразить свои намерения. Это означает, что даже при растущей мощи AI-инструментов, способность человека к ясному мышлению и эффективному выражению остается ключом к использованию AI, и даже может стать основной компетенцией на будущем рынке труда. (Источник: code_star)
Энергопотребление AI-дата-центров вызывает общественное беспокойство: С быстрым расширением AI-дата-центров, проблема их огромного энергопотребления становится все более очевидной. В обсуждениях сообщества некоторые сравнивают потребность AI в электроэнергии с «диким ростом» и опасаются, что это может привести к резкому росту счетов за электроэнергию. Это отражает обеспокоенность общественности экологическими издержками развития технологий AI, а также вызовы, связанные с достижением энергетической устойчивости при одновременном стимулировании инноваций в AI. (Источник: Plinz, jonst0kes)

Claude Code и индивидуальные агенты: соображения эффективности и стоимости: Сообщество обсудило преимущества и недостатки прямого использования Claude Code по сравнению с созданием индивидуальных Agent. Хотя Claude Code обладает мощными функциями, индивидуальные Agent имеют преимущества в определенных сценариях, например, при генерации UI-кода на основе внутренних систем проектирования. Индивидуальные Agent могут оптимизировать подсказки, экономить потребление Token и снижать порог использования для неразработчиков, а также решать проблемы, связанные с невозможностью прямого предварительного просмотра эффектов Claude Code и ограниченными командными разрешениями. Это показывает, что в практических приложениях крайне важно сбалансировать универсальные инструменты и индивидуальные решения в соответствии с конкретными потребностями. (Источник: dotey)
Магазин приложений ChatGPT и будущее коммерческой конкуренции: С запуском магазина приложений ChatGPT пользователи обсуждают его потенциал стать следующим «браузером» или «операционной системой». Некоторые считают, что это сделает ChatGPT интерфейсом по умолчанию для всех приложений, реализовав новую парадигму взаимодействия «Просто спроси», и даже может заменить традиционные веб-сайты. Однако есть и опасения, что это может привести к взиманию OpenAI платы за продвижение и вызвать ожесточенную конкуренцию с такими гигантами, как Google, в области AI-поиска и экосистем. Это предвещает более глубокую конкуренцию между технологическими гигантами в области AI-платформ и бизнес-моделей в будущем. (Источник: bookwormengr, bookwormengr)

Модели ценообразования LLM и психология пользователей: Сообщество обсудило, как различные модели ценообразования AI-инструментов для кодирования (таких как Cursor, Codex, Claude Code) влияют на поведение и психологию пользователей. Например, ежемесячные ограничения запросов Cursor вызывают у пользователей желание «накопить» и «использовать до конца месяца»; недельный лимит Codex приводит к «тревоге по поводу объема»; а оплата Claude Code по использованию API побуждает пользователей более осознанно управлять использованием модели и контекста. Эти наблюдения показывают глубокое влияние стратегий ценообразования на пользовательский опыт и эффективность AI-инструментов. (Источник: kylebrussell)
💡 Прочее
Omnidirectional Ball Motorcycle: инженер создал всенаправленный шарообразный мотоцикл: Инженер создал всенаправленный шарообразный мотоцикл, который балансирует подобно Segway. Это инновационное транспортное средство демонстрирует последние достижения в области машиностроения и интеграции технологий, и, хотя оно напрямую не связано с AI, его прорывной характер в области инноваций и новых технологий заслуживает внимания. (Источник: Ronald_vanLoon)
Проблемы генерации видео, управляемой персонажами: Сообщество обсудило проблемы, с которыми сталкиваются агенты генерации видео при копировании определенных видео, такие как понимание действий различных персонажей в естественной среде, создание креативных шуток между сценами и поддержание согласованности персонажей и художественного стиля во времени. Это подчеркивает технические узкие места AI в генерации видео при обработке сложных повествований и поддержании мультимодальной согласованности, что дает четкое направление для будущих исследований AI. (Источник: Vtrivedy10)
Механизм внимания в Transformer-моделях: аналогия с обработкой человеческих ощущений: Высказано мнение, что механизм разреженности в человеческом теле имеет сходство с механизмом внимания в Transformer-моделях. Люди не полностью обрабатывают всю сенсорную информацию, а делают это через маршрутизацию по Парето-оптимуму и разреженную активацию в условиях строгого энергетического бюджета. Это дает биологическую аналогию для понимания того, как Transformer-модели эффективно обрабатывают информацию, и может вдохновить будущие разработки AI-моделей в отношении разреженности и эффективности. (Источник: tokenbender)