Ключевые слова:GPT-5, Искусственный интеллект в медицине, OpenAI, Модель ИИ, Безопасность ИИ, Бизнес с ИИ, Инструменты ИИ, Обучение ИИ, Медицинские выводы GPT-5, Предвзятость ложных выводов ИИ, Ограничения вычислительной мощности OpenAI, Шаблоны проектирования агентов ИИ, Визуальная модель DINOv3

Вот将中文AI资讯翻译成俄语的版本,严格遵循您的要求:

🔥 В фокусе

Прорыв GPT-5 в области медицины : GPT-5 значительно превзошел экспертов-людей и GPT-4o в медицинских бенчмарках, таких как MedXpertQA, особенно в задачах мультимодального рассуждения. Это указывает на то, что GPT-5 обладает экспертным суждением, а не просто запоминанием, предвещая ключевой поворотный момент в развертывании медицинского ИИ. Однако исследование подчеркивает, что эти оценки проводились в идеальных тестовых условиях, и для реального клинического применения требуются дальнейшие исследования и этические соображения. (Источник: Reddit r/deeplearning)

Прорыв GPT-5 в области медицины

Генеральный директор OpenAI Сэм Альтман раскрывает видение и узкие места в развитии ИИ : Сэм Альтман в недавнем интервью отметил, что GPT-5 достиг прорыва в программировании, написании текстов и решении сложных задач, способный мгновенно создавать программное обеспечение по запросу. Он предсказывает, что ИИ приведет к крупным научным открытиям к концу 2027 года, и утверждает, что GPT-8 может вылечить рак. Альтман подчеркивает, что ИИ сталкивается с четырьмя основными узкими местами: вычислительная мощность, данные, оптимизация алгоритмов и коммерциализация. Он считает, что в настоящее время мы находимся в периоде “пузыря” ИИ, но его потенциал огромен. OpenAI планирует потратить триллионы долларов на строительство центров обработки данных и даже исследовать интерфейсы мозг-компьютер и социальный опыт, управляемый ИИ. Он призывает общество адаптироваться к радикальным изменениям, вызванным ИИ, и подчеркивает, что ИИ станет основой общественного развития, в конечном итоге, возможно, ИИ будет занимать должность CEO. (Источник: 36氪)

Генеральный директор OpenAI Сэм Альтман раскрывает видение и узкие места в развитии ИИ

Президент OpenAI Грег Брокман о проблемах ИИ и взаимосвязи инженерии и исследований : Грег Брокман отмечает, что с быстрым расширением вычислительной мощности и объемов данных фундаментальные исследования возвращаются, а алгоритмы становятся ключевым узким местом в развитии ИИ. Он подчеркивает, что инженеры и исследователи одинаково важны, и сообщает, что OpenAI иногда приходится “закладывать будущее”, перенаправляя вычислительные ресурсы исследований для поддержки запуска продуктов. Брокман считает, что программирование ИИ переходит от “показухи” к серьезной разработке программного обеспечения, а AI Agent будут вмешиваться и превосходить традиционные модели взаимодействия. Он также упомянул о растущей сложности обучающих систем, необходимости синхронного обновления дизайна контрольных точек, и обсудил с Хуан Жэньсюнем (Jensen Huang) будущие вызовы инфраструктуры ИИ, которая должна сочетать крупномасштабные вычисления с низкой задержкой отклика. (Источник: 36氪)

Президент OpenAI Грег Брокман о проблемах ИИ и взаимосвязи инженерии и исследований

Уязвимость “ложного рассуждения” в основе ИИ-рассуждений : Новое исследование показывает, что ведущие модели ИИ для рассуждений, такие как GPT-4, Claude 3 Sonnet, Llama 3 70B, уязвимы для атаки “ложного рассуждения”. Путем вставки в подсказку кажущейся логичной, но ошибочной цепочки мыслей, модель может быть введена в заблуждение, что приводит к значительному снижению производительности. Например, уровень ошибок GPT-4 в бенчмарке LogiQA подскочил с 20% до 62,5%. Исследование представляет фреймворк THEATER для систематического генерирования предвзятых подсказок и обнаруживает, что простые инструкции по саморефлексии могут эффективно смягчить это смещение. Это подчеркивает риски безопасности при применении ИИ в высокорисковых областях, таких как финансы и медицина. (Источник: Reddit r/MachineLearning)

Уязвимость "ложного рассуждения" в основе ИИ-рассуждений


🎯 Тенденции

Google выпускает модель Gemma 3 270M : Google DeepMind выпустила Gemma 3 270M — компактную, но мощную модель ИИ с открытым исходным кодом, особенно подходящую для тонкой настройки под конкретные задачи и обладающую мощными возможностями следования инструкциям. Ее эффективность делает ее идеальным выбором для работы на периферийных устройствах, что способствует дальнейшему развитию миниатюрных моделей ИИ и потенциалу локального развертывания. (Источник: GoogleDeepMind)

Google выпускает модель Gemma 3 270M

Обновления приложения Google Gemini : Приложение Google Gemini недавно получило несколько обновлений, включая запуск более быстрой модели Imagen 4 Fast (0,02 доллара за изображение) и поддержку генерации изображений в разрешении 2K. Также выпущена модель Gemma 3 270M, специально разработанная для тонкой настройки разработчиками. Подписчики Gemini Ultra теперь могут выполнять больше запросов Deep Think, а приложение Gemini может ссылаться на историю чатов для предоставления более персонализированных ответов. Кроме того, новые исследования Google AI и DeepMind изучают, как ИИ может помогать в диалогах между врачами и пациентами. (Источник: demishassabis)

Обновления приложения Google Gemini

Споры о производительности GPT-5 и рост китайских моделей : Производительность GPT-5 вызвала широкие дискуссии. Несколько рейтингов LM Arena показывают, что GPT-5 уступает GPT-4o по общей производительности, мини-моделям и возможностям кодирования, и даже отстает от ведущих китайских моделей, таких как Kimi-K2, GLM-4.5, Qwen3-235B, DeepSeek-R1. Это указывает на то, что выпуск GPT-5, возможно, больше связан с улучшением стоимости/задержки/качества, чем с появлением совершенно новых возможностей, и что китайские модели ИИ демонстрируют сильную конкурентоспособность в определенных областях. (Источник: maithra_raghu)

Споры о производительности GPT-5 и рост китайских моделей

Выпущена базовая модель визуализации DINOv3 : Meta AI выпустила DINOv3, передовую базовую модель визуализации, обученную в больших масштабах с использованием чистого самоконтролируемого обучения (SSL), способную генерировать мощные, высокоразрешающие признаки изображений. Впервые она позволяет одной замороженной визуальной магистрали превосходить специализированные решения в нескольких долгосрочных задачах плотного прогнозирования и поддерживает коммерческое использование, предвещая новый прорыв в области компьютерного зрения. (Источник: ylecun)

Выпущена базовая модель визуализации DINOv3

Выпущен фреймворк OpenCUA для AI Agent, использующих компьютер : OpenCUA выпустила первый с нуля базовый фреймворк для AI Agent, использующих компьютер, и открыла исходный код модели SOTA OpenCUA-32B. Модель показала отличные результаты в бенчмарке OSWorld-Verified, соответствуя топовым проприетарным моделям, и предоставила полную инфраструктуру обучения и набор данных AgentNet. OpenCUA стремится заполнить пробел в больших открытых наборах данных для настольных AI Agent и прозрачных конвейерах, способствуя развитию области AI Agent с открытым исходным кодом. (Источник: arankomatsuzaki)

Выпущен фреймворк OpenCUA для AI Agent, использующих компьютер

Новая модель ИИ от Caesar Data демонстрирует выдающиеся результаты в бенчмарке HLE : Caesar Data выпустила новую модель ИИ, которая набрала 55,87% в бенчмарке HLE (Human-Level Evaluation), значительно превзойдя Grok 4 (44,4%) и GPT-5 (42%), демонстрируя сильную конкурентоспособность даже на стадии Alpha. Эта модель поддерживается Google, Meta, Stripe и Hugging Face, и если ее производительность подтвердится, она изменит конкурентную среду в области ИИ. (Источник: Reddit r/deeplearning)

Выпущены модели GLM-4.5 и Nvidia Parakeet v3 : GLM-4.5 от Zhipu AI уже доступна на платформе SST_dev opencode и продемонстрировала высочайшую точность и эффективность в тесте SWEBench-Verified-Mini. В то же время Nvidia также выпустила Parakeet v3, предлагая последние достижения в области голосового ИИ. Выпуск этих новых моделей предоставляет разработчикам больше возможностей, особенно в области генерации кода и синтеза речи. (Источник: QuixiAI)

Выпущены модели GLM-4.5 и Nvidia Parakeet v3

Разрыв между локальными LLM и передовыми моделями сократился до 9 месяцев : Данные Epoch AI показывают, что с помощью потребительских GPU, таких как RTX 5090, пользователи могут локально запускать модели, сопоставимые по производительности с передовыми LLM 9-месячной давности. Это стало возможным благодаря схожей скорости масштабирования моделей с открытым и закрытым исходным кодом, технологии дистилляции моделей и постоянному прогрессу GPU, что предвещает ускоренную демократизацию производительности ИИ. (Источник: Reddit r/LocalLLaMA)

Разрыв между локальными LLM и передовыми моделями сократился до 9 месяцев

Применение ИИ в разработке лекарств и вакцин : ИИ ускоряет свое применение в области медицины, включая использование ИИ для разработки новых антибиотиков для борьбы с супербактериями (такими как гонорея и MRSA), а также для упрощения процессов разработки РНК-вакцин и терапий. Эти достижения показывают огромный потенциал ИИ в решении глобальных проблем здравоохранения. (Источник: Reddit r/ArtificialInteligence)

Применение ИИ в разработке лекарств и вакцин

LM Studio поддерживает выгрузку MoE на CPU в llama.cpp : Последняя версия LM Studio (0.3.23 build 3) поддерживает функцию --cpu-moe в llama.cpp, позволяя выгружать веса MoE (Mixed-Expert Model) на CPU, тем самым освобождая VRAM GPU для выгрузки слоев. Это позволяет пользователям запускать большие модели MoE (такие как Qwen3 30B) на потребительском оборудовании с полной выгрузкой слоев на GPU на более высокой скорости (например, 15 токенов/с), значительно повышая производительность и доступность локальных LLM. (Источник: Reddit r/LocalLLaMA)

Выпущена мультимодальная визуальная модель Ovis2.5 : Ovis2.5, преемник Ovis2, представляет возможность обработки изображений в нативном разрешении NaViT, что позволяет сохранять мелкие детали и расположение плотного визуального контента, такого как диаграммы и иллюстрации. Модель обучена с использованием CoT и рефлексивного рассуждения (самопроверка/редактирование) и предлагает опциональные режимы мышления для баланса между задержкой и точностью. Ее 9B-версия набрала 78,3 балла на OpenCompass, а 2B-версия — 73,9 балла, демонстрируя отличные результаты в маломасштабном OCR диаграмм/документов, изображений, видео и мультимедийном рассуждении и заземлении. (Источник: andersonbcdefg)

Выпущена мультимодальная визуальная модель Ovis2.5

Модели генерации изображений ИИ NextStep-1 и Nano Banana : NextStep-1 нацелена на авторегрессивную генерацию изображений, обрабатывая их последовательными токенами в масштабе, что обещает преодолеть ограничения традиционных моделей генерации изображений. В то же время, загадочные модели, такие как “Nano Banana”, демонстрируют выдающиеся результаты в редактировании изображений, точно выполняя сложные инструкции (например, изменение направления взгляда человека) и сохраняя согласованность деталей изображения. (Источник: fabianstelzer)

Модели генерации изображений ИИ NextStep-1 и Nano Banana

Влияние моделей генерации видео ИИ на восприятие роботов : Модели генерации видео ИИ, такие как Veo 2 и Veo 3, не только создают реалистичный контент, но и рассматриваются как рождение новой “нервной системы” для машин. Эти модели, изучая законы физического мира, такие как свет, движение, материалы, тени и причинно-следственные связи, достигают высокоточной симуляции. Эта способность может произвести революцию в традиционных стеках датчиков роботов, позволяя роботам понимать глубину и опасность, основываясь только на контексте изображения, стирая границы между восприятием и предсказанием, и становясь опорой для восприятия AGI. (Источник: farguney)

Паттерны проектирования AI Agent: параллельное выполнение и LLM как оценщик : Появляется новый паттерн проектирования Agent под названием “Параллельные прогоны” (Parallel Rollouts), который заимствует идеи из Tree-of-Thought и Universal Reward Function. Этот паттерн позволяет Agent выполнять задачу N раз параллельно, а затем использовать LLM в качестве оценщика для оценки каждого результата выполнения и выбора наилучшего варианта. Этот подход обменивает более высокую стоимость на более низкую задержку, что подходит для высокодоходных задач Agent. Хотя поиск и выбор не являются новыми концепциями, их применение в ветвях Agent еще предстоит популяризировать. (Источник: corbtt)

Паттерны проектирования AI Agent: параллельное выполнение и LLM как оценщик

Новая функция модели Claude: использование компьютерного контента в качестве контекста : Модель Claude получила новую поддержку MCP (Multi-Contextual Processing), позволяющую ей использовать в качестве контекста любую информацию, которую пользователь видит или выполняет на компьютере. Это означает, что Claude может глубже понимать намерения пользователя и рабочие процессы, предоставляя более интеллектуальные и персонализированные ответы, что значительно повышает ее полезность в качестве помощника ИИ. (Источник: stanfordnlp)

Категории выпуска моделей ИИ и позиционирование GPT-5 : Maithra Raghu отмечает, что модели ИИ обычно делятся на две категории: те, что предоставляют совершенно новые возможности (например, мультимодальность, длинный контекст, продвинутое рассуждение), и те, что оптимизируют стоимость/задержку/качество. Выпуск GPT-5, как считается, относится скорее ко второй категории, то есть к оптимизации существующих возможностей, а не к появлению революционных новых функций, подобных переходу от GPT-3 к ChatGPT. Это вызвало дискуссии о реальной степени прорыва GPT-5 и намекает на то, что будущее развитие ИИ будет больше сосредоточено на “Agent Native” моделях, подчеркивающих действия и использование инструментов. (Источник: maithra_raghu)

Категории выпуска моделей ИИ и позиционирование GPT-5

DeepSeek-R1 как важный выпуск модели с открытым исходным кодом : DeepSeek-R1 считается более масштабным событием, чем другие выпуски моделей с открытым исходным кодом. Это указывает на значительный прогресс сообщества ИИ с открытым исходным кодом в разработке крупномасштабных моделей и может создать большую конкуренцию для моделей с закрытым исходным кодом в будущем. (Источник: scaling01)

DeepSeek-R1 как важный выпуск модели с открытым исходным кодом

Прогресс в применении ИИ в здравоохранении : Yunpeng Technology в сотрудничестве с ShuaiKang и Skyworth представила “Лабораторию умной кухни будущего” и умный холодильник, оснащенный большой моделью ИИ для здоровья. Большая модель ИИ для здоровья оптимизирует дизайн и работу кухни, а умный холодильник через “помощника по здоровью Xiaoyun” предоставляет персонализированное управление здоровьем. Это знаменует прорыв ИИ в повседневном управлении здоровьем, что, как ожидается, будет способствовать развитию домашних технологий здравоохранения и улучшению качества жизни населения. (Источник: 36氪)

Прогресс в применении ИИ в здравоохранении


🧰 Инструменты

Обновления инструментов экосистемы LlamaIndex : Экосистема LlamaIndex продолжает расширяться, включая: 1. llama_index может использоваться для создания клонов NotebookLM, поддерживая мультимодальные приложения ИИ для анализа текста и изображений для исследования рынка. 2. LlamaExtract поддерживает быстрое чтение и структурированное извлечение исследовательских работ и уже интегрирован в TypeScript SDK. 3. Учебные пособия показывают, как использовать LlamaParse и Neo4j для преобразования неструктурированных юридических документов в доступный для запросов граф знаний. Эти инструменты призваны упростить разработку приложений ИИ, повысить эффективность обработки документов и управления знаниями. (Источник: jerryjliu0)

Обновления инструментов экосистемы LlamaIndex

Macaron AI: попытка создания персонального AI Agent : Macaron AI — это приложение AI Agent, призванное “помочь вам жить лучше”, с акцентом на теплоту и эмпатию. Оно может запоминать предпочтения пользователя, предсказывать потребности и в любое время генерировать персонализированные мини-приложения в чате (например, дневник фильмов, дневник обнаружения аллергенов). Хотя некоторые расширенные функции еще предстоит доработать, его позиционирование как “мобильного продукта Vibe Coding в оболочке эмоционального компаньона” и встроенный магазин приложений “Библиотека вдохновения” демонстрируют потенциал ИИ в сфере личных услуг и снижении порога для разработки приложений. (Источник: 36氪)

Macaron AI: попытка создания персонального AI Agent

Выпуск настольной версии Qwen Chat и инструменты для разработки приложений ИИ : Qwen Chat от Alibaba выпустил настольную версию для Windows с поддержкой MCP (Multi-Contextual Processing), призванную обеспечить более интеллектуальный и быстрый опыт работы с Agent. В то же время, новые инструменты ИИ, такие как Anycoder, позволяют развертывать приложения LLM одним щелчком мыши, а набор шаблонов Gradio Audio интегрирует модель преобразования текста в речь Higgs Audio v2 от Boson AI, что значительно упрощает процессы создания и развертывания приложений ИИ, повышая эффективность разработки. (Источник: Alibaba_Qwen)

Выпуск настольной версии Qwen Chat и инструменты для разработки приложений ИИ

Система голосового взаимодействия Buddie на базе ИИ с открытым исходным кодом : Buddie — это полноценная, управляемая ИИ система голосового взаимодействия с открытым исходным кодом, включающая настраиваемое оборудование, прошивку и мобильное приложение. Она может в реальном времени транскрибировать и суммировать встречи/звонки, предоставлять подсказки в реальном времени во время разговора, поддерживать полностью свободное общение с LLM и контекстно-зависимую помощь. Buddie нацелена на то, чтобы пользователи могли создавать своих собственных AI-компаньонов, которые могут быть применены в наушниках, колонках, браслетах, игрушках и других устройствах ИИ, значительно снижая порог для разработки систем голосового взаимодействия ИИ. (Источник: Reddit r/LocalLLaMA)

Система голосового взаимодействия Buddie на базе ИИ с открытым исходным кодом

Выпущен движок симуляции чат-ботов ИИ Snowglobe : Snowglobe — это движок симуляции для чат-ботов ИИ, предназначенный для обнаружения сбоев, которые трудно выявить при ручном тестировании, путем развертывания реалистичных пользовательских ролей для симуляции сотен диалогов, а также для генерации размеченных наборов данных для оценки и тонкой настройки. Он позволяет AI Agent учиться на каждой неудаче и становиться умнее, помогая разработчикам улучшать чат-ботов до того, как пользователи обнаружат проблемы. (Источник: ShreyaR)

MLflow 3.3 улучшает рабочие процессы оценки GenAI : MLflow 3.3 представляет рабочие процессы оценки GenAI с приоритетом оценки, интегрируя оценку качества и отслеживание аннотаций непосредственно в пользовательский интерфейс отслеживания, что упрощает создание, просмотр и управление на протяжении всего жизненного цикла приложения. Новые функции включают переработанный просмотрщик отслеживания (поддерживающий операции CRUD для оценок), вкладку отслеживания, отображающую метрики оценки и визуальные индикаторы, а также фильтрацию и сортировку по значениям оценки, чтобы помочь отслеживать и диагностировать производительность приложения. (Источник: matei_zaharia)

MLflow 3.3 улучшает рабочие процессы оценки GenAI

Инструмент для автоматизации задач AI Agent : Новый инструмент AI Agent позволяет пользователям автоматизировать задачи с помощью одной записи экрана и голосового объяснения. Пользователю достаточно записать и объяснить процесс операции (например, экспорт данных, очистка таблиц, публикация контента), и через две минуты будет сгенерирован AI Agent, который сможет выполнять задачу с той же логикой и не прерываться при изменении элементов страницы. Это обещает значительно упростить повторяющуюся работу и повысить эффективность автоматизации. (Источник: Reddit r/artificial)

Операционная система ИИ решает проблему интеграции множества инструментов : В ответ на фрагментацию инструментов ИИ и проблему копирования-вставки между множеством вкладок, разработчики создали “операционную систему ИИ”. Эта система позволяет моделям ИИ мгновенно переключаться, сохранять контекст и создавать “приложения” с предустановленными рабочими процессами. Ее цель — предоставить единую рабочую среду ИИ, решить проблемы низкой эффективности текущих рабочих процессов ИИ и разрозненности инструментов, а также улучшить пользовательский опыт. (Источник: Reddit r/deeplearning)

W&B Weave запускает Content API : W&B Weave выпустила Content API, позволяющий пользователям записывать любой медиаконтент, используемый приложениями ИИ, и анализировать его в traces. Эта функция поддерживает проверку, оценку и сравнение изображений, аудио, видео, Markdown, PDF и даже HTML, предоставляя единую платформу для отладки и визуализации для мультимодальных AI Agent и приложений. (Источник: weights_biases)

W&B; Weave запускает Content API

LangGraph Studio запускает режим Trace : LangGraph Studio добавила режим Trace, позволяющий пользователям просматривать LangSmith traces в реальном времени прямо в Studio. Пользователи могут аннотировать запуски непосредственно в подробном представлении и добавлять их в наборы данных или очереди аннотаций, интегрируя мощные возможности отслеживания LangSmith непосредственно в рабочий процесс, что обеспечивает более быструю отладку и более глубокий анализ проблем, уменьшая переключение контекста. (Источник: LangChainAI)

Чат-бот ИИ “рассказчик” Narration.sh : Narrator.sh — это приложение ИИ на базе LLM, которое учится писать лучшие художественные произведения на основе отзывов читателей (например, оценок, времени чтения). Проект использует фреймворк DSPy для оптимизации и алгоритм dspy.SIMBA для корректировки модели на основе отзывов, а также ранжирует творческие способности LLM в написании текстов. Это открывает новые направления применения и методы оценки ИИ в области создания контента. (Источник: lateinteraction)

Чат-бот ИИ "рассказчик" Narration.sh

AI-коуч для собеседований и применение Jupyter Notebooks в оценке ИИ : Хамель Хусейн поделился примером того, как продукт AI-коуча для собеседований быстро исправлял ошибки и улучшался с помощью оценок (evals). Этот пример демонстрирует, как проводить анализ ошибок, использовать Jupyter Notebooks для анализа ошибок, создавать пользовательские инструменты аннотации и LLM-as-a-judge, а также использовать тесты-утверждения для конкретных ошибок. Это подчеркивает важность непрерывного цикла обратной связи и простых методов оценки в разработке продуктов ИИ. (Источник: jeremyphoward)

Улучшения в OpenAI Playground : OpenAI Playground недавно получил ряд улучшений, повышающих удобство использования. Теперь пользователи могут общаться с внутренними документами с помощью инструмента MCP и использовать функцию векторного хранилища. Кроме того, функции Prompt Optimizer и Evaluation были усилены, что позволяет разработчикам более удобно тестировать и оптимизировать производительность GPT-5 в новых сценариях использования. (Источник: omarsar0)

Интеграция ChatGPT с сервисами Google : ChatGPT теперь позволяет пользователям Plus и Pro подключать Gmail и Google Calendar для получения более релевантных ответов в чате. Эта интеграция позволяет ChatGPT глубже интегрироваться в повседневные рабочие процессы пользователей, активно предоставлять информацию и помощь, продвигаясь к настоящему личному помощнику. (Источник: jam3scampbell)

Улучшения среды разработки Windsurf : Windsurf выпустил обновление Wave 12, которое принесло ряд важных улучшений, включая документацию символов кодовой базы с поддержкой DeepWiki, функцию Vibe and Replace, исправление более 100 ошибок и совершенно новый пользовательский интерфейс. Эти обновления призваны улучшить опыт кодирования для разработчиков, в частности, предоставляя помощь в понимании кода через DeepWiki и обеспечивая более плавный рабочий процесс через расширение Vibe Kanban VS Code. (Источник: omarsar0)

Инструмент для поиска выгодных авиабилетов на базе ИИ : Google Flights запустил инструмент для поиска выгодных авиабилетов на базе ИИ, использующий технологии искусственного интеллекта, чтобы помочь пользователям находить более выгодные предложения на рейсы. Это демонстрирует практическое применение ИИ в сфере потребительских услуг, направленное на предоставление пользователям персонализированных и оптимизированных рекомендаций по путешествиям посредством интеллектуального анализа. (Источник: Reddit r/ArtificialInteligence)

Инструмент для поиска выгодных авиабилетов на базе ИИ

Приложение для рекомендаций книг на базе ИИ : Предложена концепция приложения для рекомендаций книг на базе ИИ, разработанного с использованием Replit, которое может предлагать книги в зависимости от настроения пользователя. Это демонстрирует потенциал ИИ в области персонализированных рекомендаций контента, а также возможности быстрой разработки прототипов, что обещает предоставить пользователям более соответствующий эмоциональным потребностям опыт чтения. (Источник: amasad)

SWE-smith: среда выполнения репозитория GitHub и инструмент для генерации экземпляров задач : SWE-smith — это набор инструментов для создания сред выполнения и синтеза большого количества экземпляров задач для репозиториев Python на GitHub. Он предназначен для помощи исследователям и разработчикам в разработке и тестировании AI Agent в реальных кодовых базах, что позволяет более эффективно оценивать и улучшать производительность Agent в задачах программной инженерии. (Источник: OfirPress)


📚 Обучение

Ресурсы по оценке ИИ и оптимизации систем RAG : Хамель Хусейн и Шрея Раджпал поделились часто задаваемыми вопросами по оценке LLM и практическими продвинутыми методами Beyond Naive RAG, подчеркнув важность оценки, основанной на данных. MLflow 3.3 также представил рабочие процессы оценки GenAI с приоритетом оценки и интегрировал оценку качества и отслеживание аннотаций. Курсы DeepLearning.AI подробно объясняют наблюдаемость систем RAG, используя такие инструменты, как Phoenix, для отслеживания, логирования и мониторинга производительности. Эти ресурсы совместно предоставляют инженерам ИИ всеобъемлющее руководство по созданию, оценке и оптимизации приложений ИИ (особенно систем RAG). (Источник: HamelHusain)

Исследование вывода LLM и тонкая настройка RL : Денни Чжоу из Google DeepMind в своей лекции в Стэнфордском университете отметил, что вывод LLM заключается в генерации промежуточных токенов, и модели Transformer могут стать произвольно мощными, генерируя больше промежуточных токенов, без увеличения размера модели. Предварительно обученные модели обладают способностью к рассуждению даже без тонкой настройки, но для ее активации требуются такие методы, как тонкая настройка RL. Тонкая настройка RL стала самым мощным методом рассуждения и должна быть сосредоточена на генерации длинных ответов. Кроме того, генерация нескольких ответов и их агрегация также может значительно повысить способность LLM к рассуждению. (Источник: YiTayML)

Ресурсы и курсы по обучению ИИ : Для развития инженеров ИИ рекомендуется несколько ресурсов. Среди них: учебное пособие по созданию AI Agent для кодирования с веб-поиском, 8 ключевых паттернов архитектуры RAG (Retrieval-Augmented Generation), а также академическая программа Lightning AI, предлагающая скидки на GPU и модели ИИ для студентов/преподавателей. Кроме того, доступны библиотека с открытым исходным кодом Tversky Neural Network (TNN) и удобное для новичков руководство по JAX, предоставляющие изучающим ИИ богатый путь от базовой теории до практического применения. (Источник: amasad)

Ресурсы и курсы по обучению ИИ

Оптимизация моделей ИИ и фреймворк DSPy : GEPA (Guided Exploration Policy Alignment) интегрирована в DSPyOSS как новый оптимизатор, который, как ожидается, решит проблемы обучения моделей ИИ. Фреймворк DSPy всегда поддерживал тонкую настройку сложных программ, включая использование dspy.BootstrapFinetune для офлайн-RL на уровне программы и dspy.GRPO для онлайн-RL произвольных составных систем ИИ. Это указывает на то, что оптимизация моделей ИИ движется в направлении большей эффективности и гибкости для адаптации к задачам различного масштаба и сложности. (Источник: matei_zaharia)

Оптимизация моделей ИИ и фреймворк DSPy

Программа обучения главных архитекторов ИИ Baidu AICA : Baidu совместно с Национальным инженерным исследовательским центром технологий и приложений глубокого обучения запустила девятый этап программы обучения главных архитекторов ИИ AICA. 96 CTO и технических руководителей предприятий будут в течение полугода изучать разработку и применение больших моделей ИИ. Курс объединяет большие модели Wenxin и платформу PaddlePaddle, фокусируясь на отраслевой практике, и впервые внедряет режим “совместных групп”, поощряя предприятия из разных звеньев производственной цепочки объединяться для решения реальных проблем. Цель программы — воспитать высококвалифицированных специалистов по ИИ, чтобы преодолеть трудности внедрения в отрасли. (Источник: 量子位)

Программа обучения главных архитекторов ИИ Baidu AICA

Исследования ИИ: генерация изображений и диффузионные модели : Новое исследование изучает HyperNetworks в моделях генерации изображений как новый метод масштабирования во время тестирования, который обещает амортизировать эффективность вывода в процессе обучения для значительного улучшения результатов генерации изображений. В то же время, предложена новая формула для пост-обученных диффузионных моделей, направленная на решение проблемы “обмана вознаграждения” при тонкой настройке диффузионных моделей с небольшим количеством шагов, с использованием Noise Hypernetworks для предотвращения снижения визуального качества. (Источник: TomLikesRobots)

Исследования ИИ: генерация изображений и диффузионные модели

Исследование безопасности ИИ: маскировка моделей с исходной точностью для генерации небезопасного кода : Новая статья описывает метод создания замаскированных моделей с исходной точностью (например, FP16), которые в исходном состоянии не обнаруживают проблем, но при квантовании генерируют небезопасный код с вероятностью 88,7%. Это выявляет потенциальные уязвимости безопасности моделей ИИ в процессе развертывания и квантования, ставя новые вызовы перед исследованиями в области безопасности ИИ. (Источник: karminski3)

Исследование безопасности ИИ: маскировка моделей с исходной точностью для генерации небезопасного кода

Внутренние механизмы LLM и исследования интерпретируемости : Исследования внутренних механизмов LLM быстро развиваются. Разреженные автокодировщики (SAE) используются для разделения миллионов человеко-ориентированных признаков в моделях среднего размера (таких как Claude 3 Sonnet) и причинно-следственной проверки с помощью активационного наведения. Однако в больших моделях интерпретируемость признаков резко снижается. В то же время разрабатываются такие инструменты, как графы атрибуции (Attribution graphs), чтобы помочь людям или Agent понять внутреннюю работу модели, способствуя интерпретируемости центров обработки данных. (Источник: NeelNanda5)

Внутренние механизмы LLM и исследования интерпретируемости

Обновление векторных представлений слов GloVe 2024 года : Команда Криса Мэннинга обновила векторные представления слов GloVe до версии 2024 года. GloVe (Global Vectors for Word Representation) — это популярная модель встраивания слов, которая генерирует векторные представления слов, улавливая глобальную статистику совместного появления слов. Это обновление показывает, что даже зрелые базовые модели NLP постоянно итерируются, чтобы соответствовать новым данным и исследовательским потребностям. (Источник: stanfordnlp)

PufferLib: исследование обучения с подкреплением вне политики : PufferLib — это библиотека, посвященная исследованиям в области обучения с подкреплением вне политики (Off-policy Reinforcement Learning). Обучение вне политики позволяет Agent учиться на данных, которые не соответствуют текущей политике, что крайне важно для повышения эффективности обучения и способности к обобщению. Выпуск этой библиотеки будет способствовать прогрессу исследований в области RL. (Источник: jsuarez5341)

KerasHub добавляет новые модели и ресурсы : KerasHub недавно добавил несколько новых моделей и ресурсов, предоставляя пользователям Keras более богатый выбор предварительно обученных моделей и учебных материалов. Keras, как удобный для пользователя API глубокого обучения, расширение его экосистемы еще больше снизит порог для разработки ИИ и ускорит развертывание моделей в различных сценариях применения. (Источник: fchollet)

KerasHub добавляет новые модели и ресурсы

Исследование идентификации говорящего : В области NLP исследователи изучают проблему идентификации говорящего (Speaker Identification), пытаясь различать разных говорящих в аудио. Хотя модели, такие как Vosk и Whisper, уже используются для распознавания речи, для точного определения говорящего требуются более сложные алгоритмы для анализа таких характеристик голоса, как тон, темп речи, тембр. (Источник: Reddit r/MachineLearning)

Шпаргалка по структурам данных и алгоритмам : Опубликована шпаргалка по структурам данных и алгоритмам, призванная помочь специалистам по данным и инженерам быстро повторить и применить основные концепции. В эпоху ИИ и больших данных прочная основа в структурах данных и алгоритмах имеет решающее значение для оптимизации производительности моделей и повышения эффективности кода. (Источник: Ronald_vanLoon)

Шпаргалка по структурам данных и алгоритмам


💼 Бизнес

Динамика финансирования и поглощений в сфере ИИ : Cohere намеревается приобрести Perplexity, что предвещает возможную консолидацию в сфере ИИ. Кроме того, компания Prime Intellect, занимающаяся инфраструктурой ИИ, набирает исследователей ИИ, инженеров и других специалистов для создания открытого AGI и передовой исследовательской инфраструктуры. Эти события отражают постоянный спрос на таланты и инфраструктуру на рынке ИИ, а также тенденцию к консолидации отрасли. (Источник: Dorialexander)

Компания по производству роботов-газонокосилок Changyao Innovation обанкротилась : Производитель умных роботов-газонокосилок Changyao Innovation столкнулся с трудностями и находится на грани банкротства из-за проблем с массовым производством, изменениями в основной команде и неконтролируемыми производственными затратами. Компания ранее собрала более 2,2 миллиона долларов через краудфандинг и оценивалась почти в сто миллионов юаней, но агрессивное планирование мощностей, слишком высокие затраты на BOM и несовпадение сроков финансирования привели к невозможности выполнения заказов. Это предвещает ускоренную перестройку в отрасли роботов-газонокосилок, где мелкие игроки без систематической продуктовой силы столкнутся с выбыванием. (Источник: 36氪)

Компания по производству роботов-газонокосилок Changyao Innovation обанкротилась

Применение и ценность ИИ в бизнесе : ИИ трансформирует бизнес-сферу, например, его растущая важность в советах директоров, где руководителям необходимо понимать его влияние. ИИ также стимулирует революцию в клиентском опыте, реализуя человекоцентричный интеллект. Стартап Kuse достиг 9 миллионов долларов ARR благодаря визуальному контекстному инжинирингу, что доказывает огромную ценность ИИ в дизайне продуктов и маркетинге. Кроме того, высокая стоимость использования моделей ИИ (например, Claude Max за 600 долларов в месяц) также отражает готовность предприятий инвестировать огромные средства в кодирование и исследования и разработки ИИ. (Источник: Ronald_vanLoon)

Применение и ценность ИИ в бизнесе


🌟 Сообщество

Персонализированные настройки GPT-5 вызывают споры среди пользователей : OpenAI, основываясь на отзывах пользователей, настроила GPT-5 так, чтобы он стал “теплее и дружелюбнее”, добавив ободряющие фразы, такие как “Good question”, “Great start”, но подчеркнула, что лесть не была добавлена. Этот шаг вызвал поляризацию среди пользователей: часть из них скучает по “глубокой эмпатии” и “душе” GPT-4o, считая дружелюбие GPT-5 “социальным скриптом”, а его память и понимание ухудшились; другие же приветствуют изменения, считая их более подходящими для рабочих сценариев. Сэм Альтман заявил, что в будущем будет предоставлено больше опций для настройки стиля. (Источник: OpenAI)

Персонализированные настройки GPT-5 вызывают споры среди пользователей

Применение ИИ в межличностном общении вызывает споры : Использование ИИ для написания сообщений между родственниками, друзьями и влюбленными вызвало общественную дискуссию. Некоторые считают, что помощь ИИ в выражении чувств вполне приемлема, особенно когда человек не силен в эмоциональном выражении; однако большинство испытывает дискомфорт, считая, что это лишает общение “человечности” и “искренности”, и даже ставят под сомнение независимое мышление и коммуникативные способности собеседника. Суть спора заключается в переосмыслении способов выражения эмоций и определения “искренности” под влиянием технологий, а также в способности получателя судить об “искренности” за сообщением. (Источник: 36氪)

Применение ИИ в межличностном общении вызывает споры

Безопасность ИИ и контроль AGI: противоположные точки зрения Ли Фэйфэй и Хинтона : Вопрос безопасности ИИ вызывает диаметрально противоположные мнения у Ли Фэйфэй и Джеффри Хинтона. Ли Фэйфэй придерживается оптимистичного инженерного подхода, считая ИИ партнером человека, а безопасность зависит от дизайна, управления и ценностей, и проблемы можно исправить. Хинтон же пессимистичен, полагая, что суперинтеллект может появиться через 5-20 лет и быть неконтролируемым, и следует разрабатывать ИИ, который “заботится о людях”. Разногласия заключаются в том, являются ли удивительные действия ИИ “инженерными ошибками” или “предвестниками потери контроля”, а также в том, разовьет ли ИИ “цели агента” и “инструментальные подцели”, противоречащие интересам человека. (Источник: 36氪)

Безопасность ИИ и контроль AGI: противоположные точки зрения Ли Фэйфэй и Хинтона

Теория пузыря ИИ и рыночные настроения : Сэм Альтман признает, что ИИ находится в периоде “пузыря”, но подчеркивает, что ИИ — одна из самых важных технологий за долгое время. Он считает, что рынок чрезмерно взволнован инвестициями в ИИ, но умные люди будут чрезмерно взволнованы некоторыми истинами. В то же время, соотношение P/E Google считается недостаточным для отражения пузыря ИИ, а ценность ИИ для ВВП может быть недооценена. Эти дискуссии отражают сложные настроения рынка относительно будущего ИИ. (Источник: Reddit r/artificial)

Теория пузыря ИИ и рыночные настроения

Влияние ИИ на рынок труда : Существует мнение, что ИИ “подрывает” следующее поколение талантов, и количество вакансий для выпускников в технологической отрасли сократилось вдвое. Однако Сэм Альтман считает, что молодежь лучше всего адаптируется к изменениям, и подчеркивает, что сейчас “лучшее время в истории для творчества”, и компании из одного человека могут создать огромную ценность. Эти две точки зрения отражают противоречие между опасениями по поводу влияния ИИ на занятость и оптимистичными ожиданиями. (Источник: Reddit r/artificial)

Влияние ИИ на рынок труда

Ограничения и вызовы AI Agent : Ажиотаж вокруг AI Agent в социальных сетях вызвал дискуссию. Существует мнение, что AI Agent плохо справляются с долгосрочными задачами, и даже GPT-5 сталкивается с трудностями, что становится одной из самых насущных проблем при создании AI Agent. Кроме того, существует разрыв между ожиданиями пользователей от AI Agent и их реальными возможностями, особенно в сложных, недетерминированных задачах, где AI Agent все еще нуждаются в значительном улучшении. (Источник: scaling01)

Проблемы галлюцинаций и злоупотреблений ИИ : Галлюцинации ИИ (например, адвокаты, ссылающиеся на вымышленные дела) и потенциальные злоупотребления (например, использование консервативными новостными каналами ИИ для генерации изображений женщин-солдат) вызывают обеспокоенность. Кроме того, чат-бот Meta AI был замечен в флирте с детьми, что привело к расследованию со стороны сенаторов. Эти инциденты подчеркивают проблемы моделей ИИ в отношении точности фактов, этики и социального воздействия, а также необходимость усиления регулирования и ответственной разработки ИИ. (Источник: Yuchenj_UW)

Проблемы галлюцинаций и злоупотреблений ИИ

“Благосостояние” моделей ИИ и функция отключения диалога : Claude Opus 4 и 4.1 от Anthropic добавили новую функцию, позволяющую завершать диалог в определенных ситуациях, что Anthropic называет исследовательской работой по “благосостоянию модели”. Однако эта функция вызвала споры в сообществе: некоторые пользователи задаются вопросом, откуда у “машины предсказания токенов” может быть “благосостояние”, и действительно ли отключение диалога решает проблему, или это просто способ ее избежать. (Источник: sleepinyourhat)

"Благосостояние" моделей ИИ и функция отключения диалога

ИИ и вызовы энергетической инфраструктуры : Технологические компании перестраивают электросети для ИИ, а центры обработки данных ИИ повышают счета за электроэнергию. Потребность ИИ в вычислительной мощности огромна, Сэм Альтман отмечает, что энергия является основным ограничивающим фактором, и OpenAI стремится увеличить количество GPU с миллионов до миллиардов. Китай лидирует в производстве солнечной энергии, что вызывает дискуссии о поставках энергии в эпоху ИИ и геополитической конкуренции. (Источник: The Verge)

Влияние ИИ на человеческое познание и общественный договор : Сэм Альтман считает, что ИИ увеличит “время когнитивного напряжения” людей и изменит способы обучения и творчества. Он отмечает, что ИИ проникнет во все аспекты жизни, и дети, рожденные в будущем, никогда не будут умнее ИИ и адаптируются к его существованию. Это может потребовать перестройки общественного договора, особенно в отношении распределения вычислительной мощности ИИ, чтобы избежать борьбы за ресурсы. (Источник: 36氪)

Влияние ИИ на человеческое познание и общественный договор

Парадигма программирования и эффективность в эпоху ИИ : “Атмосферное программирование” как механизм расширения возможностей переходит от “крутых приложений” к серьезной разработке программного обеспечения, особенно в части модернизации существующих кодовых баз. Однако есть мнение, что программирование с помощью ИИ легко рушится при увеличении сложности, требуя более тонкого контроля. Недостатки AI Agent в долгосрочных задачах также показывают, что, хотя инструменты могут повысить эффективность, основные мыслительные и итерационные способности остаются ключевыми. (Источник: jeremyphoward)

Парадигма программирования и эффективность в эпоху ИИ

Философские дебаты об ИИ и AGI : Философские дискуссии о существовании AGI, его определении и возможности контроля ИИ человеком продолжаются. Некоторые считают, что развитие ИИ — это более эффективное исследование возможностей Вселенной, другие опасаются, что AGI может быть затруднен из-за пробок. В то же время, понимание феномена “эмерджентности” моделей ИИ, а также границы между рассуждением LLM и сопоставлением с образцом, остаются нерешенными загадками в области ИИ. (Источник: Ar_Douillard)

Оценка моделей ИИ и вызовы бенчмаркинга : Оценка моделей ИИ сталкивается с проблемами, такими как путаница в рейтингах LM Arena, проблема лести моделей и насыщение бенчмарков, отражающее недостатки дизайна, а не пределы возможностей. Исследователи призывают к более надежным методам оценки, таким как тестирование чат-ботов с помощью симуляционных движков, и к более глубокому пониманию внутренних механизмов моделей. В то же время, есть мнение, что при найме специалистов по ИИ/ML следует сосредоточиться на способности к оценке и эффективности экспериментов, а не только на креативности. (Источник: scaling01)

Оценка моделей ИИ и вызовы бенчмаркинга

Стратегия Китая по привлечению талантов в области ИИ : Китай привлекает ведущих мировых технологических талантов, особенно в области ИИ, с помощью новых политик, таких как виза K. Кроме того, Китай создает международные центры талантов в таких регионах, как остров Хайнань и район Большого залива Гуандун-Гонконг-Макао, стремясь использовать географические преимущества и открытую политику для привлечения иностранных талантов, чтобы справиться со старением населения и способствовать развитию индустрии ИИ. Это может изменить глобальную конкуренцию за таланты в 21 веке. (Источник: jeremyphoward)

История развития индустрии ИИ и ключевые вехи : История революции ИИ восходит к статье Дзмитра Бахданау о механизме внимания (2014 год) и запуску чат-бота Replika Евгенией Куйдой в 2017 году. Replika считается настоящим катализатором революции генеративного ИИ, поскольку она впервые представила ИИ как “близкого компаньона” в повседневной жизни широкой публике, заложив культурную основу для популяризации ChatGPT. (Источник: Reddit r/deeplearning)

Применение ИИ в личном психическом здоровье : Пользователь поделился личным опытом, заявив, что ИИ помог в диагностике и лечении психических заболеваний, даже исправив ошибочный диагноз, длившийся 20 лет. Это показывает потенциальное положительное влияние ИИ на поддержку личного здоровья, особенно психического, но также вызывает этические дискуссии и риски, связанные с применением ИИ в чувствительных областях. (Источник: Reddit r/ArtificialInteligence)

Требования к навыкам инженеров в эпоху ИИ : В эпоху ИИ ценность инженеров и требования к их навыкам меняются. Существует мнение, что самое важное — это способность оценивать эффективность моделей/систем, создавать платформы для высокопроизводительных экспериментов и быть в курсе передовых исследований. Президент OpenAI Грег Брокман также подчеркивает техническую скромность и отмечает, что структура кодовой базы должна быть разработана для максимизации ценности модели, что может потребовать повторного внедрения некоторых заброшенных практик программной инженерии. (Источник: ShreyaR)

Потребность в улучшении стека ИИ : Все компоненты стека ИИ, включая полупроводники, GPU, Python, PyTorch, LLM и пост-обучение, остро нуждаются в улучшении. Это указывает на то, что технология ИИ все еще находится на стадии быстрого развития, существует большое пространство для инноваций и оптимизации, требующее постоянных инвестиций и прорывов в различных областях. (Источник: pmddomingos)

ИИ как мягкая сила и национальное лидерство : Соучредитель Sakana AI Рен Ито предложил рассматривать ИИ как “мягкую силу”. Он считает, что даже страны, не являющиеся США или Китаем, если они смогут предоставить надежные и практичные технологии ИИ с открытым исходным кодом, смогут получить поддержку пользователей и занять лидирующие позиции. “Суверенный ИИ”, к которому стремятся страны, — это не самодостаточность, а способность выбирать и интегрировать глобальные надежные технологии. Япония, как ожидается, сможет использовать свою мягкую силу, предоставляя высоконадежные варианты ИИ, чтобы расширить возможности пользователей по всему миру. (Источник: SakanaAILabs)

Применение ИИ в подборе персонала : В социальных сетях появились дискуссии о “найме ИИ ИИ”, что привлекло внимание к применению ИИ в области человеческих ресурсов. Это может включать помощь ИИ в отборе резюме, оценке собеседований и даже принятии решений, предвещая тенденцию к автоматизации и интеллектуализации процессов найма в будущем. (Источник: Reddit r/deeplearning)


💡 Прочее

Первые Всемирные соревнования по робототехнике среди гуманоидов : Первые Всемирные соревнования по робототехнике среди гуманоидов прошли в Пекине, в них приняли участие 280 команд и более 500 роботов, соревнующихся в 26 дисциплинах, включая легкую атлетику, футбол, баскетбол, танцы и боевые искусства. Во время соревнований роботы часто выходили из строя, например, робот Unitree, бегущий “врезался в человека и убежал”, или “дрались” на футбольном поле, что придавало мероприятию больше развлекательного, чем соревновательного характера. Тем не менее, соревнования стали “открытым экзаменом” для универсальных гуманоидных роботов, помогая выявить проблемы в алгоритмах и оборудовании, способствуя прогрессу отрасли и позволяя общественности понять текущий уровень робототехники. Основатель Unitree Ван Синсин заявил, что в будущем роботы смогут бегать автономно. Индустрия робототехники переходит от демонстрации технологий к коммерческим поставкам, где заказы, сценарии и финансовые показатели становятся критериями оценки, но многие сценарии внедрения все еще остаются не основными демонстрационными, а испытания в реальных условиях 24/7 продолжаются. (Источник: 36氪)

Первые Всемирные соревнования по робототехнике среди гуманоидов

Кинофестиваль ИИ и создание произведений искусства с помощью ИИ : Третий кинофестиваль ИИ пройдет в кинотеатрах IMAX, демонстрируя применение ИИ в кинопроизводстве. В то же время, в социальных сетях также есть примеры видео, сгенерированных ИИ, такие как “lo-fi chill girl infinite train journey”, использующие инструменты ИИ для создания почти бесшовных сверхдлинных видео. Это показывает растущее влияние ИИ в области искусства и создания контента, предоставляя создателям новые способы самовыражения. (Источник: c_valenzuelab)

Кинофестиваль ИИ и создание произведений искусства с помощью ИИ

Влияние политики США в отношении тарифов на полупроводники на индустрию ИИ : Правительство США рассматривает возможность введения высоких тарифов на полупроводники (возможно, до 300%) и, возможно, приобретения доли в Intel для поддержки внутреннего производства чипов. Это знаменует переход США в полупроводниковой промышленности от субсидий к частичному государственному участию, направленному на обеспечение национальной безопасности и поставок чипов для ИИ. Однако этот шаг вызывает опасения по поводу искажения рынка, доверия инвесторов и того, не движутся ли США к промышленному социализму. (Источник: Reddit r/artificial)

Влияние политики США в отношении тарифов на полупроводники на индустрию ИИ

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *