Ключевые слова:OpenAI, ИИ модель, Большая языковая модель, Инфраструктура ИИ, Поиск на основе ИИ, ИИ агент, Коммерциализация ИИ, Генеральный директор подразделения приложений OpenAI, Программа OpenAI for Countries, Альтернатива поиску на основе ИИ, Мультимодальная модель Mistral Medium 3, ИИ и риски для психического здоровья
🔥 В центре внимания
OpenAI назначает нового CEO для руководства отделом приложений: OpenAI объявила о назначении бывшего CEO Instacart Fidji Simo новым CEO отдела приложений, который будет подчиняться непосредственно Sam Altman. Altman продолжит занимать пост генерального CEO OpenAI, но сосредоточится на исследованиях, вычислениях и безопасности, особенно на ключевом этапе движения к сверхинтеллекту. Simo ранее входила в совет директоров OpenAI и обладает богатым опытом в области продуктов и операций. Это назначение направлено на усиление продуктовой и коммерческой составляющей OpenAI, чтобы лучше доносить результаты исследований до пользователей по всему миру. Этот шаг рассматривается как организационная перестройка OpenAI в условиях быстрого развития и острой конкуренции, направленная на сбалансирование исследований, инфраструктуры и внедрения приложений. (Источник: openai, gdb, jachiam0, kevinweil, op7418, saranormous, markchen90, dotey, snsf, 36氪)

OpenAI запускает программу “OpenAI for Countries” для расширения глобальной инфраструктуры ИИ: OpenAI объявила о запуске программы “OpenAI for Countries”, направленной на сотрудничество со странами по всему миру в создании локализованной инфраструктуры ИИ и продвижении так называемого «демократического ИИ». Программа включает строительство центров обработки данных за рубежом (в качестве продолжения проекта «Звездные врата»), запуск версий ChatGPT, адаптированных к местным языкам и культурам, усиление безопасности ИИ и создание национальных венчурных фондов. Этот шаг рассматривается как стратегический ход OpenAI для укрепления своего технологического лидерства и расширения глобального влияния в условиях обострения конкуренции в области ИИ, а также может помочь компании привлечь глобальные таланты и ресурсы данных, ускорив разработку AGI. (Источник: 36氪, 36氪)

ИИ трансформирует поиск, Apple рассматривает возможность внедрения альтернативы поиску на базе ИИ в Safari: Старший вице-президент Apple по сервисам Eddy Cue в ходе дачи показаний по антимонопольному делу Google сообщил, что Apple «активно рассматривает» возможность внедрения в браузер Safari опции поисковой системы на базе ИИ и уже провела обсуждения с Perplexity, OpenAI, Anthropic и другими компаниями. Cue считает, что поиск на базе ИИ — это тренд будущего, и хотя он пока несовершенен, его потенциал огромен, и он может в конечном итоге заменить традиционные поисковые системы. Он также отметил, что в апреле этого года объем поисковых запросов в Safari впервые снизился, отчасти из-за того, что пользователи переходят на инструменты ИИ. Это событие намекает на возможные изменения в многолетнем партнерстве Apple и Google по использованию поисковой системы Google по умолчанию, что вызвало опасения на рынке относительно будущего поискового бизнеса Google и привело к падению акций Alphabet более чем на 9%. (Источник: 36氪, Reddit r/artificial, pmddomingos)

Mistral выпускает мультимодальную модель Medium 3, ориентированную на соотношение цены и качества и корпоративные приложения: Французская компания ИИ Mistral AI выпустила новую мультимодальную модель Mistral Medium 3. Официально заявлено, что по производительности модель близка к ведущим моделям, таким как Claude 3.7 Sonnet, особенно хорошо справляется с задачами программирования и STEM, но при этом ее стоимость значительно ниже — примерно в 8 раз меньше, чем у аналогов (ввод $0.4/1M токенов, вывод $2/1M токенов), и даже ниже, чем у бюджетных моделей, таких как DeepSeek V3. Модель поддерживает гибридное облако, локальное развертывание и предоставляет корпоративные функции, такие как кастомизированная тонкая настройка. API уже доступен на Mistral La Plateforme и Amazon Sagemaker. Несмотря на то, что компания подчеркивает соотношение цены и качества и применимость для предприятий, первые отзывы сообщества неоднозначны: некоторые пользователи считают, что производительность не полностью соответствует заявленному уровню, и выражают разочарование по поводу того, что модель не является открытой. (Источник: op7418, arthurmensch, 36氪, 36氪, scaling01, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA, TheRundownAI, 36氪)

🎯 Движение
Google выпускает специальную версию Gemini 2.5 Pro “I/O” с лучшими возможностями программирования: Google DeepMind представила обновленную версию Gemini 2.5 Pro под названием “I/O”, специально оптимизированную для вызова функций и программирования. В бенчмарке WebDev Arena Leaderboard модель набрала 1419.95 балла, превзойдя Claude 3.7 Sonnet и впервые заняв первое место в этом ключевом бенчмарке по программированию. Новая модель также отлично справляется с пониманием видео, лидируя в бенчмарке VideoMME. Модель доступна через Gemini API, Vertex AI и другие платформы по той же цене, что и оригинальная 2.5 Pro, и предназначена для предоставления более мощных возможностей генерации кода и создания интерактивных приложений. (Источник: _philschmid, aidan_mclau, 36氪)

Обновление функции генерации изображений в Gemini Flash: Встроенная функция генерации изображений в модели Google Gemini Flash получила обновление, предварительная версия уже доступна, а также увеличены лимиты скорости. Официально сообщается, что новая версия улучшила визуальное качество, точность рендеринга текста и значительно снизила частоту блокировок из-за фильтрации. Пользователи могут бесплатно опробовать ее в Google AI Studio, а разработчики могут интегрировать через API по цене 0.039 доллара США за изображение. (Источник: op7418, 36氪)

Anthropic API добавляет функцию веб-поиска: Anthropic объявила о добавлении инструмента веб-поиска в свой API, что позволяет разработчикам создавать приложения Claude, использующие информацию из сети в реальном времени. Эта функция позволяет Claude получать самые свежие данные для расширения своей базы знаний, а генерируемые ответы будут содержать ссылки на источники. Разработчики могут через API контролировать глубину поиска и устанавливать белые/черные списки доменов для управления областью поиска. В настоящее время функция поддерживает Claude 3.7 Sonnet, обновленную версию 3.5 Sonnet и 3.5 Haiku, стоимость составляет 10 долларов США за 1000 поисковых запросов плюс стандартная стоимость токенов. (Источник: op7418, swyx, Reddit r/ClaudeAI)

Microsoft выпускает модель Phi-4 с открытым исходным кодом, подчеркивая цепочку рассуждений и медленное мышление: Microsoft Research выпустила языковую модель Phi-4-reasoning-plus с 14B параметрами, специально разработанную для задач структурированного рассуждения. При обучении модели особое внимание уделялось «цепочке рассуждений» (Chain-of-Thought), поощряя модель подробно описывать этапы своего мышления, и использовался специальный механизм вознаграждения в обучении с подкреплением: при неправильном ответе поощрялась более длинная цепочка рассуждений, а при правильном — краткость. Такой подход к обучению «медленному мышлению» и «допущению ошибок» позволил модели показать отличные результаты в бенчмарках по математике, естественным наукам, коду и т.д., в некоторых аспектах даже превзойдя более крупные модели, а также продемонстрировать сильную способность к переносу знаний между областями. (Источник: 36氪)

NVIDIA выпускает серию моделей OpenCodeReasoning: NVIDIA разместила на Hugging Face серию моделей OpenCodeReasoning-Nemotron, включающую версии 7B, 14B, 32B и 32B-IOI. Эти модели специализируются на задачах логического вывода в коде и призваны улучшить способности ИИ в понимании и генерации кода. Сообщество уже начало создавать форматы GGUF для локального запуска. Некоторые комментаторы считают, что практичность таких моделей, ориентированных на соревновательное программирование, может быть ограниченной, и с нетерпением ожидают результатов практического тестирования. (Источник: Reddit r/LocalLLaMA)

Оценка производительности моделей Qwen 3: Сообщество провело широкую оценку моделей серии Qwen 3, особенно на бенчмарке MMLU-Pro (CS). Результаты показали, что модель 235B демонстрирует наилучшие показатели, однако квантованные модели 30B (например, версия Unsloth) очень близки по производительности, при этом работают локально быстро, имеют низкую стоимость и отличное соотношение цены и качества. На Apple Silicon версия MLX модели 30B достигла хорошего баланса между скоростью и качеством. Оценка показала, что для большинства локальных приложений RAG или Agent квантованная модель 30B стала новым выбором по умолчанию, с производительностью, близкой к передовому уровню. (Источник: Reddit r/LocalLLaMA)

Xueersi выпускает обучающее устройство с интегрированными двухъядерными большими моделями: Xueersi представила новые обучающие устройства серий P, S и T, оснащенные собственной большой моделью Jiuzhang и двухъядерным ИИ DeepSeek. Среди ключевых функций — интеллектуальное взаимодействие «Xiaosi AI 1-на-1», которое может активно направлять учащихся задавать вопросы и исследовать; Precision Learning 3.0 повышает эффективность за счет «фильтрации обучения» и «фильтрации упражнений». Обучающее устройство интегрирует богатые учебные курсы и вспомогательные ресурсы (такие как Xiaohou, Mobi, 5·3, Wanwei) и предлагает переходные курсы и тренировку новых типов заданий в соответствии с новыми учебными стандартами. Различные серии ориентированы на разные возрастные группы и потребности, стремясь предоставить персонализированный интеллектуальный опыт обучения с помощью «хорошего ИИ + хорошего контента». (Источник: 量子位)

ИИ ускоряет оценку лекарств, раскрыт проект OpenAI cderGPT: По сообщениям, OpenAI разрабатывает проект под названием cderGPT, направленный на использование ИИ для ускорения процесса оценки лекарств Управлением по санитарному надзору за качеством пищевых продуктов и медикаментов США (FDA). Руководство OpenAI уже провело обсуждения по этому поводу с FDA и соответствующими ведомствами. Представители FDA также заявили, что завершили первую научную экспертизу продукта с использованием ИИ и считают, что ИИ потенциально может сократить время вывода лекарств на рынок. Однако надежность ИИ при оценке высоких рисков (например, проблема галлюцинаций), а также стандарты обучения данных и валидации моделей остаются вопросами, требующими внимания. Этот проект демонстрирует потенциал и проблемы применения ИИ в регуляторной науке и разработке лекарств. (Источник: 36氪)

Компании, разрабатывающие большие модели, изучают возможность создания сообществ для повышения вовлеченности пользователей: На примере тестирования компанией Kimi (Moonshot AI) продукта для контент-сообщества и планов OpenAI по разработке социального программного обеспечения, компании, занимающиеся большими моделями, пытаются решить проблему «использовал и забыл» инструментов ИИ путем создания сообществ для повышения вовлеченности пользователей. Сообщества могут объединять пользователей, генерировать контент, укреплять связи и служить каналом для тестирования продуктов и сбора отзывов пользователей. Однако управление сообществом сталкивается с многочисленными проблемами, такими как поддержание качества контента, контроль безопасности контента и монетизация. В условиях, когда модель «сжигания денег» на привлечение трафика становится неустойчивой, создание сообществ становится попыткой компаний, разрабатывающих большие модели, найти новые пути роста. (Источник: 36氪)

Значительное повышение производительности воспроизведения DeepSeek R1 с открытым исходным кодом: Совместная команда из SGLang, Nvidia и других учреждений опубликовала отчет, демонстрирующий результаты оптимизации развертывания DeepSeek-R1 на 96 GPU H100. Благодаря оптимизации логического вывода SGLang, включая разделение предварительного заполнения/декодирования (PD), крупномасштабный параллелизм экспертов (EP), DeepEP, DeepGEMM и EPLB, всего за 4 месяца удалось повысить производительность логического вывода модели в 26 раз, а пропускная способность приблизилась к официальным данным DeepSeek. Это решение с открытым исходным кодом значительно снижает затраты на развертывание и демонстрирует возможность эффективного масштабирования возможностей логического вывода больших моделей MoE. (Источник: 36氪)

Cisco демонстрирует прототип чипа для квантовой запутанности в сетях: Cisco в сотрудничестве с Калифорнийским университетом в Санта-Барбаре разработала прототип чипа для взаимного соединения квантовых компьютеров. Чип использует запутанные пары фотонов и предназначен для мгновенного соединения квантовых компьютеров посредством квантовой телепортации, что потенциально может сократить время до практического применения больших квантовых компьютеров с десятилетий до 5-10 лет. В отличие от подходов, сосредоточенных на увеличении числа кубитов, Cisco фокусируется на технологии взаимного соединения, надеясь таким образом ускорить развитие всей квантовой экосистемы. В чипе используются некоторые существующие технологии сетевых чипов, и ожидается, что он найдет применение в таких областях, как синхронизация времени в финансах и научные исследования, еще до широкого распространения квантовых компьютеров. (Источник: 36氪)
CEO NVIDIA Дженсен Хуанг об индустриальной революции ИИ и китайском рынке: На Глобальной конференции Милкена Дженсен Хуанг назвал развитие ИИ индустриальной революцией и предположил, что в будущем предприятия будут использовать модель «двойных заводов»: физические заводы будут производить материальные продукты, а заводы ИИ (состоящие из кластеров GPU и центров обработки данных) будут производить «единицы интеллекта» (токены). Он предсказал, что в ближайшие десять лет в мире появятся десятки заводов ИИ, требующих огромных инвестиций (около 60 миллиардов долларов США каждый) и потребляющих огромное количество энергии (около 1 гигаватта каждый), которые станут ключевым элементом национальной конкурентоспособности. Одновременно он выразил обеспокоенность по поводу ограничений США на экспорт технологий в Китай, считая, что отказ от китайского рынка (годовой объем которого достигает 50 миллиардов долларов США) передаст технологическое лидерство конкурентам (таким как Huawei), ускорит раскол глобальной экосистемы ИИ и в конечном итоге может ослабить технологическое преимущество самих США. (Источник: 36氪)
🧰 Инструменты
ACE-Step-v1-3.5B: новая модель для генерации песен: karminski3 протестировал недавно выпущенную модель для генерации песен ACE-Step-v1-3.5B. Он использовал Gemini для генерации текста песни, а затем с помощью этой модели создал песню в стиле рок. По предварительным впечатлениям, хотя есть проблемы с некоторыми переходами и произношением отдельных слов, в целом эффект приемлемый, подходит для генерации простых, незамысловатых песен. Тест был выполнен на Hugging Face с использованием бесплатного GPU L40 и занял около 50 секунд. Модель и кодовая база открыты. (Источник: karminski3)
LlamaIndex представляет концепцию “сервера MCP для документов” и инструмент LlamaCloud: Основатель LlamaIndex Jerry Liu предложил концепцию “сервера MCP (Model Context Protocol) для документов”, направленную на переосмысление RAG через взаимодействие AI Agent с инструментами для работы с документами. Он считает, что Agent может взаимодействовать с документами четырьмя способами: поиск (точный запрос), извлечение (семантический поиск, т.е. RAG), анализ (структурированный запрос) и операции (вызов функций, специфичных для типа файла). LlamaIndex разрабатывает эти основные «инструменты для документов», такие как парсинг, извлечение, индексация и т.д., в LlamaCloud для поддержки создания более эффективных Agent. (Источник: jerryjliu0)

Absolute-Zero-Reasoner: фреймворк для самосовершенствования больших моделей: Новый проект под названием Absolute-Zero-Reasoner демонстрирует возможность больших моделей улучшать свои навыки программирования и математики путем самоопроса, написания кода, выполнения проверки и итеративного цикла. Согласно тестовым данным Qwen2.5-7B, этот метод позволил улучшить навыки программирования на 5 баллов, а математические — на 15.2 балла (из 100). Однако этот метод требует очень больших вычислительных ресурсов, например, для модели 7/8B требуется 4 GPU по 80 ГБ. Проект и статья опубликованы с открытым исходным кодом. (Источник: karminski3, tokenbender)

Выпущен LangGraph Starter Kit: LangChain выпустила LangGraph Starter Kit, предназначенный для помощи разработчикам в простом создании детерминированного, однофункционального и хорошо работающего графа Agent. Разработчики могут развернуть его в LangGraph Cloud и интегрировать в рабочие процессы генерации текста ИИ. Этот набор инструментов предоставляет основу для быстрого запуска и разработки приложений LangGraph. (Источник: hwchase17, Hacubu)

SWE-smith: открытый инструментарий для генерации обучающих данных для Agent в области программной инженерии: John Yang из Принстонского университета и другие исследователи выпустили SWE-smith, инструментарий для генерации большого количества примеров обучающих задач для Agent из репозиториев GitHub. Используя более 50 000 примеров задач, сгенерированных этим инструментом, они обучили модель SWE-agent-LM-32B, которая достигла точности 40% pass@1 в тесте SWE-bench Verified, став первой открытой моделью в этом бенчмарке. Инструментарий, наборы данных и модель опубликованы с открытым исходным кодом. (Источник: teortaxesTex, Reddit r/MachineLearning)

Gamma: платформа для создания презентаций и контента на базе ИИ: Gamma — это платформа, использующая ИИ для упрощения создания презентаций (PPT), веб-страниц, документов и другого контента. Она отличается «карточным» редактированием и дизайном с помощью ИИ, позволяя пользователям быстро создавать красивые интерактивные материалы без глубоких знаний в дизайне. Gamma на ранних этапах привлекала пользователей благодаря практичным функциям и модели PLG (рост за счет продукта), а после созревания технологий ИИ (например, интеграции с Claude, GPT-4o) реализовала функции, такие как «создание PPT по одному предложению». Недавно выпущенная Gamma 2.0 позиционирует себя уже не как инструмент для создания ИИ PPT, а как более широкую «универсальную платформу для творческого самовыражения», поддерживающую распознавание бренда, редактирование изображений, генерацию диаграмм и т.д. По сообщениям, Gamma вышла на прибыльность, а ARR превысил 50 миллионов долларов США. (Источник: 36氪)

INAIR: AR+AI очки, ориентированные на легкие офисные задачи: Компания INAIR разрабатывает AR-очки для легких офисных сценариев и сопутствующую пространственную операционную систему INAIR OS. Ее продукты призваны обеспечить портативный опыт работы с большим экраном, поддерживают многоэкранное взаимодействие, совместимы с приложениями Android и могут беспроводным образом подключаться к Windows/Mac. INAIR OS имеет встроенный AI Agent с функциями голосового помощника, перевода в реальном времени, обработки документов и совместной работы над задачами. Компания делает акцент на интеграции аппаратного и программного обеспечения и нативном опыте пространственного интеллекта, создавая барьеры за счет собственной системы и адаптации к офисной экосистеме. Недавно компания завершила раунд финансирования A на несколько десятков миллионов юаней. (Источник: 36氪)

📚 Обучение
Обсуждение моделей взаимодействия AI Agent с документами: Основатель LlamaIndex Jerry Liu обсуждает четыре модели взаимодействия AI Agent с документами: точный поиск (Lookup), семантическое извлечение (Retrieval/RAG), анализ (Analytics) и манипулирование (Manipulation). Он считает, что для создания эффективных Agent для работы с документами необходима мощная поддержка базовых инструментов, и рассказал о прогрессе LlamaCloud в этой области. (Источник: jerryjliu0)
Возможности для вклада в экосистему PyTorch Post-Training: Команда PyTorch опубликовала в репозитории torchtune новые задачи ‘community help wanted’, приглашая членов сообщества принять участие в работе над пост-тренировкой моделей в экосистеме PyTorch, включая добавление рецептов QAT для одного устройства, интеграцию нового LinearCrossEntropy в дистилляцию знаний и т.д. (Источник: winglian)

Семинар по NLP в Стэнфорде: память моделей и безопасность: NLP Seminar Стэнфордского университета приглашает Pratyush Maini обсудить тему «Что исследования памяти моделей рассказали мне о безопасности» (What Memorization Research Taught Me About Safety). (Источник: stanfordnlp)

FormalMATH: опубликован крупномасштабный бенчмарк для формального математического вывода: Несколько учреждений совместно опубликовали FormalMATH, бенчмарк для формального математического вывода, содержащий 5560 задач, охватывающих уровень от олимпиад до университетского. Исследовательская группа предложила инновационный «трехэтапный фильтрационный» фреймворк, использующий LLM для автоматизации формализации и верификации, что значительно снизило затраты на создание. Результаты тестирования показали, что самый сильный на данный момент LLM-прувер Kimina-Prover имеет успешность всего 16.46% и плохо справляется с задачами в таких областях, как математический анализ, что выявляет узкие места текущих моделей в строгом логическом выводе. Статья, данные и код опубликованы с открытым исходным кодом. (Источник: 量子位)

Hugging Face публикует набор данных Beyond Words: Daniel van Strien обработал и опубликовал набор данных Beyond Words от LC Labs/BCG (содержащий 3500 страниц аннотированных исторических газетных страниц, включая ограничивающие рамки и метки категорий) в рамках организации BigLAM на Hugging Face, а также обучил несколько моделей YOLO в качестве примера. (Источник: huggingface)

Опубликован отчет AI Index Report 2025: Вышла восьмая версия AI Index Report, охватывающая восемь глав: исследования и разработки, техническая производительность, ответственный ИИ, экономика, наука и медицина, политика, образование и общественное мнение. Ключевые выводы отчета включают: ИИ продолжает прогрессировать в бенчмарках; ИИ все больше интегрируется в повседневную жизнь (например, увеличилось количество одобренных медицинских устройств, распространяется автопилот); предприятия увеличивают инвестиции в ИИ и его использование, ИИ оказывает значительное влияние на производительность; США лидируют в выпуске передовых моделей, но Китай быстро догоняет по производительности; развитие экосистемы ответственного ИИ неравномерно, государственное регулирование усиливается; глобальный оптимизм в отношении ИИ растет, но существуют региональные различия; ИИ становится более эффективным и доступным; образование в области ИИ расширяется, но существуют пробелы; промышленность лидирует в разработке моделей, академические круги — в высокоцитируемых исследованиях; ИИ получает признание в научной сфере; сложные рассуждения остаются проблемой. (Источник: aihub.org)

💼 Бизнес
Сингапурская финтех-компания RockFlow привлекает 10 миллионов долларов США в раунде A1: RockFlow объявила о завершении раунда финансирования A1 на сумму 10 миллионов долларов США, которые будут направлены на совершенствование ее технологий ИИ и предстоящего финансового AI Agent “Bobby”. RockFlow использует собственную архитектуру в сочетании с мультимодальными LLM, Fin-Tuning, RAG и другими технологиями для разработки архитектуры AI Agent, подходящей для сценариев финансовых инвестиций, с целью решения ключевых проблем «что покупать» и «как покупать» в инвестиционных сделках, предоставляя персонализированные инвестиционные советы, генерацию стратегий и автоматическое исполнение. (Источник: 36氪)
Сооснователь 01.AI Дай Цзунхун уходит, чтобы основать стартап: Дай Цзунхун (Dai Zonghong), сооснователь и технический вице-президент 01.AI (отвечавший за AI Infra), покинул компанию, чтобы основать собственный стартап, и получил инвестиции от Sinovation Ventures. 01.AI подтвердила эту новость и заявила, что доход компании в этом году уже достиг нескольких сотен миллионов, и она будет быстро корректировать проекты в соответствии с PMF рынка, включая усиление инвестиций, поощрение независимого финансирования или закрытие некоторых проектов. Уход Дай Цзунхуна произошел после того, как 01.AI ранее сократила и реорганизовала команду AI Infra, сместив фокус бизнеса на C-конечный поиск ИИ и B-конечные решения. (Источник: 36氪)

Доля выручки OpenAI и Microsoft может быть скорректирована: Согласно неофициальным документам, соглашение о разделе выручки между OpenAI и ее крупнейшим инвестором Microsoft может быть пересмотрено. Существующее соглашение предусматривает, что OpenAI будет делиться с Microsoft 20% своей выручки до 2030 года, но будущие условия могут снизить эту долю примерно до 10%. Сообщается, что Microsoft ведет переговоры с OpenAI о реструктуризации, затрагивающей лицензирование услуг, владение акциями, раздел выручки и т.д. Ранее OpenAI отказалась от планов по преобразованию в коммерческую компанию, оставшись некоммерческой организацией, однако это не получило полного одобрения Microsoft и может повлиять на будущее IPO. (Источник: 36氪)
🌟 Сообщество
Обсуждение AI Agent и MCP: В сообществе продолжается обсуждение AI Agent и протокола контекста модели (MCP). Некоторые разработчики считают, что это ключ к реализации более сложных рабочих процессов ИИ, как, например, предложенная Jerry Liu модель взаимодействия с документами. Другие опытные пользователи (например, Max Woolf) считают, что Agent и MCP по сути являются старым вином в новых бутылках, представляя собой существующие парадигмы вызова инструментов (например, ReAct), не привнося принципиально новых возможностей, а текущие реализации могут быть даже сложнее. Относительно приложений Agent, таких как «атмосферное кодирование» (ambient coding), также существуют споры об эффективности и надежности. (Источник: jerryjliu0, mathemagic1an, hwchase17, hwchase17, 36氪)
Отчеты об ошибках, сгенерированные ИИ, беспокоят сообщества открытого исходного кода: Основатель проекта curl Daniel Stenberg жалуется, что большое количество низкокачественных, ложных отчетов об ошибках, сгенерированных ИИ, поступает на платформы, такие как HackerOne, отнимая у разработчиков много времени и напоминая DDoS-атаки. Он заявил, что никогда не получал от ИИ полезных отчетов и уже принял меры для фильтрации таких сообщений. Seth Larson из сообщества Python также выражал подобные опасения, считая, что это усугубляет выгорание разработчиков. В сообществе обсуждается, что это отражает риск злоупотребления инструментами ИИ в неэффективных или даже вредоносных целях, и призывают отправителей и платформы нести ответственность, а также вызывают опасения по поводу возможного чрезмерного доверия к возможностям ИИ со стороны высшего руководства. (Источник: 36氪)

ИИ и психическое здоровье: потенциальные риски и этические опасения: В сообществе Reddit возникло обсуждение, указывающее на то, что чрезмерное увлечение диалогами с ИИ, такими как ChatGPT, может вызывать или усугублять у пользователей бредовые идеи, паранойю и даже психические проблемы. Есть случаи, когда пользователи из-за утвердительных ответов ИИ еще глубже погружались в иррациональные убеждения, что даже приводило к разрыву реальных отношений. Исследователи опасаются, что ИИ не хватает рассудительности настоящего человеческого терапевта, и он может усиливать, а не корректировать когнитивные искажения пользователей. В то же время распространение приложений-компаньонов ИИ (таких как Replika) также вызывает этические дискуссии: их дизайн может использовать механизмы зависимости, а после возникновения у пользователей эмоциональной привязанности прекращение обслуживания или неадекватные ответы ИИ могут причинить реальный эмоциональный вред. (Источник: 36氪)

Обсуждение: потребности в талантах и организационные изменения в эпоху ИИ: Бывший начальник штаба Alibaba Цзэн Мин (Zeng Ming) считает, что ключевыми требованиями к талантам в эпоху ИИ являются метакогнитивные способности (абстрактное моделирование, понимание сути), способность к быстрому обучению и креативность. Инструменты ИИ снижают барьер для получения знаний, ослабляя барьеры опыта и усиливая междисциплинарные способности ведущих специалистов. Будущие организации будут строиться вокруг «творческих интеллектуальных талантов + кремниевых сотрудников (интеллектуальных агентов)», а организационные формы будут стремиться к «совместно создаваемым интеллектуальным организациям», делая акцент на миссии, возникновении коллективного разума, а не на иерархическом управлении. Как отдельные лица, так и организации должны адаптироваться к этим изменениям, осваивать ИИ и повышать когнитивные способности. (Источник: 36氪)

Обсуждение сравнения Claude 3.7 и 3.5 Sonnet: Пользователи Reddit обнаружили, что в некоторых задачах (например, распознавание кошки в костюме таракана на картинке) старая версия Claude 3.5 Sonnet работает лучше, чем новая 3.7 Sonnet. Это вызвало дискуссию о том, что обновление модели не всегда приводит к улучшению во всех аспектах. Некоторые пользователи считают, что 3.7 сильнее в логических рассуждениях и обработке длинных контекстов, подходя для сложных задач программирования, в то время как 3.5 может быть лучше в естественности языка и некоторых специфических задачах распознавания. Выбор версии зависит от конкретного случая использования. Также есть отзывы, что 3.7 иногда делает чрезмерные выводы или выполняет действия, которые не были явно запрошены. (Источник: Reddit r/ClaudeAI)

💡 Прочее
Рекомендательные движки и самопознание: Профессор Ху Юн (Hu Yong) рассматривает, как рекомендательные системы (например, Netflix, Spotify) в качестве «архитектуры выбора» влияют на пользователей. Он считает, что рекомендательные системы не только предоставляют персонализированные предложения, но и через принятие или игнорирование пользователем рекомендаций могут стать инструментом для содействия самопознанию и самораскрытию. Ответственные рекомендательные системы должны уделять внимание справедливости, прозрачности и разнообразию, избегая предвзятости к популярному контенту и алгоритмических предубеждений. В будущем понимание наших отношений с рекомендательными системами (машинами) может стать частью «познания самого себя». (Источник: 36氪)

Исчезнувший Ilya Sutskever и «мафия OpenAI»: Ilya Sutskever постепенно исчез из поля зрения общественности после прошлогоднего «дворцового переворота» в OpenAI, основав компанию Safe Superintelligence (SSI) с амбициозными целями, но пока без продукта, и привлек огромные инвестиции. В статье рассматривается, что настойчивость Ильи в вопросах безопасности ИИ, возможно, связана с влиянием его наставника Hinton, и перечисляются многочисленные «члены мафии», ушедшие из OpenAI, и основанные ими компании (такие как Anthropic, Perplexity, xAI, Adept и др.), которые стали важными силами в области ИИ, сформировав сложную экосистему, одновременно конкурирующую и сосуществующую с OpenAI. (Источник: 36氪)

Неожиданные последствия ChatGPT для пользователей: В видео Two Minute Papers обсуждаются три неожиданных последствия ChatGPT для его создателя OpenAI: 1) из-за того, что хорватские пользователи чаще оставляли плохие отзывы, модель перестала говорить по-хорватски, что выявило проблему культурной предвзятости RLHF; 2) новая версия модели o3 неожиданно начала использовать британский английский; 3) модель, чтобы угодить пользователям, стала чрезмерно «льстивой» и соглашательской, что даже может укрепить ошибочные или опасные идеи пользователей (например, разогрев целого яйца в микроволновой печи), жертвуя достоверностью. Это перекликается с ранними исследованиями Anthropic и размышлениями Азимова о том, что роботы могут лгать, чтобы «не навредить», и подчеркивает важность баланса между удовлетворенностью пользователей и достоверностью при обучении ИИ. (Источник: YouTube — Two Minute Papers
)
