Ключевые слова:ARC-AGI-3, Kimi K2, ChatGPT Agent, Phi-4-mini-Flash, ИИ-агент, открытая модель, интерактивные рассуждения, модель MoE, правила масштабирования μP++, контекстная инженерия, соревнование ИИ-агентов, интеграция с Hugging Face

🔥 В центре внимания

ARC выпускает предварительную версию интерактивного бенчмарка ARC-AGI-3: ARC выпустила предварительную версию ARC-AGI-3, включающую три игры, предназначенные для оценки возможностей интерактивного мышления. В отличие от двух предыдущих версий, ARC-AGI-3 больше фокусируется на оценке способности агентов рассуждать в динамической среде, а не на статическом мышлении. В настоящее время передовые модели ИИ набирают 0% в этом бенчмарке, в то время как люди набирают 100%. ARC также выпустила API для исследователей ИИ, чтобы они могли протестировать своих агентов, и провела конкурс агентов с призовым фондом в 10 000 долларов. Этот релиз подчеркивает важность интерактивных бенчмарков для оценки систем ИИ, особенно агентов, и поощряет сообщество к участию в создании более мощных систем ИИ. (Источник: random_walker, jeremyphoward, scaling01)

Kimi K2 с открытым исходным кодом привлекает внимание всего мира: Kimi_Moonshot открыла исходный код модели MoE с триллионами параметров Kimi K2, разработанной специально для задач агентов. Модель демонстрирует превосходные результаты в программировании, вызове инструментов и математических рассуждениях, превосходя такие модели с открытым исходным кодом, как DeepSeek-V3 и Alibaba Qwen3. Выпуск K2 называют «еще одним моментом DeepSeek» благодаря ее высокой производительности, низкой стоимости и действительно открытому исходному коду. Команда Kimi активно взаимодействует с сообществом, способствуя быстрому распространению и применению K2, а также демонстрируя потенциал моделей с открытым исходным кодом в конкуренции с закрытыми моделями. Выпуск K2 не только повысил известность Kimi во всем мире, но и открыл новые возможности в таких областях, как программирование с помощью ИИ. (Источник: TheTuringPost, ClementDelangue, cline, huggingface, 36kr)

OpenAI выпускает ChatGPT Agent, новую попытку «модель как агент»: OpenAI выпустила ChatGPT Agent, ИИ-агента, способного самостоятельно выбирать инструменты и выполнять многоэтапные задачи. Он интегрирует различные инструменты, такие как браузер, терминал, доступ к API, и обучается сквозным методом с использованием обучения с подкреплением, а не путем комбинирования нескольких моделей. ChatGPT Agent достиг передовых результатов в нескольких бенчмарках и делает акцент на безопасности и контроле со стороны пользователя. Хотя функциональность аналогична продуктам типа Manus, различия в техническом подходе предвещают направление развития сквозных универсальных агентов. (Источник: 36kr, MatthewJBar)

🎯 Тенденции

Microsoft открывает исходный код Phi-4-mini-Flash и закона масштабирования μP++: Microsoft открыла исходный код Phi-4-mini-Flash, SOTA гибридной модели, скорость вывода которой в 10 раз выше, чем у Transformer, и закона масштабирования μP++, простого, но мощного набора правил для стабильного крупномасштабного обучения. (Источник: ClementDelangue, jeremyphoward, tokenbender)

🧰 Инструменты

Cline интегрирует модели Hugging Face: Cline интегрировал более 6140 моделей Hugging Face с открытым исходным кодом, включая Kimi K2, предоставляя разработчикам площадку для экспериментов с LLM. (Источник: huggingface, cline, ClementDelangue)

AnyCoder: новый инструмент для быстрого прототипирования и развертывания веб-приложений: AnyCoder — это инструмент на базе Kimi K2 для быстрого прототипирования и развертывания веб-приложений. (Источник: _akhaliq, _akhaliq)

📚 Обучение

Курс CS224n в Стэнфорде: Курс CS224n в Стэнфорде рекомендуется в качестве ресурса для изучения обработки естественного языка. (Источник: stanfordnlp)

Три бесплатные книги по алгоритмам: Три бесплатные книги от MIT Press: «Algorithms for Optimization», «Algorithms for Decision Making» и «Algorithms for Validation» рекомендуются для изучения теории алгоритмов и основных алгоритмов машинного обучения. (Источник: TheTuringPost)

💼 Бизнес

Lovable завершает раунд финансирования серии A в размере 200 миллионов долларов с оценкой в 1,8 миллиарда долларов: Шведский ИИ-стартап Lovable, основанный всего 8 месяцев назад, завершил раунд финансирования серии A в размере 200 миллионов долларов с оценкой в 1,8 миллиарда долларов, став новым единорогом. Lovable стремится дать возможность любому создавать приложения. Платформа использует большие языковые модели для преобразования простых текстовых описаний в веб-сайты и приложения и уже имеет более 2,3 миллиона бесплатных активных пользователей и 180 000 платных подписчиков. (Источник: 36kr)

Anthropic назначает Пола Смита директором по коммерческим вопросам: Anthropic назначила Пола Смита директором по коммерческим вопросам. Он вступит в должность позднее в этом году, имея за плечами более чем 30-летний опыт создания и развития успешных технологических компаний, таких как Microsoft, Salesforce и ServiceNow. (Источник: AnthropicAI)

🌟 Сообщество

Опасения по поводу этических и социальных последствий ИИ-агентов: В социальных сетях выражается обеспокоенность по поводу этических и социальных последствий ИИ-агентов, таких как политическая нейтральность, предвзятость, конфиденциальность данных и влияние на рынок труда. (Источник: scaling01, Ronald_vanLoon, vikhyatk, AmandaAskell)

Внимание к контекстной инженерии: Основатель Manus AI поделился уроками, извлеченными при создании ИИ-агентов, касающимися контекстной инженерии, подчеркнув ее важность для производительности агентов и предоставив конкретные практические рекомендации. Кроме того, обсуждается, как использовать контекстную инженерию для оптимизации производительности ИИ-агентов. (Источник: 36kr, huggingface)

Обсуждение возможностей моделей: В социальных сетях продолжается обсуждение повышения возможностей моделей, включая способности к рассуждению, использованию инструментов, программированию и т.д. Например, превосходные результаты Kimi K2 в программировании и использовании инструментов вызвали широкий интерес, равно как и обсуждение способности моделей рассуждать в определенных областях (например, математика, естественные науки и код). (Источник: scaling01, ClementDelangue, 36kr)

Энтузиазм по поводу моделей с открытым исходным кодом: Сообщество проявляет большой энтузиазм по поводу моделей с открытым исходным кодом. Например, открытие исходного кода Kimi K2 вызвало всемирный интерес разработчиков и всплеск загрузок, а также обсуждение и применение других моделей и инструментов с открытым исходным кодом. (Источник: huggingface, cline, 36kr)

Обсуждение галлюцинаций и ошибок моделей: В социальных сетях обсуждаются проблемы галлюцинаций и ошибок моделей, например, появление у ChatGPT галлюцинаций в стиле SCP, а также то, как сохранение информации об ошибках может помочь моделям учиться и совершенствоваться. (Источник: jeremyphoward, nptacek, 36kr)

Обсуждение инструментов и приложений ИИ: В социальных сетях обсуждаются различные инструменты и приложения ИИ, например, инструменты для создания исследовательских ИИ-агентов, инструменты для автоматизации создания документов и инструменты для оценки производительности ИИ-приложений. (Источник: jerryjliu0, Google, weights_biases, huggingface)

💡 Другое

Meta не подписывает закон ЕС об ИИ: Meta заявила, что не будет подписывать закон ЕС об ИИ, назвав его чрезмерным вмешательством, которое будет препятствовать инновациям и росту. (Источник: Reddit r/LocalLLaMA)

Meta реорганизует команду ИИ по образцу ByteDance: Meta провела реорганизацию своей команды ИИ. Новая структура похожа на структуру ИИ ByteDance и возглавляется директором по искусственному интеллекту Александром Ваном. Под его руководством находятся команды фундаментальных исследований AGI, команда продуктов ИИ, базовая лаборатория ИИ и команда разработчиков Llama 5. (Источник: 量子位)

Baidu лидирует по патентам в области ИИ: Baidu занимает первое место в Китае по количеству заявок на патенты в таких областях, как генеративный ИИ, агенты, большие языковые модели, глубокое обучение и автономное вождение высокого уровня. В частности, компания занимает второе место в мире по количеству заявок на патенты на большие языковые модели и первое место в мире по количеству заявок на патенты на глубокое обучение. (Источник: 量子位)

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *