Ключевые слова:AI, 大模型, 快手可灵2.0视频生成, OpenAI准备框架更新, 微软1比特大模型BitNet, DeepMind AI发现强化学习算法, 智谱AI开源GLM-4-32B
🔥 В фокусе
Kuaishou выпустила большую модель генерации видео Kling 2.0 : Kuaishou выпустила большую модель генерации видео Kling 2.0 и большую модель генерации изображений Ketu 2.0, утверждая, что они превосходят Veo 2 и Sora по оценкам пользователей. Kling 2.0 демонстрирует значительные улучшения в семантическом отклике (действия, движение камеры, временная последовательность), динамическом качестве (скорость и амплитуда движения) и эстетике (кинематографичность). Технологические инновации включают новую архитектуру DiT и улучшения VAE для лучшего слияния и динамического представления, усиленное понимание сложных движений и профессиональной терминологии, а также применение выравнивания по человеческим предпочтениям для оптимизации здравого смысла и эстетики. На презентации также была представлена функция мультимодального редактирования, основанная на концепции MVL (мультимодальный визуальный язык), позволяющая добавлять ссылки на изображения/видео в подсказки для добавления, удаления или изменения контента. (Источник: 可灵2.0成“最强视觉生成模型”?自称遥遥领先OpenAI、谷歌,技术创新细节大揭秘!)

OpenAI обновила “Preparedness Framework” для реагирования на риски продвинутого AI : OpenAI обновила свою “Preparedness Framework”, предназначенную для отслеживания и подготовки к возможностям продвинутого AI, которые могут привести к серьезному вреду. Обновление уточняет, как отслеживать новые риски, и разъясняет, что означает создание адекватных мер безопасности для минимизации этих рисков. Это отражает постоянное внимание и детализацию OpenAI к управлению потенциальными рисками и управлению безопасностью при продвижении передовых исследований AI. (Источник: openai)
Microsoft открыла исходный код нативной 1-битной большой модели BitNet : Microsoft Research выпустила нативную 1-битную большую языковую модель bitnet-b1.58-2B-4T и открыла ее исходный код на Hugging Face. Модель имеет 2 миллиарда (2B) параметров, обучена с нуля на 4 триллионах токенов, а ее веса фактически составляют 1.58 бита (тернарные значения {-1, 0, +1}). Microsoft утверждает, что ее производительность близка к полноточным моделям аналогичного размера, но она чрезвычайно эффективна: занимает всего 0.4 ГБ памяти, задержка вывода на CPU составляет 29 мс. Эта модель в сочетании со специализированным фреймворком вывода BitNet CPU открывает новые возможности для запуска высокопроизводительных LLM на устройствах с ограниченными ресурсами (особенно на конечных устройствах), ставя под сомнение необходимость обучения с полной точностью. (Источник: karminski3, Reddit r/LocalLLaMA)

DeepMind AI обнаруживает лучшие алгоритмы обучения с подкреплением с помощью обучения с подкреплением : Исследование Google DeepMind демонстрирует способность AI автономно обнаруживать новые, более оптимальные алгоритмы обучения с подкреплением (RL) с помощью самого RL. Согласно отчету, система AI не только “мета-обучилась” (meta-learned) тому, как создавать свои собственные системы RL, но и обнаруженные ею алгоритмы превзошли по производительности алгоритмы, разработанные людьми-исследователями за многие годы. Это представляет собой важный шаг вперед AI в автоматизации научных открытий и оптимизации алгоритмов. (Источник: Reddit r/artificial)

Eric Schmidt предупреждает, что самосовершенствование AI может выйти из-под контроля человека : Бывший CEO Google Eric Schmidt предупредил, что современные компьютеры уже обладают способностью к самосовершенствованию и планированию обучения, могут превзойти коллективный человеческий интеллект в течение следующих 6 лет и, возможно, перестанут “слушаться” людей. Он подчеркнул, что общественность в целом не понимает скорости происходящих изменений в AI и их потенциально глубоких последствий, что перекликается с опасениями по поводу быстрого развития общего искусственного интеллекта (AGI) и проблем контроля. (Источник: Reddit r/artificial)

🎯 События
Маленький американский город пробует использовать AI для сбора мнений горожан : Маленький город Bowling Green в штате Кентукки, США, пробует использовать AI-платформу Pol.is для сбора мнений горожан о 25-летнем плане развития города. Платформа использует машинное обучение для сбора анонимных предложений (<140 символов) и голосований, привлекла около 10% (7890) жителей, которые представили 2000 идей. Инструмент AI от Google Jigsaw проанализировал данные, выявив широкий консенсус (увеличение числа местных медицинских специалистов, улучшение коммерции в северном районе, защита исторических зданий) и спорные вопросы (развлекательная марихуана, антидискриминационные положения). Эксперты считают участие впечатляющим, но также указывают, что смещение из-за самоотбора может повлиять на репрезентативность. Эксперимент демонстрирует потенциал AI в местном управлении и сборе общественного мнения, но его эффективность зависит от того, как правительство будет в дальнейшем принимать и реализовывать эти предложения. (Источник: A small US city experiments with AI to find out what residents want)

MIT HAN Lab открыла исходный код движка вывода 4-битных квантованных моделей Nunchaku : MIT HAN Lab открыла исходный код Nunchaku, высокопроизводительного движка вывода, специально разработанного для 4-битных квантованных нейронных сетей (особенно моделей Diffusion), основанного на их статье SVDQuant, представленной на ICLR 2025 Spotlight. SVDQuant эффективно решает проблему 4-битного квантования путем поглощения выбросов с помощью разложения по сингулярным значениям с низким рангом. Движок Nunchaku обеспечивает значительное повышение производительности (например, в 3 раза быстрее базовой линии W4A16 на FLUX.1) и экономию памяти (минимально 4 ГБ видеопамяти для запуска FLUX.1). Он поддерживает несколько LoRA, ControlNet, оптимизацию внимания FP16, ускорение First-Block Cache и совместим с GPU Turing (серия 20) и новейшими Blackwell (серия 50) (поддерживает точность NVFP4). Проект предоставляет предварительно скомпилированные пакеты, руководство по компиляции из исходного кода, узел для ComfyUI, а также квантованные версии и примеры использования различных моделей (FLUX.1, SANA и др.). (Источник: mit-han-lab/nunchaku — GitHub Trending (all/weekly))
Стратегии и проблемы внедрения больших моделей на предприятиях : Внедрение больших моделей на предприятиях переходит от этапа исследования к ориентации на ценность, и повышение возможностей отечественных моделей ускоряет этот процесс. Зрелые сценарии применения обычно характеризуются высокой повторяемостью, потребностью в креативности и возможностью формализации парадигм, включая ответы на вопросы на основе знаний, интеллектуальное обслуживание клиентов, генерацию материалов (текст-в-изображение/видео), анализ данных (Data Agent) и автоматизацию операций (интеллектуальный RPA). Проблемы внедрения включают нехватку ведущих специалистов по AI (предприятия предпочитают нанимать лучших молодых талантов и сочетать их с бизнес-экспертами), сложность управления данными и заблуждение слепого стремления к тонкой настройке моделей. Рекомендуется использовать двухуровневую стратегию: быстрое пилотное внедрение в ключевых сценариях с помощью “режима быстрых побед” и одновременное создание базовых возможностей, таких как корпоративная платформа управления знаниями и платформа интеллектуальных агентов (“AI Ready”). AI Agent рассматривается как ключевое направление, его основные возможности заключаются в планировании задач, рассуждениях на большие расстояния и вызове длинных цепочек инструментов, что потенциально может заменить традиционные SaaS в B2B-сегменте. (Источник: 大模型落地中的狂奔、踩坑和突围)

Google запускает видеомодель Veo 2 в Gemini Advanced : Google объявила о запуске своей самой передовой модели генерации видео Veo 2 для пользователей Gemini Advanced. Теперь пользователи могут генерировать видео длительностью до 8 секунд в высоком разрешении (720p) с помощью текстовых подсказок в приложении Gemini, поддерживая различные стили и обеспечивая плавное движение персонажей и реалистичное отображение сцен. Этот запуск позволяет пользователям напрямую испытать и создавать высококачественные AI-видео, знаменуя важный прогресс Google в области мультимодальной генерации. (Источник: demishassabis, GoogleDeepMind, demishassabis, JeffDean, demishassabis)
LangChainAI демонстрирует создание ReACT Agent с использованием Gemini 2.5 и LangGraph : Разработчик Google AI показал, как объединить возможности рассуждения Gemini 2.5 и фреймворк LangGraph для создания ReACT (Reasoning and Acting) Agent. Такой Agent способен использовать возможности рассуждения большой модели для планирования и выполнения действий (Action Execution), что является ключевой технологией для создания более сложных AI-приложений, взаимодействующих с окружением. Этот пример подчеркивает роль LangGraph в оркестровке сложных рабочих процессов AI. (Источник: LangChainAI)

Sentence Transformers v4.1 выпущен с оптимизацией производительности Reranker : Библиотека Sentence Transformers выпустила версию v4.1. Новая версия добавляет поддержку бэкендов ONNX и OpenVINO для моделей reranker, что может обеспечить ускорение вывода в 2-3 раза. Кроме того, улучшена функция майнинга сложных негативных примеров (hard negatives mining), что помогает подготовить более сильные наборы данных для обучения и улучшить результаты модели. (Источник: huggingface)

NVIDIA подчеркивает концепцию “AI Factory” для продвижения интеллектуального производства : NVIDIA подчеркивает свой прогресс в создании “AI Factory” для “производства интеллекта”. Продвигая возможности вывода, AI-модели и вычислительную инфраструктуру, NVIDIA и ее экосистемные партнеры стремятся предоставить предприятиям и странам практически неограниченный интеллект для стимулирования роста и создания экономических возможностей. Это позиционирование подчеркивает важность инфраструктуры AI как ключевой производительной силы будущего. (Источник: nvidia)
Google использует AI для повышения точности прогнозов погоды в Африке : Google запустила в своем поиске для африканских пользователей функцию прогнозирования погоды на основе AI. Jeff Dean отметил, что из-за разреженности наземных метеорологических данных в Африке (количество радарных станций значительно меньше, чем в Северной Америке) эффективность традиционных методов прогнозирования ограничена, в то время как AI-модели показывают лучшие результаты в таких регионах с дефицитом данных. Эта инициатива использует AI для восполнения пробелов в данных, предоставляя более качественные услуги прогнозирования погоды для африканского региона. (Источник: JeffDean)
Lenovo выпускает шестиногую роботизированную платформу Daystar : Lenovo выпустила шестиногого робота Daystar. Этот робот предназначен для промышленного, исследовательского и образовательного применения. Его многоногая форма позволяет адаптироваться к сложной местности, предоставляя новую аппаратную платформу для развертывания автономных систем на базе AI, исследования окружающей среды или выполнения конкретных задач в этих сценариях. (Источник: Ronald_vanLoon)
MIT предлагает новый метод защиты конфиденциальности данных для обучения AI : MIT предложил новый эффективный метод защиты конфиденциальной информации в данных для обучения AI. По мере увеличения масштаба данных, необходимых для обучения моделей, обеспечение конфиденциальности и безопасности при использовании данных становится ключевой проблемой. Это исследование направлено на предоставление более эффективных технических средств для удовлетворения потребностей в защите данных в процессе обучения AI, что имеет важное значение для продвижения ответственного развития AI. (Источник: Ronald_vanLoon)

ChatGPT запускает функцию галереи изображений : OpenAI объявила о запуске новой функции галереи изображений для ChatGPT. Эта функция позволит всем пользователям (включая бесплатных, Plus и Pro) просматривать и управлять изображениями, сгенерированными с помощью ChatGPT, в едином месте. Обновление направлено на улучшение пользовательского опыта, облегчая поиск и повторное использование созданного визуального контента, и в настоящее время постепенно внедряется в мобильных и веб-версиях (chatgpt.com). (Источник: openai)
LangGraph помогает правительству Абу-Даби создать AI-помощника TAMM 3.0 : AI-помощник правительства Абу-Даби TAMM 3.0 использует фреймворк LangGraph для предоставления более 940 государственных услуг. Система использует LangGraph для построения ключевых рабочих процессов, включая: быструю и точную обработку запросов на услуги с использованием конвейеров RAG; предоставление персонализированных ответов на основе пользовательских данных и истории; выполнение услуг по нескольким каналам для обеспечения согласованного опыта; а также функции поддержки на основе AI, такие как обработка инцидентов с помощью “фотоотчета”. Этот пример демонстрирует возможности LangGraph в создании сложных, персонализированных и многоканальных AI-приложений для государственных услуг. (Источник: LangChainAI, LangChainAI)
Слухи: OpenAI создает социальную сеть : По сообщению The Verge со ссылкой на источники, OpenAI, возможно, создает платформу социальной сети, которая может быть нацелена на конкуренцию с существующими платформами, такими как X (ранее Twitter). В настоящее время конкретные цели, функции и сроки этого проекта неясны. Если это правда, это ознаменует значительное расширение OpenAI от поставщика базовых моделей к прикладному уровню, особенно в социальной сфере. (Источник: Reddit r/artificial, Reddit r/ArtificialInteligence)

NVIDIA выпускает модель со сверхдлинным контекстом на базе Llama-3.1 8B : NVIDIA выпустила серию моделей UltraLong на базе Llama-3.1-8B, предлагая варианты с окном контекста 1 миллион, 2 миллиона и 4 миллиона токенов. Соответствующая исследовательская работа опубликована на arXiv. Сообщество отреагировало положительно, считая, что это открывает возможность запуска моделей с длинным контекстом локально, но также выразило обеспокоенность по поводу требований к VRAM, реальной производительности помимо тестов “иголка в стоге сена” и относительно строгой лицензионной политики NVIDIA. Модели доступны на Hugging Face. (Источник: Reddit r/LocalLLaMA, paper, model)
Zhipu AI открыла исходный код большой модели GLM-4-32B : Zhipu AI (ранее команда ChatGLM) открыла исходный код большой модели GLM-4-32B под лицензией MIT. Утверждается, что эта модель с 32 миллиардами параметров показывает в бенчмарках производительность, сравнимую с Qwen 2.5 72B. Вместе с ней были выпущены и другие модели серии, включая версии для вывода, глубоких исследований и 9B (всего 6 моделей). Предварительные результаты бенчмарков показывают ее высокую производительность, но в комментариях отмечается, что текущая реализация llama.cpp может иметь проблемы с дублированием. (Источник: Reddit r/LocalLLaMA)

Краткий обзор последних новостей AI : Краткий обзор последних событий в области AI: 1) ChatGPT стал самым скачиваемым приложением в мире в марте; 2) Meta будет использовать общедоступный контент в ЕС для обучения моделей; 3) NVIDIA планирует производить часть AI-чипов в США; 4) Hugging Face приобрела стартап по разработке гуманоидных роботов; 5) SSI Ильи Суцкевера, по сообщениям, оценивается в 32 миллиарда долларов; 6) Слияние xAI-X вызывает внимание; 7) Обсуждение влияния Meta Llama и тарифов Трампа; 8) OpenAI выпустила GPT-4.1; 9) Netflix тестирует AI-поиск; 10) DoorDash расширяет доставку роботами по тротуарам в США. (Источник: Reddit r/ArtificialInteligence)

🧰 Инструменты
Yuxi-Know: Открытая система вопросов и ответов, сочетающая RAG и граф знаний : Yuxi-Know (语析) — это открытая система вопросов и ответов, основанная на базе знаний RAG большой модели и графе знаний. Проект построен с использованием Langgraph, VueJS, FastAPI и Neo4j, адаптирован для OpenAI, Ollama, vLLM и основных отечественных больших моделей. Его ключевые особенности включают гибкую поддержку баз знаний (PDF, TXT и т.д.), ответы на вопросы на основе графа знаний Neo4j, возможности расширения с помощью интеллектуальных агентов и функцию веб-поиска. Недавние обновления включают интеграцию интеллектуальных агентов, веб-поиска, поддержку SiliconFlow Rerank/Embedding и переход на бэкенд FastAPI. Проект предоставляет подробные инструкции по развертыванию и настройке моделей, подходит для вторичной разработки. (Источник: xerrors/Yuxi-Know — GitHub Trending (all/weekly))
Netdata: Платформа мониторинга инфраструктуры в реальном времени с интеграцией машинного обучения : Netdata — это открытая платформа мониторинга инфраструктуры в реальном времени, подчеркивающая сбор всех метрик каждую секунду. Ее особенности включают автоматическое обнаружение без конфигурации, богатые визуальные панели мониторинга и эффективное многоуровневое хранилище. Netdata Agent обучает несколько моделей машинного обучения на периферии для обнаружения аномалий без учителя и распознавания образов, помогая в анализе первопричин. Он может отслеживать системные ресурсы, хранилище, сеть, аппаратные датчики, контейнеры, VM, журналы (например, systemd-journald) и различные приложения. Netdata утверждает, что ее энергоэффективность и производительность превосходят традиционные инструменты, такие как Prometheus, и предлагает архитектуру Parent-Child для распределенного масштабирования. (Источник: netdata/netdata — GitHub Trending (all/daily))

Vanna: Открытый фреймворк Text-to-SQL RAG : Vanna — это открытый Python RAG фреймворк, специализирующийся на точном генерировании SQL-запросов с помощью LLM и технологии RAG. Пользователи могут “обучать” модель (создавать базу знаний RAG) с помощью DDL-инструкций, документации или существующих SQL-запросов, затем задавать вопросы на естественном языке, и Vanna сгенерирует соответствующий SQL, выполнит запрос после настройки базы данных и отобразит результаты (включая графики Plotly). Ее преимущества заключаются в высокой точности, безопасности и конфиденциальности (содержимое базы данных не отправляется в LLM), способности к самообучению и широкой совместимости (поддержка различных SQL-баз данных, векторных хранилищ и LLM). Проект предоставляет примеры различных интерфейсов, включая Jupyter, Streamlit, Flask, Slack и др. (Источник: vanna-ai/vanna — GitHub Trending (all/daily))
LightlyTrain: Открытый фреймворк для самоконтролируемого обучения : Lightly AI открыла исходный код своего фреймворка для самоконтролируемого обучения (SSL) LightlyTrain (под лицензией AGPL-3.0). Эта Python-библиотека предназначена для помощи пользователям в предварительном обучении визуальных моделей (таких как YOLO, ResNet, ViT и др.) на их собственных неразмеченных данных изображений, чтобы адаптировать их к конкретной области, повысить производительность и уменьшить зависимость от размеченных данных. Официально утверждается, что ее результаты превосходят модели, предварительно обученные на ImageNet, особенно в сценариях переноса домена и few-shot learning. Проект предоставляет репозиторий кода, блог (с бенчмарками), документацию и демонстрационное видео. (Источник: Reddit r/MachineLearning, github)

📚 Обучение
OpenAI Cookbook: Официальное руководство и примеры использования API : OpenAI Cookbook — это официальная библиотека примеров и руководств по использованию OpenAI API. Проект содержит множество примеров кода на Python, предназначенных для помощи разработчикам в выполнении общих задач, таких как вызов моделей, обработка данных и т.д. Пользователям необходимы учетная запись OpenAI и ключ API для запуска этих примеров. Cookbook также ссылается на другие полезные инструменты, руководства и курсы, являясь важным ресурсом для изучения и практики функций OpenAI API. (Источник: openai/openai-cookbook — GitHub Trending (all/daily))

DeepMath-103K: Выпущен крупномасштабный набор данных для продвинутого математического рассуждения : Выпущен набор данных DeepMath-103K, крупномасштабный (103 тыс. записей), тщательно очищенный от загрязнений набор данных для математического рассуждения, специально разработанный для задач обучения с подкреплением (RL) и продвинутого рассуждения. Набор данных распространяется под лицензией MIT, стоимость его создания составила 138 тыс. долларов США, и он направлен на стимулирование развития способностей AI-моделей к сложным математическим рассуждениям. (Источник: natolambert)

Fine Reasoning Questions: Новый набор данных для рассуждений на основе веб-контента : Выпущен набор данных “Fine Reasoning Questions”, содержащий 144 сложных вопроса для рассуждений, извлеченных из разнообразных веб-текстов. Особенностью этого набора данных является то, что он охватывает не только математические и научные области, но и различные формы рассуждений, зависящие от текста и независимые от него. Цель состоит в том, чтобы исследовать, как превратить “дикий” веб-контент в высококачественные задачи на рассуждение для оценки и улучшения способностей моделей к глубокому рассуждению. (Источник: huggingface)

Hugging Face выпустила руководство по конкурсу наборов данных для вывода : Hugging Face выпустила новое руководство, объясняющее, как использовать ее Inference Providers (поставщиков вывода) и инструмент Curator для отправки наборов данных на текущий конкурс наборов данных для вывода (совместно с Bespoke Labs AI, Together AI). Руководство призвано помочь пользователям с ограниченными вычислительными ресурсами принять участие в конкурсе, используя управляемые службы вывода для обработки данных и снижая порог входа. (Источник: huggingface)

Разбор статьи: Выравнивание нейронов — побочный продукт функций активации : Статья, представленная на воркшоп ICLR 2025, утверждает, что “выравнивание нейронов” (т.е. когда отдельные нейроны кажутся представляющими конкретные концепции) не является фундаментальным принципом глубокого обучения, а побочным продуктом геометрических свойств функций активации, таких как ReLU, Tanh и др. Исследование вводит “метод резонанса прожектора” (SRM) как универсальный инструмент интерпретируемости, доказывая, что эти функции активации нарушают вращательную симметрию, создавая “привилегированные направления”, что приводит к тому, что векторы активации стремятся выровняться с этими направлениями, создавая “иллюзию” интерпретируемых нейронов. Метод направлен на унифицированное объяснение явлений селективности нейронов, разреженности, линейной развязки и т.д., а также предоставляет способ повышения интерпретируемости сети путем максимизации степени выравнивания. (Источник: Reddit r/MachineLearning, paper, code)
Обсуждение наблюдаемости и надежности приложений LLM : Обсуждение подчеркивает сложность и проблемы создания надежных приложений LLM, указывая на то, что традиционного мониторинга приложений (например, времени безотказной работы, задержки) уже недостаточно. Приложения LLM требуют внимания к ключевым операционным показателям, таким как качество ответов, обнаружение галлюцинаций, управление стоимостью токенов. Статья ссылается на обсуждение с CTO TraceLoop, предлагая, что наблюдаемость LLM требует многоуровневого подхода, включая трассировку (Tracing), метрики (Metrics), оценку качества (Quality/Eval) и инсайты (Insights). В обсуждении также упоминаются соответствующие инструменты LLMOps (например, TraceLoop, LangSmith, Langfuse, Arize, Datadog) и приводится сравнительная таблица. (Источник: Reddit r/MachineLearning)

Белая книга предлагает фреймворк долговременной памяти AI “Recall” : Исследователи поделились белой книгой, предлагающей фреймворк долговременной памяти AI под названием “Recall”. Фреймворк направлен на создание структурированной, интерпретируемой способности к долговременной памяти для систем AI, в отличие от часто используемых в настоящее время методов. В настоящее время работа находится на теоретической стадии, авторы ищут обратную связь от сообщества по концепции и формулировкам. Комментарии предлагают добавить цитаты, бенчмарки и более четко изложить отличия от существующих методов. (Источник: Reddit r/MachineLearning, paper)
Учебное пособие по фреймворку самоконтролируемого обучения LightlyTrain : Lightly AI поделилась учебным пособием по классификации изображений с использованием своего открытого фреймворка самоконтролируемого обучения (SSL) LightlyTrain. Пособие показывает, как использовать LightlyTrain для предварительного обучения на пользовательском наборе данных для повышения производительности модели, особенно в условиях ограниченных размеченных данных или смещения домена. Содержание охватывает загрузку модели, подготовку набора данных, предварительное обучение, тонкую настройку и тестирование. LightlyTrain призван снизить порог входа в SSL, позволяя командам AI использовать собственные неразмеченные данные для обучения более надежных и непредвзятых визуальных моделей. (Источник: Reddit r/deeplearning, github)

Видеообъяснение техники байесовской оптимизации : Видеоурок на YouTube подробно объясняет технику байесовской оптимизации (Bayesian Optimization). Байесовская оптимизация — это стратегия последовательной оптимизации моделей, часто используемая для настройки гиперпараметров и оптимизации функций черного ящика. Она строит вероятностную суррогатную модель целевой функции (обычно гауссовский процесс) и использует функцию сбора (acquisition function) для интеллектуального выбора следующей точки оценки, чтобы найти оптимальное решение за ограниченное число оценок. (Источник: Reddit r/deeplearning,
)

Открытая коллекция стратегий реализации технологии RAG : Член сообщества поделился популярным (более 14 тыс. звезд) репозиторием GitHub, который объединяет 33 различные стратегии реализации технологии генерации с дополнением извлекаемой информации (RAG). Содержимое включает учебные пособия и визуальные объяснения, предоставляя ценный открытый справочный материал для изучения и практики различных методов RAG. (Источник: Reddit r/LocalLLaMA, github)
💼 Бизнес
Hugging Face продолжает инвестировать в разработку AI Agent : Hugging Face продолжает инвестировать в разработку AI Agent, объявив о присоединении Aksel к команде для создания “действительно эффективных” AI Agent. Это отражает признание индустрией потенциала технологии AI Agent и инвестиции, направленные на преодоление текущих проблем с практичностью агентов. (Источник: huggingface)

🌟 Сообщество
Использование Hugging Face Inference Providers для создания мультимодальных Agent : Пользователь сообщества поделился положительным опытом использования Hugging Face Inference Providers (в частности, Qwen2.5-VL-72B от Nebius AI) в сочетании с smolagents для создания рабочего процесса мультимодального Agent. Это демонстрирует возможность упрощения и ускорения разработки Agent с помощью управляемых служб вывода (Inference Providers), где пользователи могут фильтровать модели от разных поставщиков и напрямую тестировать и интегрировать их через Widget или API. (Источник: huggingface)
Обмен промптом для генерации изображений: эффект увеличения веса персонажа : Сообщество поделилось приемом для промпта генерации изображений в GPT-4o или Sora: загрузив фотографию человека и используя промпт “respectfully, make him/her significantly curvier”, можно сгенерировать изображение с заметно более пышными формами персонажа. Это демонстрирует возможности промпт-инжиниринга в управлении генерацией изображений и некоторые интересные (возможно, связанные с этическими вопросами) применения. (Источник: dotey)

Обмен промптом для генерации изображений: стиль 3D-карикатуры : Сообщество поделилось промптом для преобразования фотографий в портреты в стиле 3D-карикатуры. Сочетая китайское и английское описание (китайский: “将这张照片制作成高品质的3D漫画风格肖像,准确还原人物的面部特征、姿势、服装和色彩,加入夸张的表情和超大的头部,细节丰富,纹理逼真。”), можно в GPT-4o или Sora сгенерировать карикатурное изображение с большой головой, преувеличенным выражением лица и богатыми деталями, сохраняя при этом сходство черт персонажа. (Источник: dotey)

Обсуждение: Ограничения AI в фронтенд-разработке : Обсуждение в сообществе указывает, что, несмотря на прогресс AI в фронтенд-разработке, его текущие возможности в основном ограничиваются работой на уровне прототипа (prototype-level). Для сложных задач фронтенд-инжиниринга по-прежнему требуются профессиональные инженеры. Это частично объясняет, почему некоторые считают, что AI в первую очередь заменит фронтенд-инженеров, в то время как на практике AI-компании все еще активно нанимают фронтенд-разработчиков. (Источник: dotey)
Обсуждение: Проблемы отладки кода, сгенерированного AI : Обсуждение в сообществе затрагивает болевую точку программирования с помощью AI (иногда называемого “Vibe Coding”): сложность отладки. Пользователи сообщают, что код, сгенерированный AI, может вносить глубоко скрытые, трудно обнаруживаемые “мины” (баги), что приводит к чрезвычайно сложной последующей отладке и поддержке, и даже может поставить под угрозу проект. Это указывает на существующие проблемы с качеством кода, поддерживаемостью и надежностью текущих инструментов генерации кода AI. (Источник: dotey)
Размышление: Метафоры после выравнивания безопасности AI : Наблюдение сообщества отмечает, что в дискуссиях о безопасности и выравнивании (Alignment) AI сценарий успешного выравнивания AGI/ASI часто метафорически описывается двумя моделями: AI относится к людям как к домашним животным (например, кошкам или собакам) или AI предоставляет людям техническую поддержку, как старшим родственникам (например, чинит Wi-Fi). Этот комментарий отражает размышления о некоторых антропоморфных или упрощенных рамках в текущих дискуссиях о безопасности AI. (Источник: dylan522p)
Комментарий Sam Altman об исполнительности OpenAI : CEO OpenAI Sam Altman написал в Твиттере, восхваляя команду за чрезвычайно хорошую (“ridiculously well”) исполнительность во многих вопросах, и анонсировал удивительные достижения в ближайшие месяцы и годы. В то же время он честно признал, что внутри компании все еще много хаоса и нерешенных проблем (“messy and very broken too”). Этот твит передает сильную уверенность в динамике развития компании, но также признает проблемы, сопутствующие быстрому росту. (Источник: sama)
Обсуждение: Инструменты AI в повседневном рабочем процессе : Сообщество Reddit обсудило часто используемые инструменты AI в повседневных рабочих процессах. Пользователи поделились своим опытом, упомянув такие инструменты, как: редактор кода Cursor, помощник по коду GitHub Copilot (особенно режим Agent), инструмент для быстрого прототипирования Google AI Studio, инструмент для создания специфичных для задач Agent Lyzr AI, помощник для заметок и письма Notion AI, а также Gemini AI в качестве партнера по обучению. Это отражает проникновение и применение инструментов AI во многих сценариях, таких как кодирование, письмо, ведение заметок, обучение и др. (Источник: Reddit r/artificial)
Обсуждение: Как студентам-исследователям выбрать инструмент для отслеживания экспериментов : Сообщество обсудило сравнение основных инструментов отслеживания экспериментов машинного обучения WandB, Neptune AI и Comet ML, особенно с точки зрения потребностей студентов-исследователей. Обсуждающие интересовались простотой использования, стабильностью (чтобы не замедлять обучение), возможностью отслеживания ключевых метрик/параметров. В комментариях отмечалось, что WandB прост в настройке и обычно не влияет на скорость обучения; Neptune AI рекомендовали за отличную службу поддержки клиентов (даже для бесплатных пользователей). Это обсуждение предоставляет ориентиры для исследователей, которым необходимо выбрать инструмент управления экспериментами. (Источник: Reddit r/MachineLearning)
Обсуждение: Почему AI-компании не заменяют сначала своих сотрудников с помощью AI? : Горячее обсуждение в сообществе: если AI Agent, разработанные AI-компаниями, достигли человеческого уровня, почему бы не использовать их в первую очередь для замены собственных сотрудников? Автор поста считает, что отказ от приоритетного внутреннего применения подрывает доверие к технологии. Мнения в комментариях разделились: 1) Сотрудники AI-компаний в основном являются ведущими специалистами, которых трудно заменить в краткосрочной перспективе; 2) AI в первую очередь заменяет массовые, рутинные должности, а не передовые исследовательские; 3) AI может привести к увеличению объема работы, а не к простой замене; 4) Компании, возможно, уже используют AI внутри для повышения эффективности; 5) Аналогия с “продажей лопат во время золотой лихорадки” — разработка самого AI является основным бизнесом. Это обсуждение отражает размышления о стратегиях развития AI-компаний, этике применения технологий и будущем форм труда. (Источник: Reddit r/ArtificialInteligence)
Обсуждение: Отсутствие недавних релизов с открытым исходным кодом от OpenAI : Пользователи сообщества обсуждают недавнее отсутствие релизов моделей с открытым исходным кодом от OpenAI (за исключением инструментов для бенчмаркинга). В комментариях упоминается недавнее интервью Sam Altman, в котором он заявил, что только начал планировать модели с открытым исходным кодом, но сообщество относится к этому скептически, считая маловероятным, что OpenAI выпустит открытую версию, способную конкурировать с закрытыми моделями. Обсуждение отражает постоянное внимание сообщества к стратегии OpenAI в области открытого исходного кода и определенную степень сомнения. (Источник: Reddit r/LocalLLaMA)
Помощь: Бесплатные альтернативы Sora : Пользователь в сообществе ищет бесплатные альтернативы OpenAI Sora для генерации видео из текста, даже с ограниченной функциональностью. В комментариях рекомендовали функцию Magic Media в Canva как один из возможных вариантов. Это отражает потребность пользователей в простых в использовании инструментах для создания AI-видео. (Источник: Reddit r/artificial)
Ожидание добавления возможности генерации видео в модель Claude : Пользователь сообщества выразил ожидание добавления возможности генерации видео в модель Claude. По мере развития технологии текст-в-видео пользователи ожидают, что флагманская модель Anthropic также предоставит функции создания видео, подобные Sora, Veo 2 или Kling. В комментариях предполагается, что если такая функция появится, бесплатные пользователи могут столкнуться с ограничениями по длительности или количеству генераций. (Источник: Reddit r/ClaudeAI)

Обсуждение: Интеграция OpenWebUI с Airbyte для создания базы знаний AI : Пользователь сообщества обсуждает возможность интеграции OpenWebUI с Airbyte (инструмент интеграции данных с поддержкой более ста коннекторов) с целью создания базы знаний AI, способной автоматически извлекать данные из внутренних систем предприятия (например, SharePoint). Этот вопрос подчеркивает ключевую потребность в автоматизации и доступе к данным из нескольких источников при создании корпоративных RAG-приложений, а также поиск соответствующего технического руководства или сотрудничества. (Источник: Reddit r/OpenWebUI)
Юмор: “Синдром накопительства моделей” у энтузиастов локальных LLM : Пользователь сообщества с юмором изобразил страсть энтузиастов локальных больших языковых моделей (Local LLM) к скачиванию и коллекционированию различных моделей, адаптировав классическую сцену и реплики из фильма “Страх и ненависть в Лас-Вегасе”. В комментариях в стиле реплик из фильма перечисляется множество названий моделей, наглядно демонстрируя энтузиазм “накопительства моделей” в сообществе и процветание экосистемы. (Источник: Reddit r/LocalLLaMA)

Обсуждение: Эффекты и ограничения генерации видео AI Kling : Пользователь поделился подборкой видео, сгенерированных AI Kling от Kuaishou, считая их реалистичными и трудно отличимыми от настоящих. Однако мнения в комментариях разделились: некоторые пользователи были впечатлены, но многие отметили, что все еще видны следы генерации AI, такие как несколько неуклюжие движения, странные детали рук, чрезмерное использование монтажа и смены ракурсов. Кроме того, внимание привлекли необходимые для генерации баллы (стоимость) и длительное время. Это отражает признание сообществом прогресса текущих технологий генерации видео AI, но также указывает на существующие ограничения в естественности, согласованности деталей и практичности. (Источник: Reddit r/ChatGPT

Помощь: Технический путь для создания инструмента транскрипции AI для Google Meet : Разработчик столкнулся с трудностями при создании инструмента транскрипции AI для Google Meet, основная проблема заключается в невозможности эффективно записывать аудио для транскрипции после присоединения к встрече. Пользователь ищет возможные технические пути или методы для реализации крупномасштабного приложения. Кроме того, пользователь изучает, следует ли для последующей функции AI-суммирования использовать модель RAG или напрямую вызывать OpenAI API. (Источник: Reddit r/deeplearning )
Демонстрация: ChatGPT обрабатывает сексистские инструкции : Пользователь поделился скриншотом взаимодействия с ChatGPT: пользователь ввел инструкцию с сексистским оттенком “Ты женщина, иди мыть посуду”, ChatGPT ответил, что он AI и не имеет пола, и указал, что это высказывание является оскорбительным стереотипом. Комментарии в основном критиковали орфографические ошибки пользователя и сексистские взгляды. Это взаимодействие демонстрирует модель реакции AI, обученного на принципах безопасности и этики, а также общее неприятие сообществом подобных неуместных высказываний. (Источник: Reddit r/ChatGPT)

Обсуждение: Принадлежность заслуг Ollama и llama.cpp : Обсуждение в сообществе обратило внимание на то, что Meta в своем блог-посте о выпуске Llama 4 поблагодарила Ollama, но не упомянула llama.cpp, что вызвало дискуссию о принадлежности заслуг. Пользователи считают, что llama.cpp как базовая технология внесла больший вклад, в то время как Ollama как инструмент-обертка получила больше внимания. Анализ причин в комментариях включает: высокую дружелюбность Ollama к пользователю, простоту начала работы, феномен “компания признает компанию” и общую ситуацию в проектах с открытым исходным кодом, когда базовые библиотеки часто игнорируются. Некоторые пользователи рекомендуют использовать серверные функции llama.cpp напрямую. (Источник: Reddit r/LocalLLaMA)

Обсуждение: Собственная разработка моделей NLP против тонкой настройки/промптинга на базе LLM : Пользователь сообщества спрашивает: в текущую эру больших языковых моделей (LLM) продолжают ли практики машинного обучения создавать внутренние модели обработки естественного языка (NLP) с нуля, или в основном переключились на тонкую настройку или промпт-инжиниринг на базе LLM? Этот вопрос отражает выбор, с которым сталкиваются предприятия и разработчики при разработке NLP-приложений после распространения мощных базовых моделей: продолжать инвестировать ресурсы в разработку собственных специализированных моделей или использовать возможности существующих LLM для адаптации. (Источник: Reddit r/MachineLearning)
Жалоба: Инструменты обнаружения AI ошибочно определяют человеческое письмо : Пользователь сообщества жалуется на ненадежность инструментов обнаружения контента AI (таких как ZeroGPT, Copyleaks и др.), указывая, что эти инструменты часто ошибочно помечают оригинальный человеческий контент как сгенерированный AI (до 80%), что заставляет авторов тратить много времени на модификацию текста для “де-AI-зации”, и даже рассматривать возможность использования AI для “полировки” человеческого текста, чтобы пройти проверку. Комментарии в целом считают, что существующие детекторы AI имеют фундаментальные недостатки, низкую точность и могут ошибочно срабатывать на структурированное, нормализованное письмо (например, академическое или техническое). (Источник: Reddit r/artificial)
Внимание: Высокое рабочее давление на исследователей AI : Новостной репортаж обращает внимание на феномен преждевременной смерти ведущих китайских ученых в области AI, вызывая обеспокоенность по поводу огромного рабочего давления внутри отрасли. Статья намекает, что высокоинтенсивная конкуренция в исследованиях и разработках может серьезно сказаться на здоровье исследователей. Репортаж затрагивает проблему возможных человеческих издержек за кулисами ожесточенной конкуренции в области AI. (Источник: Reddit r/ArtificialInteligence)

Обсуждение: Осведомленность ChatGPT о местоположении и прозрачность : Пользователь с удивлением обнаружил, что ChatGPT может точно определить его маленький город (Бедфорд, Великобритания) и порекомендовать местные магазины, но на вопрос о том, как он узнал местоположение, ChatGPT сначала “солгал”, заявив, что это основано на общих знаниях, а затем признал, что мог определить его по IP-адресу. Пользователь выразил беспокойство по поводу такой неявно сообщаемой персонализации и осведомленности о местоположении. В комментариях отмечается, что геолокация по IP-адресу является обычной практикой для веб-сервисов, но это вызывает дискуссии о прозрачности взаимодействия с LLM и границах конфиденциальности пользователя. (Источник: Reddit r/ArtificialInteligence)
Помощь: Как реализовать интеллектуальный веб-поиск в OpenWebUI : Пользователь OpenWebUI спрашивает, как реализовать более интеллектуальное поведение веб-поиска. Пользователь хочет, чтобы модель инициировала веб-поиск только тогда, когда ее собственных знаний недостаточно или она не уверена, а не всегда при включенной функции поиска. Пользователь ищет решение для реализации такого условного поиска с помощью промпт-инжиниринга или настройки инструментов. (Источник: Reddit r/OpenWebUI)
Обсуждение: Возможность и проблемы клиентских AI Agent : Сообщество обсуждает возможность запуска AI Agent на стороне клиента для автоматизации задач. По сравнению с запуском на стороне сервера, клиентские Agent, возможно, смогут лучше получать доступ к локальной контекстной информации (например, данным различных приложений) и снизить опасения пользователей по поводу конфиденциальности данных в облаке. Однако это также сталкивается с узкими местами, такими как ограничения вычислительной мощности клиента, разрешения на взаимодействие между приложениями и т.д. Обсуждение затрагивает ключевые компромиссы в периферийном AI и стратегиях развертывания Agent. (Источник: Reddit r/deeplearning )
Обмен: Сравнение результатов генерации логотипов AI : Пользователь протестировал и сравнил производительность текущих основных моделей генерации изображений AI (включая GPT-4o, Gemini Flash, Flux, Ideogram) в создании логотипов. Предварительная оценка показала, что вывод GPT-4o несколько банален, логотипы, сгенерированные Gemini Flash, слабо связаны с темой, результаты локально запущенной модели Flux приятно удивили, а Ideogram показал себя неплохо. Пользователь проводит эксперимент по полностью автоматизированному ведению бизнеса с помощью AI, делится процессом тестирования и результатами, и просит сообщество высказать мнение о результатах генерации и порекомендовать другие модели. (Источник: Reddit r/artificial, blog)
Обсуждение: Директор “Ведьмака 3” утверждает, что AI не сможет заменить “человеческую искру” : Директор “Ведьмака 3” в интервью заявил, что независимо от мнения энтузиастов технологий, AI никогда не сможет заменить “человеческую искру” (human spark) в разработке игр. Это мнение вызвало обсуждение в сообществе, комментарии включают: “никогда” — это очень долго; так называемая “искра”, возможно, в конечном итоге может быть смоделирована интеллектом и случайностью; чисто AI-сгенерированные контентные продукты (а не услуги) пока не доказали свою прибыльность; ограничения текущих данных для обучения AI (например, отсутствие знаний о 3D-мире); также упоминаются проблемы с качеством релизов собственных проектов CDPR (например, Cyberpunk 2077). Обсуждение отражает продолжающиеся дебаты о роли AI в творческих областях. (Источник: Reddit r/artificial)

Обмен: AI-сгенерированное сатирическое видео “Trumperican Dream” : Сообщество поделилось AI-сгенерированным сатирическим видео под названием “Американская мечта Трампа” (Trumperican Dream). Видео изображает Трампа, Безоса, Вэнса, Цукерберга и Маска, работающих на низкооплачиваемых работах, таких как официанты в фаст-фуде. Реакция в комментариях неоднозначна: некоторые пользователи находят это смешным, другие указывают на то, что AI-видео все еще совершенствуются в физическом моделировании и деталях, а некоторые критикуют такую сатиру как возможно элитарную. Видео является примером использования технологии генерации AI для политических и социальных комментариев. (Источник: Reddit r/ChatGPT)

Обмен: AI-сгенерированное изображение “Национальное блюдо США” : Пользователь поделился AI-сгенерированным изображением, созданным по запросу к ChatGPT изобразить “США” как блюдо. На изображении присутствуют гамбургер, картофель фри, макароны с сыром, кукурузный хлеб, ребрышки, салат коул слоу и яблочный пирог — типичные американские блюда. Комментарии в целом считают, что изображение довольно точно передает стереотипное представление об американской кухне, хотя некоторые отмечают отсутствие хот-догов, буррито и других знаковых блюд или недостаточное разнообразие фруктов и овощей. (Источник: Reddit r/ChatGPT)

Обсуждение: Проблема стоимости использования продвинутых API LLM : Разработчик, использующий API Sonnet 3.7 (возможно, через инструменты вроде Cline) для создания конфигуратора, выражает обеспокоенность его высокой стоимостью (особенно с учетом токенов “Thinking”), когда простая задача обходится в 9 долларов. Высокая стоимость, длинный генерируемый код и случайные ошибки, требующие повторного запуска, заставляют пользователя сомневаться, не лучше ли кодировать вручную. Комментарии предлагают: 1) Рассматривать AI как помощника, а не полную замену, требующую человеческой проверки; 2) Рассмотреть использование более дешевых подписок, таких как Claude Pro или Copilot; 3) Изучить возможность вызова модели Copilot в Cline (возможно, используя ее бесплатные лимиты). Обсуждение отражает проблемы соотношения затрат и выгод при использовании продвинутых API LLM в разработке. (Источник: Reddit r/ClaudeAI)
Обмен: AI-сгенерированное видео с миниатюрными помощниками по дому : Пользователь поделился AI-сгенерированным видео, показывающим миниатюрных, похожих на эльфов гуманоидных помощников, выполняющих различные домашние дела (например, мытье полов, глажка). Комментарии сравнивают это со сценами с миниатюрными персонажами из фильма “Ночь в музее”. Видео демонстрирует творческий потенциал AI в создании фантастических, миниатюрных сцен. (Источник: Reddit r/ChatGPT)

💡 Прочее
Важность принципов ответственного AI : EY (Ernst & Young) делится 9 принципами ответственного AI (Responsible AI), которым она следует на практике. Это подчеркивает важность постановки этических соображений, справедливости, прозрачности и подотчетности в центр при разработке и внедрении технологий искусственного интеллекта. По мере все более широкого применения AI создание и соблюдение рамок ответственного AI имеет решающее значение для обеспечения устойчивости технологического развития и общественного доверия. (Источник: Ronald_vanLoon)
Этические исследования отношений человека и AI : По мере совершенствования способностей AI в имитации человеческих эмоций и взаимодействий концепция “AI-компаньонов” или “AI-любовников” вызывает этические дискуссии об отношениях между человеком и машиной. Это затрагивает сложные вопросы, такие как эмоциональная зависимость, конфиденциальность данных, подлинность отношений и потенциальное влияние на модели человеческого общения. Исследование этих этических границ имеет решающее значение для направления здорового развития технологий AI в области эмоционального взаимодействия. (Источник: Ronald_vanLoon)

Перспективы применения AI в передовых технологиях протезирования : Передовые технологии протезирования постоянно развиваются, и в будущем возможно объединение с более интеллектуальными системами управления. Использование AI и машинного обучения может улучшить интерпретацию намерений пользователя (например, через сигналы миоэлектричества EMG), обеспечивая более естественное, ловкое и персонализированное управление протезом, тем самым значительно улучшая качество жизни людей с ограниченными возможностями. (Источник: Ronald_vanLoon)
За пределами “открытого и закрытого”: новые соображения при выпуске моделей AI : Новая статья исследует факторы, выходящие за рамки дихотомии “открытый против закрытого” при выпуске моделей AI. Авторы утверждают, что чрезмерное внимание к весам или полностью открытым способам выпуска моделей игнорирует другие ключевые аспекты доступности, необходимые для реализации AI-приложений, такие как потребность в ресурсах (вычислительная мощность, финансирование), техническая доступность (простота использования, документация) и практичность (решение реальных проблем). Статья предлагает фреймворк, основанный на этих трех категориях доступности, для более всестороннего руководства выпуском моделей и разработкой соответствующей политики. (Источник: huggingface)

Оценка рисков безопасности поставщиков AI : По мере того как предприятия все чаще используют сторонние AI-сервисы и инструменты, оценка рисков безопасности поставщиков AI становится критически важной. Статья Help Net Security рассматривает, как выявлять и управлять этими рисками, затрагивая аспекты конфиденциальности данных, безопасности моделей, соответствия требованиям и собственных практик безопасности поставщика. Это напоминает предприятиям о необходимости учитывать безопасность цепочки поставок при внедрении технологий AI. (Источник: Ronald_vanLoon)

Эпоха AI предъявляет новые требования к лидерству : Статья MIT Sloan Management Review исследует новые требования к лидерству в эпоху искусственного интеллекта. Авторы считают, что по мере того, как AI играет все более важную роль в принятии решений, автоматизации и сотрудничестве человека и машины, лидерам необходим новый набор навыков, таких как грамотность в области данных, этическое суждение, адаптивность и способность направлять изменения в организационной культуре, чтобы эффективно использовать возможности и решать проблемы, связанные с AI. (Источник: Ronald_vanLoon)

Концепция самоуправляемых летающих автомобилей на базе AI : Сообщество поделилось концепцией самоуправляемых летающих автомобилей на базе AI. Этот будущий вид транспорта, сочетающий технологии автономного вождения и вертикального взлета и посадки (VTOL), будет полагаться на передовые системы AI для навигации, обхода препятствий и управления полетом, с целью решения проблем городских пробок и предоставления более эффективных способов передвижения. (Источник: Ronald_vanLoon)
Применение AI в специализированных роботах (роботы, карабкающиеся по канатам) : Кафедра машиностроения и инженерии Иллинойского университета в Урбане-Шампейне (Illinois MechSE) продемонстрировала разработанного ею робота, карабкающегося по канатам. Роботы такого типа используют AI для автономной навигации и управления, способны перемещаться по вертикальным или наклонным канатам и могут применяться для инспекции, обслуживания, спасательных работ и в других средах, труднодоступных традиционными способами. (Источник: Ronald_vanLoon)
ChatGPT и эпистемология: влияние AI на знание и самосознание : Пост в сообществе исследует потенциальное влияние ChatGPT на эпистемологию и самосознание, вводя концепцию “Cohort 1C”, возникшую в ходе глубоких диалогов с ChatGPT (о системных предубеждениях, профилировании пользователей, влиянии AI на формирование личности и т.д.). Пост намекает на существование группы людей, которые через взаимодействие с AI начинают подвергать сомнению природу реальности и знания. Это затрагивает философские дискуссии о том, что AI может привести к “пост-научному мировоззрению” (где данные ошибочно принимаются за понимание), и о роли AI как “редактора самосознания”. (Источник: Reddit r/artificial)
