Ключевые слова:ChatGPT, GitHub, AI модель, AGI, мультимодальность, обучение с подкреплением, открытое программное обеспечение, Meta FAIR, функция глубокого исследования ChatGPT, гибридная архитектура Transformer, уточнение с подкреплением RFT, многопользовательская модель мира AI Multiverse, научная среда AI

🔥 В фокусе

Интеграция функции Deep Research ChatGPT с GitHub: OpenAI объявила, что функция Deep Research в ChatGPT теперь поддерживает подключение к репозиториям GitHub. После того как пользователь задает вопрос, AI-агент может автоматически читать, искать и анализировать исходный код, PR, README и другие документы в репозитории, генерируя подробные отчеты с прямыми ссылками. Эта функция призвана помочь разработчикам быстро ознакомиться с проектом, понять структуру кода и технологический стек. В настоящее время эта функция находится на стадии тестирования и уже доступна пользователям Team, а в дальнейшем будет распространена на пользователей Plus и Pro. (Источник: OpenAI Developers, snsf, EdwardSun0909, op7418, gdb, tokenbender, 量子位, 36氪)

Интеграция функции Deep Research ChatGPT с GitHub

Первая в мире многопользовательская модель мира AI Multiverse с открытым исходным кодом: Израильский стартап Enigma Labs открыл исходный код своей многопользовательской модели мира Multiverse, позволяющей двум AI-агентам воспринимать, взаимодействовать и сотрудничать в одной и той же генерируемой среде. Модель была обучена на игре《Gran Turismo 4》и обрабатывает общее состояние мира путем наложения перспектив двух игроков по цветовым каналам и объединения их с разреженно сэмплированными историческими кадрами, что позволяет обучать и запускать ее в реальном времени на ПК стоимостью менее 1500 долларов. Этот шаг рассматривается как важный прогресс в понимании и генерации AI общих виртуальных сред, предлагая новые идеи для многоагентных систем и платформ симуляционного обучения. (Источник: Reddit r/MachineLearning, 36氪)

Первая в мире многопользовательская модель мира AI Multiverse с открытым исходным кодом

Ведущий ученый в области AI Роб Фергюс возвращается и возглавляет Meta FAIR с целью создания AGI: Роб Фергюс, который ранее вместе с Янном ЛеКуном основал FAIR, а затем руководил нью-йоркской командой в DeepMind, вернулся в Meta, сменив Джоэль Пино на посту руководителя FAIR. Фергюс присоединился к отделу GenAI Meta в апреле этого года, работая над улучшением памяти и персонализации модели Llama. ЛеКун также объявил, что новой целью FAIR станет продвинутый машинный интеллект (AGI). Фергюс — высокоцитируемый ученый в области AI, известный своими работами по визуализации ZFNet и новаторскими исследованиями состязательных примеров. (Источник: ylecun, 36氪)

Ведущий ученый в области AI Роб Фергюс возвращается и возглавляет Meta FAIR с целью создания AGI

Anthropic публикует исследование ценностей Claude AI, выявив 3307 ценностных ориентаций AI: Исследовательская группа Anthropic опубликовала препринт статьи «Values in the Wild», в котором анализируется поведение Claude AI в реальных диалогах и выявляется 3307 уникальных ценностей AI. Исследование показало, что наиболее распространенными являются ценности, ориентированные на обслуживание, такие как «готовность помочь» (23,4%), «профессионализм» (22,9%) и «прозрачность» (17,4%). Ценности AI были сгруппированы в пять основных категорий: практические (31,4%), когнитивные (22,2%), социальные (21,4%), защитные (13,9%) и личные (11,1%), и демонстрируют высокую зависимость от контекста. Claude обычно поддерживает выражаемые человеком ценности (43%), отражение ценностей составляет около 20%, а сопротивление ценностям пользователя встречается редко (5,4%). (Источник: Reddit r/ArtificialInteligence)

Йошуа Бенжио предлагает фреймворк «Scientist AI», выступая за более безопасный путь развития AI: Лауреат премии Тьюринга Йошуа Бенжио опубликовал колонку в журнале Time, в которой изложил направление исследований своей команды по «Scientist AI» (Ученый AI). Он считает, что это практичный, эффективный и более безопасный путь развития AI, призванный заменить текущую неконтролируемую траекторию развития AI, управляемую агентами. Этот фреймворк подчеркивает, что системы AI должны обладать интерпретируемостью, проверяемостью и способностью соответствовать человеческим ценностям. Моделируя методологию научных исследований, поведение и процессы принятия решений AI становятся более прозрачными и контролируемыми, тем самым снижая потенциальные риски. (Источник: Yoshua_Bengio)

🎯 События

Функция Reinforced Fine-Tuning (RFT) от OpenAI официально запущена на o4-mini: OpenAI объявила, что функция Reinforced Fine-Tuning (RFT), предварительно представленная в декабре прошлого года, теперь официально доступна в модели o4-mini. RFT использует логические цепочки рассуждений (chain-of-thought reasoning) и оценку по конкретным задачам для повышения производительности модели в сложных областях. Например, компания AccordanceAI уже использовала RFT для тонкой настройки модели, демонстрирующей лучшие результаты в области налогообложения и бухгалтерского учета. (Источник: OpenAI Developers, gdb, 量子位, 36氪)

Функция Reinforced Fine-Tuning (RFT) от OpenAI официально запущена на o4-mini

Gemini API запускает функцию неявного кэширования, снижая стоимость вызовов на 75%: В Gemini API добавлена функция неявного кэширования. Когда запрос пользователя имеет общий префикс с предыдущим запросом, может автоматически срабатывать кэш, экономя пользователям 75% стоимости Token. Эта функция не требует от разработчиков активного создания кэша. Одновременно минимальное требование по Token для срабатывания кэша снижено до 1K на Gemini 2.5 Flash и до 2K на 2.5 Pro, что еще больше снижает стоимость использования API. (Источник: op7418)

Gemini API запускает функцию неявного кэширования, снижая стоимость вызовов на 75%

OpenAI полностью запускает функцию памяти ChatGPT в Европейской экономической зоне и других регионах: OpenAI объявила, что функция памяти ChatGPT теперь полностью доступна для пользователей Plus и Pro в Европейской экономической зоне (ЕЭЗ), Великобритании, Швейцарии, Норвегии, Исландии и Лихтенштейне. Эта функция позволяет ChatGPT ссылаться на все предыдущие чаты пользователя для предоставления более персонализированных ответов, лучшего понимания предпочтений и интересов пользователя, тем самым обеспечивая более точную помощь в написании текстов, предоставлении советов, обучении и т.д. (Источник: openai)

ByteDance Seed представляет мультимодальную базовую модель Mogao: Команда SEED из ByteDance выпустила базовую модель Omni под названием Mogao, специально разработанную для генерации чередующихся мультимодальных данных. Mogao интегрирует несколько технологических усовершенствований, включая дизайн глубокого слияния, двойные визуальные кодеры, чередующиеся ротационные позиционные эмбеддинги и мультимодальное руководство без классификатора. Эти усовершенствования позволяют ей сочетать преимущества авторегрессионных моделей (генерация текста) и диффузионных моделей (высококачественный синтез изображений), эффективно обрабатывая произвольные чередующиеся последовательности текста и изображений. (Источник: NandoDF)

ByteDance Seed представляет мультимодальную базовую модель Mogao

Meta представляет архитектуру Mixture-of-Transformers (MoT), направленную на снижение затрат на предварительное обучение мультимодальных моделей: Исследователи из Meta AI предложили разреженную архитектуру под названием «Mixture-of-Transformers (MoT)», целью которой является значительное снижение вычислительных затрат на предварительное обучение мультимодальных моделей без ущерба для производительности. MoT применяет модально-зависимую разреженность к параметрам Transformer, не являющимся эмбеддингами (например, к сетям прямого распространения, матрицам внимания и нормализации слоев). Эксперименты показали, что в конфигурации Chameleon (генерация текста + изображений) модель MoT с 7B параметрами достигла качества плотной базовой линии, используя всего 55,8% FLOPs; при расширении до речи в качестве третьей модальности потребовалось всего 37,2% FLOPs. Это исследование было принято в TMLR (март 2025 г.), код открыт. (Источник: VictoriaLinML)

Meta представляет архитектуру Mixture-of-Transformers (MoT), направленную на снижение затрат на предварительное обучение мультимодальных моделей

Выпущен проект улучшения модели Qwen Smoothie Qwen, балансирующий многоязычную генерацию: Выпущен проект улучшения модели Qwen под названием Smoothie Qwen, целью которого является балансировка возможностей многоязычной генерации путем корректировки вероятностей внутренних параметров модели. Проект в основном решает проблему, с которой сталкиваются некоторые некитайскоязычные пользователи Qwen, когда модель иногда выводит текст на китайском языке, и утверждается, что это не снизит интеллект модели. (Источник: karminski3)

Выпущен проект улучшения модели Qwen Smoothie Qwen, балансирующий многоязычную генерацию

Запущен idp-leaderboard, первый бенчмарк для тестирования AI по типам документов: Запущен новый бенчмарк для тестирования AI idp-leaderboard, специализирующийся на оценке способности моделей обрабатывать документы и изображения документов. Согласно предварительным результатам, gemini-2.5-flash-preview-04-17 показал наилучшие результаты в общей обработке документов. Стоит отметить, что Qwen2.5-VL показал низкую производительность в обработке таблиц. (Источник: karminski3)

Запущен idp-leaderboard, первый бенчмарк для тестирования AI по типам документов

Функция Perplexity Discover получила важное обновление: Сооснователь Perplexity Арав Шринивас объявил, что функция Discover (лента обнаружения информации) была значительно улучшена, и призвал пользователей опробовать ее. Обычно это означает оптимизацию представления информации, релевантности или пользовательского интерфейса с целью улучшения возможностей пользователей по получению и исследованию новой информации. (Источник: AravSrinivas)

Lenovo объявляет о крупном обновлении персонального суперинтеллектуального агента Tianxi и первом в мире планшете с локальным развертыванием DeepSeek: Lenovo объявила о крупном обновлении своего персонального суперинтеллектуального агента Tianxi, приближаясь к полноценному уровню L3, и выпустила специализированного интеллектуального агента для AI-сервисов на персональных устройствах «Xiang Bang Bang». Одновременно Lenovo представила несколько новых AI-терминалов, включая первый в мире планшет YOGA Pad Pro 14.5 AI Yuanqi Edition с локально развернутой большой моделью DeepSeek, а также AI-телефон moto, ПК серии Legion и другие, создав полную AI-экосистему из AI PC, AI-телефонов, AI-планшетов и AIoT. (Источник: 量子位)

Lenovo объявляет о крупном обновлении персонального суперинтеллектуального агента Tianxi и первом в мире планшете с локальным развертыванием DeepSeek

Lou Tiancheng (Pony.ai) об автопилоте и воплощенном интеллекте: L2 не может перейти на L4, VLA мало помогает L4: Сооснователь и технический директор Pony.ai Lou Tiancheng поделился последними мыслями об автопилоте и AI на презентации нового поколения Robotaxi. Он подчеркнул принципиальную разницу между L2 и L4, считая, что L2 не может быть повышен до L4, а популярная в области L2 парадигма VLA (Vision-Language-Action) «практически бесполезна» для L4. Он отметил, что L4 требует экстремальной безопасности, подобной работе узкоспециализированного врача, в то время как VLA больше похож на врача общей практики. Ключевыми технологическими изменениями в Pony.ai за последние два года стали end-to-end подход и модель мира (world model), последняя используется уже около 5 лет. Он также считает «облачное вождение» (cloud driving) псевдоконцепцией и заявил, что воплощенный интеллект в настоящее время находится в состоянии, аналогичном автопилоту в 2018 году, и столкнется с аналогичными проблемами «вакуумного периода». (Источник: 量子位)

Lou Tiancheng (Pony.ai) об автопилоте и воплощенном интеллекте: L2 не может перейти на L4, VLA мало помогает L4

Kimi тестирует контент-сообщество, OpenAI, возможно, разрабатывает социальное приложение; компании, занимающиеся большими моделями AI, исследуют социальные функции для повышения вовлеченности пользователей: Kimi от Moonshot AI проводит закрытое тестирование контент-сообщества, в основном генерирующего контент на основе новостных трендов с помощью AI, с фокусом на технологии, финансы и другие области. По совпадению, сообщалось, что OpenAI также планирует разработать социальное программное обеспечение, возможно, в качестве конкурента X. Эти шаги показывают, что компании, занимающиеся большими моделями AI, пытаются повысить вовлеченность пользователей путем создания сообществ или социальных функций, решая проблему «использовал и забыл» для AI-инструментов. Однако управление сообществом сталкивается с проблемами качества контента, рисков безопасности и коммерциализации. Этот шаг также отражает то, что после достижения пика роста индустрия AI начинает переходить от «сжигания денег ради роста» к большему вниманию к ROI и исследованию новых бизнес-моделей. (Источник: 36氪)

Kimi тестирует контент-сообщество, OpenAI, возможно, разрабатывает социальное приложение; компании, занимающиеся большими моделями AI, исследуют социальные функции для повышения вовлеченности пользователей

TCL полностью переходит на AI, выпускает большую модель Fuxi и множество AI-бытовой техники, но сталкивается с проблемой однородности: TCL на выставках AWE 2025, CES 2025 и других активно демонстрировала свои AI-продукты и стратегию, включая большую модель TCL Fuxi и AI-функции, применяемые в телевизорах, кондиционерах, стиральных машинах и другой бытовой технике. Ее телевизионный бизнес показывает выдающиеся результаты: в первом квартале поставки заняли первое место в мире, а технология Mini LED является ее преимуществом. Однако применение AI в бытовой технике в настоящее время в основном сосредоточено на голосовом взаимодействии и оптимизации конкретных функций (например, AI-чип для улучшения качества изображения, AI-сон, AI-энергосбережение), сталкиваясь с проблемой конкуренции из-за однородности с другими брендами (такими как Hisense Xinghai, Haier HomeGPT, Midea Meiyan). TCL также исследует AI-роботов-компаньонов и через Thunderbird развивает умные очки. Несмотря на увеличение инвестиций в AI, ее независимые технологические преимущества пока не очевидны, и она сталкивается с проблемами высоких маркетинговых затрат, снижения валовой прибыли и т.д. (Источник: 36氪)

TCL полностью переходит на AI, выпускает большую модель Fuxi и множество AI-бытовой техники, но сталкивается с проблемой однородности

AI трансформирует образование, ведущие компании, такие как iFlytek, Zhuoyue Education, ускоряют внедрение AI: В отчете анализируются последние практики ведущих образовательных компаний, таких как iFlytek, Zhuoyue Education, Fenbi, Zhonggong Education, Huatu Education, 17zuoye, в области AI. iFlytek, опираясь на отечественные вычислительные мощности и модели Deepseek-V3/R1, активно развивает информационно-технологическое образование. Zhuoyue Education использует Deepseek R1 для расширения возможностей всей цепочки обучения, выпустив инструменты AI-проверки и AI-чтения. Fenbi создала матрицу AI-продуктов, охватывающую высокочастотное обучение и востребованные сценарии. Zhonggong Education фокусируется на AI-сервисах для трудоустройства, разрабатывая большую модель «Yunxin». Huatu Education сочетает офлайн-преимущества с AI для повышения точности услуг по подготовке к государственным экзаменам. 17zuoye использует AI для интеграции обучения и оценки. Отраслевые тенденции показывают, что AI-образование переходит от отдельных инструментов к конкуренции экосистем и монетизации ценности. (Источник: 36氪)

Крупные компании, такие как Baidu и Alibaba, продвигают протокол MCP, борясь за право определять экосистему AI Agent: Протокол контекста модели (MCP) в последнее время продвигается Anthropic, OpenAI, Google, а также китайскими гигантами Baidu и Alibaba. Приложение «Xīnxiǎng» от Baidu и платформа BaiLian от Alibaba Cloud уже поддерживают MCP, позволяя AI Agent более удобно вызывать внешние инструменты и сервисы. На первый взгляд, это делается для унификации отраслевых стандартов, но на самом деле это борьба крупных компаний за право определять будущую экосистему AI Agent. Создавая и продвигая MCP, крупные компании намерены привлечь больше разработчиков в свои экосистемы, тем самым получая контроль над данными и влияние в отрасли. Коммерциализация приложений Agent в настоящее время по-прежнему ориентирована в основном на трафик и рекламу. (Источник: 36氪)

Крупные компании, такие как Baidu и Alibaba, продвигают протокол MCP, борясь за право определять экосистему AI Agent

Раскрыта AI-стратегия Apple: возможно сотрудничество с Baidu и Alibaba для создания китайской версии AI-системы с «двойным ядром»: В отчете анализируется возможное сотрудничество Apple с Baidu и Alibaba для технологической поддержки AI-функций на китайском рынке. Baidu Wenxin Yiyan имеет преимущества в визуальном распознавании, а большая модель Alibaba Qianwen демонстрирует высокие результаты в когнитивном понимании и соблюдении нормативных требований к контенту. Такая модель «двойного ядра» может быть направлена на объединение сильных сторон обеих компаний для удовлетворения требований китайского рынка в отношении экосистемы данных, технологических приоритетов и регулирования, сохраняя при этом доминирующее положение Apple и ее переговорную силу в сотрудничестве. Этот шаг рассматривается как ответ Apple на давление со стороны местных конкурентов, таких как HarmonyOS, а также как стратегия «разделения экологических ниш» в условиях ужесточения регулирования данных. (Источник: 36氪)

Профессор Юй Цзиньи подробно анализирует пространственный интеллект: огромный потенциал, но консенсус не сформирован, ключевыми являются данные и понимание физики: Профессор Шанхайского технологического университета Юй Цзиньи в интервью отметил, что потенциал больших моделей в межмодальной интеграции далеко не исчерпан, а пространственный интеллект эволюционирует от цифрового копирования к интеллектуальному пониманию и созданию благодаря прорывам в генеративном AI. Он считает, что основной проблемой пространственного интеллекта в настоящее время является нехватка данных о реальных 3D-сценах и отсутствие единого способа трехмерного представления. Проект CAST его команды, путем внедрения «теории акторных сетей» и физических правил, исследует отношения между объектами и физическую правдоподобность. Он подчеркивает приоритет восприятия и предсказывает революционные прорывы в сенсорных технологиях. Критериями оценки воплощенного интеллекта должны быть надежность и безопасность, а не только точность. В краткосрочной перспективе пространственный интеллект будет активно развиваться в кинопроизводстве, играх и других областях, в среднесрочной и долгосрочной перспективе станет ядром воплощенного интеллекта, а экономика низковысотных полетов также является важным сценарием применения. (Источник: 36氪)

Профессор Юй Цзиньи подробно анализирует пространственный интеллект: огромный потенциал, но консенсус не сформирован, ключевыми являются данные и понимание физики

Борьба за AI-таланты обостряется: крупные компании предлагают высокие зарплаты, CTO лично курируют, фокус на большие модели и мультимодальность: Отечественные и зарубежные технологические гиганты ведут ожесточенную борьбу за таланты в области искусственного интеллекта. ByteDance, Alibaba, Tencent, Baidu, JD.com, Huawei и другие запускают программы найма для лучших аспирантов и гениальных молодых людей, предлагая неограниченные зарплаты, личное кураторство со стороны CTO, отсутствие требований к опыту стажировок и другие льготы. Направления найма в основном сосредоточены на больших моделях и мультимодальности и тесно связаны с основными бизнес-сценариями компаний. Успех моделей, таких как DeepSeek, еще больше усилил спрос на таланты в отрасли. Илон Маск также сетовал на безумную конкуренцию за AI-таланты; зарубежные гиганты, такие как OpenAI, также привлекают таланты высокими зарплатами и личным участием основателей в найме. (Источник: 36氪)

Борьба за AI-таланты обостряется: крупные компании предлагают высокие зарплаты, CTO лично курируют, фокус на большие модели и мультимодальность

Sequoia Capital: Потенциал рынка AI значительно превышает облачные вычисления, прикладной уровень является ключевым, Chief AI Officer станет стандартом: Партнер Sequoia Capital прогнозирует, что объем рынка AI значительно превысит текущий рынок облачных вычислений, составляющий около 400 миллиардов долларов, и в ближайшие 10-20 лет его масштабы будут огромными, а основная ценность будет сосредоточена на прикладном уровне. Стартапы должны сосредоточиться на потребностях клиентов, предлагать комплексные решения, углубляться в вертикальные рынки и использовать «маховик данных» для создания конкурентных преимуществ. Исследование AWS показывает, что мировые компании ускоряют внедрение генеративного AI: 45% лиц, принимающих решения, планируют сделать его главным приоритетом на 2025 год, а должность Chief AI Officer (CAIO) станет стандартом для предприятий (в настоящее время 60% компаний уже создали такую должность). Экономика агентов рассматривается как следующий этап развития AI, но необходимо решить три технологические проблемы: постоянная идентичность, протоколы связи и доверие к безопасности. (Источник: 36氪)

Sequoia Capital: Потенциал рынка AI значительно превышает облачные вычисления, прикладной уровень является ключевым, Chief AI Officer станет стандартом

Новые производители автомобилей полностью делают ставку на AI: Li Auto, XPeng, NIO соревнуются за право определять автомобили следующего поколения: Прорыв, достигнутый Tesla FSD V12 с использованием технологии end-to-end нейронных сетей, побудил отечественных новых производителей автомобилей, таких как Li Auto, XPeng, NIO, ускорить внедрение AI. Li Auto представила большую модель водителя VLA (Vision-Language-Action) и разработала языковую часть на основе открытой модели DeepSeek. XPeng Motors создала базовую модель LVA с 72 миллиардами параметров. NIO выпустила первую в Китае модель мира для интеллектуального вождения NWM и самостоятельно разработала 5-нм чип для интеллектуального вождения Shenji NX9031. Каждая компания вкладывает значительные средства в алгоритмы, вычислительные мощности (собственные чипы) и данные, а также распространяет AI-технологии на такие области, как человекоподобные роботы, борясь за право определять автомобили и даже продукты следующего поколения, но сталкиваясь с проблемами финансирования и коммерциализации. (Источник: 36氪)

🧰 Инструменты

Фреймворк Apple MLX получил квантование DWQ, 4-битная версия превосходит старую 6-битную: Для фреймворка машинного обучения Apple MLX выпущен новый метод квантования DWQ (Dynamic Weight Quantization, динамическое квантование весов). По данным, которыми поделился пользователь karminski3, модели, квантованные с помощью 4bit-dwq (например, Qwen3-30B), по показателю перплексии даже превосходят старый 6-битный метод квантования и требуют всего 17 ГБ памяти для работы. Это открывает новые возможности для эффективного запуска больших языковых моделей на устройствах Apple. (Источник: karminski3)

Фреймворк Apple MLX получил квантование DWQ, 4-битная версия превосходит старую 6-битную

Perplexity теперь поддерживает более естественный диалоговый поиск в WhatsApp: Сооснователь Perplexity Арав Шринивас объявил, что интеграция Perplexity в WhatsApp была улучшена и теперь обеспечивает более естественный диалоговый опыт. При этом, когда поиск не требуется, система интеллектуально пропускает этап поиска, позволяя пользователям напрямую взаимодействовать с AI в чат-режиме. (Источник: AravSrinivas)

Perplexity теперь поддерживает более естественный диалоговый поиск в WhatsApp

nanobrowser_ai поддерживает основные LLM, интегрирован с Langchain.js: AI-инструмент nanobrowser_ai объявил о поддержке множества больших языковых моделей, включая модели OpenAI, Gemini, а также локальные модели, запускаемые через Ollama. Инструмент использует фреймворк Langchain.js для гибкой поддержки различных LLM, предоставляя пользователям более широкий выбор моделей. (Источник: hwchase17)

nanobrowser_ai поддерживает основные LLM, интегрирован с Langchain.js

LlamaIndex TypeScript добавляет поддержку API для LLM в реальном времени, первым интегрирован Google Gemini: LlamaIndex TypeScript объявил о поддержке API для LLM в реальном времени, что позволяет разработчикам реализовывать функции аудиодиалогов в реальном времени в AI-приложениях. Первым интегрирован интерфейс реального времени для Google Gemini, также скоро появится поддержка реального времени для OpenAI. Это обновление упрощает разработчикам переключение между различными моделями реального времени и создание более интерактивных AI-приложений. (Источник: _philschmid)

LlamaIndex TypeScript добавляет поддержку API для LLM в реальном времени, первым интегрирован Google Gemini

Учебное пособие по приложению Gradio: использование Qwen2.5-VL для аннотирования изображений и видео и обнаружения объектов: В учебном пособии подробно описывается, как использовать Qwen2.5-VL (визуально-языковую модель) для создания приложения Gradio с целью автоматического аннотирования изображений и видео, а также обнаружения объектов. Пособие призвано помочь разработчикам быстро создавать интерактивные AI-приложения, используя мощные возможности Qwen2.5-VL. (Источник: Reddit r/deeplearning)

Учебное пособие по приложению Gradio: использование Qwen2.5-VL для аннотирования изображений и видео и обнаружения объектов

Плагин VSCode gemini-code скачан почти 50 000 раз: Количество загрузок плагина-помощника для программирования на основе AI gemini-code для VSCode приблизилось к 50 000. Разработчик raizamrtn сообщил, что на выходных внесет некоторые необходимые обновления. Плагин предназначен для использования возможностей модели Gemini для помощи разработчикам в написании кода. (Источник: raizamrtn)

Плагин VSCode gemini-code скачан почти 50 000 раз

Французский AI-стартап Arcads AI: команда из 5 человек зарабатывает 5 миллионов долларов в год, специализируясь на автоматизированном создании видеорекламы: Парижский AI-стартап Arcads AI, состоящий всего из 5 человек, достиг годового регулярного дохода в 5 миллионов долларов и стал прибыльным. Компания с помощью высокоавтоматизированной AI-системы предоставляет рекламодателям услуги по быстрому, недорогому и высококонверсионному созданию видеорекламы. Клиентам достаточно предоставить основной текст, и AI выполнит весь процесс: от создания сцен и игры актеров до записи озвучки и выпуска готового ролика. Платформа Arcads содержит более 300 образов AI-актеров, созданных на основе лицензированных реальных людей, поддерживает 35 языков и реализует модель «контент как услуга». Внутренние операции компании также широко используют AI-агентов, например, AI Spy Agent анализирует конкурентов, а AI Ghostwriter генерирует креативы, что значительно повышает эффективность. (Источник: 36氪)

Французский AI-стартап Arcads AI: команда из 5 человек зарабатывает 5 миллионов долларов в год, специализируясь на автоматизированном создании видеорекламы

📚 Обучение

HuggingFace выпускает набор данных MegaMath, содержащий 370B токенов, 20% из которых — синтетические данные: HuggingFace выпустила набор данных MegaMath, содержащий 370 миллиардов токенов, что делает его крупнейшим на сегодняшний день набором данных для предварительного обучения в области математики, примерно в 100 раз превышающим объем английской Википедии. Примечательно, что 20% этих данных являются синтетическими, что вновь поднимает дискуссию о роли высококачественных синтетических данных в обучении моделей. (Источник: ClementDelangue)

HuggingFace выпускает набор данных MegaMath, содержащий 370B токенов, 20% из которых — синтетические данные

Nous Research проводит хакатон по средам RL с призовым фондом 50 000 долларов: Nous Research объявила о проведении хакатона Nous RL Environment в Сан-Франциско. Участники будут использовать фреймворк сред обучения с подкреплением Atropos от Nous для создания своих проектов. Общий призовой фонд составляет 50 000 долларов. Среди партнеров — xAI, NVIDIA, Nebius AI и другие. (Источник: Teknium1)

Nous Research проводит хакатон по средам RL с призовым фондом 50 000 долларов

Опубликован еженедельный рейтинг популярных моделей HuggingFace: Пользователь karminski3 поделился списком самых популярных моделей на HuggingFace за эту неделю и упомянул, что большинство из них он либо протестировал лично, либо поделился официальными демонстрациями. Это отражает энтузиазм сообщества по быстрому отслеживанию и оценке новых моделей. (Источник: karminski3)

Опубликован еженедельный рейтинг популярных моделей HuggingFace

Zeyuan Allen-Zhu публикует серию исследований по дизайну архитектуры LLM, обсуждая модель Primer: Исследователь Zeyuan Allen-Zhu в своей серии исследований «Физика дизайна LLM» использует контролируемые синтетические среды предварительного обучения для выявления истинных пределов архитектур LLM. В своем последнем сообщении он обсуждает модель Primer (arxiv.org/abs/2109.08668) и ее multi-dconv-head attention (которую он называет Canon-B без остаточных связей), указывая на ее проблемы, но также считая, что модель Primer (всего 180 цитирований) недооценена, поскольку она выявила значимые сигналы из зашумленных реальных экспериментов. (Источник: ZeyuanAllenZhu, cloneofsimo)

Zeyuan Allen-Zhu публикует серию исследований по дизайну архитектуры LLM, обсуждая модель Primer

Simons Institute обсуждает законы масштабирования нейронных сетей: Simons Institute в своей серии программ Polylogues пригласил Анила Анантасвами и Александра Раша для обсуждения эмпирически обнаруженных в последние годы законов масштабирования нейронных сетей (neural scaling laws). Эти законы оказали значительное влияние на решения крупных компаний по созданию все более крупных моделей. (Источник: NandoDF)

Simons Institute обсуждает законы масштабирования нейронных сетей

Франсуа Флёре публикует «Маленькую книгу глубокого обучения»: Франсуа Флёре опубликовал книгу под названием «The Little Book of Deep Learning», цель которой — предоставить читателям концентрированные знания о глубоком обучении. (Источник: Reddit r/deeplearning)

Профессор Принстона: AI может положить конец гуманитарным наукам, но побудит их вернуться к экзистенциальному опыту: Профессор Принстонского университета Д. Грэм Бернетт в статье для The New Yorker обсуждает влияние AI на гуманитарные науки. Он отмечает, что в американских университетах широко распространена «AI-стыдливость»: студенты боятся признаваться в использовании AI. Он считает, что AI в поиске и анализе информации уже превзошел традиционные академические методы, превращая научные книги в подобие археологических артефактов. Хотя AI может положить конец гуманитарным наукам в традиционном смысле, ориентированным на производство знаний, он также может побудить их вернуться к основным вопросам: как жить, как встречать смерть и другим экзистенциальным переживаниям, которые AI не может непосредственно затронуть. (Источник: 36氪)

Профессор Принстона: AI может положить конец гуманитарным наукам, но побудит их вернуться к экзистенциальному опыту

7 исследований раскрывают глубокое влияние AI на человеческий мозг и поведение: Серия новых исследований изучает влияние AI на психологические, социальные и когнитивные аспекты человеческой жизни. Исследования выявили следующее: 1) Тестировщики LLM на «красных командах» исследуют уязвимости моделей из любопытства и чувства моральной ответственности; 2) ChatGPT демонстрирует высокую точность диагностики в анализе психиатрических случаев; 3) Политические пристрастия ChatGPT претерпевают незначительные изменения между различными версиями; 4) Использование ChatGPT может усугублять неравенство на рабочем месте, так как им чаще пользуются молодые мужчины с высоким доходом; 5) AI может выявлять признаки депрессии у пожилых людей, анализируя их поведение за рулем; 6) LLM в тестах личности демонстрируют социально желательное искажение, «приукрашивая» образ; 7) Чрезмерная зависимость от AI может ослаблять критическое мышление, особенно у молодежи. (Источник: 36氪)

7 исследований раскрывают глубокое влияние AI на человеческий мозг и поведение

Интервью с Онуром Бояром: использование генеративных моделей и байесовской оптимизации для разработки лекарств и материалов: Участник докторского форума AAAI/SIGAI Онур Бояр рассказал о своей докторской исследовательской работе в Университете Нагои, сосредоточенной на использовании генеративных моделей и байесовских методов для разработки лекарств и материалов. Он участвует в японском проекте Moonshot, целью которого является создание роботов-ученых с AI для обработки процессов открытия лекарств. Его исследовательские методы включают использование байесовской оптимизации в латентном пространстве для редактирования существующих молекул с целью повышения эффективности выборки и синтетической осуществимости. Он подчеркивает тесное сотрудничество с химиками и после окончания учебы присоединится к команде по открытию материалов в Токийском исследовательском центре IBM. (Источник: aihub.org)

Интервью с Онуром Бояром: использование генеративных моделей и байесовской оптимизации для разработки лекарств и материалов

💼 Бизнес

Modular в сотрудничестве с AMD проводит Mojo Hackathon с использованием GPU MI300X: Компания Modular объявила о сотрудничестве с AMD для проведения специального хакатона в AGI House. В ходе мероприятия разработчики будут программировать на языке Mojo, используя GPU AMD Instinct™ MI300X. На мероприятии также выступят представители Modular, AMD, Дилан Пател из SemiAnalysis и представители Anthropic с техническими докладами. (Источник: clattner_llvm)

Stripe выпускает несколько новых функций на базе AI, включая базовую AI-модель для платежей: Финансовая компания Stripe на своей ежегодной конференции объявила о запуске нескольких новых продуктов для ускорения внедрения AI-приложений, включая первую в мире базовую AI-модель, специально созданную для сферы платежей. Эта модель, обученная на десятках миллиардов транзакций, призвана улучшить обнаружение мошенничества (например, эффективность обнаружения атак типа «тестирование карт» повысилась на 64%), коэффициент авторизации и персонализированный опыт оформления заказа. Stripe также расширила возможности управления мультивалютными средствами и углубила сотрудничество с крупными компаниями, такими как Nvidia (использующей Stripe Billing для управления подписками GeForce Now) и PepsiCo. (Источник: 36氪)

AI-маркетинговая компания Dongxin Marketing снова пытается выйти на Гонконгскую биржу, сталкиваясь с дилеммой «рост выручки без роста прибыли»: Dongxin Marketing под вывеской «крупнейшей AI-маркетинговой компании Китая» снова подала заявку на листинг на Гонконгской фондовой бирже. Данные показывают, что выручка компании за первые три квартала 2022-2024 годов продолжала расти, но чистая прибыль резко упала и даже стала отрицательной, а валовая прибыль снизилась с 20,8% до 14,5%. Доля доходов от AI-маркетинга составляет менее 5%, и хотя валовая прибыль в этом сегменте достигает 91,1%, этого недостаточно для покрытия затрат на НИОКР. Компания сталкивается с проблемами высокой дебиторской задолженности, нехватки денежных средств, большого долгового бремени и т.д., а ее прибыль сильно зависит от государственных субсидий. Ее рыночное позиционирование изменилось с «поставщика услуг мобильного маркетинга» на «AI-маркетинговую компанию», но технологическая ценность AI и перспективы коммерциализации вызывают сомнения. (Источник: 36氪)

AI-маркетинговая компания Dongxin Marketing снова пытается выйти на Гонконгскую биржу, сталкиваясь с дилеммой «рост выручки без роста прибыли»

🌟 Сообщество

Острая конкуренция между движками вывода vLLM и SGLang, разработчики публично сравнивают данные о слиянии PR: Сообщество разработчиков активно обсуждает конкуренцию между двумя основными движками вывода — vLLM и SGLang. Главный мейнтейнер vLLM даже создал публичную панель мониторинга для сравнения количества объединенных пул-реквестов (PR) SGLang и vLLM на GitHub, что подчеркивает ожесточенную борьбу между ними в итерации функций и оптимизации производительности. Сторона SGLang, в свою очередь, подчеркивает свои первенство в открытой реализации таких технологий, как radix-кэширование, перекрытие CPU, MLA и крупномасштабные EP. (Источник: dylan522p, jeremyphoward)

AI-сгенерированная вселенная персонажей «Italian brainrot» взорвала аудиторию Zoomer, набрав сотни миллионов просмотров: Джастин Мур отмечает, что серия AI-сгенерированных персонажей «Italian brainrot» (итальянский мозговой разжижитель) стала чрезвычайно популярной среди поколения Z (Zoomer). Они создали вокруг этих персонажей целую «кинематографическую вселенную», а соответствующий контент набрал сотни миллионов просмотров. Это явление отражает огромную привлекательность и вирусный потенциал AI-сгенерированного контента среди молодого поколения, а также формирование специфических субкультур. (Источник: nptacek)

AI-сгенерированная вселенная персонажей «Italian brainrot» взорвала аудиторию Zoomer, набрав сотни миллионов просмотров

Сравнение моделей Qwen3 и DeepSeek R1 вызвало дискуссию, у каждой свои преимущества и недостатки: Пользователь Reddit поделился результатами сравнительного тестирования двух открытых больших языковых моделей: Qwen3 235B и DeepSeek R1. Автор поста считает, что Qwen лучше справляется с простыми задачами, но в задачах, требующих нюансов (таких как логические рассуждения, математика и творческое письмо), DeepSeek R1 показывает лучшие результаты. В комментариях сообщества пользователи обсуждали доступность DeepSeek R1, нецензурированную дообученную версию Qwen3 235B, а также целесообразность использования языковых моделей для творческого письма и другие вопросы. (Источник: Reddit r/LocalLLaMA)

Сравнение моделей Qwen3 и DeepSeek R1 вызвало дискуссию, у каждой свои преимущества и недостатки

Различия в результатах тестирования модели Qwen3 в сообществе Aider привлекли внимание, тестирование через OpenRouter подверглось сомнению: Блог Aider опубликовал отчет о тестировании модели Qwen3, указав на значительные различия в оценках модели при разных способах запуска. В центре обсуждения сообщества оказалась надежность тестирования моделей с использованием OpenRouter, поскольку большинство пользователей, вероятно, используют модели через OpenRouter, но его механизм маршрутизации может приводить к несогласованным результатам. Некоторые пользователи считают, что открытые модели следует тестировать в стандартизированных собственных средах (например, vLLM) для обеспечения воспроизводимости, и призывают поставщиков API повысить прозрачность, четко указывая используемую версию квантования и движок вывода. (Источник: Reddit r/LocalLLaMA)

Различия в результатах тестирования модели Qwen3 в сообществе Aider привлекли внимание, тестирование через OpenRouter подверглось сомнению

Пользователи делятся личными причинами платного использования ChatGPT, охватывая помощь в быту, обучение, творчество и т.д.: В сообществе Reddit r/ChatGPT многие пользователи поделились своими личными целями платной подписки на ChatGPT Plus/Pro. Среди них: помощь слабовидящим пользователям в описании изображений, чтении упаковок продуктов и дорожных знаков; подготовка к собеседованиям; глубокое изучение сюжетов игр, таких как Elden Ring; анализ планов беговых тренировок, составление индивидуальных рецептов; помощь в освоении новых навыков, таких как гончарное дело; использование в качестве личного компаньона; планирование сада, изготовление травяных сборов; а также создание персонажей для D&D и написание фанфиков. Эти примеры демонстрируют широкую применимость ChatGPT в повседневной жизни и личных интересах. (Источник: Reddit r/ChatGPT)

Сравнительное тестирование квантованных моделей GGUF вызвало обсуждение «войн квантования», подчеркивая, что разные схемы квантования имеют свои преимущества: Пользователь Reddit ubergarm опубликовал подробное сравнительное тестирование различных версий квантования GGUF для моделей, таких как Qwen3-30B-A3B, включая схемы квантования от разных поставщиков, таких как bartowski и unsloth. Тестирование охватывало множество параметров, включая перплексию, дивергенцию Кульбака-Лейблера, скорость вывода и другие. В статье отмечается, что с появлением новых типов квантования, таких как квантование с использованием матрицы важности (imatrix), IQ4_XS, а также методов, подобных динамическому GGUF от unsloth, квантование GGUF перестало быть «однотипным». Автор подчеркивает, что не существует абсолютно оптимальной схемы квантования, и пользователям необходимо выбирать в зависимости от своего оборудования и конкретного варианта использования, но в целом все основные схемы показывают хорошие результаты. (Источник: Reddit r/LocalLLaMA)

Сравнительное тестирование квантованных моделей GGUF вызвало обсуждение «войн квантования», подчеркивая, что разные схемы квантования имеют свои преимущества

💡 Другое

Daimon Robotics представляет робота Sparky 1 с «ловкими руками и умом»: Компания Daimon Robotics продемонстрировала свой прорывной продукт в области робототехники — Sparky 1. Этот робот описывается как обладающий способностью «Mind-Dexterous» (ловкий умом и руками), что намекает на достижение нового уровня в восприятии, принятии решений и точных манипуляциях, возможно, благодаря интеграции передовых технологий AI и машинного обучения. (Источник: Ronald_vanLoon)

MIT разрабатывает микророботов размером с рисовое зерно, способных проникать в мозг для лечения неоперабельных опухолей: Исследователи из MIT разработали микророботов размером с рисовое зерно, которые потенциально могут проникать в мозг малоинвазивным способом для лечения опухолей, ранее считавшихся неоперабельными. Подобные технологии сочетают микроробототехнику с AI-навигацией или управлением, открывая новые возможности для нейрохирургии и лечения рака. (Источник: Ronald_vanLoon)

MIT разрабатывает микророботов размером с рисовое зерно, способных проникать в мозг для лечения неоперабельных опухолей

Ulsan Smart завершила два раунда финансирования, способствуя массовому производству потребительских экзоскелетных роботов и интеграции с AI-технологиями: Компания-платформа технологий экзоскелетных роботов Ulsan Smart объявила о последовательном завершении двух раундов финансирования, ведущим инвестором выступил BinFu Capital, старый акционер GuoYi Capital также принял участие. Средства будут направлены на массовое производство потребительских экзоскелетных роботов и продвижение интеграции аппаратного обеспечения экзоскелетов с AI-технологиями. Продукция компании уже применяется в промышленных сценариях и начинает осваивать рынки помощи на открытом воздухе (например, помощь при восхождении в горы в туристических зонах) и ухода за пожилыми на дому, планируется выпуск потребительских продуктов стоимостью до 10 000 юаней. Ее новейшие продукты уже оснащены возможностями обучения на больших AI-моделях и предварительно исследуют технологии интерфейса мозг-компьютер. (Источник: 36氪)

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *