키워드:OpenAI GDPval 벤치마크, Claude Opus 4.1, GPT-5, AI 평가, 경제 과제 성능, AI 모델 경제적 영향 평가, Claude Opus 4.1 vs GPT-5, GDPval 벤치마크 테스트, AI 실제 적용 능력, 다중 산업 AI 성능 비교

🔥 주요 소식

OpenAI GDPval 벤치마크 공개: Claude Opus 4.1, GPT-5보다 우수한 성능 보여 : OpenAI는 9개 산업, 44개 직업에서 AI 모델의 실제 경제적 작업 수행 능력을 평가하는 새로운 GDPval 벤치마크를 공개했습니다. 초기 결과에 따르면, Anthropic의 Claude Opus 4.1은 거의 절반의 작업에서 인간 전문가 수준에 도달하거나 이를 능가하며, GPT-5보다 우수한 성능을 보였습니다. OpenAI는 Claude가 미학적 표현에서 뛰어나고 GPT-5가 정확성에서 앞선다고 인정했습니다. 이는 AI 평가가 실제 경제적 영향 측정으로 전환되고 있음을 나타내며, AI 능력의 빠른 발전을 보여줍니다. (출처: OpenAI, menhguin, MillionInt, _sholtodouglas, polynoamial, menhguin, aidan_mclau, sammcallister, menhguin, andy_l_jones, tokenbender, scaling01, scaling01, scaling01, scaling01, scaling01, scaling01, alexwei_, scaling01, scaling01, scaling01, gdb, teortaxesTex, snsf, dilipkay, scaling01, scaling01, jachiam0, jachiam0, sama, ClementDelangue, AymericRoucher, shxf0072, Reddit r/artificial, 36氪, 36氪, 36氪)

OpenAI GDPval基准发布:Claude Opus 4.1表现优于GPT-5

AI와 위키백과, 소수 언어의 ‘파멸의 나선’ 초래 : AI 모델은 인터넷 텍스트를 크롤링하여 언어를 학습하며, 위키백과는 종종 소수 언어의 가장 큰 온라인 데이터 소스입니다. 그러나 AI 번역된 저품질 콘텐츠가 이러한 소규모 위키백과 버전에 대량으로 유입되어 오류가 만연하고 있습니다. 이는 ‘쓰레기를 넣으면 쓰레기가 나온다(Garbage In, Garbage Out)’는 악순환을 형성하여 AI가 이들 언어를 번역하는 것을 더욱 신뢰할 수 없게 만들고, 결과적으로 소수 언어의 쇠퇴를 가속화할 수 있습니다. 그린란드어 위키백과는 AI 도구로 인한 ‘엉터리’ 문제로 인해 폐쇄가 제안되었습니다. 이는 AI가 문화 다양성과 언어 보존에 미칠 수 있는 잠재적인 부정적 영향을 강조합니다. (출처: MIT Technology Review, MIT Technology Review)

AI与维基百科对弱势语言的“厄运螺旋”

OpenAI 최고 연구원 송양(Song Yang), Meta로 이직 : OpenAI 전략 탐색 팀장이자 확산 모델(Diffusion Model)의 핵심 기여자였던 송양(Song Yang)이 Meta의 MSL 팀으로 이직하여 수석 과학자 자오성자(Zhao Shengjia)에게 보고하게 됩니다. 송양은 16세에 칭화대에 입학한 천재로, OpenAI 재직 중 일관성 모델(Consistency Model) 등의 성과로 유명하며 업계에서 ‘최고의 두뇌’ 중 한 명으로 평가받고 있습니다. 이번 이직은 Meta가 OpenAI 인재를 계속해서 영입하는 또 다른 중요한 사건으로, AI 인재 경쟁과 연구 방향에 대한 업계의 관심을 불러일으켰습니다. (출처: 36氪, dotey, jeremyphoward, teortaxesTex)

OpenAI顶尖研究员宋飏跳槽Meta

차이나텔레콤 Tianyi AI, 10조 토큰 이상의 고품질 데이터셋 공개 : 차이나텔레콤 Tianyi AI는 총 저장 용량 350TB, 10조 토큰 이상의 범용 대규모 모델 코퍼스 데이터와 14개 핵심 산업을 포괄하는 전문 데이터셋을 공개했습니다. 이 데이터셋은 신중하게 주석 처리 및 최적화되었으며, 멀티모달 산업 데이터를 포함하여 AI 모델 성능과 일반화 능력을 향상시키는 것을 목표로 합니다. 차이나텔레콤은 고품질 데이터셋이 AI 발전의 핵심 연료임을 강조하며, Starry MaaS 플랫폼을 기반으로 ‘데이터-모델-서비스’ 폐쇄 루프를 구축하여 AI 보편적 발전과 국산화 혁신을 추진하는 데 전념하고 있으며, 이미 1조 개 매개변수 대규모 모델을 성공적으로 훈련했습니다. (출처: 量子位)

中国电信天翼AI发布超10万亿Tokens高质量数据集

중국 국성우항(Guoxing Yuhang), 세계 최초 우주 컴퓨팅 별자리 상시 상업 운영 달성 : 중국 국성우항(Guoxing Yuhang)은 우주 컴퓨팅 별자리의 상시 상업 운영을 성공적으로 달성하여, 우주 컴퓨팅이 ‘가능한’ 단계에서 ‘사용 가능한’ 단계로 진입했음을 알렸습니다. 이 별자리는 첫 번째 ‘Xingsuan’ 위성들로 구성되어 있으며, 총 2,800개의 컴퓨팅 위성으로 이루어진 우주 기반 컴퓨팅 인프라를 구축하여 총 10만 PetaFLOPS 이상의 컴퓨팅 파워로 억 단위 매개변수 모델 실행을 지원하는 것을 목표로 합니다. 이번 성공으로 도로 인식 모델이 궤도 위성에 배포되어 이미지 수집, 모델 추론, 결과 회수까지의 전 과정이 완료되었으며, 교통 산업 알고리즘의 최초 위성 운영을 실현하여 글로벌 AI 인프라의 공간 확장을 위한 새로운 패러다임을 제시했습니다. (출처: 量子位)

中国团队重新定义“星际之门”!全球首个太空计算星座已实现常态化商用

중국, NVIDIA 칩 구매 제한으로 반도체 자급자족 가속화 : 중국이 주요 기술 기업의 NVIDIA 칩 구매를 금지한 것은 중국이 반도체 분야에서 미국 설계 칩에 대한 의존도를 벗어날 만큼 충분한 진전을 이루었음을 시사합니다. 이는 대만 반도체 제조에 대한 미국의 취약성과 중국의 자급자족 능력 향상을 강조합니다. 예를 들어, DeepSeek-R1-Safe 모델은 1,000개의 Huawei Ascend 칩에서 훈련되었습니다. NVIDIA의 Jensen Huang CEO 또한 전 세계 AI 연구원의 50%가 중국 출신이라고 지적한 바 있습니다. (출처: AndrewYNg, Plinz)

中国限制Nvidia芯片采购,加速半导体自给自足


🎯 동향

ChatGPT Pulse 출시, 능동형 AI 시대 개막 : OpenAI는 Pro 사용자들을 위해 ChatGPT Pulse 미리 보기 버전을 출시했습니다. 이 기능은 ChatGPT를 수동적인 질의응답 도구에서 능동적인 AI 비서로 전환시킵니다. Pulse는 사용자 채팅 기록, 피드백 및 연결된 앱(예: 캘린더, Gmail)을 기반으로 백그라운드에서 개인화된 일일 브리핑을 생성하여 카드 형태로 제공하며, 목적 지향적이고 중독적이지 않은 정보 경험을 제공하는 것을 목표로 합니다. Sam Altman은 이를 ‘가장 좋아하는 기능’이라고 언급하며, ChatGPT가 미래에 고도로 개인화되고 능동적인 서비스로 발전할 것을 예고했습니다. (출처: Teknium1, openai, dejavucoder, natolambert, gdb, jam3scampbell, jam3scampbell, scaling01, sama, sama, scaling01, nickaturley, kevinweil, dotey, raizamrtn, BlackHC, op7418, 36氪, 36氪, 36氪, 36氪, 量子位)

ChatGPT Pulse上线,开启主动智能时代

Google, Gemini Robotics 1.5 시리즈 공개, 로봇 ‘종간(種間)’ 학습 실현 : Google DeepMind는 로봇이 더욱 강력한 ‘사고 후 행동’ 능력과 교차 구현 형태 학습 기술을 갖추도록 설계된 Gemini Robotics 1.5 시리즈 모델(Gemini Robotics 1.5 및 Gemini Robotics-ER 1.5 포함)을 공개했습니다. Gemini Robotics-ER 1.5는 ‘두뇌’로서 계획 및 의사결정을 담당하고, Gemini Robotics 1.5는 ‘소뇌’로서 동작을 실행하며, 이 둘은 협력하여 작동합니다. 이 시리즈 모델은 구현 추론 및 교차 구현 학습에서 뛰어난 성능을 보이며, 한 로봇에서 학습한 동작을 다른 로봇으로 전이할 수 있어 범용 로봇의 발전을 촉진할 것으로 기대됩니다. (출처: Teknium1, nin_artificial, dejavucoder, crystalsssup, scaling01, jon_lee0, BlackHC, Google, demishassabis, shaneguML, demishassabis, JeffDean, 36氪, 36氪)

谷歌发布机器人最新「大脑」模型,思考能力SOTA,还能「跨物种」学习

Google, Gemini 2.5 Flash 시리즈 모델 업데이트 공개 : Google은 Gemini 2.5 Flash 및 Flash-Lite 모델의 최신 업데이트를 공개했습니다. 이 모델들은 지능, 비용 효율성 및 토큰 효율성 측면에서 모두 향상되었습니다. Flash-Lite는 추론 모드에서 지능 지수가 8점, 비추론 모드에서 12점 향상되었으며, 토큰 효율성이 더 높고 추론 속도가 더 빠릅니다. 이러한 업데이트는 모델이 지시 따르기, 멀티모달 이해 및 번역에서 더 나은 성능을 발휘하게 하며, Flash 모델은 Agent 도구 사용에서 더 효율적입니다. (출처: scaling01, osanseviero, Google, osanseviero, andrew_n_carr)

谷歌发布Gemini 2.5 Flash系列模型更新

AI 능력 향상 속도 놀라워, LLM 능력 7개월마다 두 배 증가 : METR이 발표한 LLM 벤치마크 테스트 연구에 따르면, LLM이 인간 작업을 완료하는 데 필요한 시간을 측정했을 때 LLM 능력이 7개월마다 두 배로 증가하는 것으로 나타났습니다. GPT-5는 이미 인간이 몇 시간 걸리는 복잡한 작업을 안정적으로 완료할 수 있으며, 이러한 추세라면 2030년에는 LLM이 인간이 1년 걸리는 작업을 처리할 수 있을 것으로 예상됩니다(예: 새로운 회사 설립). 이는 AI가 향후 몇 년 동안 노동 시장에 파괴적인 영향을 미칠 것을 예고합니다. (출처: karminski3)

AI能力提升速度惊人,LLM能力每7个月翻一番

비디오 모델, 범용 시각 지능 잠재력 보여줘 : 비디오 모델은 ‘GPT 순간’을 경험하며 단순한 인지에서 시각적 추론에 이르는 범용 능력을 보여주고 있습니다. Veo3와 같은 모델은 이미 제로샷(zero-shot) 능력을 갖추고 시각 스택의 복잡한 작업을 해결할 수 있습니다. 연구에 따르면 비디오 모델은 범용 ‘시공간 추론기’이며, 특히 로봇 분야에서 의미론, 계획, 상식 등 ‘가장 어려운’ 문제를 해결할 수 있는 범용 시각 지능의 핵심 경로가 될 것으로 기대됩니다. (출처: shaneguML, BlackHC, AndrewLampinen, teortaxesTex)

视频模型展现通用视觉智能潜力

AI Agent, ‘비서’에서 ‘집사’로 진화하며 물리 세계로 심화 : 유명 미래학자 Bernard Marr는 2026년까지 AI Agent가 수동적인 비서에서 능동적인 집사로 전환되어 일상 업무를 자율적으로 처리하고 복잡한 프로젝트를 조율할 수 있을 것이라고 예측했습니다. AI는 더 이상 디지털 세계에만 국한되지 않고 자율주행, 휴머노이드 로봇, IoT 등을 통해 물리 세계에 깊이 통합되어 인간과 환경의 상호작용 방식을 변화시킬 것입니다. 텐센트, 알리바바, 바이두와 같은 중국 대기업들도 기업용 AI Agent에 적극적으로 투자하며, 단순한 대화 능력을 넘어 작업 실행 및 전달 능력을 강조하여 새로운 비즈니스 성장 동력으로 삼으려 하고 있습니다. (출처: 36氪, 36氪, omarsar0)

AI智能体从“助手”走向“管家”,深入物理世界

산업용 로봇, ‘단독 작전’에서 ‘슈퍼 생산 팀’으로 전환 : 산업용 구현 지능 로봇은 단일 공정에서 전체 프로세스 협업으로 확장되어 ‘슈퍼 생산 팀’을 형성하고 있습니다. 예를 들어, Micro-E Intelligence의 8대 산업용 구현 지능 로봇으로 구성된 생산 라인은 4가지 다른 제품을 생산할 수 있으며, 분 단위로 전환하고 시간 단위로 조정할 수 있습니다. 이 로봇들은 사람처럼 생각하고 작업을 인계하여 생산 효율성과 유연성을 향상시킵니다. AI 비전 기술은 핵심 동력으로 작용하여 산업용 로봇이 ‘실행 도구’에서 ‘구현 지능’으로 진화하도록 추진하며, 제조업의 디지털 지능 전환을 위한 중국 솔루션을 제공합니다. (출처: 36氪)

工业机器人从“单兵作战”转向“超级生产团队”

Grok-4-fast의 효율성 향상, NVIDIA Jet-Nemotron 알고리즘과 관련 가능성 : Grok-4-fast의 놀라운 비용 절감 및 효율성 향상은 NVIDIA의 Jet-Nemotron 알고리즘과 관련이 있을 수 있습니다. 이 알고리즘은 PortNAS 프레임워크를 통해 사전 훈련된 완전 어텐션 모델을 시작점으로 어텐션 메커니즘을 최적화하여 LLM 추론 속도를 약 53배 향상시키면서도 최고 수준의 오픈소스 모델과 유사한 성능을 유지합니다. Jet-Nemotron-2B는 MMLU-Pro에서 Qwen3-1.7B-Base보다 정확도가 높고 47배 빠르며 메모리 요구 사항도 적어 모델 비용을 크게 절감할 수 있을 것으로 기대됩니다. (출처: 36氪)

马斯克新模型背后算法来自英伟达???

NVIDIA Cosmos Reason 모델 다운로드 100만 건 돌파 : NVIDIA Cosmos Reason 모델이 HuggingFace에서 다운로드 100만 건을 돌파했으며, 물리 추론 순위에서 상위권을 차지했습니다. 이 모델은 AI Agent와 로봇이 인간처럼 생각하도록 가르치는 것을 목표로 하며, 쉽게 배포 가능한 마이크로서비스 형태로 제공되어 NVIDIA가 AI Agent 및 로봇 기술 발전을 추진하는 데 중요한 성과입니다. (출처: huggingface, ClementDelangue)

NVIDIA Cosmos Reason模型下载量突破100万

Meta, Code World Model (CWM) 공개하여 코드 생성 연구 추진 : Meta FAIR은 320억 개 매개변수를 가진 연구 모델인 Code World Model (CWM)을 공개했습니다. 이 모델은 세계 모델이 코드 생성 및 코드 추론을 어떻게 변화시킬 수 있는지 탐구하는 것을 목표로 합니다. CWM은 연구 라이선스로 공개되어 커뮤니티가 이를 기반으로 개발하도록 장려하며, 코드 생성 분야의 새로운 연구 방향을 예고합니다. (출처: ylecun)

Google, EmbeddingGemma 경량 텍스트 임베딩 모델 공개 : Google은 경량 오픈 텍스트 임베딩 모델인 EmbeddingGemma를 출시했습니다. 이 모델은 300M 매개변수만을 가지고 있지만 MTEB 벤치마크에서 SOTA(State-Of-The-Art) 성능을 달성했습니다. 두 배 큰 모델들을 능가하며, 빠르고 효율적인 온디바이스 AI 애플리케이션에 매우 적합합니다. (출처: _akhaliq)

谷歌发布EmbeddingGemma轻量级文本嵌入模型

알리바바 Tongyi Qianwen, 멀티모달 및 대규모 확장 로드맵 공개 : 알리바바 Tongyi Qianwen은 통합 멀티모달 모델과 극단적인 규모 확장에 중점을 둔 야심찬 로드맵을 공개했습니다. 목표에는 컨텍스트 길이 1M에서 100M 토큰으로 확장, 매개변수 1조 또는 10조 단위로 확장, 테스트 시간 컴퓨팅 1M으로 확장, 데이터 양 100조 토큰 달성이 포함됩니다. 또한, 무한 규모의 합성 데이터 생성 및 Agent 능력 확장을 추진하여 ‘규모가 전부’라는 철학을 보여줍니다. (출처: menhguin, karminski3)

阿里通义千问公布多模态与大规模扩展路线图

AI 보조 의료, 임상 적용 단계 진입 : AI의 의료 분야 적용이 최첨단 시험 단계에서 일반적인 도구로 전환되고 있습니다. 예를 들어, JD Health는 ‘AI 병원 1.0’과 업그레이드된 ‘Jingyi Qianxun 2.0’ 의료 대규모 모델을 출시하여 AI 기반의 ‘의료-검사-진단-약물’ 폐쇄 루프 서비스를 구현하고 있으며, 안내, 문진, 검사, 약물 구매 및 건강 관리를 포괄합니다. AI 스마트 청진기는 이미 심장병 진단을 보조할 수 있으며, AI 영상 판독은 폐결절, 뇌출혈 등 분야에서 돌파구를 마련하여 진단 정확도가 96%를 초과했습니다. AI는 의료 서비스 효율성과 정확성을 향상시키며 전면적으로 임상 적용 단계에 진입하고 있습니다. (출처: 36氪, 36氪, 量子位, Ronald_vanLoon, Reddit r/ArtificialInteligence)

AI辅助医疗进入临床应用阶段

Meta AI App, AI 생성 짧은 동영상 Vibes 출시 : Meta AI App은 ‘Vibes’라는 새로운 기능을 출시했습니다. 이는 AI 생성 짧은 동영상에 초점을 맞춘 동적 피드입니다. 이 움직임은 Meta가 AI 콘텐츠 생성 분야에서 추가적인 발걸음을 내딛었음을 의미하며, 사용자에게 AI 기반의 새로운 짧은 동영상 경험을 제공하는 것을 목표로 합니다. (출처: dejavucoder, _tim_brooks, EigenGender)

AI 생성 게놈(genomes)에서 돌파구 마련 : Arc Institute는 세계 최초의 기능성 AI 생성 게놈을 포함한 세 가지 새로운 발견을 발표했습니다. 이 돌파구는 Arc가 NVIDIA와 협력하여 발표한 생물학적 ML 모델 Evo 2를 활용하여 과학자들이 인간 게놈의 대규모 변화를 설계하고 작성하며, 유전 질환을 유발하는 DNA 반복을 교정할 수 있게 했습니다. 이는 유전자 치료 및 생체 재료 연구를 가속화할 것으로 기대됩니다. (출처: dwarkesh_sp, riemannzeta, zachtratar, kevinweil, Reddit r/artificial)

AI-generated genomes实现突破

Apple, SimpleFold 출시, 경량 AI 단백질 접힘 예측 : Apple 연구원들은 단백질 접힘 예측을 위한 흐름 일치(flow matching) 모델 기반의 새로운 AI인 SimpleFold를 개발했습니다. 이 모델은 기존 확산(diffusion) 방법의 계산 비용이 많이 드는 구성 요소를 제거하고 일반 Transformer 블록만을 사용하여 무작위 노이즈를 단백질 구조 예측으로 직접 변환할 수 있습니다. SimpleFold-3B는 표준 벤치마크에서 뛰어난 성능을 보이며 선도적인 모델의 95% 수준에 도달하고, 배포 및 추론 효율성이 더 높아 단백질 구조 예측의 계산 장벽을 낮추고 신약 발견을 가속화할 것으로 기대됩니다. (출처: Reddit r/ArtificialInteligence, HuggingFace Daily Papers)

Apple推出SimpleFold,轻量级AI预测蛋白质折叠

산업 AI와 물리 AI의 심층 융합 : 알리바바와 NVIDIA는 협력하여 NVIDIA의 완전한 Physical AI 소프트웨어 스택을 Alibaba Cloud 플랫폼에 통합했습니다. Physical AI는 AI가 화면을 넘어 물리 세계로 나아가도록 설계되었으며, 물리 법칙을 통합하여 AI 생성 콘텐츠를 현실 논리에 더 부합하도록 최적화합니다. 핵심 기술에는 세계 모델, 물리 시뮬레이션 엔진 및 구현 지능 컨트롤러가 포함되어 AI의 3D 공간 완전 이해, 실시간 물리 계산 및 구체적인 행동을 실현하는 것을 목표로 합니다. 이 협력은 로봇, 물류, 자동차, 제조 등 산업에서 AI의 광범위한 적용을 촉진하고, AI를 정보 처리 도구에서 물리 세계를 이해하고 조작할 수 있는 지능형 시스템으로 전환시킬 것으로 기대됩니다. (출처: 36氪)

工业AI与物理AI的深度融合

AI 생성 3D 자산 프레임워크 Hunyuan3D-Omni 공개 : Hunyuan3D-Omni는 Hunyuan3D 2.1을 기반으로 하는 제어 가능한 3D 자산 생성을 위한 통합 프레임워크입니다. 이미지 및 텍스트 조건뿐만 아니라 포인트 클라우드, 복셀, 바운딩 박스 및 골격 자세 등을 조건 신호로 받아 기하학적 형태, 토폴로지 및 자세를 정밀하게 제어할 수 있습니다. 이 모델은 단일 교차 모달 아키텍처를 사용하여 모든 신호를 통합하고, 점진적이고 난이도 인지 샘플링 전략을 통해 훈련되어 생성 정확도와 견고성을 향상시켰습니다. (출처: HuggingFace Daily Papers)

텐센트, Hunyuan Image 3.0 공개 예고, 세계 최강 오픈소스 텍스트-이미지 모델 자부 : 텐센트가 9월 28일 Hunyuan Image 3.0을 공개할 것이라고 예고했으며, 세계에서 가장 강력한 오픈소스 텍스트-이미지 모델이라고 주장했습니다. 이 발표는 특히 ComfyUI와 같은 도구에서의 적용 가능성에 대해 커뮤니티의 광범위한 관심과 기대를 불러일으켰습니다. (출처: ostrisai, Reddit r/LocalLLaMA)

腾讯发布Hunyuan Image 3.0,号称最强开源文生图模型

Llama.cpp, Qwen3 reranker 지원 추가 : Llama.cpp가 Qwen3 reranker 지원을 병합했습니다. 이 기능은 reranking 모델(교차 인코더)을 통해 쿼리와 문서 쌍에 대한 유사성 점수를 출력하여 RAG와 같은 검색 파이프라인의 재현율 성능을 크게 향상시킵니다. 사용자는 올바른 결과를 얻기 위해 새로운 GGUF 파일을 사용해야 합니다. (출처: Reddit r/LocalLLaMA)![Llama.cpp新增Qwen3 reranker支持](https://external-preview.redd.it/gjtn51bKTEhntL8tK6567mzxkqg8KV6qsi2OUMPMyfI.png?auto=webp&s