키워드:딥소매틱(DeepSomatic), 패들OCR-VL(PaddleOCR-VL), 블랙웰 칩(Blackwell), RTFM, LLM 뇌부패 가설, AI 에이전트, 멀티모달 AI, 구글 딥소매틱 암 연구, 바이두 패들OCR-VL 문서 분석, 엔비디아 블랙웰 칩 제조, 리페이페이 RTFM 세계 모델, LLM 데이터 품질이 추론에 미치는 영향

🔥 포커스

Google DeepSomatic 모델, 암 연구 가속화 : Google Research는 UCSC Genomics 및 Children’s Mercy와 협력하여 암세포 내 복잡한 유전자 변이를 정확하게 식별하고 암 연구 효율성을 크게 향상시켜 보다 정밀한 치료를 위한 중요한 발걸음을 제공하는 DeepSomatic 머신러닝 모델을 발표했습니다. 이 모델은 Google의 유전체학 AI 10년 발전의 성과 중 하나로, 의료 분야에서 AI의 심오한 영향을 보여줍니다. (출처: Google Research, Reddit r/artificial)

Baidu PaddleOCR-VL, OCR 분야 SOTA 석권 : Baidu는 0.9B의 경량 멀티모달 문서 분석 모델 PaddleOCR-VL을 발표했으며, OmniDocBench V1.5 순위에서 92.6점으로 세계 1위를 차지하고 텍스트 인식, 수식 인식, 테이블 이해, 읽기 순서의 네 가지 핵심 역량에서 SOTA를 전면 갱신했습니다. 이 모델은 혁신적인 2단계 아키텍처를 통해 복잡한 문서 구조, 필기체 및 다국어에 대한 정확한 이해를 달성하며 빠른 추론 속도를 자랑합니다. 이는 특정 작업에서 소형 모델이 대형 범용 모델을 능가할 수 있는 잠재력을 입증합니다. (출처: 量子位)

全球OCR最强模型仅0.9B!百度文心衍生模型刚刚横扫4项SOTA

NVIDIA와 TSMC 협력, 미국 본토 첫 Blackwell 칩 웨이퍼 공개 : NVIDIA와 TSMC는 미국 애리조나 공장에서 미국 본토에서 제조된 첫 Blackwell 칩 웨이퍼를 공개했습니다. 이 중요한 사건은 AI 칩 제조가 미국 본토로 이전하는 핵심 단계를 의미하며, AI 분야에서 미국의 리더십을 강화하고 미래 대규모 모델 훈련 및 추론 요구에 대응하기 위해 Blackwell 아키텍처 및 그 후속 버전(예: Blackwell Ultra 및 Rubin) 생산의 기반을 마련하는 것을 목표로 합니다. (출처: nvidia, 36氪)

英伟达与台积电合作,首片美国本土制造Blackwell芯片晶圆亮相

리페이페이 팀, 실시간 생성형 세계 모델 RTFM 발표 : AI의 대모 리페이페이(Li Fei-Fei)의 World Labs 팀은 새로운 실시간 생성형 세계 모델 RTFM(Real-Time Frame Model)을 발표했습니다. 이 모델은 단일 H100 GPU에서 실행될 수 있으며, 효율성, 확장성 및 지속성을 강조하여 지속적으로 실행되고 3D 일관성을 유지할 수 있습니다. 이는 실시간, 영구 3D 세계 모델의 중요한 돌파구를 의미하며, 복잡한 환경 이해 및 상호작용 분야에서 AI의 응용을 촉진할 것으로 기대됩니다. (출처: 9点1氪)

🎯 동향

LLM ‘뇌 부패 가설’, 데이터 품질이 모델 인지에 미치는 영향 밝혀 : 최신 연구는 ‘LLM 뇌 부패 가설’을 제시하며, LLM이 저품질 웹 텍스트에 지속적으로 노출되면 인지 능력이 저하되어 추론, 긴 컨텍스트 이해 및 보안에 영향을 미치고 ‘어두운 성격 특성’을 악화시킬 수 있다고 지적합니다. 연구는 ‘사고의 비약’이 주요 오류 패턴이며, 손상이 완전히 되돌리기 어렵다는 것을 발견하여 데이터 큐레이션이 훈련 시 중요한 보안 문제임을 강조합니다. (출처: omarsar0, HuggingFace Daily Papers)

LLMs Can Get "Brain Rot"!

AI 하드웨어 성능 및 LLM 최적화 기술에서 상당한 진전 : NVIDIA Blackwell RTX Pro 6000은 vLLM 벤치마크에서 뛰어난 120B 모델 추론 성능을 보여주었으며, llama.cpp는 RPC 최적화를 통해 GLM 4.6 IQ4_XS 모델 처리 속도를 4배 향상시켰습니다. Cerebras는 MoE 모델의 효율적인 압축을 위한 REAP 기술을 발표했고, SuperOffload 기술은 LLM 훈련 처리량을 4배 증가시켰으며, Elastic-Cache는 확산 LLM 디코딩 속도를 45배 높였습니다. 또한, Schedulefree AdamW 옵티마이저와 mlx-lm 라이브러리의 새로운 모델 및 분산 평가 기능, 그리고 SSM의 긴 컨텍스트 일반화 잠재력은 AI 효율성 향상을 위한 다양한 경로를 보여줍니다. (출처: Teknium1, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA, dl_weekly, omarsar0, aaron_defazio, awnihannun, gallabytes)

RTX Pro 6000 Blackwell vLLM Benchmark: 120B Model Performance Analysis

로봇 기술 지속적인 혁신, 더 스마트한 인지 및 조작으로 나아가 : 로봇 기술은 인간의 의도를 ‘단순히 따르는 것을 넘어 이해하는’ 방향으로 발전하고 있으며, 예술 작품을 창작하는 기계 끌, 중국 서예를 선보이는 휴머노이드 로봇, 지능형 군집 로봇, 구형 경찰 로봇 및 삼족 로봇 등이 등장하고 있습니다. 상하이 자오퉁 대학은 U-Arm 오픈소스 프로젝트를 통해 400위안의 저비용으로 95%의 주류 로봇 팔에 대한 범용 원격 조작을 구현했습니다. 산업용 로봇은 시각 객체 지능 플랫폼을 통해 실제 세계에 대한 이해와 조작 능력을 향상시킵니다. MIT ORCA v1 휴머노이드 로봇 손도 정교한 디자인을 선보였습니다. (출처: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, teortaxesTex, janusch_patas, 量子位)

400元遥操95%机械臂!上海交大推出开源项目U-Arm,打造通用、低成本的人机遥操作接口

AI, 과학 연구 및 콘텐츠 창작 분야에서 돌파구 마련 : DeepMind는 Commonwealth Fusion Systems와 협력하여 TORAX AI 시뮬레이터를 활용해 플라즈마를 제어하고 상업용 핵융합 과정을 가속화합니다. SR-Scientist는 LLM을 자율적인 ‘AI 과학자’로 전환하여 도구 기반 데이터 분석 및 방정식 테스트를 통해 방정식 발견 능력을 향상시킵니다. Suno V5는 AI 음악 창작을 임계점으로 이끌고 있으며, LongCat-Audio-Codec은 음성 LLM을 최적화합니다. RunwayML APPS는 시간 여행 비디오 편집을 구현했으며, Simulon은 사실적인 VFX 조명을 생성할 수 있습니다. (출처: ClementDelangue, Reddit r/artificial, TheTuringPost, op7418, huggingface, c_valenzuelab, timsoret)

AI 音乐从 Suno V5 开始已经走到了临界点,甚至可以说音乐行业在这一刻走到了临界点。

LLM 추론 능력의 새로운 패러다임: RL/훈련 없이 추론 일반화 달성 : 최신 연구에 따르면, 테스트 시 샘플링 전략을 개선함으로써 기본 언어 모델은 강화 학습, 훈련 또는 검증자 없이 단일 추론에서 GRPO와 동등하거나 더 우수한 추론 성능을 달성할 수 있으며, 동시에 생성 다양성 손실을 피할 수 있습니다. 또한, Recursive Language Models(RLM) 프레임워크는 LLM이 자신을 재귀적으로 호출하여 초장문 컨텍스트를 처리하게 함으로써 성능 저하 없이 컨텍스트 처리 능력을 10M+ 토큰으로 확장하고 GPT-5-mini 변형 모델의 정확도를 향상시켰습니다. (출처: dearmadisonblue, dilipkay, karminski3)

大模型无限上下文实现了?

AI Agent 컨텍스트 관리 및 효율성 향상 : Context-Folding 기술은 Agent에게 컨텍스트를 능동적으로 관리하는 능력을 부여하며, 컨텍스트를 분기하고 압축함으로써 검색 및 SWE 작업에서 ReAct보다 우수한 성능을 보이고 컨텍스트 사용량을 10배 줄였습니다. 이러한 발전은 긴 컨텍스트 처리에서 LLM의 효율성 병목 현상을 해결합니다. (출처: ethanCaballero)

Google Gemini API와 Maps 통합, Microsoft Windows 11에 AI 심층 통합 : Google은 Gemini API가 이제 Google Maps와 통합되었음을 발표했으며, 개발자는 Gemini 모델의 추론 능력을 Google Maps의 실제 데이터와 결합하여 새로운 지리 공간 인식 AI 애플리케이션을 구축할 수 있습니다. Microsoft는 Windows 11을 AI 우선 장치로 포지셔닝하고 음성 제어 Copilot을 심층적으로 통합하여 마우스나 키보드 없이 작업을 관리하고 사용자 경험을 향상시키는 것을 목표로 합니다. (출처: osanseviero, Reddit r/artificial, 9点1氪)

Top stories in tech today:

멀티모달 AI 모델 및 오픈소스 커뮤니티의 활발한 발전 : HuggingFace는 90일 이내에 백만 개의 새로운 오픈소스 AI 저장소가 추가되었으며, NVIDIA가 최대 오픈소스 AI 모델 기여자가 되었다고 보고했습니다. Alibaba Qwen, DeepSeek 등 중국 연구소들이 빠르게 부상하고 있습니다. LongCat-Audio-Codec은 음성 LLM 최적화를 위한 오디오 인코딩 솔루션으로 오픈소스화되었습니다. HoneyBee 데이터셋은 시각 언어 추론을 향상시켰으며, MIT-IBM 연구원들은 개인화된 객체 위치 파악을 위한 시각 언어 모델의 정확도를 12-21% 높였습니다. (출처: huggingface, huggingface, Teknium1, Reddit r/artificial)

Some interesting insights on open models/repos

AI 산업 응용 심화: 의료, 사이버 보안, 계약 검토 및 금융 : AI는 여러 산업 분야에서 응용이 심화되고 있습니다. AI 기반 청진기 시스템은 95% 이상의 정확도로 건강한 심장 소리를 분류하고 질병을 조기에 감지할 수 있습니다. Microsoft는 AI Agent의 사이버 보안 작업에서 목표 분해, 도구 사용 및 증거 합성 능력을 평가하는 오픈소스 벤스트마크 스위트를 출시했습니다. 향후 5년 이내에 대규모 조직에서 AI 계약 검토가 보편화될 것으로 예상됩니다. AI는 금융 분야의 매출 성장 관리에서도 핵심적인 역할을 합니다. (출처: Reddit r/artificial, Ronald_vanLoon, scottastevenson, Ronald_vanLoon)

AI Agent, 관측 가능성 및 기업 애플리케이션 재정의 : Agentic AI는 이벤트 대응을 가속화할 뿐만 아니라 전체 관측 가능성 수명 주기에서 감지, 모니터링 및 복구를 강화하여 전통적인 문제 해결을 수명 주기 전환으로 변화시킵니다. Cisco와 Splunk의 결합은 엔드투엔드 가시성을 제공하여 디지털 전환을 촉진합니다. 기업에서 AI Agent의 빠른 채택은 예상을 뛰어넘어, 작업 조정, 개인화된 경험 제공 및 복잡한 문제 처리를 위한 인프라가 되고 있습니다. (출처: Ronald_vanLoon, Ronald_vanLoon)

🧰 도구

Claude Code 업데이트, 개발 경험 향상 : Claude Code는 Haiku 4.5 모델, Explore 서브 Agent 및 대화형 질의응답 기능을 도입하여 코드 탐색 및 디버깅 효율성을 높였습니다. 이제 사용자는 질의응답 모드를 통해 지침을 명확히 하고, Explore 서브 Agent를 활용하여 코드 라이브러리를 효율적으로 검색할 수 있으며, Claude Skills를 지원하여 markdown 파일을 통해 Agent 동작을 맞춤 설정하고 개인화 및 워크플로우 자동화 능력을 향상시킬 수 있습니다. (출처: tokenbender, Reddit r/ClaudeAI, Reddit r/ClaudeAI, omarsar0, jerryjliu0, skirano, QuixiAI)

Claude Code asking clarifying questions with a new UI

LlamaIndex, Agent 빌더 및 워크플로우 디버거 출시 : LlamaIndex는 복잡한 Agent 워크플로우의 코딩 및 배포를 지원하는 코드 우선 Agent 빌더 LlamaAgents를 발표했습니다. 또한, 사용자가 Agent 실행을 실시간으로 확인, 디버깅 및 비교할 수 있는 시각적 워크플로우 디버거를 출시하여 Agent 개발 및 유지보수 효율성을 크게 향상시켰으며, 특히 복잡한 문서를 처리하는 지식 작업에 적합합니다. (출처: jerryjliu0, jerryjliu0)

Perplexity, AI 비서 기능 확장 (이메일 및 금융 분석 포함) : Perplexity AI 비서 기능은 지속적으로 확장되어, 이메일을 자동으로 작성하고 500개 이상의 애플리케이션 작업을 수행할 수 있는 이메일 비서와 내부자 거래 및 정치인 거래를 추적할 수 있는 금융 모듈을 출시했습니다. 이 도구들은 AI를 통해 일상적인 작업을 자동화하고 전문 정보를 제공하여 사용자 생산성을 크게 향상시키는 것을 목표로 합니다. (출처: AravSrinivas, AravSrinivas, AravSrinivas)

Perplexity Email Assistant is pretty sick.

LangChain, LangGraph 발표, 프로덕션급 Agent 개발 지원 : LangChain은 프로덕션급 AI Agent에 적합한 추상화 계층을 제공하기 위해 LangGraph 프레임워크를 출시했습니다. 이 프레임워크는 제어 및 지속성에 중점을 두며, Agent의 대규모 배포를 지원하는 핵심 기능을 제공합니다. 또한, LangChain은 Codex CLI와 결합하여 코드 작성 없이 다중 세션, 컨텍스트 인식 및 리치 텍스트 응답을 지원하는 챗봇을 빠르게 구축할 수 있습니다. (출처: hwchase17, hwchase17)

HuggingChat Omni, 100개 이상 모델 통합, 자동 모델 선택 구현 : HuggingFace는 HuggingChat Omni를 출시했으며, 스마트 라우팅 기술을 통해 사용자 쿼리에 가장 적합한 모델을 자동으로 선택하고 gpt-oss, deepseek, qwen 등 100개 이상의 오픈소스 모델을 통합했습니다. 이 플랫폼은 최적화되고 경제적이며 가장 빠른 답변을 제공하는 것을 목표로 하며, 이미지, 오디오, 비디오 등 다양한 모달리티로 확장하여 AI 상호작용의 효율성과 유연성을 크게 향상시킬 계획입니다. (출처: ClementDelangue, huggingface, yupp_ai)

The main breakthrough of GPT-5 was to route your messages between a couple of different models to give you the best, cheapest & fastest answer possible.

Moondream AI, 효율적인 VLM 서비스 제공, 로컬 배포 지원 : Moondream Cloud는 호스팅형 시각 AI 서비스로 출시되었으며, Gemini 2.5 Flash 및 GPT-5 Mini보다 빠르고 저렴하며 스마트하다고 주장하며 무료 월별 크레딧과 종량제 모델을 제공합니다. 이 VLM 모델은 이미지 캡션에서 뛰어난 성능을 보이며 로컬 배포를 지원하여 사용자에게 경제적이고 효율적인 시각 언어 처리 솔루션을 제공합니다. (출처: vikhyatk, vikhyatk, vikhyatk)

Moondream Cloud is here.

LlamaBarn, Mac 로컬 AI 배포 간소화, Yupp.ai AI 비교 플랫폼 제공 : LlamaBarn 프로젝트는 MacBook 또는 MacMini 사용자가 복잡한 설정 없이 대규모 언어 모델을 쉽게 다운로드하고 실행할 수 있는 원클릭 솔루션을 제공하며, 웹 채팅 및 API 인터페이스를 제공합니다. Yupp.ai는 800개 이상의 AI 모델을 통합한 무료 AI 비교 플랫폼을 제공하여 사용자가 다양한 AI의 성능을 심층적으로 이해하고 비교할 수 있도록 돕고, AI 비디오 제작 및 PFP 생성을 지원합니다. (출처: karminski3, yupp_ai, yupp_ai)

想要把自己的 MacBook 或者 MacMini 变成 AI 服务器吗?

Scorecard, AI Agent 보안성 향상, AI 기반 프로젝트 관리 도구 등장 : Scorecard는 자율주행차의 안전 로직을 AI Agent 분야에 도입하여 샌드박스 테스트 및 평가를 통해 기업 AI의 ‘환각’ 및 불안전한 행동을 방지하고, 특히 규제 산업에서 신뢰성을 보장합니다. 동시에, AI 기반 프로젝트 관리 CLI 도구가 개발 중이며, ‘vibe coding’을 통해 프로젝트 추적 및 관리를 간소화할 것으로 기대됩니다. (출처: dariusemrani, TheEthanDing)

This is likely the best way this could have ended.

📚 학습

AI 교육 및 학습 자료: 기초 이론과 최신 연구 병행 : AI 교육 분야는 현대 AI를 이해하는 데 있어 탄탄한 확률론, 선형대수학 및 고전 머신러닝 기초의 중요성을 강조합니다. 학습 자료는 AI Agent 입문 가이드, DSPy 주간 보고서, Transformer 작동 원리, 로봇 학습 튜토리얼 등을 포함합니다. 연구 측면에서는 Transformer OOD 일반화, 컨텍스트 인식 스케일링 법칙, 판별적 검증, GroundedPRM 등에 대한 최신 논문과 ML 연구 Agent 평가를 위한 FML-bench 및 LiveResearchBench 벤치마크가 발표되었습니다. LangChain 문서 경험이 향상되었으며, Claude Agent SDK 호스팅 사례도 공유되었습니다. (출처: dilipkay, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, jeremyphoward, ClementDelangue, bookwormengr, lateinteraction, charles_irl, SchmidhuberAI, TheTuringPost, Reddit r/deeplearning, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, sbmaruf, sbmaruf, gneubig)

18 months ago, @karpathy set a challenge: "Can you take my 2h13m tokenizer video and translate [into] a book chapter".

AI Agent 및 ML 연구 벤치마크의 최신 발전 : FML-bench는 자동 머신러닝 연구 Agent를 평가하는 벤치마크로서, 연구 성과에 대한 탐색 폭의 중요성을 강조합니다. LiveResearchBench는 사용자 중심의 심층 연구 벤치마크로, 100개의 전문가 작업을 포함하며 수백 개의 실시간 웹 소스에서 정보를 검색하고 합성하는 Agent의 능력을 엄격하게 평가하는 것을 목표로 합니다. Hard2Verify 벤치마크는 개방형, 최신 수학 문제에서 단계별 정확성 레이블을 제공하는 검증자의 능력을 측정하는 데 중점을 둡니다. (출처: HuggingFace Daily Papers, HuggingFace Daily Papers, sbmaruf, sbmaruf)

LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild

모델 사고의 여섯 가지 새로운 방법 : 최신 연구는 모델 사고를 변화시키는 여섯 가지 새로운 방법을 제시했습니다. 여기에는 Tiny Recursive Models (TRM), LaDIR (Latent Diffusion for Iterative Reasoning), ETD (encode-think-decode), Thinking on the fly, The Markovian Thinker 및 ToTAL (Thought Template Augmented LCLMs)이 포함됩니다. 이러한 방법들은 모델의 추론 능력, 효율성 및 복잡한 작업 처리 능력을 향상시키고 AI 모델이 더 높은 인지 기능으로 발전하도록 추진하는 것을 목표로 합니다. (출처: TheTuringPost)

6 new approaches transforming model thinking:

💼 비즈니스

AI, 비즈니스 분야 침투 가속화, CFO가 AI 채택의 새로운 챔피언으로 부상 : AI의 기업 내 적용이 가속화되고 있으며, CFO들은 AI 채택을 주도하는 핵심적인 역할을 하고 있습니다. AI Agent의 기업용 적용 속도는 예상을 뛰어넘고 있으며, 매출 성장 관리에서 전략적 역할을 수행하고 있습니다. NVIDIA의 시가총액은 4조 달러를 돌파하여 AI 하드웨어 시장의 강력한 성장을 반영합니다. HeyGen 창업자는 AI 제품 팀의 관리 및 제품 방법론을 공유하며, 속도와 모델 반복에 대한 적응을 강조했습니다. (출처: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, SchmidhuberAI, dotey)

Why CFOs Are The New Champions Of #AI Adoption

Oracle AI 클라우드 서비스 높은 매출총이익률, Microsoft AI 가속기 주목 : Oracle은 AI 클라우드 서비스의 매출총이익률이 35%에 달할 수 있다고 발표했으며, 650억 달러 규모의 새로운 클라우드 인프라 공급 계약을 체결하여 AI 클라우드 시장에서의 강력한 모멘텀을 보여줍니다. Microsoft의 AI 가속기 계획도 큰 주목을 받고 있으며, Maia 칩의 18A 공정 가능성에 변화가 있었음에도 불구하고 AI 하드웨어 개발에 계속 전념하고 있습니다. (출처: 9点1氪, dylan522p)

AI 스타트업 투자 활발, 개방형 생태계 및 MCP 상업화 전망 : General Intuition은 3D 환경을 이해하는 Agent 훈련을 목표로 1억 3,400만 달러의 시드 투자를 완료했습니다. HuggingFace는 새로운 애플리케이션 책임자를 임명하여 오픈소스 모델 생태계를 추진합니다. MCP 프로토콜의 상업화 전망이 탐색되고 있으며, Stripe는 개발자들과 MCP 사용에 대한 요금 부과 방안을 논의 중입니다. LangChain은 Agent 제품 진행 상황을 선보이는 Launch Week를 개최할 예정입니다. (출처: Reddit r/artificial, francoisfleuret, huggingface, fabianstelzer, LangChainAI, johannes_hage)

🌟 커뮤니티

AI Agent 발전, 뜨거운 논의: 환상에서 현실로, 실용성과 한계 공존 : 커뮤니티의 AI Agent에 대한 기대는 ‘전능한 환상’에서 ‘시스템 구축’으로 전환되고 있으며, 비즈니스 프로세스 촉매제로서의 역할을 강조합니다.