키워드:전자기 확산 트랜스포머(All-Atom Diffusion Transformer), 자기 감독 과정 보상 모델(Self-Supervised Process Reward Model), 자기회귀 비디오 생성(Autoregressive Video Generation), 위치 기반 동역학(Position-Based Dynamics), AI 저자 학술 회의(AI Author Academic Conference), AI 기억 상실 기술(AI Forgetting Technique), 신경 렌더링(Neural Rendering), 3D 생성(3D Generation), ADiT 프레임워크(ADiT Framework), 메타스톤-S1 SPRM(MetaStone-S1 SPRM), 루모스-1 MM-RoPE(Lumos-1 MM-RoPE), 로블록스 AVBD 천 시뮬레이션(Roblox AVBD Cloth Simulation), CoPart 부분 인식 확산(CoPart Part-Aware Diffusion)
🔥 주목할 만한 소식
Meta/Cambridge/MIT, 전체 원자 확산 Transformer 프레임워크 제안: Meta FAIR, Cambridge 대학교, MIT의 공동 연구팀은 주기적 및 비주기적 시스템의 모델링 장벽을 허무는 전체 원자 확산 Transformer(ADiT)를 제안했습니다. 전체 원자 통합 잠재 표현과 Transformer 잠재 확산이라는 두 가지 혁신을 통해 단일 모델로 분자와 결정을 생성하는 데 성공했습니다. ADiT의 핵심 강점은 주기적 및 비주기적 시스템 간의 모델링 장벽을 허물고 단일 모델로 분자와 결정을 생성할 수 있다는 점입니다. 거의 귀납적 편향을 도입하지 않아 자동 인코더와 확산 모델의 훈련 및 추론 효율성이 기존 등변 확산 모델보다 훨씬 뛰어납니다. 동일한 하드웨어 조건에서 10,000개 샘플을 생성하는 시간이 2.5시간에서 20분 이내로 단축되었습니다. (출처: HuggingFace Daily Papers)
Reflective Generative Model을 사용한 Test-Time Scaling: MetaStone-S1은 자기 지도 프로세스 보상 모델(SPRM)을 통해 OpenAI o3의 성능에 도달합니다. SPRM은 공유 백본 네트워크를 사용하고 다음 토큰 예측과 프로세스 점수에 대해 각각 작업별 헤드를 사용하여 정책 모델과 프로세스 보상 모델(PRM)을 추가 프로세스 주석 없이 단일 인터페이스에 성공적으로 통합하여 효율적인 추론을 위해 PRM 매개변수를 99% 이상 줄입니다. SPRM을 탑재한 MetaStone-S1은 Test-Time Scaling(TTS)에 자연스럽게 적용되며 제어 가능한 사고 길이를 기반으로 세 가지 추론 작동 모드(낮음, 중간, 높음)를 제공합니다. (출처: HuggingFace Daily Papers)
Lumos-1: 통합 모델 관점 기반의 자기 회귀 비디오 생성: Lumos-1은 LLM 아키텍처를 유지하고 최소한의 아키텍처 수정을 거친 자기 회귀 비디오 생성기입니다. LLM에 시공간적 상관 관계를 주입하기 위해 3D RoPE의 효과를 확인하고 불균형한 스펙트럼 범위를 진단했습니다. 따라서 원본 텍스트 RoPE를 유지하면서 다중 모드 시공간 데이터 모델링을 위한 포괄적인 스펙트럼과 확장된 3D 위치를 제공하는 RoPE 체계인 MM-RoPE를 제안합니다. 또한 Lumos-1은 프레임 내 양방향성과 프레임 간 시간적 인과 관계를 따르는 토큰 종속성 전략을 채택합니다. 이 종속성 전략을 기반으로 공간 정보 중복으로 인한 프레임 수준 손실 불균형 문제를 확인하고 자기 회귀 이산 확산 강제(AR-DF)를 제안하여 이 문제를 해결합니다. (출처: HuggingFace Daily Papers)
Roblox, 모두를 괴롭히던 물리 문제 해결!: Roblox는 Position Based Dynamics와 Projective Dynamics를 결합하여 수년 동안 물리 엔진을 괴롭히던 천 시뮬레이션 문제를 해결했습니다. “평균 기반 천 역학”(AVBD)이라는 새로운 방법은 실시간 성능을 유지하면서 매우 사실적인 천 시뮬레이션 효과를 구현할 수 있으며 Roblox 플랫폼에 적용되었습니다. (출처: )
🎯 동향
제1저자는 AI여야 한다, AI 저자를 위한 첫 번째 학술 회의 개최: 스탠퍼드 대학교는 AI 저자를 위한 첫 번째 학술 회의인 과학 AI 에이전트 오픈 컨퍼런스(Agents4Science 2025)를 시작했으며, 제출된 논문의 제1저자는 AI 시스템이어야 하고 인간 연구자는 공동 저자로만 참여할 수 있습니다. 이 회의는 AI 기반 과학적 발견의 미래를 탐구하고 AI의 과학 연구 참여에 대한 규범과 윤리적 고려 사항을 수립하는 것을 목표로 합니다. 제출된 모든 논문과 검토는 과학 연구에서 AI의 장점과 한계를 투명하게 연구하기 위해 공개됩니다. (출처: 36氪)
AI 기억상실증, 단 3개의 Attention Head로 대형 모델이 “개가 짖는다”는 사실을 잊게 만들 수 있다: Meta는 NYU와 공동으로 AI의 인지 모듈을 정확하게 찾아 제어하여 대형 모델이 특정 사실이나 상식을 선택적으로 “잊도록” 하는 확장 Transformer Attention Head 조작 방법을 제안했습니다. 이 방법은 개념을 벡터화하고 Attention Head와의 유사성을 계산하고 개념 모듈을 구축한 다음 스케일링 계수를 사용하여 개념의 영향을 확대하거나 제거합니다. 이는 대형 모델의 개인화된 미세 조정, 특정 능력 향상, 안전성 제어 및 모델의 지식 저장 방식 이해를 위한 새로운 아이디어를 제공합니다. (출처: 36氪)
🧰 도구
CLiFT: 계산 효율적이고 적응형 신경 렌더링을 위한 압축 광장 토큰: 이 논문에서는 장면의 풍부한 외관 및 기하학적 정보를 유지하는 “압축 광장 토큰(CLiFT)”으로 장면을 표현하는 신경 렌더링 방법을 제안합니다. CLiFT는 압축 토큰을 통해 계산 효율적인 렌더링을 구현하는 동시에 토큰 수를 변경하여 장면을 표현하거나 훈련된 네트워크를 사용하여 새로운 뷰를 렌더링할 수 있습니다. (출처: HuggingFace Daily Papers)
From One to More: 3D 생성을 위한 컨텍스트 부분 잠재 표현: 인간의 3D 디자인 워크플로에서 영감을 얻어 일관된 다중 부분 생성을 위해 3D 객체를 컨텍스트 부분 잠재 표현으로 분해하는 부분 인식 확산 프레임워크인 CoPart를 제안합니다. 이 패러다임에는 세 가지 장점이 있습니다. i) 부분 분해를 통해 인코딩 복잡성 감소, ii) 명시적 부분 관계 모델링 구현, iii) 부분 수준 조절 지원. (출처: HuggingFace Daily Papers)
🌟 커뮤니티
jerryjliu0, 양식 추출 및 LLM 적용 논의: jerryjliu0는 LlamaParse를 사용한 적응형 양식 추출 체계를 공유했습니다. 이 체계는 양식 페이지를 표준화된 키-값 쌍으로 분석하고 2차원 표 형식으로 출력하여 후속 처리를 용이하게 합니다. 또한 Pydantic에 대한 Clelia Bertelli의 글을 추천하며 에이전트 워크플로에서 유효성 검사 및 가독성의 중요성을 강조하고 Pydantic이 구조화된 출력의 효과적인 구성 요소임을 지적했습니다. 또한 다중 에이전트 설정 및 심층 연구에 대한 트윗과 LlamaIndex의 적용 사례를 리트윗했습니다. (출처: jerryjliu0, jerryjliu0, jerryjliu0, jerryjliu0)
Alibaba_Qwen, 개발자에게 Qwen3-embedding 사용 시 특수 토큰 추가 권장: Alibaba_Qwen은 개발자가 Qwen3-embedding의 GGUF 모델을 사용할 때 컨텍스트 끝에 특수 토큰 <|endoftext|>를 추가하는 것을 잊는 경우가 많다는 점에 주목했으며, 이는 모델의 정확도에 상당한 영향을 미칩니다. llama.cpp를 사용하여 이 토큰을 자동으로 추가할 것을 권장하고 있으며, 작업을 간소화하기 위해 업데이트된 GGUF 모델 패키지를 출시할 계획입니다. (출처: Alibaba_Qwen)
Ronald_vanLoon, AI 관련 뉴스 및 기술 공유: Ronald_vanLoon은 의료 분야에서의 AI 적용, 3D 프린팅 채식 스테이크, LLM 적합성 평가 프레임워크, Gemini 2.5의 기본 오디오 기능, 자동 로봇 및 드론 협력 순찰, 제어를 위한 강화 학습, 외골격 로봇, AI 에이전트의 자율성, 클라우드 디자인 프레임워크, 로봇 앞 공중제비, 병원의 약물 운송 방식, 미래 자동차 및 기타 기술 혁신을 포함한 여러 AI 관련 뉴스 및 기술 발전 사항을 공유했습니다. (출처: Ronald_vanLoon의 여러 게시물)
커뮤니티, AI 모델 및 도구 논의: 커뮤니티에서는 Kimi K2의 성능, 가격 및 적용, DeepSeek 모델의 압축성, Grok 모델의 시스템 프롬프트 조정, 기타 모델의 평가 결과 및 적용 사례를 포함한 여러 AI 모델 및 도구에 대해 논의했습니다. 또한 AI 에이전트의 자율성, RLHF, RAG, 다중 에이전트 설정, 심층 연구, 창의적 글쓰기, 코드 생성, 양식 추출 등 다양한 분야에서의 AI 적용에 대해서도 논의했습니다. (출처: 여러 사용자의 게시물)
AI 및 사회 문제에 대한 논의: 커뮤니티에서는 고용, 경제적 불평등, 정신 건강 등 사회에 대한 AI의 영향에 대해 논의했습니다. 또한 AI의 윤리적 문제, 규제 문제 및 AI의 미래 발전 방향에 대해서도 논의했습니다. (출처: 여러 사용자의 게시물)
📚 학습
RLHF 서적에 정책 경사 알고리즘 유도 추가: Natolambert의 RLHF 서적 11장(정책 경사 알고리즘)에 완전한 정책 경사 목표 유도 내용이 추가되었습니다. (출처: natolambert)
💼 비즈니스
SpaceX, xAI에 20억 달러 투자: SpaceX는 xAI에 20억 달러를 투자할 예정이며, 이는 xAI의 50억 달러 지분 자금 조달의 일부이자 SpaceX 역사상 최대 규모의 투자 중 하나입니다. SpaceX는 이전에 Tesla와 The Boring Company도 지원한 바 있습니다. 이번 투자 이후 Grok 모델이 화성으로 보내질 수 있으며, SpaceX와 xAI 간에 향후 더 많은 비즈니스 협력이 있을 수 있습니다. (출처: 36氪)
Hanyang Technology Yarbo, 1억 위안 추가 투자 유치: 소비자용 눈 치우기 정원 로봇 회사인 Hanyang Technology Yarbo는 Guoke Investment, CICC Capital, Joyoung Venture Capital의 투자로 1억 위안 이상의 시리즈 B+ 투자를 유치했습니다. 투자금은 기술 연구 개발, 제품 반복, 공급망 개선 및 양산 납품에 사용될 예정입니다. Hanyang Technology는 현재 전 세계적으로 대규모 상용화 납품을 달성한 유일한 소비자용 눈 치우기 로봇 회사이며, Yarbo S1 제품은 초저온 환경에서의 배터리 기술, 복잡한 지형의 내비게이션 알고리즘 등 핵심 기술적 난제를 극복했습니다. (출처: 36氪)
12명 팀이 AI 동반자 도구 개발, 6개월 만에 3천만 달러 투자 유치: AI 동반자 앱 Tolan의 개발사 Portola는 2천만 달러의 시리즈 A 투자를 유치했으며, 이전의 1천만 달러 시드 투자와 함께 Tolan은 6개월 만에 3천만 달러의 투자를 유치했습니다. Tolan은 AI 외계인 캐릭터를 제공하여 사용자와 동행하며 구독 모델을 통해 수익을 창출합니다. (출처: 36氪)
💡 기타
마크 저커버그, 일론 머스크 기습 공격 준비, 중국계 기술 인재가 AI 승리의 열쇠: Meta는 AI 분야에 막대한 투자를 하고 있으며 OpenAI, Google, Apple 등의 중국계 AI 인재를 영입하여 AI 분야에서 경쟁력을 높이고자 합니다. (출처: 36氪)
DeepSeek 망했나? 언론학 전공으로 판명: 이 기사는 DeepSeek이 망한다는 소문을 반박하며 DeepSeek의 사용률 감소는 제품의 문제가 아니라 오픈 소스 전략과 의도적으로 공식 API 경험을 낮춰 사용자가 타사에서 호스팅하는 DeepSeek 모델을 사용하도록 유도했기 때문이라고 지적합니다. DeepSeek의 핵심 목표는 대형 모델 서비스 판매를 통한 수익 창출이 아니라 AGI 구현입니다. (출처: 36氪)
“연간 매출 천만 달러”, 이 AI 애플리케이션 분야의 가장 큰 거짓말: 이 기사는 AI 감정 동반자 애플리케이션 분야의 수입 과장 현상을 폭로하며 많은 기업이 고액 투자에 의존하여 성장을 유지하고 있지만 사용자 유료 전환율과 유지율이 낮아 실제 수입은 홍보 데이터보다 훨씬 낮다고 지적합니다. 또한 규제 문제도 이 분야의 발전에 큰 영향을 미치고 있습니다. (출처: 36氪)