키워드:AI, TPU, 구글 7세대 TPU, A2A 프로토콜, HBM3E 메모리, AI 에이전트 협업, MoE 모델 훈련

🔥 포커스

구글, 7세대 TPU와 A2A 에이전트 협업 프로토콜 발표: 구글은 Cloud Next ’25 컨퍼런스에서 AI 추론 전용 7세대 TPU “Ironwood”를 발표했습니다. 대규모 배포 시 연산 능력은 42.5 Exaflops에 달하며, 이는 기존 슈퍼컴퓨터를 훨씬 능가합니다. 이 칩은 메모리와 대역폭이 크게 향상되었고(192GB HBM, 7.2Tb/s 대역폭), 에너지 효율은 두 배로 증가했으며, Gemini 2.5와 같이 복잡한 추론 능력이 필요한 “사고 모델(thinking models)”을 지원하는 것을 목표로 합니다. 동시에 구글은 서로 다른 AI 에이전트 간의 안전한 통신 및 협업을 표준화하기 위한 Agent-to-Agent (A2A) 오픈 소스 프로토콜을 출시했으며, 이미 50개 이상의 기업이 지원하고 있습니다. A2A는 에이전트 능력 발견, 작업 관리, 협업 방식 등을 정의하며, 도구 연결에 사용되는 MCP 프로토콜과 상호 보완적입니다. 구글은 또한 자사의 Gemini 모델과 SDK에서 MCP 프로토콜을 지원한다고 발표하여 AI 에이전트 생태계의 상호 연결성을 더욱 촉진합니다. (출처: 机器之心, 36氪, 卡兹克, 机器之心, AI前线)

42.5 Exaflops:谷歌新TPU性能超越最强超算24倍,智能体协作协议A2A出炉

SK하이닉스, HBM 우위로 사상 첫 글로벌 DRAM 시장 1위 등극: 시장조사기관 Counterpoint Research 보고서에 따르면, 2025년 1분기 SK하이닉스는 36%의 시장 점유율로 사상 처음 삼성(34%)을 제치고 세계 최대 DRAM 공급업체가 되었으며, Micron은 25%로 3위를 차지했습니다. SK하이닉스의 성공은 주로 고대역폭 메모리(HBM) 분야에서의 지배적 지위(시장 점유율 70% 추정) 덕분이며, AI의 급성장은 HBM 수요를 크게 견인했습니다. SK하이닉스는 HBM3E 칩을 Nvidia AI 가속기에 독점 공급하며 HBM 수요가 지속적으로 고속 성장할 것으로 예상됩니다. 동시에 한국 언론은 SK하이닉스가 1c DRAM(약 11-12nm) 공정 수율에서 80%를 달성하여, 여전히 수율 향상에 어려움을 겪고 있는 삼성을 기술적으로 잠시 앞서며 HBM4 양산 기반을 마련했다고 보도했습니다. (출처: 半导体行业观察)

DRAM,史上首次

AI Agent 프로토콜 MCP와 A2A, 관심과 생태계 경쟁 유발: 최근 Anthropic이 제안한 모델 컨텍스트 프로토콜(MCP)과 구글이 출시한 에이전트 간 프로토콜(A2A)이 AI 분야의 핫이슈가 되었습니다. MCP는 AI 모델과 외부 도구, 데이터 소스 간의 상호 작용을 표준화하는 것을 목표로 하며, AI 애플리케이션의 “USB-C” 인터페이스에 비유됩니다. 이미 Microsoft, Google 및 다수의 스타트업과 오픈 소스 커뮤니티가 지원하고 있습니다. A2A는 서로 다른 공급업체의 AI 에이전트 간의 안전한 통신 및 협업에 중점을 두며, 이미 50개 이상의 기업이 참여하고 있습니다. 이러한 프로토콜은 AI 에이전트 간의 상호 운용성 부족 및 생태계 분열 문제를 해결하는 것을 목표로 합니다. 그러나 분석가들은 거대 기업들이 이러한 프로토콜을 추진하는 이면에는 자체 생태계 장벽을 구축하고 데이터 유출을 방지하려는 전략적 의도가 있다고 지적합니다. 예를 들어, 구글 A2A의 초기 파트너는 대부분 구글 생태계와 관련이 있으며, Alibaba Cloud가 출시한 MCP 서비스도 주로 자사 시스템 내 애플리케이션을 통합합니다. Meituan, Didi 등 플랫폼은 데이터 주권 및 생태계 발언권 문제로 인해 개방형 프로토콜에 쉽게 참여하지 않을 수 있습니다. 이 프로토콜 경쟁은 본질적으로 AI 생태계의 주도권과 데이터 통제권을 둘러싼 경쟁입니다. (출처: 卡兹克, 王智远, AI前线, 机器之心)

🎯 동향

DeepSeek, 기업 소프트웨어 미래에 대한 고민 촉발: DeepSeek의 오픈 소스는 기업 소프트웨어 산업에 충격을 주며, SaaS 업체의 기술 장벽, AI 디지털 직원이 전통적인 소프트웨어를 종식시킬 것인지에 대한 논의를 불러일으켰습니다. Woxing Technology CEO Guo Shunri는 단일 기능 도구형 SaaS(예: RPA)가 가장 위험하다고 생각합니다. 대형 모델의 멀티모달 능력으로 쉽게 대체될 수 있기 때문입니다. 53AI CEO Yang Fangxian은 대형 모델의 실제 적용은 아직 제한적이지만, 10~20년 후에는 전통적인 SaaS가 사라지고 AI 생산성(디지털 휴먼 + SaaS 융합)으로 대체될 것이라고 판단합니다. 정보화 및 디지털화 전문가 Shen Yang은 더 급진적인 견해를 가지고 있으며, 반년에서 1년 내에 SaaS 모델이 전복될 수 있으며, 미래에는 실시간 데이터나 서비스 효과에 기반한 요금 부과가 필요할 것이라고 생각합니다. 대화는 AI가 비즈니스 모델을 재구성할 것이며, AI를 잘 활용하는 기업이 경쟁 우위를 확보하고, 반응이 느린 기업은 도태될 것이라고 강조합니다. 현재 AI 도입의 병목 현상은 AI 기술 자체가 아니라 기업 데이터 사일로와 지식 통합 부족에 있습니다. (출처: 36氪)
AI의 대형 가전 분야 적용 현황과 성찰: AI 기술이 냉장고, 세탁기, 에어컨 등 대형 가전에 통합되어 음성 상호 작용, 스마트 제어(예: AI 절전, AI 세탁 케어) 등의 기능을 제공하고 있습니다. Haier, TCL, Samsung 등 브랜드는 DeepSeek을 탑재한 Haier 냉장고가 식자재 관리 제안을 제공하고, TCL 에어컨이 날씨를 알려주는 등 AI 가전을 속속 출시하고 있습니다. 그러나 기사는 현재 AI 가전의 “AI 함량”이 천차만별이며, 일부 기능(예: 에어컨의 환율 안내)은 불필요하고 비실용적으로 보인다고 지적합니다. 이미 비교적 완전한 “인지-결정-실행” 폐쇄 루프를 구현한 로봇 청소기 등 AI 제품과 비교할 때, 대형 가전의 AI 적용은 대부분 인지 및 제안 수준에 머물러 있으며, 완전히 자율적으로 결정하고 실행하지 못합니다. 기사는 일부 “AI” 기능이 필수적인지 의문을 제기하며, 소비자는 AI 트렌드에 억지로 편승하는 것보다 핵심 기능이 우수하고 문제점을 해결하는 가전을 더 필요로 한다고 지적합니다. 기사는 대형 가전이 AI 시대에 스마트 홈 생태계의 일환으로서 역할을 해야 하며, 핵심 기능을 극대화하고 협업 능력을 향상시켜야지, 모두 채팅 도구가 되어서는 안 된다고 생각합니다. (출처: 36氪)

大家电搞AI了,但我劝你买之前擦亮眼

MoE 모델 새로운 트렌드로 부상, Alibaba Cloud AI 인프라 업그레이드로 도전 과제 대응: 혼합 전문가(MoE) 아키텍처가 Mixtral에서 DeepSeek, Qwen2.5-Max 및 Llama 4에 이르기까지 AI 대형 모델의 주류 트렌드가 되고 있습니다. MoE가 가져오는 도전 과제(예: 토큰 라우팅, 전문가 선택 등)에 대응하기 위해 Alibaba Cloud는 PAI-DLC 기반의 FlashMoE 훈련 프레임워크를 발표하여 초거대 규모 MoE 혼합 정밀도 훈련을 지원하며, 만 개 카드 규모에서 MFU를 35-40%까지 향상시킬 수 있습니다. 동시에 Alibaba Cloud는 MoE를 위한 분산 추론 엔진 Llumnix를 출시하여 지연 시간을 크게 줄였습니다. 또한 Alibaba Cloud는 ECS 9세대 인스턴스, 최적화된 Lingjun 클러스터(HPN 7.0 네트워크, CPFS 고성능 스토리지, 장애 자가 치유 시스템), 업그레이드된 OSS 객체 스토리지(OSSFS 2.0)를 발표하고, MaxCompute AI Function 및 MCP 프로토콜을 지원하는 DataWorks Agent 서비스를 출시하여 MoE 및 추론 모델이 가져오는 새로운 패러다임에 대응하기 위해 AI 인프라를 전면적으로 업그레이드했습니다. (출처: 机器之心)
Keenon Robotics, 휴머노이드 서비스 로봇 XMAN-R1 발표: 글로벌 서비스 로봇 선두 기업 Keenon Robotics(擎朗智能)가 첫 휴머노이드 구체화 서비스 로봇 XMAN-R1을 발표했습니다. 이 로봇은 “서비스를 위해 태어났다”는 컨셉으로, Keenon이 요식업, 호텔, 의료 등 현장에서 축적한 방대한 실제 데이터를 기반으로 제작되었으며, 직무화, 친화력, 안전성을 중시합니다. XMAN-R1은 서비스 현장에서 주문, 배식, 서빙, 퇴식 등 폐쇄 루프 작업을 완료할 수 있으며, 양손 물건 전달, 이동 제어, 의인화된 상호 작용(대형 언어 모델, 표정 피드백) 등의 능력을 갖추고 있습니다. 또한 11개의 멀티모달 센서와 지능형 장애물 회피 기술을 탑재하여 혼잡한 환경에 적응합니다. XMAN-R1은 Keenon의 기존 배송, 청소 등 전용 로봇과 다형태 협업 생태계를 형성하여 더 복잡한 상업 서비스 작업을 공동으로 수행하고, Keenon의 다형태 구체화 서비스 로봇 매트릭스를 더욱 완성할 것입니다. (출처: InfoQ)
시안 교통대 등, 훈련 없이 그림을 동적으로 만드는 프레임워크 Every Painting Awakened 제안: 기존 이미지-비디오(I2V) 방법이 그림 동적화에서 “움직이지 않거나” “마구 움직이는” 문제를 해결하기 위해, 시안 교통대학, 허페이 공업대학 및 마카오 대학이 공동으로 제로 훈련 프레임워크 “Every Painting Awakened”를 제안했습니다. 이 프레임워크는 사전 훈련된 이미지 모델을 사용하여 동적 지침으로 프록시 이미지를 생성하고, 이중 경로 점수 증류 기술을 통해 원본 그림의 정적 세부 정보를 보존하고 프록시 이미지의 동적 사전 정보를 추출합니다. 그런 다음 혼합 잠재 융합 메커니즘(구면 선형 보간)을 사용하여 잠재 공간에서 동적 및 정적 특징을 융합하고, 이를 기존 I2V 모델에 입력하여 비디오를 생성합니다. 이 방법은 추가 훈련 없이 기존 I2V 모델을 향상시킬 수 있으며, 텍스트 프롬프트의 운동 지침을 정확하게 실행하는 동시에 원본 그림의 스타일과 필치를 유지하여 자연스럽고 부드러운 그림 동적화를 실현합니다. 실험 결과 이 프레임워크는 의미론적 일치도 향상 및 스타일 완전성 유지 측면에서 뛰어난 효과를 보였습니다. (출처: PaperWeekly)
워털루 대학과 Meta, 음성 및 텍스트 기반 다중 캐릭터 대화 비디오 생성 MoCha 제안: 기존 비디오 생성 기술이 캐릭터 중심 서사에서 부족한 점(예: 얼굴에 국한, 보조 조건 의존, 단일 캐릭터만 지원)을 해결하기 위해 캐나다 워털루 대학과 Meta GenAI가 MoCha 프레임워크를 제안했습니다. MoCha는 Talking Characters 작업을 위한 최초의 방법으로, 음성 및 텍스트 입력만으로 캐릭터의 클로즈업에서 미디엄 샷까지 전신 대화 비디오를 생성할 수 있으며, 다중 캐릭터, 다중 턴 대화를 지원합니다. 핵심 기술은 다음과 같습니다: 1) Speech-Video Window Attention 메커니즘: 로컬 시간 조건 모델링을 통해 음성 및 비디오 시퀀스 특징을 정확하게 정렬하여 입 모양과 동작 동기화를 보장합니다. 2) 공동 음성-텍스트 훈련 전략: 기존 음성 및 텍스트 주석 비디오 데이터를 활용하여 모델 일반화 능력과 제어 가능성을 향상시킵니다. 3) 구조화된 프롬프트 템플릿 및 캐릭터 태그: 처음으로 다중 캐릭터, 다중 턴 대화 생성을 실현하여 컨텍스트 일관성과 캐릭터 정체성 일치를 유지합니다. 실험을 통해 사실감, 표현력, 제어 가능성에서의 우수성을 검증했으며, 자동화된 영화 서사 생성을 촉진합니다. (출처: PaperWeekly)
화중과기대 & 샤오미 자동차, 자율 주행 프레임워크 ORION 제안: 종단 간 자율 주행이 폐쇄 루프 상호 작용에서 인과 추론 능력이 제한적인 문제를 해결하기 위해 화중 과학 기술 대학과 샤오미 자동차가 ORION 프레임워크를 제안했습니다. 이 프레임워크는 혁신적으로 시각 언어 대형 모델(VLM)과 생성 모델(예: VAE 또는 확산 모델)을 결합하여 VLM을 사용하여 장면 이해, 추론 및 지침 생성을 수행하고, 생성 모델을 통해 VLM의 의미론적 추론 공간과 순수 수치적 궤적 동작 공간을 정렬하여 궤적 생성을 안내합니다. 동시에 QT-Former 모듈을 도입하여 장기적인 과거 시각 컨텍스트 정보를 효과적으로 집계하여 VLM이 다중 프레임 이미지를 처리할 때의 토큰 제한 및 계산 오버헤드 문제를 극복했습니다. ORION은 시각적 질의 응답(VQA) 및 계획 작업의 통합된 종단 간 최적화를 실현했습니다. Bench2Drive 폐쇄 루프 평가에서 ORION의 주행 점수는 77.74점, 성공률은 54.62%로 이전 최고 방법보다 현저히 우수했습니다. 코드, 모델 및 데이터 세트는 오픈 소스로 공개될 예정입니다. (출처: 机器之心)
싱가포르 국립대학, GEAL 제안: 2D 대형 모델을 활용하여 3D Affordance 예측 강화: 3D Affordance Learning(물체 상호 작용 가능 영역 예측)에서 3D 데이터 부족, 고가의 주석 작업 및 모델 일반화성, 견고성 부족 문제를 해결하기 위해 싱가포르 국립대학이 GEAL 프레임워크를 제안했습니다. GEAL은 3D Gaussian Splatting을 사용하여 희소한 포인트 클라우드를 사실적인 이미지로 렌더링하고, 이를 사전 훈련된 2D 시각 대형 모델(예: DINOV2)에 입력하여 풍부한 의미론적 특징을 추출합니다. 혁신적인 교차 모달 일관성 정렬(Cross-Modal Consistency Alignment), 즉 세분성 적응 융합 모듈(GAFM)과 일관성 정렬 모듈(CAM)을 통해 2D 시각 특징과 3D 공간 기하학적 특징을 효과적으로 융합합니다. GAFM은 텍스트 지침에 따라 다중 스케일 특징을 적응적으로 집계하고, CAM은 3D 특징을 2D로 렌더링하고 일관성 손실을 적용하여 양방향 정보 정렬을 촉진합니다. GEAL은 대규모 3D 주석 없이도 새로운 물체, 새로운 장면에 대한 일반화 능력과 노이즈 환경에서의 견고성을 크게 향상시킵니다. 연구팀은 또한 모델의 견고성을 평가하기 위해 다양한 실제 교란을 포함하는 벤치마크 데이터 세트를 구축했습니다. (출처: 机器之心)
Moonshot AI, Kimi-VL MoE 대소형 모델 출시, 멀티모달 추론 및 긴 컨텍스트 강조: Moonshot AI(月之暗面)가 Kimi-VL과 Kimi-VL-Thinking 두 가지 시각 언어 혼합 전문가(MoE) 모델을 출시했습니다. 이 두 모델의 총 파라미터 수는 16B이지만 활성화된 파라미터 수는 약 3B에 불과하며, 여러 벤치마크 테스트에서 뛰어난 성능을 보였습니다. Kimi-VL-Thinking은 멀티모달 추론(MathVision 36.8%) 및 에이전트 기술(ScreenSpot-Pro 34.5%) 측면에서 우수한 성능을 보이며, 파라미터 수가 10배 더 큰 모델과 필적하는 성능을 나타냅니다. 이 모델은 MoonViT 기술을 사용하여 고해상도 시각 입력(OCRBench 867)을 기본적으로 처리하며, 최대 128K의 긴 컨텍스트 창(MMLongBench-Doc 35.1%, LongVideoBench 64.5%)을 지원하여 주요 벤치마크에서 GPT-4o 등 더 큰 모델을 능가합니다. 관련 논문과 Hugging Face 모델이 공개되었습니다. (출처: Reddit r/LocalLLaMA)

🧰 도구

Firebase Studio: 구글의 AI 통합 온라인 풀스택 개발 플랫폼: 구글이 Project IDX 개발 도구를 Firebase에 통합하고 Firebase Studio로 이름을 변경하여 무료 브라우저 내 풀스택 애플리케이션 개발 환경을 제공합니다. 새로운 플랫폼의 주요 특징은 다음과 같습니다: 1) AI 지원 프로젝트 생성: 자연어 프롬프트를 기반으로 Next.js 등 애플리케이션의 초기 코드 프레임워크를 생성할 수 있습니다. 2) 듀얼 작업 모드 전환: AI 스마트 모드를 통해 콘텐츠를 빠르게 생성하고, 전통적인 클라우드 개발 환경(VM 기반 클라우드 워크스페이스)으로 원활하게 전환할 수 있습니다. 3) IDX 기능 계승: 풀스택 템플릿, 안드로이드 에뮬레이터, 팀 협업, 원클릭 배포 등을 포함합니다. Firebase Studio는 Firebase 백엔드 서비스(데이터베이스, 인증 등)를 깊이 통합하여 프론트엔드 및 백엔드 개발, 클라우드 서비스를 하나로 묶는 통합 개발 경험을 구축하는 것을 목표로 합니다. 사용자 피드백에 따르면 이 도구는 매우 강력하고 상호 작용 경험이 좋으며, 프롬프트를 통해 애플리케이션을 구축하고 실시간으로 미리 볼 수 있으며, 스크린샷을 마크업하여 UI를 수정하는 것도 지원합니다. 그러나 현재 사용자가 너무 많아 접속이 제한될 수 있습니다. (출처: 36氪, dotey)

Google今晚杀疯了:定标准(A2A),发武器(firebase),祭免费(2.0 Flash)

OpenManus: Manus 핵심 기능을 빠르게 복제하는 오픈 소스 Agent 프로젝트: Manus AI Agent가 큰 인기를 끌었지만 코드가 공개되지 않은 상황에서, 화동 사범 대학 대학원생 Liang Xinbing과 DeepWisdom 연구원 Xiang Jinyu 등 00년대생 개발자들이 여가 시간을 활용하여 OpenManus 프로젝트를 신속하게 개발하고 오픈 소스로 공개했습니다. 이 프로젝트는 Manus의 핵심 기능을 복제하고, 간결하고 이해하기 쉬운 코드(약 수천 줄)로 Agent의 핵심 로직(Tool 및 Prompt 기반)을 보여주는 것을 목표로 합니다. 프로젝트는 function call의 React 패턴을 활용하고, 브라우저 조작, 파일 편집, 코드 실행 등 핵심 도구를 설계했습니다. OpenManus는 GitHub에서 빠르게 4만 개 이상의 Star를 획득하며 Agent 기술에 대한 오픈 소스 커뮤니티의 열정을 보여주었습니다. 개발자들은 대형 모델을 활용하여 코드베이스 이해, 아키텍처 설계 및 코드 생성 워크플로우를 공유하고, MCP 프로토콜(AI계의 Type-C 인터페이스)과 다중 Agent 협업의 과제에 대해 논의했습니다. 프로젝트는 지속적으로 개발 중이며, 도구 생태계, MCP 지원, 다중 Agent 조정 메커니즘 및 테스트 케이스를 개선할 계획입니다. (출처: CSDN)

180分钟复刻40k Star神话背后:OpenManus 00后主创现场演示,Agent开发的“快”与“痛”

AI 에이전트 개념 보급 및 응용 시나리오: AI 에이전트(AI Agent)는 환경을 자율적으로 인지하고 결정을 내리며 작업을 수행하는 소프트웨어로, 정보만 제공하는 일반 AI(예: 챗봇)와 달리 사용자를 위해 “행동을 취할” 수 있습니다. 주요 특징으로는 자율성, 기억 능력, 도구 사용 능력, 학습 및 적응 능력이 있습니다. 응용 시나리오는 개인 생활 비서(여행 자동 계획, 일정 및 이메일 관리), 비즈니스 응용(소프트웨어 개발, 고객 서비스, 신약 개발 효율성 향상), 기업 효율성 향상(HR 프로세스 자동화, 콘텐츠 제작 관리) 등 광범위합니다. AI 에이전트 구축에는 인지(데이터 수집), 사고(AI 모델 분석 및 계획), 행동(도구 API 호출), 학습(결과로부터 개선) 등의 단계가 포함됩니다. Microsoft, Google, BAT 등 대기업들이 모두 이 분야에 투자하고 있습니다. 사용자는 Coze와 같은 플랫폼이나 프롬프트 템플릿 작성을 통해 사용을 시작할 수 있으며, 간단한 작업부터 시작하여 점차 그 잠재력을 탐색할 수 있습니다. (출처: 周知)
Color Reshape: GPT-4o 이미지 색 편차를 수정하는 일괄 처리 도구: GPT-4o가 이미지를 생성할 때 자주 발생하는 파란색 또는 노란색 색 편차 문제를 해결하기 위해 개발자 “Guicang(归藏)”이 “Color Reshape”라는 도구를 출시했습니다. 이 도구는 원클릭 조작으로 AI 생성 이미지의 색상 균형을 일괄적으로 수정하여 전문 사진 작품처럼 보이게 하고 실제 색상을 복원하는 것을 목표로 합니다. 특징으로는 일괄 처리 지원, 슬라이더가 있는 원본 이미지와 결과 이미지 비교 기능 제공, 전문적인 색상 균형 제어 옵션 포함 등이 있습니다. 이는 사용자가 GPT-4o로 이미지를 생성한 후 수동으로 색상을 조정해야 하는 불편함을 해결하고 AI 예술 창작의 효율성과 최종 결과물의 품질을 향상시킵니다. (출처: op7418)

op7418

Notion, MCP Server 출시: Notion이 MCP(Model Context Protocol) 서버 구현을 발표하고 GitHub에 오픈 소스로 공개했습니다. 이 서버를 통해 AI 에이전트는 MCP 프로토콜을 사용하여 Notion과 상호 작용할 수 있으며, 페이지 내용 가져오기, 댓글 달기, 검색 실행 등 다양한 Notion API 기능을 구현했습니다. 이는 MCP 프로토콜을 지원하는 AI Agent(예: Claude 등)가 사용자의 Notion 데이터 및 기능에 더 편리하게 접근하고 조작할 수 있게 되어 AI Agent의 응용 시나리오와 능력을 더욱 확장함을 의미합니다. (출처: karminski3)

karminski3

OLMoTrace: 언어 모델의 기억과 정보 합성을 탐구하는 새로운 도구: Ai2(Allen Institute for AI)가 AI Playground의 새로운 기능인 OLMoTrace를 출시했습니다. 이는 대형 언어 모델(LLM)이 정보를 학습하고 합성하는 정도와 훈련 데이터를 단순히 기억하고 반복하는 정도를 이해하는 데 도움을 주기 위해 설계되었습니다. 사용자는 이제 이 도구를 통해 모델이 특정 완성(completion)을 생성하는 데 기여했을 수 있는 훈련 데이터 조각을 확인할 수 있습니다. 이는 LLM의 내부 작동 메커니즘 연구, 행동의 출처 이해, 일반화와 기억 능력 간의 균형 평가에 중요한 의미를 가지며, 특히 모델의 독창성과 신뢰성에 관심 있는 연구자 및 개발자에게 유용합니다. (출처: natolambert)

📚 학습

NVIDIA, 개방형 기초 모델 GR00T N1 발표, 범용 휴머노이드 로봇 발전 촉진: NVIDIA가 범용 휴머노이드 로봇을 위해 설계된 개방형 기초 모델 GR00T N1을 발표했습니다. 이 모델은 로봇 훈련 데이터 부족 문제를 해결하는 것을 목표로 하며, 다양한 데이터 소스를 결합하여 학습합니다: 1) Omniverse를 사용하여 고도로 정확한 디지털 트윈 환경(예: 공장)을 생성하여 레이블이 지정된 대량의 시뮬레이션 데이터를 생성합니다. 2) Cosmos 모델을 사용하여 시뮬레이션 데이터를 더 현실적인 비디오로 변환하여 훈련 세트를 더욱 확장합니다. 3) 인터넷상의 기존 비디오를 자동으로 주석 처리하는 AI 시스템을 개발하여 동작, 관절, 목표 등의 정보를 추출하여 실제 세계 비디오도 훈련 데이터로 사용할 수 있도록 합니다. GR00T N1은 이중 시스템 사고 모델을 채택합니다: System 2는 느린 추론 계획을 수행하고, System 1(Diffusion 모델 기반)은 실시간 운동 제어 명령을 생성합니다. 실험 결과, 이전 방법에 비해 성공률이 46%에서 76%로 향상되었습니다. 이 모델은 오픈 소스이며 다양한 형태의 로봇을 지원하며, 범용 로봇의 연구 개발 및 응용을 가속화하는 것을 목표로 합니다. (출처: Two Minute Papers)
AI, 고등학생 수학 불안 완화에 도움: 필라델피아 산업 및 응용 수학 협회(SIAM)의 글로벌 조사에 따르면, 절반 이상(56%)의 고등학생이 AI가 수학 불안을 완화하는 데 도움이 된다고 생각합니다. 15%의 학생은 개인적으로 AI를 사용한 후 수학 불안이 감소했다고 답했으며, 21%는 성적이 향상되었습니다. AI가 불안을 완화하는 이유로는 즉각적인 도움과 피드백 제공(61%), 자신감 구축(자신의 속도에 맞춰 질문할 수 있음, 44%), 개인 맞춤 학습(33%), 실수에 대한 두려움 감소(25%) 등이 있습니다. 그러나 교사의 19%만이 AI가 수학 불안을 줄일 수 있다고 생각합니다. 대부분의 교사와 학생(교사 64%, 학생 43%)은 AI가 인간 교사와 협력하여 사용되어야 하며, 직접 답을 주는 것이 아니라 개념 이해를 돕는 튜터나 학습 파트너 역할을 해야 한다고 생각합니다. AI의 보급은 또한 교사-학생 관계 및 교사 역할 변화에 대한 고민을 불러일으킵니다. 예를 들어, AI를 사용할 수 없는 시험의 중요성 증대, 교사가 학생을 지도하기 위해 AI에 능숙해야 할 필요성, 교사가 개인 맞춤형 지도에 더 집중할 수 있게 되는 것 등입니다. (출처: 元宇宙之心MetaverseHub)

全球调查显示:超半数高中生认为AI有助于缓解数学焦虑

💼 비즈니스

구체화 지능 회사 「Qiongche Intelligence」, 수억 위안 규모 Pre-A++ 라운드 투자 유치: 스탠포드 출신 팀이 설립한 구체화 지능 회사 「Qiongche Intelligence(穹彻智能)」가 최근 수억 위안 규모의 Pre-A++ 라운드 투자를 유치했습니다. Shengyu Investment, Tsingke Capital, Vision Knight Capital, Yunqi Partners, Shanghai STVC Group 등이 참여했으며, 기존 주주인 Prosperity7, Sequoia China는 세 라운드 연속으로 추가 투자했습니다. 자금은 구체화 지능 기초 모델, 데이터 수집 및 평가 등 분야의 혁신을 가속화하고, 소매 이행, 가정 서비스, 식품 가공 등 시나리오에서의 상용화를 추진하는 데 사용될 예정입니다. 회사는 상하이 교통 대학 교수 Lu Cewu와 Fourier Intelligence 창업자 Wang Shiquan이 공동 설립했으며, 물리적 세계에서의 구체화 지능 묘사 및 상호 작용, 데이터 획득 등 핵심 난제 해결에 집중하고 있습니다. 핵심 제품인 “Qiongche Embodied Brain”은 이미 완전한 폐쇄 루프 능력을 갖추고 있으며, 자체 개발한 “생산 동반” 방식의 데이터 수집 시스템(CoMiner)을 통해 데이터 비용을 절감합니다. 회사는 이미 가전 기업과 협력하여 가정 서비스 로봇(예: AWE에서 전시된 세탁 케어 로봇)을 개발 중이며, 식품 제조업체와도 협력 의향을 확인했습니다. (출처: 36氪)

斯坦福团队创立,红杉、P7持续加注,这家具身智能公司再融资数亿|硬氪首发

휴머노이드 로봇 회사 「Stardust Intelligence」, 수억 위안 규모 A 라운드 및 A+ 라운드 투자 유치: 구체화 휴머노이드 로봇 회사 「Stardust Intelligence(星尘智能)」가 A 라운드 및 A+ 라운드 투자를 연속으로 유치하여 총 수억 위안을 확보했습니다. Jinqiu Fund, Ant Group이 주도했으며, 기존 주주인 Yunqi Partners, Daotong Capital 등이 후속 투자했습니다. 회사는 “Design for AI” 패러다임을 정의하고, 인간 수준의 조작 능력을 갖춘 AI 로봇 조수를 만드는 데 전념하고 있습니다. 핵심 제품인 Astribot S1은 독창적인 로프 구동 설계를 채택하여 높은 하중 대비 자중 비율(1:1), 고속(말단 속도 10m/s 초과) 및 인간과 유사한 유연한 조작 능력을 실현합니다. Stardust Intelligence는 “본체+데이터+모델” 기술 폐쇄 루프를 구축하여 실제 세계 비디오 및 인체 동작 데이터를 저비용으로 활용하고, 멀티모달 상호 작용 데이터를 효율적으로 수집하여 로봇에게 복잡한 환경 인지, 인식, 의사 결정 및 범용 조작 일반화 능력을 부여합니다. 현재 S1은 세 번의 반복 개발을 거쳤으며, 대학, 기업 등과 협력하여 실제 적용을 진행하고 종단 간 대형 모델을 지속적으로 최적화하고 있습니다. (출처: 36氪)

连续完成A及A+轮融资,星尘智能获锦秋基金、蚂蚁集团等领投

Jony Ive와 Sam Altman의 AI 하드웨어 스타트업 io Products, OpenAI에 인수될 가능성: 전 애플 디자인 총괄 Jony Ive와 OpenAI CEO Sam Altman이 공동 설립한 AI 하드웨어 스타트업 io Products가 The Information 보도에 따르면 최소 5억 달러에 OpenAI에 인수될 수 있습니다. io Products는 2024년에 설립되었으며, 스마트폰보다 덜 침입적인 AI 기반 개인 장치를 만드는 것을 목표로 하며, 탐색 방향에는 화면 없는 휴대폰, AI 기반 가정용 장치 또는 웨어러블 AI 비서 등이 포함될 수 있습니다. 이번 잠재적 인수는 OpenAI가 소프트웨어 분야에서 소비자 하드웨어 분야로 확장할 수 있음을 시사합니다. 그러나 Humane AI Pin 및 Rabbit R1과 같은 이전 AI 하드웨어 제품의 실패와 사용자들이 새로운 장치 형태보다는 기존 휴대폰의 AI 기능 향상을 선호하는 경향을 고려할 때, 화면 없는 AI 장치에 대한 시장의 수요와 수용 가능성은 여전히 의문입니다. (출처: 不客观实验室)

Jony Ive 的 AI 硬件还没亮相,公司就要被收购了

3월 AI 앱 시장 관찰: 글로벌 다운로드 2.6억 건, 국내 Tencent, Alibaba, ByteDance “삼국지”: DataEye Research Institute 보고서에 따르면, 2025년 3월 글로벌 AI 애플리케이션(App Store & Google Play) 예상 다운로드 수는 2.6억 건에 달했습니다. ChatGPT가 23%의 점유율로 압도적인 선두를 달리고 있으며, Google Gemini가 DeepSeek을 제치고 2위를 차지했습니다. 국내 시장에서는 Apple 단말기 다운로드 수가 4020만 건이었으며, DeepSeek, Jimeng AI, Doubao, Quark, Tencent Yuanbao가 상위 5위를 차지했고, Kimi 스마트 어시스턴트의 다운로드 수는 급감했습니다. 광고 구매 측면에서 중국 본토 시장의 AI 제품(미니 프로그램 포함) 광고 소재 수는 95.7만 그룹에 달했으며, Tencent Yuanbao(26%), Quark(24%), Doubao(13%)가 상위 3위를 차지하여 Tencent, Alibaba, ByteDance 간의 치열한 경쟁 구도를 형성했습니다. Kimi는 광고 집행을 중단한 후 순위에서 밀려났습니다. 보고서는 DeepSeek의 폭발적인 인기와 Alibaba의 “All in AI” 전략이 대기업들이 C단 AI 애플리케이션 시장 진출을 가속화하도록 촉진했다고 분석했습니다. (출처: 36氪)

3月AI月报:全球AI双端下载2.6亿,大陆买量市场上演“三国杀”

Anthropic, 고가 구독 플랜 Claude Max 출시: OpenAI의 ChatGPT Pro(월 200달러)에 대응하여 Anthropic이 Claude Max 구독 서비스를 출시했습니다. 이 서비스는 두 가지 옵션을 제공합니다: 월 100달러에 기존 Claude Pro(월 20달러)보다 5배 높은 사용량 한도를 제공하며, 월 200달러에는 최대 20배 높은 사용량 한도를 제공합니다. Max 플랜 사용자는 곧 출시될 음성 모드를 포함하여 Anthropic의 최신 AI 모델과 기능을 우선적으로 이용할 수 있습니다. 이는 AI 기업들이 수익 증대 및 헤비 유저 서비스를 위한 새로운 방안을 모색하는 것으로 간주됩니다. Anthropic 제품 책임자는 이 플랜이 주로 코딩, 금융, 미디어 엔터테인먼트, 마케팅 등 분야의 전문 헤비 유저를 대상으로 하며, 향후 더 비싼 플랜 출시 가능성도 배제하지 않는다고 밝혔습니다. 동시에 Anthropic은 교육 등 특정 시장을 위한 서비스도 모색하고 있습니다. (출처: dotey, op7418)

dotey

xAI, Grok 3 API 공개 및 가격 발표: xAI가 Grok 3 시리즈 API의 베타 테스트를 공식적으로 개시하며, Grok 3와 Grok 3 Mini 두 가지 모델을 제공합니다. 각 모델은 일반 모드와 빠른 모드(응답 속도는 빠르지만 출력 비용이 더 높음)를 갖추고 있습니다. Grok 3는 데이터 추출, 프로그래밍 등 기업 시나리오에 적합하며, 가격은 입력 $3/백만 토큰, 출력 $15/백만 토큰(빠른 모드는 $5/$25)입니다. Grok 3 Mini는 간단한 작업에 적합한 경량 모델이며, 가격은 입력 $0.3/백만 토큰, 출력 $0.5/백만 토큰(빠른 모드는 $0.6/$4)입니다. 이는 개발자에게 다양한 애플리케이션 시나리오의 성능 및 비용 요구 사항을 충족할 수 있는 유연한 선택권을 제공합니다. 동시에 Google도 개발자를 위한 무료 플랜을 포함한 새로운 계획을 출시했으며, Anthropic은 고가 Max 플랜을 출시했고, Meta의 Llama 4는 저렴한 비용(약 $0.36/백만 토큰)으로 경쟁에 참여하여 AI 거대 기업들의 API 가격 책정 전략에서 차별화된 경쟁을 보여줍니다. (출처: 新智元, op7418)

Grok-3四档定价揭秘:低至0.3美元/百万token,硬刚谷歌Meta

36Kr, 2025 AI 네이티브 애플리케이션 혁신 사례 목록 발표: 36Kr이 “2025 AI 네이티브 애플리케이션 혁신 사례” 목록을 선정하고 발표했으며, 최종적으로 45개 사례가 선정되었습니다. 이번 선정은 AI 기술을 실제 시나리오에 선도적으로 적용하여 실질적인 가치를 창출하고 산업 변화를 이끄는 AI 네이티브 제품 및 애플리케이션을 발굴하는 것을 목표로 합니다. 선정된 사례는 스마트 제조, 고객 서비스, 콘텐츠 제작, 기업 관리, 사무, 보안, 마케팅, 의료 등 다양한 분야를 포괄합니다. 심사 결과 선정된 사례들은 네 가지 특징을 보였습니다: 1) 분야 간 융합 가속화로 새로운 비즈니스 모델 창출; 2) 산업별 문제점과 깊이 결합하여 특화된 솔루션 제공; 3) 사용자 경험 및 개인화 서비스 향상 중시; 4) 강력한 자체 개발 기술(대형 모델, 멀티모달 등)에 기반하고 혁신 생태계 적극 구축. 이 목록은 AI 네이티브 애플리케이션이 폭발적으로 성장하고 있으며 각 산업 분야에 깊숙이 침투하고 있음을 반영합니다. (출처: 36氪)

2025 AI原生应用创新案例重磅发布

🌟 커뮤니티

구글 DeepMind, 최대 1년 경업 금지 조항으로 인재 이동 제한 논란: Business Insider 보도에 따르면, 구글 DeepMind가 최대 12개월의 경업 금지 계약(유급 휴가/가든 리브 포함)을 이용하여 핵심 AI 인재가 OpenAI, Microsoft 등 경쟁사로 이동하는 것을 막고 있다는 비판을 받고 있습니다. 이 계약은 일반적으로 근로 계약에 포함되어 있으며, 직원이 직접적인 경쟁사로 이직하려고 할 때 발효됩니다. 경업 금지 기간은 직책에 따라 다르며, 일선 개발자는 6개월, 고위 연구원은 최대 1년까지 가능합니다. 이는 빠르게 변화하는 AI 산업에서 인재의 기술 단절, 혁신 및 인재 유동성 억제를 초래할 수 있다는 비판과 함께 “직장 황금 수갑”이라는 논란을 일으키고 있습니다. 영국 법은 “합리적인” 경업 금지 계약의 집행을 허용하며 DeepMind 본사가 런던에 있기 때문에, 경업 금지를 금지하는 캘리포니아와 대조를 이룹니다. 전 DeepMind 임원이자 현 Microsoft VP인 Nando de Freitas는 X 플랫폼에서 이러한 관행을 공개적으로 비판하며, 유럽에서 그러한 큰 권력을 가져서는 안 된다고 주장하여 광범위한 논의를 촉발했습니다. (출처: CSDN程序人生)

强制员工“带薪休假”1年 ?谷歌DeepMind竞业条款遭炮轰:宁可花钱白养,也不肯放人

AI, “감정적 필터 버블” 우려 유발: AI 기술 발전과 함께 지능형 섹스돌(Wmdoll 판매량 30% 증가 예상), AI 가상 동반자, AI 대리 채팅(OnlyFans 크리에이터 수입 증대) 등 인간의 감정과 욕구를 충족시키는 응용 분야가 늘어나고 있습니다. 기사는 AI가 안정적이고 인내심 있으며 긍정적인 정서적 가치를 제공하여 사람들의 정신적 교류 요구를 충족시키고 심지어 실제 인간을 능가할 수 있다고 분석합니다. 그러나 이러한 “과도한 맞춤”과 “과도한 보호”는 인간이 “감정적 필터 버블”을 형성하게 만들 수 있으며, 관계 처리에서 주관적인 감정에 과도하게 의존하게 하여 실제 인간 관계의 복잡성과 좌절에 대한 내성을 감소시키고, 감정적 취약성, 원자화 및 성별 대립을 심화시킬 수 있습니다. 기사는 AI가 잡다한 일을 처리하여 인간의 시간을 해방시키는 동시에, 그 본성상 인간을 편안한 영역과 최종 환상 속에 가두어 개인의 성장과 실제 인간 관계를 방해하고, 결국 인간을 더욱 고독하게 만들고 AI에 의해 “정복”될 수 있다고 주장합니다. (출처: 周天财经)

AI与「情感茧房」:人类真正的风暴即将到来

MiniMax 전략 조정: “생산-모델 통합”에서 기술 우선으로, AI 비디오에 베팅: DeepSeek 등 경쟁 압력에 직면하여 AI 회사 MiniMax가 전략을 조정했습니다. 초기에는 “생산-모델 통합”을 고수하여 모델이 애플리케이션(예: 텍스트 모델은 MiniMax 어시스턴트, 비디오 모델은 Hailuo AI, 그리고 Talkie, Xingye 등)에 서비스하고, Transformer 기본 아키텍처(선형 어텐션) 수정을 통해 효율성을 높였습니다. 창업자 Yan Junjie는 “더 나은 애플리케이션이 반드시 더 나은 모델로 이어지는 것은 아니다”라고 반성하며 회사를 “기술 주도”로 전환하여 기술 연구 개발과 제품 응용을 분리했습니다. 제품 측면에서 MiniMax는 비디오 생성을 위해 “Hailuo” 브랜드에 집중하고, 기존 “Hailuo AI”는 “MiniMax”로 이름을 변경했으며, AI 비디오 생성 회사 Luying Technology(산하에 2차원 플랫폼 YoYo 보유)를 인수할 것이라는 소문이 있습니다. 이는 주요 수입원인 Talkie(AI 동반 앱)가 해외 시장에서 서비스 중단 위험에 직면하여 새로운 성장 동력을 찾아야 하기 때문일 수 있습니다. 동시에 MiniMax는 B2B 사업에 힘쓰기 시작하여 스마트 하드웨어 산업 혁신 연맹을 설립했지만, B2B 사업은 여전히 취약하여 도전에 직면해 있습니다. (출처: guangzi0088)

MiniMax没有B计划

Great Wall Motor와 Unitree Technology, “오프로드 차량 + 로봇 개” 협력 탐색: Great Wall Motor가 로봇 회사 Unitree Technology와 전략적 협력을 체결하고 로봇 기술, 스마트 제조 등 분야에서 협력하기로 했습니다. 첫 단계 협력은 “오프로드 차량 + 로봇 개”의 응용 시나리오를 중심으로 장비 운송, 야외 탐험 동반 등 가능성을 탐색할 것입니다. 기사는 자동차 산업에서 로봇(특히 휴머노이드 로봇)의 응용에 대해 논의하며, 현재 자동차 공장에서 로봇은 주로 “보조 역할”(예: 무거운 물건 운반)을 수행하며, 유연성과 적응성이 여전히 부족하여 인간을 대체하기는 비현실적이라고 평가합니다. 반면 “차량 + 로봇” 시나리오 확장(BYD의 “자동차 + 드론”과 유사)은 자동차 사용 범위를 넓히는 것을 목표로 합니다. “오프로드 차량 + 로봇 개”에 대해 기사는 하드코어 오프로드 애호가나 특정 산업(예: 야외 구조)에 잠재적 가치(예: 장비 운송, 길 찾기)가 있다고 보지만, 높은 비용, 틈새 수요, 기술 성숙도 등의 문제로 보급에 어려움이 있으며, 현재는 필수적인 요구라기보다는 미래 야외 스마트 시나리오에 대한 탐색에 가깝다고 평가합니다. (출처: 电车通)

长城和宇树牵手,「越野车+机器狗」画风清奇,是噱头还是刚需?

Llama 4 아키텍처, Mac 사용자 특정 워크플로우 적합성 논의: Mac Studio 사용자(M3 Ultra, 512GB RAM)가 Llama 4 Maverick 모델이 자신의 워크플로우에 어떻게 적합한지 공유했습니다. 이 사용자는 다단계 반복 및 검증 워크플로우를 통해 LLM 성능을 향상시키는 것을 선호하지만, 이전에는 Mac에서 대형 모델(32B-70B)을 실행하는 속도가 너무 느렸고(최대 20-30분 소요), 소형 모델(8-14B)은 속도는 빠르지만 품질이 만족스럽지 못했습니다. Llama 4 Maverick은 파라미터 수가 크고(400B) 많은 메모리가 필요하지만(Mac이 마침 충족), MoE 아키텍처 덕분에 실제 실행 속도는 17B 모델에 가깝습니다(Q8 양자화 시 약 16.8 T/s 생성 속도). 이러한 “메모리 점유율은 크지만 속도는 상대적으로 빠른” 특성은 Mac 사용자의 “메모리는 충분하지만 속도는 제한적인” 문제점을 정확히 해결하여, 해당 모델의 전반적인 평가가 높지 않고 토크나이저 문제가 있을 수 있음에도 불구하고 이 사용자의 특정 워크플로우에 이상적인 선택이 되었습니다. (출처: Reddit r/LocalLLaMA)

💡 기타

구글 Gemini, Deep Research 기능 업그레이드: 구글 DeepMind CEO Demis Hassabis는 Gemini 앱(Gemini Advanced 구독 필요)의 Deep Research 기능이 이제 Gemini 2.5 Pro 모델로 구동된다고 발표했습니다. 구글은 이것이 시장에서 가장 강력한 심층 연구 능력이며, 차선 경쟁 제품에 비해 2:1의 사용자 선호도를 보인다고 밝혔습니다. 업그레이드된 Deep Research는 정보를 더 잘 분석하여 거의 모든 주제에 대한 심층 보고서를 사용자에게 생성할 수 있습니다. (출처: demishassabis)

demishassabis

GPT-4o를 이용하여 사진을 레이어드된 종이 공예 스타일로 변환: 사용자가 GPT-4o 또는 Sora를 사용하여 일반 사진을 레이어 효과가 있는 종이 공예(cut paper art) 스타일 이미지로 변환하는 프롬프트 팁을 공유했습니다. 핵심 아이디어는 모델에게 사진의 중간 배경과 배경을 식별하고 분리하도록 요청한 다음, 레이어드된 종이 공예 스타일을 적용하여 다시 그리고, 선택적으로 제목을 추가하는 것입니다. 예시는 시카고 도시 사진을 “2016년 시카고”라는 제목이 있는 종이 공예 스타일 작품으로 성공적으로 변환한 것을 보여줍니다. (출처: dotey)

dotey

GPT-4o를 이용하여 날짜 기반 패션 캘린더 일러스트 생성: 사용자가 GPT-4o를 사용하여 중국 황력(黃曆) 스타일의 패션 캘린더 일러스트를 생성하는 프롬프트 템플릿과 방법을 공유했습니다. 이 방법은 두 단계로 이루어집니다: 첫 번째 단계는 날짜를 입력하여 모델이 해당 황력 정보(요일, 음력, 공휴일, 길흉, 격려 문구)와 계절별 인물 복장 설명을 검색하고, 템플릿을 기반으로 상세한 이미지 생성 프롬프트를 생성하도록 합니다. 두 번째 단계는 모델이 생성된 프롬프트에 따라 이미지를 그리도록 합니다. 템플릿은 이미지가 세로(9:16)의 산뜻한 손그림 일러스트 스타일이어야 하며, 패셔너블하고 귀여운 여성 이미지, 눈에 띄는 양력 날짜, 영어 월, 중/영문 요일, 음력 날짜, 공휴일, 세로로 배열된 “길(宜)”한 일 및 격려 문구를 포함하고, 여백과 레이아웃에 주의하도록 요구합니다. 예시는 이 방법에 따라 생성된 새해 첫날 캘린더 일러스트를 보여줍니다. (출처: dotey)

dotey