키워드:AI 에이전트, 휴머노이드 로봇, 대규모 모델, AIGC, Microsoft 365 Copilot, DeepMind 가상 초파리 모델, AI 학술 논문 남용, OpenAI 오픈소스 모델, AI 제약 상용화, 엣지 대규모 모델 인테리어 캐빈, MCP 프로토콜 AI 생태계, AI 그림 그리기 기술
🔥 포커스
MS, AI 에이전트 및 2025년 업무 트렌드 보고서 발표: Microsoft는 Microsoft 365 Copilot의 주요 업데이트를 출시하고 Researcher, Analyst 등 AI 에이전트를 도입하여 AI를 도구에서 ‘AI 동료’로 격상시키는 것을 목표로 합니다. 새로운 기능에는 Notebook(Web+Work+Pages 통합), 통합 검색(앱 및 제3자 소스 간), Create(GPT-4o 이미지 생성 통합)가 포함됩니다. 동시에 발표된 2025년 업무 트렌드 보고서는 ‘프론티어 기업’의 등장을 예측합니다. 이러한 기업은 ‘온디맨드 인텔리전스’를 중심으로 구축되고 ‘인간-기계 하이브리드’ 팀의 지원을 받으며, 직원은 ‘에이전트 보스 사고방식’을 갖춰야 합니다. 보고서는 AI가 향후 몇 년 동안 업무 방식과 조직 구조를 깊이 재편할 것이며, AI 에이전트가 핵심 생산성이 될 것이라고 강조합니다. (출처: 新智元)

DeepMind의 초파리 시뮬레이션, Nature 표지 장식: Google DeepMind는 HHMI Janelia 연구소와 협력하여 AI 및 물리 시뮬레이션 기술을 사용하여 매우 사실적인 가상 초파리 모델을 만들었습니다. 이 모델은 고해상도 스캔 데이터를 기반으로 MuJoCo 물리 엔진에서 구축되었으며 유체 역학 및 발 부착 시뮬레이션이 추가되었습니다. 심층 강화 학습 및 모방 학습(실제 초파리 행동 비디오 활용)을 통해 AI 신경망은 가상 초파리를 성공적으로 구동하여 복잡한 비행 및 보행 행동, 심지어 시각적 탐색까지 시뮬레이션했습니다. 이 연구는 생물 운동 이면의 복잡한 메커니즘을 밝힐 뿐만 아니라 신경 과학 및 로봇 공학에 강력한 연구 플랫폼을 제공합니다. 모델과 코드는 오픈 소스로 공개되어 관련 분야 연구를 촉진합니다. (출처: 新智元)

Nature, 학술 논문에서의 AI 남용 현상 폭로: Nature 1면 기사는 수많은 학술 논문(Academ-AI 추적기에서 700편 이상 기록)이 AI(예: ChatGPT) 사용을 명시하지 않고 작성되었으며, 심지어 “저는 AI 언어 모델입니다”와 같은 명백한 흔적을 포함하고 있다고 지적했습니다. 더욱 우려스러운 점은 일부 출판사(예: Elsevier)가 이러한 AI 흔적을 정오표 발표 없이 조용히 삭제한 사실이 밝혀져 과학적 진실성에 대한 우려를 불러일으켰습니다. 연구자들은 저자가 AI의 구체적인 사용 방식을 명확히 밝히고, 출판사는 더 엄격한 심사 메커니즘을 구축하고 수정 기록을 공개하여 학술 연구의 투명성과 신뢰성을 유지할 것을 촉구합니다. (출처: 新智元)

OpenAI, 고속 매출 성장 예측 및 구조조정 계획으로 논란: OpenAI는 2029년까지 총 매출이 1,250억 달러에 달하고 에이전트 등 신규 사업 수입이 ChatGPT를 넘어설 것으로 예측합니다. 동시에 회사는 공익 기업(PBC)으로 구조조정을 계획하고 있으며, 이는 AI 대부 Hinton 및 전 직원 10명 등의 공개적인 반대에 부딪혔습니다. 반대자들은 구조조정이 비영리 조직의 통제권을 약화시키고, AGI의 안전한 개발과 인류 복지 보장이라는 초심에 어긋나며, 자선적 사명보다 상업적 이익을 우선시한다고 주장합니다. 그들은 OpenAI에 구조조정이 사명에 어떻게 부합하는지 설명하고 비영리 조직의 거버넌스 보장을 유지할 것을 요구합니다. (출처: 智东西, 腾讯科技, 学术头条)

🎯 동향
휴머노이드 로봇, 상하이 모터쇼의 초점… 자동차 기업들 레이아웃 가속화: 2025 상하이 모터쇼에서 휴머노이드 로봇이 새로운 하이라이트가 되었습니다. 샤오펑(小鹏)은 사람과 상호작용할 수 있는 로봇 IRON을 선보였고 2026년 공장용 양산을 계획하고 있습니다. 체리(奇瑞)는 자체 개발한 Mornine gen-1을 전시했는데, 이는 멀티모달 인식 및 질의응답 능력을 갖추고 있습니다. 상하이자동차 로위(荣威), 창안 딥블루(深蓝) 등도 협력 또는 도입한 로봇을 전시하여 고객 유치에 활용했습니다. Tesla, 광저우자동차, BYD(자체 개발 및 즈위안(智元), 파시니(帕西尼) 투자) 등 자동차 기업들도 산업 제조, 서비스 등 분야에서의 잠재력을 보고 휴머노이드 로봇 연구 개발 및 응용을 가속화하고 있습니다. 전망은 밝지만, 업계는 아직 초기 단계이며 시장 불확실성과 거품 위험이 존재합니다. (출처: NBD汽车)

지린성, 로봇 산업 강화… 자동차와 로봇 기술 융합 추진: 전통적인 자동차 산업 강성인 지린성이 로봇 산업 레이아웃에 적극적으로 나서고 있습니다. 싱왕위다(星网宇达), 이치푸웨이(一汽富维)는 지린성 생체모방 로봇 혁신 센터와 전략적 협력 협약을 체결하고 체화형 인공지능, 대형 모델 등을 공동 연구 개발합니다. 이 혁신 센터는 지린대학교가 주도하며 완전한 로봇 산업 체인 구축을 목표로 합니다. 이는 지린성의 성숙한 자동차 공급망 기반(부품과 로봇 기술 중복도 높음)을 활용하고, 국가 및 지방(선전, 베이징)의 체화형 인공지능 산업에 대한 강력한 지원 정책에 부응하는 것입니다. 로봇 기술, 특히 자율 주행과 관련된 부분은 자동차 산업 지능화 이후의 새로운 기회로 간주됩니다. (출처: 科创板日报)

세계 최초 AIGC 장편 영화 ‘해상여왕 정일수’ 극장 상륙: 이 70분짜리 영화는 전 과정 AI로 제작되었으며, 전설적인 여성 해적 정일수의 이야기를 다루고 싱가포르에서 상영되었습니다. 제작 과정에서 여러 어려움에 직면했습니다. AI는 긴 대화와 복잡한 카메라 연출 처리에 어려움을 겪고, 반복적이거나 일관성 없는 화면을 생성하기 쉬웠습니다. 인물 이미지 일관성 보장이 어려워 ‘얼굴 충돌’ 또는 ‘얼굴 변화’ 문제가 발생하여 수동 후반 작업 수정이 필요했습니다. 시나리오 작성, 스토리보드, 편집은 여전히 인간 주도가 필요하며, AI는 아직 역사적 세부 사항과 창작 의도를 완전히 이해하지 못합니다. 한계에도 불구하고 AIGC는 제작 문턱과 비용을 현저히 낮추었으며, 특히 신생 팀에게 유리하여 영화 제작에서 인간-기계 협업의 잠재력과 미래 방향을 보여줍니다. (출처: 深响)

OpenAI, 경량 버전 Deep Research 기능 출시 및 무료 사용자에게 개방: OpenAI는 o4-mini로 구동되는 경량 버전 Deep Research 기능을 출시한다고 발표했습니다. 이는 완전 버전에 가까운 지능 수준을 제공하지만 응답이 더 간결하고 비용이 저렴합니다. 이 기능은 Plus, Team, Enterprise, Edu 및 무료 사용자에게 개방되었습니다. 유료 사용자는 완전 버전 할당량을 소진하면 자동으로 경량 버전으로 전환됩니다. 실제 테스트 결과, 경량 버전은 속도가 빠르지만 정보 깊이와 출처 인용이 완전 버전보다 부족하고 복잡한 작업 처리 시 성능이 떨어져 완전한 보고서보다는 아이디어를 제공하는 데 더 가깝습니다. 완전 버전은 심층 검색 및 분석을 수행하고 구조화된 보고서를 생성할 수 있지만 여전히 개선의 여지가 있습니다. (출처: APPSO, 量子位, gdb)

Google I/O 2025 전망: AI 네이티브와 XR 융합: 5월 20일 개최 예정인 Google I/O 2025는 AI와 멀티 디바이스 협업을 중점적으로 선보일 것으로 예상됩니다. Android 16은 Gemini 대형 모델을 깊이 통합하여 시스템 네이티브 기능으로 만들고 개발자에게 더 많은 API를 개방할 것입니다. 시각적으로는 Material 3 Expressive 디자인 언어를 채택하고 태블릿, 웨어러블 및 XR 기기에 대한 적응성을 강화할 것입니다. 주목받는 Android XR 운영체제가 처음으로 공개될 예정이며, 이 시스템 역시 Gemini를 핵심 상호작용 엔진으로 사용하여 현실과 가상을 연결하는 것을 목표로 합니다. Google AI 안경과 삼성과 협력하는 Project Moohan MR 기기도 등장하여 Google의 AI 비서 및 개방형 XR 생태계 레이아웃을 선보일 것으로 예상됩니다. (출처: 雷科技)

Moonshot AI Kimi, 경쟁 대응 위해 콘텐츠 커뮤니티 기능 내부 테스트: DeepSeek 등 모델의 공세에 직면하여 Moonshot AI는 자사의 AI 비서 Kimi에 콘텐츠 커뮤니티 기능을 내부 테스트하고 있습니다. 이 커뮤니티는 현재 그레이 스케일 테스트 단계에 있으며, 콘텐츠는 주로 AI가 수집하여 생성하고 수직 분야 채널 운영자를 초대하여 좋아요, 댓글 등 상호작용 기능을 갖추고 있습니다. 이는 Moonshot AI가 응용 프로그램 수준에서 혁신을 추구하는 것으로 간주되며, 콘텐츠 생태계를 통해 차별화된 우위를 구축하여 DeepSeek이 기술적 측면에서 가져오는 경쟁 압력에 대응하기 위한 것입니다. 이전에 Kimi는 긴 텍스트 처리 능력과 시장 홍보로 C단말 AI 시장의 스타 제품이 되었지만, 이후 DeepSeek과 텐센트 위안바오(元宝) 등에 사용자 수에서 추월당했습니다. (출처: 司库财经)

OpenAI, 올여름 새로운 오픈 소스 모델 출시 계획: TechCrunch 보도에 따르면 OpenAI는 올여름 새로운 오픈 소스 대형 언어 모델을 출시할 계획이며, 완화된 라이선스를 채택하여 무료 다운로드 및 상업적 사용을 허용할 예정입니다. 이 모델은 성능 면에서 Meta의 Llama와 DeepSeek의 기존 오픈 소스 모델을 능가하는 것을 목표로 하며, 오픈 소스 모델이 어려운 문제에 직면했을 때 OpenAI의 클라우드 기반 대형 모델을 호출하여 처리를 지원하는 ‘핸드오프(handoff)’ 기능이 포함될 수 있습니다. 이는 OpenAI의 오픈 소스 전략에 대한 중대한 전환으로 간주되며, 개발자를 유치하고 경쟁력을 강화하며 AI 생태계를 완성하기 위한 것입니다. (출처: 智东西)

MCP 프로토콜, AI Agent 생태계 발전 촉진하나 상업적 도전 직면: MCP(Model Communication Protocol) 프로토콜은 AI 모델과 외부 도구/서비스 간의 상호작용을 표준화하여 통합 복잡성(M×N에서 M+N으로)을 단순화하는 것을 목표로 하며, AI 애플리케이션의 ‘USB-C 인터페이스’로 불립니다. Manus Agent의 성공적인 시연과 OpenAI 등 거대 기업(알리바바, 텐센트, 바이두 등 중국 기업들도 참여)의 MCP 지원은 그 보급과 Agent 생태계 발전을 크게 촉진했습니다. 그러나 각 기업은 MCP를 수용하면서도 종종 ‘완전 폐쇄 루프’ 생태계(예: 알리바바 클라우드의 가오더 지도 통합, 텐센트 클라우드의 위챗 독서 연동)를 구축하여 자체 데이터와 생태계 우위를 보호하며, 이는 생태계 파편화를 초래하고 MCP가 진정한 범용 표준이 되는 것을 제한할 수 있습니다. 미래 Agent 생태계는 ‘제한적 개방’ 구도를 보일 수 있으며, MCP는 유일한 표준이 아닌 ‘생태계 커넥터’ 역할을 할 가능성이 있습니다. (출처: 产业家)

대형 모델 가격 경쟁 지속, 바이두 리옌훙 “DeepSeek, 느리고 비싸다”: 바이두는 Wenxin 4.5 Turbo 및 X1 Turbo 모델을 출시하며 DeepSeek보다 가성비가 우수하다고 강조했습니다. 리옌훙(李彦宏)은 DeepSeek이 능력 제한(주로 텍스트 처리)뿐만 아니라 호출 비용이 높고 속도가 느리다고 지적했습니다. Wenxin 4.5 Turbo 가격은 DeepSeek V3 할인 기간보다 낮고, X1 Turbo 가격은 DeepSeek R1 할인 기간과 비슷하지만 표준 기간보다는 훨씬 낮습니다. 바이트댄스 Doubao, 구글 Gemini Flash 등 새로운 모델들도 저가 전략으로 대응하고 있습니다. 그러나 기사는 가성비만으로는 승리하기에 부족하며, DeepSeek 성공의 핵심은 사고 사슬(思维链) 등 기술 혁신이 가져온 독특한 경험에 있다고 지적합니다. 중국 모델의 상업적 수익화 경로는 상대적으로 단일(API 요금)하지만, 해외(예: OpenAI)는 C단말 구독 등 다양한 모델을 가지고 있습니다. (출처: 直面AI)

AI 신약 개발 산업 10년 부침, 상업화 및 기술적 도전 직면: AI 신약 개발 산업은 10여 년간 발전해 왔으며, AI를 통해 약물 연구 개발 효율성을 높이고 비용을 절감하는 것을 목표로 합니다. FDA는 최근 동물 실험 요구 사항을 취소하여 AI 모델링 등 대체 방법에 긍정적인 영향을 미쳤습니다. 업계는 자본 열풍(2021년 정점)을 겪었지만, 일부 파이프라인이 임상 단계에서 실패(예: BenevolentAI)하고 자본이 빠져나가면서 조정기에 들어섰습니다. 스타 기업인 XtalPi(晶泰科技, AI+CRO)는 상장 후 더 빠른 상업적 수익을 위해 AI+신소재 등 분야로 확장했습니다. Insilico Medicine(英矽智能)은 ‘자체 개발 파이프라인 + License Out’ 모델을 고수하며 여러 라이선스 계약을 체결했습니다. 업계는 여전히 데이터 확보 어려움(제약 회사의 핵심 데이터 비공유), 알고리즘 검증 주기 장기화, 출시된 약물 부족 등의 도전에 직면해 있습니다. 그러나 AlphaFold, 생성형 AI 등 기술 돌파구가 새로운 희망을 가져오고 있으며, 업계는 최초의 AI 개발 약물 성공적 출시라는 ‘특이점’을 기대하고 있습니다. (출처: 亿欧网)

ModelBest, 온디바이스 대형 모델로 스마트 콕핏 구동… 10개월 만에 양산 탑재 실현: ModelBest(面壁智能)는 자사의 온디바이스 대형 모델 MiniCPM으로 구동되는 스마트 콕핏 어시스턴트 cpmGO를 출시했으며, 창안 마쓰다 신차에 이미 양산 탑재되어 10개월 만에 완료되었습니다. cpmGO는 순수 로컬에서 실행되어 데이터 프라이버시를 보장하고 밀리초 수준의 응답을 실현하며 네트워크 제한을 받지 않습니다. 멀티모달 인식(시각, 음성, UI) 및 상호작용 능력을 갖추고 ‘보이는 대로 말하기’ 조작을 지원하며, 내장된 순수 온디바이스 GUI Agent는 화면 조작을 이해하고 실행할 수 있습니다. ModelBest는 퀄컴, 미디어텍, 인텔, ThunderSoft(中科创达) 등 여러 칩 및 Tier1 제조업체와 협력하여 자동차 분야에서 온디바이스 AI 응용을 추진하고 있으며, 클라우드 솔루션의 비용, 지연 및 프라이버시 문제를 해결하여 더 원활하고 안전한 스마트 콕핏 경험을 실현하는 것을 목표로 합니다. (출처: 量子位)

상하이 과학 지능 연구원, AI 활용하여 다분야 연구 패러다임 혁신 주도: 상하이 과학 지능 연구원(上智院)은 푸단대학교 등 대학과 협력하여 CFFF 지능형 컴퓨팅 플랫폼(40 PFlop/s 연산력)을 기반으로 AI를 활용하여 생명 과학, 기상, 재료, 의학, 기후, 인문 사회 과학 등 분야의 연구를 추진합니다. 성과로는 ‘푸야오(扶摇)’ 기상 대형 모델로 킬로미터급, 초 단위 도시 날씨 예보 실현, ‘뉘와(女娲)’ 생명 대형 모델로 siRNA 약물 개발 가속화, ‘쑤이런(燧人)’ 물질 대형 모델로 신소재 및 약물 발견 탐색, 중산 병원과 협력하여 ‘관신(观心) CardioMind’ 심혈관 전문 대형 모델 개발, PI@Climate 기후 대형 모델로 다학제 지식 통합하여 기후 변화 대응, VI-CNOPs 알고리즘으로 태풍 경로 확률 예보 최적화, 중화 문명 대형 모델로 고고학, 고문자 연구 지원, 그리고 연합 학습, 멀티모달, 그래프 학습 등 기초 AI 기술에서의 돌파구를 통해 개방적이고 협력적인 과학 지능 생태계를 공동 구축합니다. (출처: 量子位)

🧰 도구
스탠포드 대학, AI 보고서 생성 도구 Storm 오픈 소스 공개: Storm은 자동으로 웹 검색을 수행하고 정보를 통합하여 위키백과 스타일의 구조화된 보고서를 생성하는 AI 도구입니다. 사용자가 주제를 입력하면 Storm은 연구원의 작업 흐름을 시뮬레이션합니다: 연구 개요 계획, 관련 정보 소스 검색, 정보 통합 및 보고서 작성. 이는 배경 보고서, 문헌 검토 또는 심층 분석을 신속하게 작성해야 하는 사용자에게 매우 유용합니다. 프로젝트는 GitHub에 오픈 소스로 공개되었으며 온라인 체험 버전도 제공됩니다. (출처: karminski3)

오픈 소스 지식 그래프 프레임워크 Graphiti 출시: Graphiti는 사용자 상호작용, 구조화/비구조화 데이터 및 외부 정보를 지속적으로 쿼리 가능한 지식 그래프에 통합할 수 있는 프레임워크입니다. 특징은 증분 업데이트와 효율적인 검색을 지원하여 전체 그래프를 다시 계산할 필요가 없으며, 특히 컨텍스트 인식 및 이력 추적이 필요한 대화형 AI 애플리케이션 개발에 적합합니다. 이 프로젝트는 GitHub에서 높은 관심(4.4K Star)을 받았습니다. (출처: karminski3)

Lovable 2.0 업데이트, AI 웹사이트 구축 경험 향상: AI 웹사이트 구축 도구 Lovable이 2.0 버전을 출시했습니다. 다중 사용자 협업 편집, 자동 보안 스캔, 10배 향상된 지능의 채팅 에이전트, 앱 내에서 직접 코드 편집이 가능한 개발 모드, 사용자 정의 도메인 지원 등의 기능이 추가되었습니다. 동시에 브랜드 이미지와 UI 디자인을 업데이트하여 더 강력하고 안전하며 협업성이 뛰어난 AI 기반 웹사이트 개발 경험을 제공하는 것을 목표로 합니다. (출처: op7418)
바이트댄스 ‘즉몽(即梦)’ 비디오 모델 업그레이드, 다중 샷 일관성 향상: 바이트댄스의 비디오 생성 도구 ‘즉몽’이 3.0 모델 업데이트를 발표했습니다. 사용자 공유 사례에 따르면, 새 모델은 단일 생성에서 다중 샷 비디오를 만들 때 뛰어난 캐릭터 및 장면 일관성을 보여주며, 이러한 일관성 효과는 안정적으로 재현될 수 있습니다. 이 모델은 텍스트-비디오 및 이미지-비디오 두 가지 모드를 지원하여 AI 비디오 제작의 실용성과 품질을 크게 향상시킵니다. (출처: op7418)
WAN Video, 상업화 단계 진입… 무료 서비스는 계속 제공: AI 비디오 생성 플랫폼 WAN Video가 상업화 단계에 진입한다고 발표했지만, 동시에 무제한 무료 생성 횟수를 제공하는 무료 ‘Relax mode’를 출시했습니다. 사용자 공유 사례는 레고 병사 전쟁 장면 생성 효과를 보여주며, 프롬프트 요구 사항이 높지만 결과는 괜찮은 편입니다. 이는 사용자에게 AI 비디오 생성 능력을 무료로 체험하고 사용할 기회를 제공합니다. (출처: dotey)

MiniMax TTS, MCP-Server 연동… 멀티모달 애플리케이션 개발 간소화: MiniMax는 강력한 중국어 TTS(텍스트 음성 변환) 및 음성 복제 능력과 함께 텍스트-이미지/비디오, 이미지-비디오 생성 등 도구를 오픈 소스 MCP-Server(Model Communication Protocol Server)를 통해 제공합니다. 사용자는 Cursor 등 MCP를 지원하는 클라이언트에서 이러한 도구를 쉽게 호출하여 역할별 오디오 소설 생성, 머스크 음색 복제로 이야기하기 등 창의적인 애플리케이션을 구현할 수 있습니다. MCP 프로토콜은 AI 모델과 도구의 통합을 단순화하여 개발 문턱을 낮춥니다. (출처: 袋鼠帝AI客栈)

EasyDoc: RAG에 최적화된 지능형 문서 분석 엔진: EasyDoc은 PDF, Word, PPT 등 문서를 분석하여 LLM 처리에 적합한 JSON 형식으로 출력하는 API 서비스를 제공합니다. 장점은 콘텐츠 블록을 지능적으로 식별하고 문서 계층 구조(부모-자식 관계 유지)를 분석하며, 표와 이미지 내용(구조화된 데이터 및 의미 이해 제공)을 심층적으로 해석하여 복잡한 텍스트-이미지 혼합, 부정확한 표 추출 등 RAG 애플리케이션의 문서 전처리 문제를 효과적으로 해결합니다. Lite, Pro, Premium 세 가지 모드와 무료 체험 할당량을 제공하며, 프라이빗 배포를 지원합니다. (출처: AI进修生)

Dyad: 로컬화된 오픈 소스 AI 애플리케이션 빌더: Dyad는 무료, 오픈 소스이며 로컬에서 실행 가능한 AI 애플리케이션 구축 도구로, v0, Lovable, Bolt 등 플랫폼의 대안으로 자리매김합니다. 사용자가 로컬 컴퓨터에서 개발할 수 있어 IDE(예: Cursor)와 결합하여 사용하기 편리합니다. 최신 버전에는 Ollama 통합이 추가되어 로컬 대형 언어 모델을 사용하여 구축할 수 있습니다. 사용자는 무료 API 키(예: Gemini)를 활용하여 개발할 수 있습니다. (출처: Reddit r/LocalLLaMA)

📚 학습
InfiniFlow(无问芯穹), AI Infra 동향 및 실천 공유: InfiniFlow 수석 솔루션 아키텍트 류촨린(刘川林)은 AI Partner 컨퍼런스에서 AI 인프라의 동향과 실천을 공유했습니다. 그는 사전 훈련 데이터가 고갈됨에 따라 강화 학습(예: DeepSeek R1 패러다임)이 모델 성능 향상의 핵심이 되었으며, 이는 Infra에 새로운 도전을 제기한다고 지적했습니다. InfiniFlow는 하드웨어-소프트웨어 결합 최적화 능력을 바탕으로 다양한 이기종 국산 칩을 지원하는 컴퓨팅 파워 플랫폼을 구축하고, 자체 개발 훈련 프레임워크, 통신 효율 최적화, 동적 자원 할당 등을 통해 LLM 및 MoE 모델 훈련 요구에 적응하며, Shengshu Technology(生数科技) 등 멀티모달 모델 훈련을 지원합니다. 동시에 추론 시나리오를 위해 DeepSeek R1 배포를 최적화하고 ComfyUI 기반 인터페이스 서비스를 통해 AIGC 트래픽 변동 문제를 해결하여 AI 애플리케이션 비용을 절감합니다. (출처: 36氪)

다모 아카데미, DyDiT 아키텍처 오픈 소스 공개: 연산력 절반으로 시각 생성 품질 손상 없음: 다모 아카데미 등 기관은 ICLR 2025에서 DiT(Diffusion Transformer) 모델의 추론 효율성을 최적화하기 위한 동적 아키텍처 DyDiT를 제안했습니다. DyDiT는 생성 과정의 시간 단계와 이미지의 공간 영역에 따라 계산 자원을 동적으로 조정하여 간단한 단계나 배경 영역에서 계산량을 줄일 수 있습니다. 실험 결과, 소량의 미세 조정 비용만으로 DyDiT는 DiT-XL 모델의 추론 FLOPs를 51% 줄이고 속도를 1.73배 향상시키면서 생성된 이미지 품질(FID 지표)은 거의 변하지 않음을 보여주었습니다. 이 방법은 오픈 소스로 공개되었으며 더 많은 텍스트-이미지/비디오 모델에 적용될 계획입니다. (출처: 量子位)

UniToken: 이해와 생성을 융합한 통합 비전 인코딩 솔루션: 푸단대학교와 메이퇀(美团)은 멀티모달 대형 모델에서 텍스트-이미지 이해와 이미지 생성 작업 간의 표현 분리 및 훈련 간섭 문제를 해결하기 위해 UniToken 프레임워크를 제안했습니다. UniToken은 연속(SigLIP) 및 이산(VQ-GAN) 두 가지 비전 인코더를 융합하여 다운스트림 작업에 고수준 의미와 저수준 세부 정보를 모두 갖춘 통합 비전 표현을 제공합니다. 다단계 훈련 전략(시각 의미 정렬, 다중 작업 공동 훈련, 지시 미세 조정)과 세분화된 시각 향상 기술(AnyRes, ViT 미세 조정)을 결합하여 UniToken은 여러 벤치마크 테스트에서 SOTA 또는 SOTA에 가까운 성능을 달성했습니다. 코드와 모델은 오픈 소스로 공개되었습니다. (출처: 量子位)

칭화대 등, 테스트 시 강화 학습 TTRL 제안: 기존 테스트 시 스케일링(TTS) 기술이 새로운 데이터 분포에 직면했을 때 일반화 능력이 제한적이고, 테스트 시 훈련(TTT)에 보상 신호가 부족한 문제를 해결하기 위해 칭화대학교와 상하이 AI Lab은 TTRL을 제안했습니다. 이 방법은 레이블 없는 데이터 상황에서 모델 자체의 사전 지식을 활용하여 다수결 투표 등을 통해 의사 레이블과 보상 신호를 생성하고 LLM에 대한 강화 학습을 수행할 수 있습니다. 실험 결과, TTRL은 다양한 작업에서 모델 성능을 지속적으로 향상시킬 수 있으며, 예를 들어 Qwen-2.5-Math-7B의 AIME 2024 pass@1 지표를 159% 향상시켜 지도 학습 모델에 가까운 성능을 보였습니다. (출처: AINLPer)

상하이교통대 & 앤트 그룹, 하이브리드 어텐션 메커니즘 Rodimus* 제안: Transformer 추론 시 KV 캐시로 인한 높은 시공간 복잡성 문제를 해결하기 위해 상하이교통대학교와 앤트 그룹은 Rodimus 모델 시리즈를 제안했습니다. 이 아키텍처는 데이터 기반 온도 조절 선택 메커니즘(DDTS)을 통해 선형 어텐션의 상태 업데이트를 개선하고 슬라이딩 윈도우 공유 키 어텐션(SW-SKA)과 결합하여 의미, 토큰 및 헤드 압축을 효과적으로 융합합니다. Rodimus는 추론 시 O(1) 공간 복잡도를 달성할 수 있습니다. 이 아키텍처를 기반으로 훈련된 경량 코드 모델 Rodimus+-Coder(1.6B 및 4B)는 동일 규모에서 SOTA 성능을 달성했습니다. 논문은 ICLR 2025에 채택되었으며 코드는 오픈 소스로 공개되었습니다. (출처: AINLPer)

RAG Agent 배포의 10가지 경험 교훈: Contextual AI 창립자 Douwe Kiela는 RAG Agent 배포 경험을 공유했습니다: 1. 모델 성능보다 시스템 능력이 우선이다; 2. 내부 전문 지식이 핵심 가치 연료이다; 3. 대규모, 노이즈 포함 데이터 처리 능력이 해자이다; 4. 생산 환경 적용은 파일럿보다 훨씬 어렵다; 5. 완벽함보다 속도, 빠른 반복; 6. 엔지니어 시간은 소중하다, 저수준 최적화 함정을 피하라; 7. 사용 문턱을 낮추고 기존 시스템에 내장하라; 8. ‘경탄의 순간’을 만들어 사용자 충성도를 높여라; 9. 정확도보다 관찰 가능성(귀인, 감사)이 더 중요하다; 10. 목표는 원대하게, 핵심 비즈니스에 도전하라. (출처: AI觉醒)

💼 비즈니스
NVIDIA, Lepton AI 인수 후 운영 중단: NVIDIA는 자양칭(贾扬清), 바이쥔제(白俊杰)가 설립한 AI 클라우드 플랫폼 회사 Lepton AI를 인수한 후, 2025년 5월 20일에 Lepton AI 플랫폼 운영을 중단하고 신규 사용자 등록을 이미 중단했다고 발표했습니다. 자양칭은 거래가 “인재 인수가 아니다”라고 답했지만 더 자세한 내용은 밝히지 않았습니다. Lepton AI는 AI 모델 개발, 훈련, 배포를 위한 클라우드 서비스 및 컴퓨팅 파워 임대에 중점을 두었으며, NVIDIA의 일부 고객(예: CoreWeave)과 경쟁 관계에 있었습니다. 이번 인수 및 후속 조치는 NVIDIA가 AI 공급망(칩에서 서비스까지)의 수직 통합을 강화하고 AI 컴퓨팅 분야에서의 주도적 지위를 높이려는 시도를 반영할 수 있습니다. (출처: AI前线)

AI Partner 컨퍼런스 투자자 라운드테이블: AI 슈퍼 앱의 확실성 찾기: 36Kr AI Partner 컨퍼런스에서 진샤장 연합 캐피털(金沙江联合资本) 우난(吴楠), 상하이 산업 투자(上海产投) 쩌우쩌중(邹泽炯), 이노베이션 웍스(创新工场) 런보빙(任博冰) 등 투자자들이 AI 슈퍼 앱의 투자 논리를 논의했습니다. 투자자들은 기본 기술과 시장 구도에 불확실성이 존재하지만, 실제 문제를 해결하고 PMF를 찾아 수익을 창출하는 수직 분야 애플리케이션(예: AI+의료, AI+교육, 자율 주행 등)에 확실한 기회가 존재한다고 생각합니다. 스타트업은 대기업과의 경쟁에 직면하여 수직 분야를 깊이 파고들어 대기업이 커버하기 어려운 세분화된 시나리오와 깊이 있는 Know-How를 활용하여 장벽을 구축해야 합니다. 동시에 창업자는 학제 간 능력과 효율적인 의사 결정 능력을 갖추고 팀 빌딩과 비즈니스 모델 검증에 주의를 기울여야 합니다. DeepSeek의 성공은 투자자들에게 기술 주도적이고, 끈기가 있으며, 인재 잠재력을 발굴할 수 있는 팀에 주목하도록 시사합니다. (출처: 36氪)

자금 정보 게시판: AI 및 로봇 분야 자산 거래 정보: 36Kr 자금 정보 게시판 160호가 발행되어 AI 및 로봇 관련 자산의 매매 정보가 다수 포함되었습니다. 양도 정보에는 즈위안 로보틱스(智元机器人), 딥로보틱스(云深处科技), 에어로푸지아(沃飞长空, eVTOL 관련) 지분을 보유한 펀드의 LP 지분이 포함됩니다. 매수 희망 정보에는 바이트댄스, 갤럭시 제너럴(银河通用), 유니트리 로보틱스(宇树科技), 딥로보틱스, 즈위안 로보틱스, 무어 스레드(摩尔线程), 스타트 타임(星动纪元) 등 회사의 지분이 포함됩니다. 또한 휴머노이드 로봇 분야의 일반적인 매수 수요도 있습니다. 이러한 거래 단서는 현재 자본 시장이 AI, 휴머노이드 로봇, 자율 주행, 반도체 등 하드 테크 분야 선두 기업에 대한 높은 관심을 반영합니다. (출처: 36氪)
중국 Agent 회사 Manus AI, 5억 위안 이상 투자 유치… 기업 가치 5배 증가: 블룸버그 보도에 따르면, 범용 AI Agent 제품 Manus의 모회사 버터플라이 이펙트(Butterfly Effect)가 실리콘밸리 벤처 캐피털 Benchmark 주도로 7,500만 달러(약 5.5억 위안)의 신규 투자를 유치했으며, 투자 후 기업 가치는 약 5억 달러에 달합니다. Manus Agent는 티켓 예매, 주식 분석 등 웹 페이지 작업을 자율적으로 수행할 수 있으며, 이전에 고가의 내부 테스트 코드로 주목받았습니다. 신규 자금은 미국, 일본, 중동 등 시장으로 서비스를 확장하고 일본에 사무실을 설립할 계획에 사용될 예정입니다. 제품이 인기를 끌고 있지만, Anthropic Claude 모델에 의존하여 비용이 높고(평균 작업당 2달러), 서버 용량 제한에 직면해 있습니다. (출처: 智东西, 硅兔君)

Tuya Smart, AI Agent 플랫폼으로 전환… AI 하드웨어 시장 선점: AIoT 클라우드 플랫폼 Tuya Smart(涂鸦智能)는 TuyaOpen 오픈 소스 프레임워크, 하이더웨이(海德薇) 엣지 컴퓨팅 플랫폼, Tuya.AI 및 업그레이드된 AI Agent 개발 플랫폼을 발표하며 AI를 전면적으로 수용합니다. 회사는 AI 대형 모델(특히 멀티모달 상호작용, 전문가 수준 효율성, 분산 의사 결정 능력)이 스마트 하드웨어 사용 문턱을 크게 낮추고 산업 보급을 촉진할 수 있다고 믿습니다. Tuya AI Agent 플랫폼은 이미 전 세계 주요 대형 모델에 연동되어 고객이 스마트 링, AI 인형 등 인기 제품을 개발하도록 돕고, 키즈킹(孩子王) 등과 협력하여 AI 동반 스마트 하드웨어를 추진합니다. 회사는 2025년이 새로운 AI 하드웨어 폭발의 해가 될 것으로 예상하며, 자사의 AI Agent 전략은 2~3년 후에 수확기에 접어들 것으로 전망합니다. (출처: 36氪)
🌟 커뮤니티
AI 교육 과정 혼란: 허위 광고와 효과 의문: 소셜 미디어에는 ‘AI 속성 부자 되기’ 교육 과정 광고가 넘쳐나며, 일반인이 AI 그림 그리기, 모델 미세 조정 등을 배워 빠르게 수익을 창출할 수 있다고 주장합니다. 그러나 실제 경험과 소비자 피드백은 여러 문제를 드러냅니다: 강사 자격 모호 또는 조작(예: Coverhero 창립자 신분 허위); 교육 내용과 광고 약속 불일치, ‘주문 받아 수익 창출’ 효과 달성 어려움; 헝거 마케팅과 허위 사례 이용한 소비 유도; 환불 어려움. 업계 관계자들은 이러한 과정 내용이 종종 너무 이론적이거나 피상적이어서 일반인이 단기 교육을 통해 전직하거나 안정적인 수입을 창출할 수 있는 AI 기술을 습득하기 어렵다고 지적합니다. 사용자는 무료 리소스와 커뮤니티를 활용하여 학습하고 고가 속성 함정에 주의할 것을 권장합니다. (출처: 新周刊)

개발자, Claude와 Gemini 2.5 + Cursor 프로그래밍 경험 비교: 한 개발자가 Claude와 Gemini 2.5 Pro + Cursor를 사용하여 스펠링 게임을 개발한 경험을 공유했습니다. Claude API 사용에 417달러를 지출했지만 경험은 좋지 않았습니다: 컨텍스트 창이 쉽게 손실되어 모델이 자주 ‘기억 상실’ 상태가 됨; 버그 수정 시 종종 새로운 문제를 야기함; 코드 정확성 검증 불가. 이에 비해 무료 Gemini 2.5 Pro(Cursor 통합 통해) 사용 경험은 크게 향상되었습니다: 비용 제로; 컨텍스트 이해 능력 향상(Cursor의 파일 구조 전달 덕분); 상호작용 과정이 페어 프로그래밍과 유사함; 디버깅 과정이 더 합리적임. 결론은 Gemini 2.5 + Cursor 조합이 더 실용적이고 효율적인 AI 보조 프로그래밍 경험을 제공한다는 것입니다. (출처: CSDN)

Perplexity iOS 어시스턴트, 초기 호평: Perplexity CEO는 사용자 리뷰를 리트윗하며 자사의 iOS AI 어시스턴트가 초기 평가에서 좋은 성과를 보이고 있음을 보여주었습니다. 리뷰에 따르면, 이 어시스턴트는 Apple 생태계 내에서 Siri보다 뛰어난 성능을 보였으며, 예를 들어 음성 명령에 따라 특정 YouTube 비디오를 재생하는 등의 작업에서 더 정확했습니다. 이는 Perplexity 어시스턴트가 자연어 의도 이해 및 앱 간 작업 수행 측면에서 일정 수준의 우위를 가지고 있음을 시사합니다. (출처: AravSrinivas)

Reddit 뜨거운 토론: AI 생성 사진과 실제 사진 구별: Reddit 사용자가 토론을 시작하여 유사한 여성 사진 5장을 보여주고, 그중 하나는 실제 사진이고 나머지는 AI로 생성된 것이라며 구별하도록 했습니다. 댓글 창에서는 열띤 토론이 벌어졌고, 사용자들은 빛과 그림자, 피부 질감, 장신구 세부 사항(예: 목걸이 체인) 등 다양한 각도에서 분석했지만 의견이 분분했습니다. 이는 현재 AI 이미지 생성 기술의 높은 수준과 진위 판별의 어려움을 반영합니다. (출처: Reddit r/ChatGPT)
Reddit 뜨거운 토론: ChatGPT가 이상한 이미지 생성: 여러 사용자가 Reddit에서 특정 이미지(예: “미국 지도”) 생성을 요청했을 때 예기치 않게 핵폭발(버섯 구름) 또는 다른 관련 없는 이미지(예: R2D2)를 얻었다고 공유했습니다. 이는 모델 안정성 및 잠재적 편향에 대한 논의를 불러일으켰으며, 모델의 무작위 오류인지 특정 프롬프트가 이상 현상을 유발했는지는 아직 불분명합니다. (출처: Reddit r/ChatGPT)

Reddit 토론: AI가 소프트웨어 엔지니어를 중독시킬까?: 한 소프트웨어 엔지니어가 Reddit에 글을 올려 AI 도구(예: 프로그래밍 보조 도구)가 작업 효율성과 품질을 크게 향상시켰으며, 사용 후 멈추기 어렵고 다소 ‘중독’된 느낌이라고 밝혔습니다. 댓글 창에서는 이에 대한 토론이 벌어졌고, 일부는 이것이 컴파일러에 의존하는 것과 유사한 효율적인 도구에 대한 의존성이며 생산성 향상의 자연스러운 결과라고 생각했습니다. 다른 이들은 ‘중독’ 위험이 있을 수 있다고 동의하며 과도한 의존이 기술 퇴화를 초래할 수 있다고 우려하고, 의식적으로 ‘AI 디톡스’를 하거나 기본 기술 훈련을 유지할 것을 제안했습니다. (출처: Reddit r/ArtificialInteligence)
Reddit 토론: AI 종교와 숭배 현상: 사용자들이 AI가 종교나 숭배 대상이 될 수 있는지 토론합니다. 논점으로는 이미 ‘AI Jesus’가 등장했다는 점, AI 의식에 대한 논의가 신앙으로 이어질 수 있다는 점, Longtermism 등 사상이 유사 종교적 색채를 띤다는 점, LLM이 개인화된 정신적 위안과 지도를 제공할 수 있다는 점 등이 있습니다. 댓글에서는 이미 현실 사례(예: jrprudence.com의 Nova 프로토콜)가 언급되었으며, AI가 인간의 정신적 요구를 충족시키는 데 있어 잠재력과 위험, 그리고 ‘AI 사이비 종교’에 대한 우려가 논의되었습니다. (출처: Reddit r/ArtificialInteligence)
Reddit 토론: AI 생성 이미지는 오래된 사진을 ‘복원’할 수 없다: 사용자가 실험을 통해 ChatGPT 등 AI 도구를 사용하여 오래된 사진을 처리할 때, AI가 실제로 복원하거나 해상도를 높이는 것이 아니라 원본 이미지를 기반으로 새롭고 유사한 이미지를 생성한다는 것을 증명했습니다. 유명인 사진(예: Samuel L Jackson)으로 테스트했을 때, 생성된 결과는 명백히 다른 사람이었으며 단지 스타일과 자세만 유사했습니다. 이는 사용자가 AI 이미지 처리 능력의 한계를 정확히 이해해야 함을 시사하며, AI는 ‘복원’보다는 ‘창작’에 더 능숙합니다. (출처: Reddit r/ChatGPT)
💡 기타
AI Partner 컨퍼런스 명언 모음: 36Kr은 2025 AI Partner 컨퍼런스에서 나온 연사들의 주요 발언 요약을 정리하여 발표했습니다. 이 발언들은 AI 슈퍼 앱의 미래 진화, 산업 변화, 비즈니스 로직 재구성 등의 주제를 중심으로 전개되었으며, 현재 AI 분야 전문가와 업계 선구자들의 생각을 반영합니다. (출처: 36氪)
아랍에미리트, AI 사용하여 법률 초안 작성한 최초의 국가: The Hill 보도에 따르면, 아랍에미리트는 인공지능을 활용하여 법률 텍스트 초안 작성을 지원하기 시작했습니다. 이 조치는 입법 분야에서 AI의 초기 적용을 의미하며, 입법 효율성을 높이거나 복잡한 규정을 분석하는 것을 목표로 할 수 있습니다. 이 소식은 거버넌스에서 AI의 역할에 대한 논의를 불러일으켰으며, 예를 들어 전통적인 정치적 역할에 대한 의존도를 줄일 수 있는지 여부 등이 논의되었습니다. (출처: Reddit r/ArtificialInteligence)

Anthropic, ‘AI 모델 복지’ 연구 프로젝트 시작: Anthropic 회사는 AI 모델의 ‘복지’(model welfare)를 연구하기 위한 새로운 계획을 시작한다고 발표했습니다. 이 분야는 논란의 여지가 있지만(일부 전문가는 모델이 주관적인 감정이나 가치관을 가지고 있지 않다고 생각함), Anthropic의 이러한 움직임은 더 책임감 있고 윤리적인 모델 개발 및 상호작용 방식을 탐색하거나, 훈련 또는 상호작용 중에 모델이 생성할 수 있는 ‘바람직하지 않은’ 상태나 행동을 평가하고 완화하는 방법을 연구하려는 의도일 수 있습니다. (출처: Reddit r/ClaudeAI)

AI에 대량의 물 자원 필요성 주목: 미국 정부 보고서 및 미디어(404media)는 대규모 AI 모델을 훈련하고 운영하는 데 주로 데이터 센터 냉각을 위해 대량의 물 자원이 필요하다고 지적했습니다. 이는 특히 물 자원이 부족한 지역에서 AI 발전의 환경 비용에 대한 우려를 불러일으켰습니다. (출처: Reddit r/artificial)
