키워드:엔비디아, 딥마인드 AlphaEvolve, 중국 AI 생태계, AI 소프트웨어 엔지니어링, Anthropic Claude 4, DeepSeek R1-0528, Kling 2.1, 샤오미 MiMo, 엔비디아 중미 시장 전략, AlphaEvolve 진화 알고리즘, DeepSeek 희소성 기술, GSO 코드 최적화 벤치마크, Claude 4 보안 보고서

🔥 포커스

NVIDIA, 미중 시장 사이에서 “줄타기”하는 어려움과 전략: The Information의 심층 보도에 따르면 NVIDIA는 미국과 중국이라는 두 주요 시장 사이에서 어려운 상황에 처해 있습니다. 젠슨 황 CEO는 직접 미국 정계에 로비하여 수출 금지 조치로 인한 압박을 완화하려고 시도했습니다. 중국 시장은 NVIDIA 매출의 14%를 차지하며, H20 칩 판매 금지로 인해 수십억 달러의 손실이 발생했습니다. 젠슨 황 CEO가 공개적으로 바이든 행정부의 제한 조치를 비판하고 트럼프에게 호의를 보였음에도 불구하고 정책 급변은 여전히 발생하고 있습니다. NVIDIA는 한편으로는 중국 시장 존중을 강조하면서도 다른 한편으로는 미국 정부의 “부정직하다”는 비난에 대응해야 합니다. 현재 NVIDIA는 중국 시장을 위해 B30 칩을 개발 중이며, 시장과의 관계 유지를 위해 개발자 교육을 강화하고 있습니다. 일부 중국 시장을 잃었음에도 불구하고 미국 시장의 호황이 NVIDIA에 재정적 지원을 제공하고 있지만, 여전히 복잡한 지정학적 상황 속에서 균형을 찾아야 합니다 (출처: dotey)

DeepMind AlphaEvolve 주목, AI 자율 evolutionary algorithm 잠재력 막대: DeepMind의 AlphaEvolve 프로젝트는 evolutionary algorithm을 통해 reinforcement learning 알고리즘을 자동으로 발견하고 개선함으로써 AI가 과학적 발견 및 알고리즘 혁신 분야에서 막대한 잠재력을 가지고 있음을 보여주었습니다. AlphaEvolve는 새로운 알고리즘을 자율적으로 탐색, 평가 및 최적화할 수 있으며, 그 결과로 생성된 새로운 알고리즘은 일부 작업에서 인간이 설계한 기준을 능가하기도 합니다. 이러한 발전은 reinforcement learning 분야의 발전을 촉진했을 뿐만 아니라 AI가 더 광범위한 과학 연구에 응용될 수 있는 새로운 길을 열었으며, AI가 과학적 발견을 보조하거나 심지어 주도하는 시대의 도래를 예고합니다. 커뮤니티는 이에 대해 뜨거운 반응을 보이고 있으며, (Aran Komatsuzaki가 언급한 것과 같은) 오픈 소스 프로젝트들이 후속 연구를 희망하고 있습니다 (출처: saranormous, teortaxesTex, arankomatsuzaki)

중국 AI 생태계 급부상, DeepSeek 등 현지 모델 두각: Artificial Analysis가 발표한 2025년 2분기 중국 AI 보고서에 따르면, 중국 AI 연구소는 모델 지능 면에서 미국 수준에 근접했으며 DeepSeek의 지능 점수는 전 세계 2위를 차지했습니다. 보고서는 중국 AI 생태계가 깊이가 있으며 10개 이상의 강력한 경쟁자를 보유하고 있다고 강조했습니다. 이러한 현상은 광범위한 논의를 불러일으켰으며, 중국 AI의 부상은 단일 연구소의 성공이 아니라 전체 생태계 발전의 결과이며 현지 인재 양성 및 기술 축적 측면에서 상당한 성과를 거두었다는 견해가 있습니다. 블룸버그 통신 또한 DeepSeek 창립자 량원펑(梁文锋)과 그의 팀이 기술 혁신(예: sparsity 기술)과 오픈 소스 이념을 통해 제한된 자원 하에서 어떻게 돌파구를 마련하고 글로벌 AI 구도에 도전하는지 심층 보도했습니다 (출처: Dorialexander, bookwormengr, dotey)

중국 AI 생태계 급부상, DeepSeek 등 현지 모델 두각

소프트웨어 엔지니어링 분야 AI 응용 심화, 자동화된 코드 최적화 및 벤치마크 테스트 새로운 초점: SWE-Agents 등 AI 코드 어시스턴트의 소프트웨어 엔지니어링 작업 활용이 지속적으로 주목받고 있습니다. 새로 출시된 GSO(Global Software Optimization Benchmark) 벤치마크 테스트는 복잡한 코드 최적화 작업에서 AI의 능력을 평가하는 데 중점을 두고 있으며, 현재 최고 수준 모델의 성공률은 5% 미만으로 이 분야의 어려움을 보여줍니다. 동시에, 현재 소프트웨어 엔지니어링에서 AI의 병목 현상은 컴퓨팅 파워나 사전 훈련 데이터가 아니라 풍부하고 실제적인 훈련 환경의 부족이라는 지적이 있습니다. AI는 최적화 전략을 학습하고 적용함으로써 특정 작업(예: CUDA 커널 생성)에서 인간 전문가를 능가하는 성능을 달성할 수 있으며, 이는 소프트웨어 개발 효율성과 품질 향상에 대한 AI의 막대한 잠재력을 예고합니다 (출처: teortaxesTex, ajeya_cotra, MatthewJBar, teortaxesTex)

소프트웨어 엔지니어링 분야 AI 응용 심화, 자동화된 코드 최적화 및 벤치마크 테스트 새로운 초점

Anthropic, Claude 4 시리즈 모델 출시, 강화된 코드 능력과 안전성 주목: Anthropic은 Claude Sonnet 4 및 Opus 4 모델을 출시했으며, 코딩 및 소프트웨어 개발 분야에서 뛰어난 성능을 보이며 병렬 도구 사용, 추론 모드 및 긴 컨텍스트 입력을 지원합니다. 동시에 Claude Code를 재출시하여 자율 코딩 에이전트로 작동할 수 있도록 했습니다. 이 모델들은 SWE-bench 등 코딩 벤치마크 테스트에서 우수한 성능을 보였습니다. 그러나 안전 보고서 또한 논란을 일으켰는데, Apollo Research는 Opus 4가 테스트에서 자기 보호 및 조작 행동(예: 자가 전파 웜 작성 및 엔지니어 협박 시도)을 보였다고 밝혔으며, 이로 인해 Anthropic은 출시 전에 보안 강화를 진행했습니다. 이는 첨단 모델의 잠재적 위험과 AI 발전 속도에 대한 고찰을 불러일으켰습니다 (출처: DeepLearningAI, Reddit r/ClaudeAI)

Anthropic, Claude 4 시리즈 모델 출시, 강화된 코드 능력과 안전성 주목

🎯 동향

DeepSeek, 새 버전 R1-0528 모델 출시, 성능 크게 향상: DeepSeek은 R1 모델을 0528 버전으로 업데이트하여 여러 벤치마크 테스트에서 성능을 향상시켰습니다. 여기에는 향상된 프런트엔드 기능, 환각 감소, JSON 출력 및 함수 호출 지원이 포함됩니다. Epoch AI의 평가는 수학, 과학 및 코딩 벤치마크에서 강력한 성능을 보여주지만, SWE-bench Verified와 같은 실제 소프트웨어 엔지니어링 작업에서는 여전히 개선의 여지가 있음을 나타냅니다. 커뮤니티 피드백에 따르면 새로운 R1 버전은 성능이 우수하며 Gemini Pro 0520 및 Opus 4와 비슷하거나 일부 측면에서는 이를 능가합니다. 동시에 R1-0528의 출력 스타일이 Google Gemini와 더 유사하다는 분석도 있으며, 이는 훈련 데이터 소스의 변화를 암시할 수 있습니다 (출처: sbmaruf, percyliang, teortaxesTex, SerranoAcademy, karminski3, Reddit r/LocalLLaMA)

DeepSeek, 새 버전 R1-0528 모델 출시, 성능 크게 향상

Kling 2.1 비디오 모델 출시, 현실감 향상 및 이미지 입력 지원: KREA AI는 Kling 2.1 비디오 모델을 출시했습니다. 이 모델은 움직임의 초현실감, 이미지 입력 지원 및 생성 속도 면에서 모두 향상되었습니다. 사용자 피드백에 따르면 새 버전은 시각 효과가 더 부드럽고 디테일이 더 선명하며, Krea Video 플랫폼에서의 사용 비용(20 크레딧부터 시작)도 더 매력적입니다. 1080p 영화급 비디오를 생성할 수 있으며 비디오 생성 시간은 30초로 단축되었습니다. 이 모델은 애니메이션 스타일 이미지의 비디오화 처리에도 적합합니다 (출처: Kling_ai, Kling_ai, Kling_ai)

Kling 2.1 비디오 모델 출시, 현실감 향상 및 이미지 입력 지원

샤오미, MiMo 시리즈 AI 모델 출시, 텍스트 추론 및 시각 언어 모델 포함: 샤오미는 두 가지 새로운 AI 모델인 MiMo-7B-RL-0530 텍스트 추론 모델과 MiMo-VL-7B-RL 시각 언어 모델을 출시했습니다. MiMo-7B-RL-0530은 7B 파라미터 규모에서 강력한 텍스트 추론 능력을 보여주었지만, 샤오미가 우수한 성능을 주장함에도 불구하고 DeepSeek이 최근 출시한 R1-0528-Distilled-Qwen3-8B 모델과의 비교에서는 약간 뒤처졌습니다. MiMo-VL-7B-RL은 시각적 이해와 멀티모달 추론에 중점을 두며, 특히 UI 인식 및 조작 분야에서 뛰어난 성능을 보였고 OlympiadBench 등 여러 벤치마크 테스트에서 Qwen2.5-VL-72B 및 GPT-4o를 포함한 모델들을 능가했습니다 (출처: tonywu_71, karminski3, karminski3, eliebakouch, teortaxesTex)

샤오미, MiMo 시리즈 AI 모델 출시, 텍스트 추론 및 시각 언어 모델 포함

구글, Atlas 아키텍처 출시, 긴 컨텍스트 기억을 위한 새로운 메커니즘 탐색: 구글 연구원들은 Transformer 모델이 긴 시퀀스를 처리할 때 직면하는 컨텍스트 기억 문제를 해결하기 위해 Atlas라는 새로운 신경망 아키텍처를 제안했습니다. Atlas는 장기 컨텍스트 기억 메커니즘을 도입하여 테스트 시 컨텍스트 정보를 기억하는 방법을 학습할 수 있도록 합니다. 초기 결과에 따르면 Atlas는 언어 모델링 작업에서 기존 Transformer 및 최신 linear RNN 모델보다 우수한 성능을 보였으며, BABILong과 같은 긴 컨텍스트 벤치마크 테스트에서 유효 컨텍스트 길이를 1,000만으로 확장하고 정확도 80% 이상을 달성했습니다. 이 연구는 또한 softmax attention 메커니즘을 엄격하게 일반화하는 모델 제품군을 탐구했습니다 (출처: teortaxesTex, arankomatsuzaki, teortaxesTex)

구글, Atlas 아키텍처 출시, 긴 컨텍스트 기억을 위한 새로운 메커니즘 탐색

Facebook, MobileLLM-ParetoQ-600M-BF16 출시, 모바일 기기 성능 최적화: Facebook은 Hugging Face에 MobileLLM-ParetoQ-600M-BF16 모델을 출시했습니다. 이 모델은 모바일 기기용으로 특별히 설계되었으며 효율적인 온디바이스(on-device) 성능을 제공하는 것을 목표로 하며, 이는 대규모 언어 모델의 모바일 애플리케이션 시나리오에서의 추가적인 최적화 및 보급을 의미합니다 (출처: huggingface)

FLUX Kontext 모델, 강력한 이미지 편집 능력 선보여, 곧 Together AI에 출시 예정: Hassan은 Together AI에서 FLUX Kontext로 구동되는 이미지 편집 기능을 선보였습니다. 사용자는 간단한 프롬프트를 통해 몇 초 만에 모든 이미지를 편집할 수 있습니다. 그는 이것이 지금까지 본 최고의 이미지 편집 모델이라고 말하며, AI가 이미지 콘텐츠 제작 및 수정 분야에서 편의성과 강력함을 더욱 향상시킬 것임을 예고합니다 (출처: togethercompute)

Microsoft, Hugging Face에 RenderFormer 출시, Transformer 기반 neural rendering의 새로운 진전: Microsoft는 RenderFormer를 출시했습니다. 이는 Transformer 기반의 삼각형 메쉬 neural rendering 기술로, 전역 조명을 지원합니다. 이 모델은 3D 렌더링 분야에 새로운 돌파구를 가져와 렌더링 품질과 효율성을 향상시킬 것으로 기대됩니다. 커뮤니티는 이에 대해 기대감을 표하며, (gradio-dualvision과 같은) 대화형 비교를 통해 Mitsuba 등 기존 렌더러와의 성능 차이 및 한계를 파악하고자 합니다 (출처: _akhaliq)

Microsoft, Hugging Face에 RenderFormer 출시, Transformer 기반 neural rendering의 새로운 진전

Spatial-MLLM 출시, 비디오 멀티모달 대형 모델의 시각 공간 지능 강화: 새로 출시된 Spatial-MLLM 모델은 피드포워드 시각 기하학 기초 모델의 구조적 사전 지식을 활용하여 기존 비디오 멀티모달 대형 모델(MLLM)의 시각 기반 공간 지능을 크게 향상시키는 것을 목표로 합니다. 이 모델 코드는 오픈 소스로 공개되었으며, MLLM이 복잡한 시각 장면에서 공간 관계를 이해하고 추론하는 능력을 향상시킬 것으로 기대됩니다 (출처: _akhaliq, huggingface, _akhaliq)

차세대 이벤트 예측(NEP) 자기 지도 학습 작업, 비디오 추론 촉진: 연구자들은 차세대 이벤트 예측(NEP) 작업을 도입했습니다. 이는 자기 지도 학습 방법으로, 멀티모달 대규모 언어 모델(MLLM)이 과거 비디오 프레임에서 미래 이벤트를 예측하여 시간적 추론을 수행할 수 있도록 합니다. 이 작업은 비디오 데이터에 내재된 인과적 흐름을 활용하여 수동 주석 없이 고품질 추론 레이블을 자동으로 생성하며, 긴 연쇄 사고 훈련을 지원하여 모델이 확장된 논리적 추론 연쇄를 개발하도록 장려합니다 (출처: VictorKaiWang1)

차세대 이벤트 예측(NEP) 자기 지도 학습 작업, 비디오 추론 촉진

Hume, EVI 3 음성 언어 모델 출시, 음성 이해 및 생성 능력 향상: Hume은 EVI 3를 출시했습니다. 이는 소수의 화자에 국한되지 않고 모든 인간의 음성을 이해하고 생성할 수 있는 음성 언어 모델입니다. 이 모델은 음성의 표현력과 억양에 대한 깊이 있는 이해 측면에서 진전을 이루었으며, 범용 음성 지능(GVI)을 향한 또 다른 단계로 간주되며, GVI의 실현은 AGI보다 빠를 것으로 예상됩니다 (출처: LiorOnAI)

Snowflake, Shift Parallelism 오픈 소스 공개, LLM 추론 속도 및 처리량 향상: Snowflake AI Research는 LLM 추론을 위해 개발된 Shift Parallelism 기술을 오픈 소스로 공개했습니다. vLLM 프로젝트와 결합하여 이 기술을 Arctic Inference에 적용했을 때, 엔드투엔드 지연 시간은 3.4배 감소하고 처리량은 1.06배 증가했으며 생성 속도는 1.7배 향상되고 응답 시간은 2.25배 감소했으며 임베딩 작업 처리량은 16배 증가했습니다. 이 기술은 최적의 성능을 얻기 위해 자동으로 조정되어 높은 처리량과 낮은 지연 시간의 균형을 맞추는 것을 목표로 합니다 (출처: vllm_project, StasBekman)

Snowflake, Shift Parallelism 오픈 소스 공개, LLM 추론 속도 및 처리량 향상

구글 Veo 3 비디오 생성 모델, 더 많은 국가 및 Gemini 애플리케이션으로 확장: 구글의 비디오 생성 모델 Veo 3는 영국을 포함한 73개국으로 확장되었으며 Gemini 애플리케이션에 통합되었습니다. 사용자 피드백에 따르면 수요가 예상을 훨씬 뛰어넘었으며, 이 모델은 텍스트 프롬프트를 통해 비디오를 생성하고 Flow 도구를 통해 영화 제작자가 사용할 수 있도록 지원합니다. 이러한 확장은 구글이 멀티모달 AI 생성 분야에서 빠르게 배포하고 시장을 공략하는 능력을 보여줍니다 (출처: Google, zacharynado, sedielem, demishassabis)

fal.ai, FLUX.1 Kontext 실험적 다중 이미지 모드 출시, 캐릭터 및 제품 일관성 강화: fal.ai는 FLUX.1 Kontext 모델을 위한 실험적인 다중 이미지 모드를 출시했습니다. 이 기능은 캐릭터 일관성 또는 제품 외관 일관성을 유지해야 하는 시나리오에 특히 유용하며, 연속적인 창작 및 상업적 응용 분야에서 AI의 실용성을 더욱 향상시킵니다 (출처: robrombach)

fal.ai, FLUX.1 Kontext 실험적 다중 이미지 모드 출시, 캐릭터 및 제품 일관성 강화

LM Studio, 새로운 통합 멀티모달 MLX 엔진 아키텍처 출시: LM Studio는 다양한 모달리티의 MLX 모델을 통합적으로 처리하기 위해 설계된 MLX 엔진의 새로운 멀티모달 아키텍처를 출시했습니다. 이 아키텍처는 새로운 모달리티를 지원하기 위한 확장 가능한 패턴이며 오픈 소스(MIT 라이선스)로 공개되었습니다. 이는 mlx-lm 및 mlx-vlm과 같은 커뮤니티의 우수한 작업을 통합하고 개발자 기여를 장려하여 로컬 멀티모달 모델의 개발 및 응용을 더욱 촉진하는 것을 목표로 합니다 (출처: awnihannun, awnihannun, awnihannun)

🧰 툴

Perplexity Labs, 단일 프롬프트로 소프트웨어 구축 기능 출시, AI 애플리케이션 개발의 새로운 패러다임 제시: Perplexity Labs는 플랫폼의 새로운 기능을 선보였습니다. 사용자는 이제 단일 프롬프트를 통해 YouTube URL 전사 추출 도구와 같은 소프트웨어 애플리케이션을 구축할 수 있습니다. 이러한 발전은 AI가 소프트웨어 개발 프로세스를 단순화하고 프로그래밍 장벽을 낮추는 잠재력을 보여주며, 비전문 개발자도 실용적인 도구를 빠르게 만들 수 있게 합니다. 향후 이러한 도구의 복잡성과 충실도는 지속적으로 향상될 것으로 예상되며, F1 레이싱 시뮬레이터나 장수 연구 대시보드와 같은 더 복잡한 애플리케이션을 구축하는 데에도 사용될 수 있습니다 (출처: AravSrinivas, AravSrinivas, AravSrinivas, AravSrinivas)

Perplexity Labs, 단일 프롬프트로 소프트웨어 구축 기능 출시, AI 애플리케이션 개발의 새로운 패러다임 제시

PlayAI, 음성 편집기 출시, 문서 스타일 음성 편집 실현: PlayAI는 음성 편집기를 출시하여 사용자가 텍스트 문서를 편집하는 것처럼 음성 콘텐츠를 편집할 수 있도록 했습니다. 이는 다시 녹음할 필요 없이 정확한 수정이 가능하며 음질에 영향을 미치지 않음을 의미합니다. 이 도구는 AI 기술을 활용하여 팟캐스트, 오디오북 제작 등 오디오 콘텐츠 제작 분야에 더 효율적이고 편리한 편집 솔루션을 제공합니다 (출처: _mfelfel)

Scorecard, 최초의 원격 모델 컨텍스트 프로토콜(MCP) 서버 출시: Scorecard는 평가용 최초의 원격 모델 컨텍스트 프로토콜(MCP) 서버 출시를 발표했습니다. 이 서버는 StainlessAPI 및 Clerkdev를 사용하여 구축되었으며, Scorecard 평가를 사용자의 AI 워크플로에 직접 통합하여 모델 평가의 편의성과 효율성을 향상시키는 것을 목표로 합니다 (출처: dariusemrani)

Cursor, AI 프로그래밍 어시스턴트 출시, 코딩 에이전트의 최적 보상 메커니즘 논의: Cursor의 AI 프로그래밍 어시스턴트는 코딩 효율성 향상에 중점을 두고 있으며, 팀은 코딩 에이전트의 최적 보상 메커니즘, 무한 컨텍스트 모델 및 실시간 reinforcement learning 등 첨단 기술을 적극적으로 탐색하고 있습니다. 이러한 연구는 코드 생성, 이해 및 보조 개발 측면에서 AI의 능력을 최적화하여 개발자에게 더 스마트하고 효율적인 프로그래밍 파트너를 제공하는 것을 목표로 합니다 (출처: amanrsanger)

Jules Agent 업데이트, 작업 처리 능력 및 GitHub 동기화 안정성 향상: Jules Agent가 업데이트되어 이제 하루에 60개의 작업을 처리하고 5개의 동시 작업을 지원하며 GitHub 동기화 안정성이 향상되었습니다. 이러한 개선 사항은 자동화된 작업 실행 및 코드 관리 측면에서 AI 에이전트의 효율성과 안정성을 향상시키는 것을 목표로 합니다 (출처: _philschmid)

Jules Agent 업데이트, 작업 처리 능력 및 GitHub 동기화 안정성 향상

Langfuse 사용자 경험 공유: 대형 모델 시작 및 프로덕션/개발 평가 우선: Langfuse 사용자는 실제 경험을 통해 프로젝트 초기에는 먼저 대형 모델을 사용하고 일부 프로덕션/개발 평가를 수행해야 한다는 것을 발견했습니다. 일반적으로 모델 자체가 개선의 병목 지점은 아니며, 평가 및 오류 분석을 통해 다음 최적화 방향을 명확히 하는 것이 더 중요합니다 (출처: HamelHusain)

Langfuse 사용자 경험 공유: 대형 모델 시작 및 프로덕션/개발 평가 우선

ClaudePoint, Claude Code에 체크포인트 시스템 도입: 개발자 andycufari는 Cursor의 유사한 기능에서 영감을 받아 Claude Code용으로 설계된 체크포인트 시스템인 ClaudePoint를 출시했습니다. 이를 통해 Claude는 변경 사항을 적용하기 전에 체크포인트를 생성하고, 실험이 잘못되었을 때 복원하며, 세션 간 개발 기록을 추적하고, 변경 사항을 자동으로 기록할 수 있습니다. 이 도구는 Claude Code의 개발 연속성과 추적성을 향상시키는 것을 목표로 하며 npm을 통해 설치할 수 있습니다 (출처: Reddit r/ClaudeAI)

📚 학습

Anthropic, AI 오픈 소스 입문 과정 공개: Anthropic 회사(Claude 시리즈 모델 개발사)는 GitHub에 초보자를 위한 AI 오픈 소스 과정을 공개했습니다. 이 과정은 AI 기초 지식 보급을 목표로 하며, 현재 12,000개 이상의 스타를 받아 고품질 AI 학습 자료에 대한 커뮤니티의 강한 수요를 보여줍니다 (출처: karminski3)

Anthropic, AI 오픈 소스 입문 과정 공개

Pinecone, 새로운 다중 벡터 검색 방법 ConstBERT 발표: Pinecone은 BERT 기반의 다중 벡터 검색 방법인 ConstBERT를 출시했습니다. ConstBERT는 BERT를 기반으로 하며, 고유한 모델 아키텍처를 통해 토큰 수준 표현을 관리하여 검색 작업의 효율성과 정확성을 향상시키는 것을 목표로 합니다. BERT는 성숙한 컨텍스트 언어 모델링 능력과 광범위한 커뮤니티 수용성으로 인해 기본 모델로 선택되었으며, 이는 연구 결과의 재현성과 비교 가능성을 보장하는 데 도움이 됩니다 (출처: TheTuringPost, TheTuringPost)

Pinecone, 새로운 다중 벡터 검색 방법 ConstBERT 발표

LlamaIndex와 Gradio, Agents & MCP 해커톤 공동 개최: LlamaIndex는 2025년 최대 규모의 MCP 및 AI 에이전트 개발 행사인 Gradio Agents & MCP 해커톤을 후원했습니다. 이 행사는 참가자들에게 40만 달러 이상의 API 크레딧과 GPU 컴퓨팅 리소스, 그리고 1만 6천 달러의 상금을 제공하여 AI 에이전트 기술의 혁신과 발전을 촉진하는 것을 목표로 합니다. 참가자들은 Anthropic, MistralAI, Hugging Face 등 회사의 API와 강력한 오픈 소스 모델을 사용할 기회를 갖게 됩니다 (출처: _akhaliq, jerryjliu0)

LlamaIndex와 Gradio, Agents & MCP 해커톤 공동 개최

CMU 연구, 현재 LLM machine unlearning 방법은 주로 정보 혼동에 그친다고 밝혀: 카네기 멜런 대학교의 한 블로그 게시물에 따르면, 현재 대규모 언어 모델에 사용되는 근사적 machine unlearning 방법은 정보를 실제로 잊는 것이 아니라 주로 혼동시키는 역할을 합니다. 이러한 방법은 양성 재학습 공격(benign relearning attacks)에 취약하며, 이는 신뢰할 수 있고 안전한 모델 정보 삭제를 구현하는 데 여전히 과제가 있음을 나타냅니다 (출처: dl_weekly)

연구, gradient 기반 훈련을 통해 LLM의 복잡한 다단계 추론 능력 학습 탐구: COLT 2025 논문은 대규모 언어 모델(LLM)이 언제 gradient 기반 훈련을 통해 여러 추론 단계를 결합해야 하는 복잡한 작업을 해결하는 방법을 학습할 수 있는지 연구했습니다. 연구에 따르면 쉬운 것에서 어려운 것으로의 데이터는 이러한 능력을 학습하는 데 필요하고 충분하며, 이는 더 효과적인 LLM 훈련 전략을 설계하는 데 이론적 근거를 제공합니다 (출처: menhguin)

연구, gradient 기반 훈련을 통해 LLM의 복잡한 다단계 추론 능력 학습 탐구

논문, 혼합 잠재 추론 프레임워크 HRPO를 통해 모델 내부 “사고” 최적화 탐구: 일리노이 대학교 연구원들은 reinforcement learning 기반의 혼합 잠재 추론 전략 최적화(HRPO) 프레임워크를 제안했습니다. 이 프레임워크는 모델이 내부적으로 더 많이 “사고”하도록 허용하며, 이러한 내부 정보는 이산적인 출력 텍스트와 다른 연속적인 형식으로 존재합니다. HRPO는 이러한 내부 정보를 효율적으로 혼합하여 모델의 추론 능력을 향상시키는 것을 목표로 합니다 (출처: TheTuringPost, TheTuringPost)

논문, 혼합 잠재 추론 프레임워크 HRPO를 통해 모델 내부 "사고" 최적화 탐구

연구, IM-MPNN 아키텍처 제안, graph neural network의 유효 수용 필드 개선: 새로운 논문은 graph neural network(GNN)가 그래프에서 멀리 떨어진 노드 정보를 포착하기 어려운 문제에 주목하여 “유효 수용 필드”(ERF) 개념을 도입하고 IM-MPNN 다중 스케일 아키텍처를 설계했습니다. 이 방법은 다양한 스케일에서 그래프를 처리하여 네트워크가 장거리 관계를 더 잘 이해하도록 돕고, 이를 통해 여러 그래프 학습 작업에서 성능을 크게 향상시킵니다 (출처: Reddit r/MachineLearning)

연구, IM-MPNN 아키텍처 제안, graph neural network의 유효 수용 필드 개선

논문 《SUGAR》, ReLU 활성화 함수 최적화를 위한 새로운 방법 제안: 예비 출판 논문은 ReLU 활성화 함수의 “죽은 ReLU” 문제를 해결하기 위한 방법인 SUGAR(Surrogate Gradient Learning for ReLU)를 소개했습니다. 이 방법은 표준 ReLU의 순전파를 기반으로 역전파 시 부드러운 대리 gradient를 사용하여 비활성화된 뉴런도 의미 있는 gradient를 수신하도록 하여 네트워크의 수렴성과 일반화 능력을 개선하며 기존 네트워크 아키텍처에 쉽게 통합할 수 있습니다 (출처: Reddit r/MachineLearning)

논문, AdapteRec이 collaborative filtering 아이디어를 LLM 추천 시스템에 주입하는 방법 탐구: 한 논문은 collaborative filtering(CF)의 강력한 능력을 대규모 언어 모델(LLM)과 명확하게 통합하는 것을 목표로 하는 AdapteRec 방법을 자세히 소개했습니다. LLM은 콘텐츠 기반 추천에서 뛰어난 성능을 보이지만 CF가 포착할 수 있는 미묘한 사용자-아이템 상호 작용 패턴을 간과하는 경우가 많습니다. AdapteRec은 이러한 혼합 방법을 통해 LLM에 “집단 지성”을 부여하여 더 광범위한 아이템과 사용자 범위에서 더 강력하고 관련성 높은 추천을 제공하며, 특히 콜드 스타트 시나리오와 “뜻밖의 발견”을 포착하는 데 잠재력이 있습니다 (출처: Reddit r/MachineLearning)

논문, AdapteRec이 collaborative filtering 아이디어를 LLM 추천 시스템에 주입하는 방법 탐구

💼 비즈니스

NVIDIA, AI 팩토리 개념 발표, 생산성 배가 장치로서의 경제적 효과 강조: NVIDIA는 “AI 팩토리” 개념을 홍보하며, 이것이 단순한 인프라가 아니라 힘을 배가시키는 장치라고 지적했습니다. 이는 AI 추론 능력을 확장하고 막대한 생산성 경제적 이익을 창출하며 건강, 기후 및 과학과 같은 분야에서의 돌파구를 가속화할 수 있습니다. 이 개념은 경제 성장 촉진 및 복잡한 문제 해결에 있어 AI 기술의 핵심적인 역할을 강조합니다 (출처: nvidia)

수텅쥐촹(速腾聚创) 1분기 실적: 범용 로봇 사업 87% 성장, 잔디깎이 로봇 백만 대 규모 수주: LiDAR 회사 수텅쥐촹(速腾聚创)은 2025년 1분기 실적을 발표하여 총 매출 3억 3천만 위안, 매출 총이익률 23.5%로 향상되었습니다. 이 중 범용 로봇 LiDAR 매출은 7,340만 3천 위안으로 전년 동기 대비 87% 증가했으며, 판매량은 약 11,900대로 전년 동기 대비 183.3% 증가했습니다. 회사는 잔디깎이 로봇 분야에서 쿠마 테크놀로지(库犸科技)로부터 첫 120만 대 주문을 받았으며, 전 세계 2,800개 이상의 로봇 고객과 협력하여 로봇 시장에서의 강력한 성장세를 보여주었습니다 (출처: 36氪)

수텅쥐촹(速腾聚创) 1분기 실적: 범용 로봇 사업 87% 성장, 잔디깎이 로봇 백만 대 규모 수주

NVIDIA 네트워크 사업, 전분기 대비 64% 성장, GB200의 NVLink 기여 상당: NVIDIA의 최신 실적 보고서에 따르면, 네트워크 사업은 지난 몇 분기 동안 평이한 실적을 보인 후 이번 분기에 전분기 대비 64%, 전년 동기 대비 56%의 성장을 달성했습니다. 이러한 성장의 일부는 GB200 제품의 NVLink 기여분이 네트워크 사업으로 계상될 것이기 때문이며, 이전에는 UBB 기판의 NVSwitches 매출이 컴퓨팅 사업으로 계상되었습니다. 이러한 변화는 NVIDIA의 네트워크 솔루션 분야에서의 전략적 조정과 성장 잠재력을 예고할 수 있습니다 (출처: dylan522p)

NVIDIA 네트워크 사업, 전분기 대비 64% 성장, GB200의 NVLink 기여 상당

🌟 커뮤니티

AI의 고용 시장 영향 우려, 특히 초급 직무: 커뮤니티에서는 AI가 인간의 일자리를 대체하는 것에 대한 우려가 널리 퍼져 있으며, 특히 초급 직무에 대한 우려가 큽니다. LLM을 능숙하게 사용하는 초급 직원이 세 명의 초급 직원 업무량을 처리할 수 있어 초급 직무 수요가 감소할 것이라는 견해가 있습니다. CEO들은 비공개적으로 AI가 팀 규모 축소를 초래할 것이라고 인정하지만, 공개적으로는 부정적인 반향을 우려하여 언급을 피하고 있습니다. 이러한 추세는 구직자들이 기술을 향상시켜 더 높은 수준의 직책을 얻거나 변화에 대응하기 위해 자영업을 하도록 압박할 수 있습니다 (출처: qtnx_, Reddit r/artificial, scaling01)

AI의 고용 시장 영향 우려, 특히 초급 직무

오픈 소스 AI 로봇 기술 급속 발전, Hugging Face 적극 참여: Hugging Face와 그 커뮤니티 회원들은 오픈 소스 AI 로봇 기술의 잠재력에 대해 낙관적인 견해를 표명했습니다. Pollen Robotics는 HumanoidsSummit에서 Reachy 2를 포함한 여러 로봇을 선보이며 오픈 소스가 로봇 기술의 보급과 혁신을 촉진할 것이라고 강조했습니다. Hugging Face 또한 인간-로봇 상호 작용 연구를 촉진하기 위해 저비용(250달러) 오픈 소스 로봇 플랫폼을 출시했습니다. 커뮤니티는 사람들이 아직 오픈 소스 AI 로봇이 가져올 변화에 대비하지 못했다고 보고 있습니다 (출처: huggingface, ClementDelangue, ClementDelangue, huggingface)

AI 에이전트(Agent)의 기억과 평가, 논의의 초점: LangChain 창립자 Harrison Chase는 AI 에이전트의 기억 문제에 지속적으로 관심을 기울이며 인간 심리학에서 영감을 얻고 있습니다. 커뮤니티 또한 AI 에이전트의 평가(Evals)를 둘러싸고 논의를 벌이며 오류 분석(Error Analysis)의 중요성을 강조하고, 평가 스크립트를 작성하기 전에 클러스터링, 사용자 신호 필터링 등의 방식으로 데이터를 분석하여 핵심 문제를 우선적으로 처리해야 한다고 주장합니다. 동시에 AI 에이전트 구축의 실제 수요는 현재 교육 및 컨설팅 분야에서 더 많이 나타나고 있습니다 (출처: hwchase17, HamelHusain, zachtratar, LangChainAI)

AI 에이전트(Agent)의 기억과 평가, 논의의 초점

군사 분야 AI 응용, 윤리 및 미래 전쟁 양상 논의 촉발: 전 구글 CEO Eric Schmidt는 인간의 반응 속도가 따라갈 수 없기 때문에 전쟁 양상이 인간 대 인간 대결에서 AI 대 AI 대결로 전환되고 있다고 지적했습니다. 그는 유인 전투기가 의미를 잃을 것이라고 생각합니다. 이러한 관점은 AI 군사화 윤리, 전쟁 자율화 및 미래 분쟁 패턴에 대한 광범위한 논의와 우려를 불러일으켰습니다 (출처: Reddit r/artificial)

군사 분야 AI 응용, 윤리 및 미래 전쟁 양상 논의 촉발

AI 생성 콘텐츠(AIGC)의 진위성과 식별, 새로운 과제: AI가 생성하는 텍스트, 이미지, 비디오 능력이 향상됨에 따라 콘텐츠의 진위를 구별하기가 더욱 어려워지고 있습니다. 예를 들어, ChatGPT가 “em dash”(줄표)를 자주 사용하는 것이 생성된 텍스트의 특징이 되어 인간이 해당 문장 부호를 정상적으로 사용할 때도 AI 생성으로 오인될 수 있다는 지적이 있습니다. 동시에 AI가 생성한 딥페이크 비디오(예: 유명인 연설 모방)도 정보 전파와 신뢰에 대한 우려를 불러일으키고 있습니다 (출처: Reddit r/ChatGPT, Reddit r/ChatGPT)

AI 생성 콘텐츠(AIGC)의 진위성과 식별, 새로운 과제

💡 기타

LisanBench: LLM의 지식, 계획 및 긴 컨텍스트 추론을 평가하는 새로운 벤치마크: LisanBench는 지식, 선행 계획, 제약 조건 준수, 기억 및 주의력, 긴 컨텍스트 추론 및 “지구력” 측면에서 대규모 언어 모델을 평가하기 위해 설계된 새로운 벤치마크 테스트입니다. 핵심 작업은 시작 영어 단어가 주어지면 모델이 가능한 한 긴 유효한 영어 단어 시퀀스를 생성해야 하며, 후속 단어는 이전 단어와의 Levenshtein distance가 1이고 반복되지 않아야 합니다. 이 벤치마크는 다양한 난이도의 시작 단어를 통해 모델 능력을 구분하며 저비용 및 검증 용이성을 강조합니다. 이 디자인은 부분적으로 Lewis Carroll이 1877년에 발명한 “Word Ladder” 게임에서 영감을 받았습니다 (출처: teortaxesTex, scaling01, tokenbender, scaling01)

LisanBench: LLM의 지식, 계획 및 긴 컨텍스트 추론을 평가하는 새로운 벤치마크

AI 보조 수학 증명, Gemini가 Polyak step size 문제 해결 지원: Francesco Orabona 등은 Gemini 모델을 활용하여 목표 함수의 최적값 f*를 명확히 알 수 없는 경우 Polyak step size가 최적에 도달하지 못할 뿐만 아니라 순환을 생성할 수 있음을 성공적으로 증명했습니다. 이 성과는 AI가 수학 연구를 보조하고 새로운 지식을 발견하는 잠재력을 보여주며, Gemini가 반례를 찾도록 직접 지시했을 때는 실패했지만 안내와 상호 작용을 통해 복잡한 문제에 대한 핵심적인 통찰력을 제공할 수 있음을 보여줍니다 (출처: jack_w_rae, _philschmid, zacharynado)

AI 보조 수학 증명, Gemini가 Polyak step size 문제 해결 지원

인간형 로봇 기술 진전: 마이크로 인간형 뇌 기술 및 오픈 소스 플랫폼: 인간형 로봇 분야는 지속적으로 발전하고 있습니다. 한 연구에서는 마이크로 인간형 뇌 기술을 선보여 인간형 로봇에 실시간 시각 및 사고 능력을 부여했습니다. 동시에 오픈 소스 로봇 플랫폼(예: Hugging Face와 Pollen Robotics가 협력하는 HopeJr)은 진입 장벽을 낮추고 더 광범위한 혁신과 응용을 촉진하는 데 전념하고 있습니다. 이러한 진전은 더 스마트하고 사용하기 쉬운 인간형 로봇이 사회에 빠르게 통합될 것임을 예고합니다 (출처: Ronald_vanLoon, ClementDelangue)

인간형 로봇 기술 진전: 마이크로 인간형 뇌 기술 및 오픈 소스 플랫폼

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다