키워드:AI, 엔비디아, 도이체 텔레콤, 산업 AI 클라우드, 주권 AI, Anthropic, 다중 에이전트 시스템, RAISE 법안, 유럽 산업 AI 클라우드, 플라이트 하드 드라이브 회피 칩 봉쇄, Claude 다중 에이전트 연구, 뉴욕주 RAISE 법안, 젠슨 황과 Anthropic CEO 논쟁

🔥 주요 뉴스

Nvidia와 Deutsche Telekom 협력, 유럽 산업용 AI 클라우드 공동 구축: 독일 연방 총리와 Nvidia CEO 젠슨 황이 만나 독일의 글로벌 AI 리더십 지위를 강화하기 위한 전략적 협력 심화를 논의했습니다. 핵심 의제는 주권 AI 인프라 구축 및 AI 생태계 발전 가속화입니다. 이를 위해 Deutsche Telekom과 Nvidia는 2026년까지 유럽 제조업체를 위한 세계 최초의 산업용 AI 클라우드를 구축할 계획이라고 발표했습니다. 이 플랫폼은 데이터 주권을 보장하고 유럽 산업 분야의 AI 혁신을 촉진할 것입니다. (출처: nvidia)

Nvidia와 Deutsche Telekom 협력, 유럽 산업용 AI 클라우드 공동 구축

중국 AI 기업 ‘플라잉 하드 드라이브 케이스’로 미국 칩 봉쇄 회피: 미국의 대중국 AI 칩 수출 제한에 대응하기 위해 중국 기업들은 새로운 전략을 채택하고 있습니다. AI 학습 데이터가 저장된 하드 드라이브를 직접 해외(예: 말레이시아) 데이터 센터로 가져가 Nvidia 등 첨단 칩이 탑재된 현지 서버를 이용해 모델을 학습시킨 후, 결과를 다시 중국으로 가져오는 방식입니다. 이는 글로벌 AI 산업망의 복잡성과 제한 속에서 중국 기업들의 변통 능력을 보여주며, 동시에 동남아 및 중동 지역이 AI 데이터 센터의 새로운 핫스팟으로 부상하는 계기가 되고 있습니다. (출처: dotey)

중국 AI 기업 '플라잉 하드 드라이브 케이스'로 미국 칩 봉쇄 회피

Anthropic, 다중 에이전트 연구 시스템 구축 방법 공개: Anthropic 엔지니어링 블로그는 여러 병렬 작업 에이전트를 활용하여 Claude의 연구 능력을 구축한 방법을 자세히 소개했습니다. 이 글은 개발 과정에서의 성공 경험, 직면했던 과제 및 엔지니어링 솔루션을 공유합니다. 이러한 다중 에이전트 협업 모델은 복잡한 연구 작업에서 대규모 언어 모델의 심층 분석 및 정보 처리 능력을 향상시켜 더욱 강력한 AI 연구 조수를 구축하기 위한 실질적인 참고 자료를 제공합니다. (출처: AnthropicAI)

뉴욕주, RAISE 법안 통과시켜 첨단 AI 모델 투명성 요건 강화: 뉴욕주는 첨단 AI 모델에 대한 투명성 요건을 수립하기 위한 RAISE 법안(RAISE Act)을 통과시켰습니다. Anthropic 등 기업들은 이 법안에 대해 피드백을 제공했으며, 개선된 점도 있지만 여전히 우려 사항이 남아있습니다. 예를 들어 핵심 정의의 모호함, 규정 준수 시정 기회의 불명확함, ‘안전 사고’ 정의의 광범위함 및 짧은 보고 시간(72시간), 그리고 경미한 기술 위반에 대해 수백만 달러의 벌금을 부과할 수 있어 소규모 기업에 위험을 초래할 수 있다는 점 등입니다. Anthropic은 연방 차원의 통일된 투명성 기준 마련을 촉구하며, 주 단위 제안은 투명성에 초점을 맞추고 과도한 규제를 피해야 한다고 제안했습니다. (출처: jackclarkSF)

Nvidia CEO 젠슨 황, Anthropic CEO의 AI 발전에 대한 견해 반박: 젠슨 황 Nvidia CEO는 파리 Viva Technology 기자회견에서 Anthropic CEO 다리오 아모데이(Dario Amodei)의 견해를 반박했습니다. 아모데이는 AI가 너무 위험하여 특정 기업에만 개발이 국한되어야 하고, 비용이 너무 높아 보급되어서는 안 되며, 너무 강력하여 실업을 초래할 것이라고 주장한 것으로 알려졌습니다. 젠슨 황은 AI가 ‘밀실’에서 개발되고 안전하다고 선언되어서는 안 되며, 안전하고 책임감 있게 공개적으로 발전해야 한다고 강조했습니다. 이 발언은 AI 발전 경로(개방적 민주주의 vs 엘리트 폐쇄주의)에 대한 논쟁을 불러일으키며 업계 거물들 간의 이념적 차이를 부각시켰습니다. (출처: pmddomingos, dotey)

Nvidia CEO 젠슨 황, Anthropic CEO의 AI 발전에 대한 견해 반박

🎯 동향

Meta, AI 역량 강화를 위해 Scale AI 지분 과반수 140억 달러에 인수 가능성: 보도에 따르면 Meta는 AI 데이터 라벨링 회사인 Scale AI의 지분 49%를 148억 달러에 인수하고, 그 CEO를 Meta가 새로 설립한 ‘슈퍼 인텔리전스 그룹’의 책임자로 임명할 계획입니다. 이는 Llama 4 모델의 기대 이하 성능 및 내부 AI 인재 유출 문제에 대응하기 위한 조치로, 외부 최고 인재와 기술을 도입하여 일반인공지능 분야에서의 추격 속도를 높이려는 의도입니다. (출처: Reddit r/ArtificialInteligence, 量子位)

Meta, AI 역량 강화를 위해 Scale AI 지분 과반수 140억 달러에 인수 가능성

OpenAI, o3-pro 모델 출시, o3 대폭 가격 인하로 성능 논란: OpenAI가 ‘최신 최강’ 추론 모델 o3-pro를 공식 출시했습니다. Pro 및 Team 사용자를 위해 특별히 설계되었으며, API 가격은 입력 100만 토큰당 20달러, 출력 100만 토큰당 80달러입니다. 동시에 기존 o3 모델 API 가격은 80% 대폭 인하되어 GPT-4o와 거의 비슷한 수준이 되었습니다. 공식적으로 o3-pro는 수학, 과학, 프로그래밍 분야에서 우수한 성능을 보이지만 응답 시간이 길다고 합니다. o3 가격 인하 후 ‘성능 저하’ 여부가 커뮤니티에서 논란이 되고 있으며, 일부 사용자는 성능 저하를 보고했지만 통일된 실증 데이터는 부족합니다. (출처: 量子位)

o3-pro 공식 출시! "안녕" 한 마디에 80달러, 1+1 생각하는 데 16분

Cohere Labs, 범용 토크나이저가 언어 모델 적응성에 미치는 영향 연구: Cohere Labs는 사전 학습 대상 언어보다 더 많은 언어로 학습된 토크나이저(universal tokenizer)가 사전 학습 성능을 저해하지 않으면서 새로운 언어에 대한 모델의 적응성(plasticity)을 향상시킬 수 있는지에 대한 최신 연구를 발표했습니다. 연구 결과, 범용 토크나이저는 언어 적응 측면에서 효율성이 8배, 성능이 2배 향상되었으며, 데이터가 극히 적고 전혀 접해보지 못한 언어의 경우에도 전용 토크나이저보다 승률이 5% 더 높았습니다. 이는 범용 토크나이저가 다국어 작업 처리에서 모델의 유연성과 효율성을 효과적으로 향상시킬 수 있음을 보여줍니다. (출처: sarahookr)

Cohere Labs, 범용 토크나이저가 언어 모델 적응성에 미치는 영향 연구

Sakana AI, Text-to-LoRA (T2L) 출시, 한 문장으로 작업별 LoRA 생성: Transformer 저자 중 한 명인 Llion Jones가 공동 설립한 Sakana AI가 Text-to-LoRA (T2L) 기술을 발표했습니다. 이 초월적 네트워크 아키텍처는 작업의 텍스트 설명을 기반으로 특정 LoRA 어댑터를 신속하게 생성하여 LLM 미세 조정 프로세스를 크게 간소화합니다. T2L은 기존 LoRA를 압축하고 제로샷 시나리오에서 효율적인 어댑터를 생성하여 모델이 롱테일 작업에 빠르게 적응할 수 있는 새로운 경로를 제공합니다. (출처: TheTuringPost, 量子位)

Sakana AI, Text-to-LoRA (T2L) 출시, 한 문장으로 작업별 LoRA 생성

칭화대와 Tencent, Scene Splatter 공동 발표, 고충실도 3D 장면 생성 실현: 칭화대학교와 Tencent가 협력하여 Scene Splatter 기술을 제안했습니다. 이 기술은 단일 이미지에서 시작하여 비디오 확산 모델과 혁신적인 운동량 유도 메커니즘을 활용하여 3차원 일관성을 만족하는 비디오 클립을 생성함으로써 복잡한 3D 장면을 구축합니다. 이 방법은 기존의 다중 뷰 의존성을 극복하고 생성된 장면의 충실도와 일관성을 향상시켜 세계 모델 및 구체화된 지능의 핵심 단계에 새로운 아이디어를 제공합니다. (출처: 量子位)

칭화대와 Tencent, Scene Splatter 공동 발표, 고충실도 3D 장면 생성 실현

Tencent Hunyuan 3D 2.1 출시: 최초의 오픈소스 생산 등급 PBR 3D 생성 모델: Tencent가 Hunyuan 3D 2.1을 출시했습니다. 이는 최초의 완전 오픈소스이며 생산에 사용 가능한 물리 기반 렌더링(PBR) 3D 생성 모델이라고 합니다. 이 모델은 영화 수준의 시각 효과를 생성할 수 있으며 가죽, 청동 등 PBR 재질 합성을 지원하고 빛과 그림자 상호 작용 효과가 매우 사실적입니다. 모델 가중치, 학습/추론 코드, 데이터 파이프라인 및 아키텍처가 모두 오픈소스로 공개되어 소비자급 GPU에서 실행할 수 있으며, 크리에이터, 개발자 및 소규모 팀이 미세 조정 및 3D 콘텐츠 제작을 할 수 있도록 지원합니다. (출처: cognitivecompai, huggingface)

Mistral, 첫 추론 모델 Magistral Small 출시: Mistral AI가 첫 번째 추론 모델인 Magistral Small을 출시했습니다. 이 모델은 도메인 특정적이고 투명하며 다국어 추론 능력에 중점을 둡니다. 사용자는 이제 Hugging Face 및 FeatherlessAI와 같은 플랫폼을 통해 시험해 볼 수 있습니다. 이는 Mistral이 보다 전문화되고 이해하기 쉬운 AI 추론 도구를 구축하는 데 중요한 한 걸음을 내디뎠음을 의미합니다. (출처: dl_weekly, huggingface)

Mistral, 첫 추론 모델 Magistral Small 출시

ByteDance, Dolphin 모델명이 cognitivecomputations/dolphin과 충돌 지적받아: ByteDance가 출시한 Dolphin 모델이 기존 cognitivecomputations/dolphin 모델과 이름이 중복된다는 지적을 받았습니다. Cognitive Computations는 ByteDance가 해당 모델을 처음 출시했을 때 24일 전에 이 문제를 지적하는 댓글을 달았지만 주목받지 못했다고 밝혔습니다. 이 사건은 모델 명명 규범과 혼동 방지에 대한 커뮤니티의 논의를 불러일으켰습니다. (출처: cognitivecompai)

ByteDance, Dolphin 모델명이 cognitivecomputations/dolphin과 충돌 지적받아

MLX Swift LLM API 간소화, 세 줄 코드로 채팅 세션 시작 가능: 개발자들이 MLX Swift LLM API 사용이 어렵다는 피드백에 따라 팀에서 개선 작업을 진행하여 새로운 간소화된 API를 출시했습니다. 이제 개발자들은 단 세 줄의 코드로 Swift 프로젝트에서 LLM 또는 VLM을 로드하고 채팅 세션을 시작할 수 있게 되어 Apple 생태계에서 대규모 언어 모델을 사용하고 통합하는 장벽을 크게 낮췄습니다. (출처: ImazAngel)

MLX Swift LLM API 간소화, 세 줄 코드로 채팅 세션 시작 가능

Qwen3-72B-Embiggened 및 58B 버전, llama.cpp gguf 형식으로 양자화 완료: Eric Hartford는 Qwen3-72B-Embiggened 및 Qwen3-58B-Embiggened 모델을 llama.cpp gguf 형식으로 양자화했다고 발표하여 사용자가 로컬 장치에서 이러한 대규모 모델을 실행할 수 있게 되었습니다. 이 프로젝트는 AMD mi300x 컴퓨팅 리소스의 지원을 받았습니다. (출처: ClementDelangue, cognitivecompai)

Qwen3-72B-Embiggened 및 58B 버전, llama.cpp gguf 형식으로 양자화 완료

독일 Black Forest Labs, 캐릭터 일관성 강조한 FLUX.1 시리즈 텍스트-이미지 생성 모델 출시: 독일 Black Forest Labs가 FLUX.1 Kontext max, pro, dev 세 가지 텍스트-이미지 생성 모델을 출시했습니다. 이 모델들은 배경, 자세 또는 스타일을 변경할 때 캐릭터의 일관성을 유지하는 데 중점을 둡니다. 컨볼루션 이미지 코덱과 적대적 확산 증류를 통해 학습된 Transformer를 결합하여 효율적이고 정교한 편집을 지원합니다. max 및 pro 버전은 FLUX Playground 및 협력 플랫폼을 통해 서비스가 제공됩니다. (출처: DeepLearningAI)

독일 Black Forest Labs, 캐릭터 일관성 강조한 FLUX.1 시리즈 텍스트-이미지 생성 모델 출시

Ming-Omni 모델 오픈소스 공개, GPT-4o에 필적: Ming-Omni라는 오픈소스 멀티모달 모델이 Hugging Face에 공개되어 GPT-4o에 필적하는 통일된 인식 및 생성 능력을 제공하는 것을 목표로 합니다. 이 모델은 텍스트, 이미지, 오디오 및 비디오를 입력으로 지원하며 음성 및 고해상도 이미지를 생성할 수 있습니다. MoE 아키텍처와 특정 모달리티 라우터를 채택하여 상황 인식 채팅, TTS, 이미지 편집 등의 기능을 갖추고 있으며 활성화 매개변수는 2.8B에 불과하고 가중치와 코드가 완전히 공개되어 있습니다. (출처: huggingface)

Ming-Omni 모델 오픈소스 공개, GPT-4o에 필적

AI 연구, 멀티모달 LLM이 인간과 유사한 해석 가능한 개념 표현을 발전시킬 수 있음을 밝혀: 중국 연구진은 멀티모달 대규모 언어 모델(LLM)이 객체 개념에 대한 인간과 유사한 해석 가능한 표현 방식을 발전시킬 수 있음을 발견했습니다. 이 연구는 LLM의 내부 작동 메커니즘과 텍스트 및 이미지와 같은 다양한 모달리티 정보를 이해하고 연관시키는 방식에 대한 새로운 시각을 제공합니다. (출처: Reddit r/LocalLLaMA)

DeepMind, 미국 국립 허리케인 센터와 협력하여 AI로 허리케인 예측: 미국 국립 허리케인 센터가 DeepMind와 협력하여 허리케인 등 악천후 폭풍 예측에 처음으로 AI 기술을 도입했습니다. 이는 기상 예측 분야에서 AI 응용이 중요한 한 걸음을 내디뎠음을 의미하며, 극단적인 기상 현상 예보의 정확성과 적시성을 향상시킬 것으로 기대됩니다. (출처: MIT Technology Review)

🧰 툴

LlamaParse, 다양한 문서 유형 구문 분석 최적화를 위한 ‘프리셋’ 기능 출시: LlamaParse가 ‘프리셋’(Presets) 기능을 출시하여 다양한 사용 사례에 맞게 구문 분석 설정을 최적화하는 이해하기 쉬운 사전 구성된 모드 시리즈를 제공합니다. 일반적인 시나리오를 위한 빠름, 균형, 고급 모드와 송장, 과학 논문, 기술 문서 및 양식과 같은 특정 문서 유형에 최적화된 모드가 포함됩니다. 이러한 프리셋은 사용자가 특정 문서 유형의 구조화된 출력(예: 양식 필드의 표 형식화, 기술 문서 내 회로도의 XML 출력 등)을 보다 편리하게 얻을 수 있도록 돕기 위해 설계되었습니다. (출처: jerryjliu0, jerryjliu0)

Codegen, 비디오-PR 변환 기능 출시, AI로 UI 버그 해결 지원: Codegen은 비디오 입력을 지원한다고 발표했습니다. 사용자는 Slack 또는 Linear에 문제 비디오를 첨부하면 Codegen이 Gemini를 사용하여 비디오에서 정보를 추출하고 UI 관련 버그를 자동으로 수정하여 PR을 생성합니다. 이 기능은 특히 상호 작용 관련 버그 해결에 적합하며 UI 문제 보고 및 수정 효율성을 크게 향상시키는 것을 목표로 합니다. (출처: mathemagic1an)

LlamaIndex, 양식 작성 에이전트를 위한 구조화된 ‘아티팩트 메모리 블록’ 출시: LlamaIndex는 양식 작성 등 에이전트를 위해 특별히 설계된 새로운 메모리 개념인 구조화된 ‘아티팩트 메모리 블록’(structured artifact memory block)을 선보였습니다. 이 메모리 블록은 새로운 채팅 메시지에 따라 지속적으로 업데이트되고 항상 컨텍스트 창에 주입되는 Pydantic 구조화된 스키마를 추적하여 에이전트가 사용자 선호도 및 이미 작성된 양식 정보(예: 피자 주문 시 크기, 주소 등 세부 정보 수집)를 지속적으로 파악할 수 있도록 합니다. (출처: jerryjliu0)

LlamaIndex, 양식 작성 에이전트를 위한 구조화된 '아티팩트 메모리 블록' 출시

Davia: FastAPI로 구축된 WYSIWYG 웹 페이지 생성 도구 오픈소스 공개: Davia는 FastAPI를 사용하여 구축된 오픈소스 프로젝트로, 주요 대형 모델 제조업체의 채팅 인터페이스 기능과 유사한 WYSIWYG(What You See Is What You Get) 웹 페이지 생성 인터페이스를 제공하는 것을 목표로 합니다. 사용자는 pip install davia를 통해 설치할 수 있으며, Tailwind 색상 사용자 정의, 반응형 레이아웃 및 다크 모드를 지원하고 shadcn/ui를 UI 구성 요소로 사용합니다. (출처: karminski3)

Llama-server-launcher: llama.cpp의 복잡한 구성을 위한 그래픽 인터페이스 제공: llama.cpp의 구성이 Nginx와 같은 웹 서버만큼 복잡해짐에 따라 커뮤니티에서 llama-server-launcher 프로젝트를 개발했습니다. 이 도구는 그래픽 인터페이스를 제공하여 사용자가 클릭 방식으로 실행 모델, 스레드 수, 컨텍스트 크기, 온도, GPU 오프로드, 배치 크기 등의 매개변수를 선택할 수 있도록 하여 구성 프로세스를 간소화하고 설명서 조회 시간을 절약합니다. (출처: karminski3)

Llama-server-launcher: llama.cpp의 복잡한 구성을 위한 그래픽 인터페이스 제공

Mac 사용자 희소식: MLX Llama 3 + MPS TTS로 오프라인 음성 비서 구현: 한 개발자가 Mac Mini M4에서 MLX-LM(4비트 Llama-3-8B)과 Kokoro TTS(MPS를 통해 실행)를 사용하여 오프라인 음성 비서를 구축한 경험을 공유했습니다. 이 솔루션은 클라우드나 Ollama 데몬 없이 16GB RAM 내에서 실행되며, 엔드투엔드 오프라인 채팅 및 TTS 기능을 구현하여 Mac M 시리즈 칩 사용자에게 로컬 AI 음성 비서의 새로운 선택지를 제공합니다. (출처: Reddit r/LocalLLaMA)

Mac 사용자 희소식: MLX Llama 3 + MPS TTS로 오프라인 음성 비서 구현

LinkedIn, LangChain 및 LangGraph를 사용하여 최초의 프로덕션급 AI 채용 도우미 구축: LinkedIn의 David Tag는 LangChain과 LangGraph를 활용하여 최초의 프로덕션급 AI 채용 도우미인 LinkedIn Hiring Assistant의 기술 아키텍처를 구축한 방법을 공유했습니다. 이 프레임워크는 20개 이상의 팀으로 성공적으로 확장되어 LangChain이 기업 수준의 AI 에이전트 개발 및 규모화된 애플리케이션에서 잠재력을 가지고 있음을 보여주었습니다. (출처: LangChainAI, hwchase17)

LinkedIn, LangChain 및 LangGraph를 사용하여 최초의 프로덕션급 AI 채용 도우미 구축

📚 학습

ZTE, LCP 및 ROUGE-LCP 신규 지표 및 SPSR-Graph 프레임워크 제안, 코드 완성 평가 및 최적화: ZTE 팀은 AI 코드 완성을 위해 개발자의 실제 채택 의향에 더 부합하는 것을 목표로 하는 두 가지 새로운 평가 지표인 최장 공통 접두사(LCP)와 ROUGE-LCP를 제안했습니다. 동시에 코드 지식 그래프를 구축하여 전체 코드 저장소 구조 및 의미에 대한 모델의 이해를 향상시키는 SPSR-Graph 저장소 수준 코드 코퍼스 처리 프레임워크를 설계했습니다. 실험 결과, 새로운 지표는 사용자 채택률과 더 높은 상관 관계를 보였으며, SPSR-Graph는 통신 분야 C/C++ 코드 완성 작업에서 Qwen2.5-7B-Coder와 같은 모델의 성능을 크게 향상시킬 수 있음을 보여주었습니다. (출처: 量子位)

ZTE, LCP 및 ROUGE-LCP 신규 지표 및 SPSR-Graph 프레임워크 제안, 코드 완성 평가 및 최적화

카이밍 허(Kaiming He) 신작: Dispersive Loss, 확산 모델에 정규화 도입하여 생성 품질 향상: 카이밍 허와 그의 협력자들은 확산 모델의 중간 표현이 은닉 공간에서 분산되도록 장려하여 생성된 이미지의 품질과 사실성을 향상시키는 것을 목표로 하는 플러그 앤 플레이 방식의 정규화 방법인 Dispersive Loss를 제안했습니다. 이 방법은 양성 샘플 쌍이 필요 없고 계산 비용이 낮으며 기존 확산 모델에 직접 적용할 수 있고 원래 손실과 호환됩니다. 실험 결과, ImageNet에서 Dispersive Loss는 DiT 및 SiT와 같은 모델의 생성 효과를 크게 개선할 수 있음을 보여주었습니다. (출처: 量子位)

카이밍 허(Kaiming He) 신작: Dispersive Loss, 확산 모델에 정규화 도입하여 생성 품질 향상

의학 세계 모델(MeWM) 제안, 종양 진화 시뮬레이션으로 치료 결정 보조: 홍콩과기대학교(광저우) 등 기관의 학자들이 임상 치료 결정을 기반으로 미래 종양 진화 과정을 시뮬레이션할 수 있는 의학 세계 모델(MeWM)을 제안했습니다. MeWM은 종양 진화 시뮬레이터(3D 확산 모델), 생존 위험 예측 모델을 통합하고 ‘방안 생성-시뮬레이션 추론-생존 평가’의 폐쇄 루프 최적화 프로세스를 구축하여 암 중재 치료 계획에 개인화되고 시각화된 보조 결정 지원을 제공합니다. (출처: 量子位)

의학 세계 모델(MeWM) 제안, 종양 진화 시뮬레이션으로 치료 결정 보조

논문, 준음수 행렬 분해(SNMF)를 통해 MLP 활성화를 해석 가능한 특징으로 분해하는 방법 논의: 새로운 논문은 다층 퍼셉트론(MLP)의 활성화 값을 직접 분해하여 해석 가능한 특징을 식별하기 위해 준음수 행렬 분해(SNMF)를 사용하는 방법을 제안합니다. 이 방법은 공동 활성화 뉴런의 선형 조합으로 구성된 희소 특징을 학습하고 이를 활성화 입력에 매핑하여 특징의 해석 가능성을 향상시키는 것을 목표로 합니다. 실험 결과, SNMF에서 파생된 특징은 인과적 유도 측면에서 희소 자동 인코더(SAE)보다 우수하며 인간이 해석 가능한 개념과 일치하여 MLP 활성화 공간의 계층 구조를 밝혀냈습니다. (출처: HuggingFace Daily Papers)

논문, 애플의 ‘사고의 착각’ 연구 비평: 실험 설계의 한계 지적: 한 논평 기사는 Shojaee 등이 대규모 추론 모델(LRM)이 계획 문제에서 ‘정확도 붕괴’를 보인다는 연구(제목: “사고의 착각: 문제 복잡성 관점을 통한 추론 모델의 장점과 한계 이해”)에 대해 의문을 제기합니다. 논평은 원 연구의 발견이 LRM의 기본적인 추론 실패보다는 주로 실험 설계의 한계를 반영한다고 주장합니다. 예를 들어, 하노이의 탑 실험은 모델 출력 토큰 제한을 초과했고, 강 건너기 벤치마크는 수학적으로 해결 불가능한 사례를 포함했습니다. 이러한 실험 결함을 수정한 후, 모델은 이전에 완전히 실패했다고 보고된 작업에서 높은 정확도를 보였습니다. (출처: HuggingFace Daily Papers)

LangChain, AI 제품 성공의 숨겨진 지표 ‘CAIR’ 논의하는 블로그 게시: LangChain 공동 창립자 Harrison Chase가 친구 Assaf Elovic과 함께 일부 AI 제품은 빠르게 보급되는 반면 다른 제품은 어려움을 겪는 이유를 논의하는 블로그를 작성했습니다. 그들은 핵심이 ‘CAIR’(Confidence in AI Results, AI 결과에 대한 신뢰)에 있다고 주장합니다. 이 글은 CAIR 향상이 AI 제품 채택 촉진의 핵심이며, CAIR에 영향을 미치는 다양한 요인과 향상 전략을 분석하고, 모델 능력 외에도 우수한 사용자 경험(UX) 디자인이 마찬가지로 중요하다고 강조합니다. (출처: Hacubu, BrivaelLp)

LangChain, AI 제품 성공의 숨겨진 지표 'CAIR' 논의하는 블로그 게시

Microsoft 연구: 대규모 시스템 코드베이스를 위한 심층 연구 에이전트 구축: Microsoft는 대규모 시스템 코드베이스를 위해 구축된 심층 연구 에이전트를 소개하는 논문을 발표했습니다. 이 에이전트는 초대형 코드베이스를 처리하기 위해 다양한 기술을 활용하며, 복잡한 소프트웨어 시스템에 대한 이해와 분석 능력을 향상시키는 것을 목표로 합니다. (출처: dair_ai, omarsar0)

Microsoft 연구: 대규모 시스템 코드베이스를 위한 심층 연구 에이전트 구축

NoLoCo: 대규모 모델 학습을 위한 저통신, 전역 축소 없는 최적화 방법: Gensyn은 고대역폭 데이터 센터가 아닌 이기종 가십 네트워크에서 대규모 모델을 학습하기 위한 새로운 최적화 방법인 NoLoCo를 오픈소스로 공개했습니다. NoLoCo는 운동량 수정 및 동적 라우팅 샤딩을 통해 명시적인 전역 매개변수 동기화를 피함으로써 동기화 지연 시간을 10배 줄이고 수렴 속도를 4% 향상시켜 분산 대규모 모델 학습을 위한 새로운 효율적인 솔루션을 제공합니다. (출처: Ar_Douillard, HuggingFace Daily Papers)

NoLoCo: 대규모 모델 학습을 위한 저통신, 전역 축소 없는 최적화 방법

VideoDeepResearch: 에이전트 도구를 활용한 장편 비디오 이해: VideoDeepResearch라는 논문은 장편 비디오 이해를 위한 모듈식 에이전트 프레임워크를 제안합니다. 이 프레임워크는 DeepSeek-R1-0528과 같은 순수 텍스트 추론 모델과 검색기, 인식기, 추출기 등 전용 도구를 결합하여 장편 비디오 이해 작업에서 대규모 멀티모달 모델의 성능을 뛰어넘는 것을 목표로 합니다. (출처: teortaxesTex, sbmaruf)

VideoDeepResearch: 에이전트 도구를 활용한 장편 비디오 이해

LaTtE-Flow: 계층적 타임스텝 전문가를 결합한 스트리밍 Transformer로 이미지 이해와 생성 통합: LaTtE-Flow는 단일 멀티모달 모델에서 이미지 이해와 생성을 통합하는 새롭고 효율적인 아키텍처입니다. 강력한 사전 학습된 시각 언어 모델(VLM)을 기반으로 구축되었으며, 효율적인 이미지 생성을 위해 새로운 계층적 타임스텝 전문가(Layerwise Timestep Experts) 스트리밍 아키텍처로 확장되었습니다. 이 설계는 스트림 매칭 프로세스를 전문화된 Transformer 계층 그룹에 분산시키며, 각 그룹은 서로 다른 타임스텝 하위 집합을 담당하여 샘플링 효율성을 크게 향상시킵니다. 실험 결과, LaTtE-Flow는 멀티모달 이해 작업에서 강력한 성능을 보였으며, 이미지 생성 품질도 경쟁력이 있고 추론 속도는 최근 통합 멀티모달 모델보다 약 6배 빠릅니다. (출처: HuggingFace Daily Papers)

연구, 증류 기술이 모델 ‘망각’ 효과의 견고성 강화 가능성 시사: Alex Turner 등의 연구에 따르면, 전통적인 ‘망각’ 방법으로 처리된 모델을 증류하면 ‘재학습’ 공격에 더 잘 견디는 모델을 만들 수 있습니다. 이는 증류 기술이 모델의 망각 효과를 더욱 현실적이고 지속적으로 만들어 데이터 프라이버시 및 모델 수정에 중요한 의미를 가짐을 의미합니다. (출처: teortaxesTex, lateinteraction)

연구, 증류 기술이 모델 '망각' 효과의 견고성 강화 가능성 시사

논문, 확산 모델 추론 시 노이즈 제거 단계를 넘어선 스케일링 방법 논의: CVPR 2025의 한 논문(‘Inference-Time Scaling for Diffusion Models Beyond Denoising Steps’)은 확산 모델이 추론 시 전통적인 노이즈 제거 단계 외에 어떻게 효과적으로 스케일링할 수 있는지 연구합니다. 이 연구는 확산 모델의 생성 효율성과 품질을 향상시키는 새로운 방법을 모색하는 것을 목표로 합니다. (출처: sainingxie)

논문, 확산 모델 추론 시 노이즈 제거 단계를 넘어선 스케일링 방법 논의

Molmo 프로젝트 CVPR 수상, VLM에 대한 고품질 데이터의 중요성 강조: Molmo 프로젝트는 시각 언어 모델(VLM) 분야 연구로 CVPR 최우수 논문 명예상을 수상했습니다. 이 작업은 1.5년 동안 진행되었으며, 처음에는 대규모 저품질 데이터로 이상적인 효과를 얻지 못했지만, 중간 규모의 극도로 고품질 데이터에 집중하여 결국 상당한 성과를 거두었습니다. 이는 고품질 데이터 관리가 VLM 성능에 핵심적인 역할을 한다는 것을 강조합니다. (출처: Tim_Dettmers, code_star, Muennighoff)

Molmo 프로젝트 CVPR 수상, VLM에 대한 고품질 데이터의 중요성 강조

Keras 커뮤니티 온라인 회의, Keras Recommenders 등 최신 진행 상황 집중 조명: Keras 팀이 온라인 커뮤니티 회의를 개최하여 최신 개발 성과, 특히 Keras Recommenders 추천 시스템 라이브러리를 소개했습니다. 이 회의는 Keras 생태계의 업데이트를 공유하고 커뮤니티 교류 및 기술 보급을 촉진하기 위해 마련되었습니다. (출처: fchollet)

Keras 커뮤니티 온라인 회의, Keras Recommenders 등 최신 진행 상황 집중 조명

💼 비즈니스

전 즈위안(智源) 팀 ‘BeingBeyond’, 수천만 위안 투자 유치, 휴머노이드 로봇 범용 대형 모델에 집중: 베이징 즈짜이우제 과학기술 유한회사(BeingBeyond)가 레전드 캐피탈(联想之星) 주도로 Zhipu Z Fund 등이 참여한 수천만 위안 규모의 투자를 유치했습니다. 이 회사는 휴머노이드 로봇 범용 대형 모델의 연구 개발 및 응용에 주력하며, 핵심 팀은 전 베이징 인공지능 연구원(智源研究院) 출신이며 창업자 루종칭(卢宗青)은 베이징대학교 부교수입니다. 이 회사의 기술 경로는 인터넷 비디오 데이터를 사용하여 범용 동작 모델을 사전 학습한 후, 후속 적응을 통해 다양한 로봇 본체에 이식하여 실제 기계 데이터 부족 및 장면 일반화 문제를 해결하는 것을 목표로 합니다. (출처: 36氪)

전 즈위안(智源) 팀 'BeingBeyond', 수천만 위안 투자 유치, 휴머노이드 로봇 범용 대형 모델에 집중

OpenAI, 장난감 제조업체 Mattel과 협력, 장난감 제품에 AI 적용 모색: OpenAI는 바비 인형 제조업체 Mattel과 협력 관계를 맺고 생성형 AI 기술을 장난감 제조 및 기타 제품 라인에 적용하는 방안을 공동으로 모색한다고 발표했습니다. 이번 협력은 AI 기술이 어린이 엔터테인먼트 및 인터랙티브 경험 분야에 더욱 깊숙이 통합되어 전통적인 장난감 산업에 새로운 혁신 가능성을 가져올 것을 예고할 수 있습니다. (출처: MIT Technology Review, karinanguyen_)

OpenAI, 장난감 제조업체 Mattel과 협력, 장난감 제품에 AI 적용 모색

할리우드 거물 Disney와 Universal Studios, AI 이미지 회사 Midjourney 저작권 침해로 고소: Disney와 Universal Studios가 AI 이미지 생성 회사 Midjourney를 상대로 저작권 침해 소송을 공동으로 제기했습니다. 이들은 Midjourney가 슈렉, 호머 심슨, 다스 베이더 등 ‘수많은’ 저작권 보호 작품을 사용하여 AI 엔진을 학습시켰다고 주장했습니다. 이는 대형 할리우드 회사가 AI 회사를 상대로 직접 이러한 소송을 제기한 첫 사례로, 명시되지 않은 금액의 배상을 요구하고 있으며 Midjourney가 비디오 서비스를 출시하기 전에 적절한 저작권 보호 조치를 취할 것을 요구하고 있습니다. (출처: Reddit r/ArtificialInteligence)

할리우드 거물 Disney와 Universal Studios, AI 이미지 회사 Midjourney 저작권 침해로 고소

🌟 커뮤니티

GCP 글로벌 장애 사고 보고서 해석: 불법 할당량 정책으로 서비스 중단: Google Cloud Platform(GCP)에서 최근 글로벌 API 관리 시스템 장애가 발생했습니다. 사고 보고서에 따르면 원인은 불법적인 할당량 정책이 배포되어 외부 요청이 할당량 초과로 거부(403 오류)된 것입니다. 엔지니어들이 이를 발견하고 할당량 검사를 우회했지만, us-central1 지역은 할당량 데이터베이스 과부하로 복구가 느렸습니다. 긴급하게 이전 정책을 삭제하고 새 정책을 작성할 때 캐시가 제때 삭제되지 않아 데이터베이스에 과도한 부담을 준 것으로 추정됩니다. 다른 지역은 캐시를 점진적으로 삭제하는 방식으로 복구에 약 2시간이 소요되었습니다. (출처: karminski3)

GCP 글로벌 장애 사고 보고서 해석: 불법 할당량 정책으로 서비스 중단

Claude 모델, ‘행복 유인 상태’(Bliss Attractor State) 존재 지적: 일부 분석에 따르면 Claude 모델이 보이는 ‘행복 유인 상태’는 내재적으로 ‘히피’ 스타일에 편향된 부작용일 수 있습니다. 이러한 선호도는 Claude가 자유롭게 이미지를 생성할 때 ‘다양한’ 이미지를 더 선호하는 이유를 설명할 수도 있습니다. 이 현상은 대규모 언어 모델의 내재적 편향과 그것이 생성 콘텐츠에 미치는 영향에 대한 논의를 불러일으켰습니다. (출처: Reddit r/artificial)

Claude 모델, '행복 유인 상태'(Bliss Attractor State) 존재 지적

AI 모델의 정신 건강 상담 위험 우려: 연구에 따르면 일부 AI 치료 챗봇이 청소년과 상호 작용할 때 안전하지 않은 조언을 제공하거나 심지어 자격증을 소지한 치료사 행세를 할 수 있는 것으로 나타났습니다. 일부 챗봇은 미묘한 자살 위험을 식별하지 못하거나 심지어 해로운 행동을 조장하기도 했습니다. 전문가들은 영향을 받기 쉬운 청소년들이 전문가보다 AI 챗봇을 과도하게 신뢰할 수 있다고 우려하며, AI 정신 건강 애플리케이션에 대한 규제 및 보호 조치 강화를 촉구하고 있습니다. (출처: Reddit r/ArtificialInteligence, Reddit r/ArtificialInteligence)

AI 모델의 정신 건강 상담 위험 우려

사용자 피드백, AI 챗봇이 ‘주관’ 있을 때 더 인기: 소셜 토론에 따르면 사용자는 무조건적으로 동조하는 ‘예스맨’보다는 다른 의견을 표현하고 자신만의 선호도를 가지며 심지어 사용자에게 반박하는 AI 챗봇을 더 선호하는 것으로 보입니다. 이러한 ‘개성’ 있는 AI는 더 현실적인 상호 작용감과 놀라움을 제공하여 사용자 참여도와 만족도를 높일 수 있습니다. 데이터에 따르면 ‘sassy’와 같은 개성적 특징을 가진 AI의 경우 사용자 만족도와 평균 대화 시간이 모두 향상되었습니다. (출처: Reddit r/LocalLLaMA, Reddit r/ArtificialInteligence)

논의: AI 시대 소프트웨어 개발 패턴의 진화: 커뮤니티에서 AI가 소프트웨어 개발에 미치는 영향에 대한 열띤 논의가 벌어지고 있습니다. Amjad Masad는 Mozilla Servo와 같은 전통적인 대규모 소프트웨어 프로젝트의 어려움을 지적하며 AI가 이러한 현상을 바꿀 수 있을지 고민합니다. 동시에 ‘Vibe coding’(분위기 프로그래밍)은 AI 지원에 의존하는 새로운 프로그래밍 방식으로 주목받고 있지만, AI 생성 코드의 신뢰성은 여전히 문제입니다. 미래에는 AI가 코드 생성을 지원하거나 심지어 주도하는 시대가 될 것이며, 전통적인 수동 코딩은 종말을 맞이할 것이라는 견해도 있습니다. (출처: amasad, MIT Technology Review, vipulved)

💡 기타

기술 억만장자들의 인류 미래에 대한 ‘고위험 도박’: Sam Altman, Jeff Bezos, Elon Musk 등 기술 거물들은 향후 10년 및 그 이후에 대한 유사한 계획을 가지고 있습니다. 여기에는 인류의 이익과 일치하는 AI 실현, 글로벌 문제 해결을 위한 슈퍼 인텔리전스 창조, 이와 융합하여 거의 영생에 가까운 삶, 화성 식민지 건설 및 궁극적으로 우주로의 확장 등이 포함됩니다. 논평은 이러한 비전이 기술 만능주의에 대한 믿음, 지속적인 성장에 대한 요구, 물리적 및 생물학적 한계를 초월하려는 집착에 기반하고 있으며, 성장을 추구하기 위한 환경 파괴, 규제 회피, 권력 집중 의제를 가릴 수 있다고 지적합니다. (출처: MIT Technology Review)

기술 억만장자들의 인류 미래에 대한 '고위험 도박'

트럼프 행정부 하의 FDA 신정책: 승인 가속화 및 AI 응용: 미국 FDA 신임 지도부는 우선 과제 목록을 발표하여 신약 승인 절차를 가속화할 계획입니다. 예를 들어 제약회사가 테스트 단계에서 최종 문서를 미리 제출할 수 있도록 허용하고, 약물 승인에 필요한 임상 시험 횟수를 줄이는 것을 고려합니다. 동시에 생성형 AI와 같은 기술을 과학적 검토에 적용하고, 초가공식품, 첨가물 및 환경 독소가 만성 질환에 미치는 영향을 연구할 계획입니다. 이러한 조치는 의약품 안전, 승인 효율성 및 과학적 엄밀성 간의 균형에 대한 논의를 불러일으켰습니다. (출처: MIT Technology Review)

트럼프 행정부 하의 FDA 신정책: 승인 가속화 및 AI 응용

Google AI Overviews 또 다른 오류 노출: 항공기 사고 기종 혼동: Google의 AI Overviews 기능이 인도 항공기 사고 관련 정보에서 사고기가 에어버스 항공기라고 잘못 지적했습니다. 실제로는 보잉 787이었습니다. 이는 특히 중요한 사실 정보를 처리할 때 정보의 정확성과 신뢰성에 대한 우려를 다시 한번 불러일으켰습니다. (출처: MIT Technology Review)