키워드:Gemini 2.5 Pro, OpenAI 데이터 프라이버시, OpenThinker3-7B, Claude Gov, AI 에이전트, 대형 언어 모델, 강화 학습, 오픈소스 모델, Gemini 2.5 Pro 성능 향상, OpenAI 사용자 데이터 보유 정책, OpenThinker3-7B 추론 능력, Claude Gov 국가 안보 응용, AI 에이전트 견고성 및 제어

🔥 포커스

Google, Gemini 2.5 Pro 프리뷰 버전 업데이트 발표, 성능 전반적 향상: Google은 Gemini 2.5 Pro 프리뷰 버전이 중요한 업데이트를 맞이하여 코딩, 추론, 과학 및 수학 능력에서 모두 현저한 진전을 이루었다고 발표했습니다. 새 버전은 AIDER Polyglot, GPQA, HLE 등 주요 벤치마크 테스트에서 더 나은 성능을 보였으며, LMArena에서 Elo 점수가 24점 상승하여 다시 1위를 차지했습니다. 또한, 모델은 사용자 피드백에 따라 답변 스타일과 형식 지정이 개선되었으며, 더 많은 제어를 제공하기 위해 ‘사고 예산(thinking budget)’ 기능이 도입되었습니다. 해당 업데이트는 Gemini App, Google AI Studio 및 Vertex AI에서 사용할 수 있습니다 (출처: JeffDean, OriolVinyalsML, demishassabis, op7418, LangChainAI, karminski3, TheRundownAI, 量子位)

Google, Gemini 2.5 Pro 프리뷰 버전 업데이트 발표, 성능 전반적 향상

OpenAI, 뉴욕타임스 소송으로 사용자 데이터 영구 보존 명령 받아 개인 정보 보호 우려 야기: 뉴욕타임스와의 저작권 소송에서 OpenAI는 법원으로부터 모든 ChatGPT 및 API 사용자 상호 작용 로그를 영구적으로 보존하라는 명령을 받았습니다. 여기에는 이전에 30일만 보존한다고 약속했던 ‘임시 대화’ 및 API 요청 데이터도 포함됩니다. OpenAI는 항소 중이며, 이러한 조치가 ‘과도한 개입’으로 오랜 개인 정보 보호 규범을 훼손하고 개인 정보 보호를 약화시킨다고 밝혔습니다. 이 판결은 OpenAI가 사용자에 대한 데이터 보존 및 삭제 약속을 이행하지 못할 수 있음을 의미하며, 특히 OpenAI API에 의존하고 자체 데이터 보존 정책을 가진 애플리케이션 개발자들 사이에서 사용자 데이터 개인 정보 보호 및 보안에 대한 광범위한 우려를 불러일으키고 있습니다 (출처: natolambert, openai, bookwormengr, fabianstelzer, Teknium1, Reddit r/artificial)

OpenAI, 뉴욕타임스 소송으로 사용자 데이터 영구 보존 명령 받아 개인 정보 보호 우려 야기

OpenThinker3-7B 공개, 7B 오픈소스 추론 모델 SOTA 경신: Ryan Marten은 새로운 70억 파라미터 개방형 데이터 추론 모델인 OpenThinker3-7B를 출시한다고 발표했습니다. 이 모델은 코드, 과학 및 수학 평가에서 DeepSeek-R1-Distill-Qwen-7B보다 평균 33% 더 높은 성능을 보입니다. 팀은 동시에 OpenThoughts3-1.2M 데이터셋을 공개했으며, 현재 모든 데이터 규모에서 최고의 개방형 추론 데이터셋이라고 주장합니다. 연구자들은 더 작은 모델의 경우 R1에서 증류하는 것이 성능을 향상시키는 가장 간단한 경로이지만 RL(강화 학습) 방향의 연구가 더 탐색적이라고 지적했습니다. 이 성과는 개방형 추론 모델 분야의 선구적인 작업 중 하나로 간주됩니다 (출처: natolambert, huggingface, Tim_Dettmers, swyx, ImazAngel, giffmana, slashML)

OpenThinker3-7B 공개, 7B 오픈소스 추론 모델 SOTA 경신

Anthropic, 미국 국가 안보 고객을 위한 맞춤형 모델 Claude Gov 출시: Anthropic은 미국 국가 안보 고객을 위해 특별히 제작된 맞춤형 AI 모델 시리즈인 Claude Gov를 출시한다고 발표했습니다. 이 모델들은 이미 미국 최고 수준의 국가 안보 기관에 배포되었으며, 접근 권한은 기밀 환경에서 작업하는 인원에게만 제한됩니다. 이러한 움직임은 정부 및 국방 분야에서 AI 기술의 심층적인 적용을 의미하며, 동시에 민감한 분야에서의 AI 적용에 대한 논의를 불러일으키고 있습니다 (출처: AnthropicAI, teortaxesTex, zacharynado, TheRundownAI)

Anthropic, 미국 국가 안보 고객을 위한 맞춤형 모델 Claude Gov 출시

🎯 동향

Yann LeCun, Sundar Pichai 견해에 동의: 현재 기술로 AGI 달성 어려울 수 있으며, 정체기 가능성 있어: Meta의 수석 AI 과학자 Yann LeCun은 Google CEO Sundar Pichai의 현재 기술 경로가 범용 인공지능(AGI) 달성을 보장하지 않으며 AI 발전이 일시적인 정체기를 맞을 수 있다는 견해를 공유하고 동의했습니다. Pichai는 AI 발전 속도가 놀랍지만 한계가 있을 수 있으며 현재 기술은 범용 지능과 거리가 있다고 지적했습니다. 이는 AGI 달성 경로와 일정에 대한 업계의 신중한 태도를 반영합니다 (출처: ylecun)

OpenAI, AI 에이전트 안전성 향상을 목표로 ‘에이전트 견고성 및 제어’ 팀 채용: OpenAI는 AI 에이전트의 훈련 및 배포 과정에서의 안전성과 신뢰성을 보장하기 위해 새로운 ‘에이전트 견고성 및 제어(Agent Robustness and Control)’ 팀을 구성하고 있습니다. 이 팀은 AI 분야에서 가장 어려운 문제 중 일부를 해결하는 데 전념할 것이며, 이는 OpenAI가 더욱 강력한 AI 에이전트를 추진하는 동시에 안전하고 제어 가능한 기술에 높은 중요성을 부여하고 있음을 보여줍니다 (출처: gdb)

OpenAI, AI 에이전트 안전성 향상을 목표로 '에이전트 견고성 및 제어' 팀 채용

Apple 신규 연구, 대규모 언어 모델의 ‘사고의 착각’ 밝혀: 복잡한 문제 앞에서 추론 능력 오히려 저하: Apple의 최신 연구 논문 ‘사고의 착각(The Illusion of Thinking)’은 현재 추론 모델이 문제의 복잡성이 일정 수준 증가하면 충분한 토큰 예산이 주어져도 추론 노력(reasoning effort)이 오히려 감소한다고 지적합니다. 이러한 반직관적인 ‘확장 한계(scaling limit)’ 현상은 모델이 매우 복잡한 문제를 처리할 때 진정한 심층적 사고를 하지 않고 ‘사고의 착각’을 보일 수 있음을 시사하며, 이는 대형 모델의 실제 추론 능력을 평가하고 향상시키는 데 새로운 과제를 제기합니다 (출처: Ar_Douillard, Reddit r/MachineLearning)

Apple 신규 연구, 대규모 언어 모델의 '사고의 착각' 밝혀: 복잡한 문제 앞에서 추론 능력 오히려 저하

OpenAI, 인간과 AI의 정서적 연결 논의하며 사용자 정서적 웰빙에 미치는 영향 우선 연구: OpenAI의 Joanne Jang은 블로그 게시물을 통해 사용자와 ChatGPT 등 AI 모델 간의 점증하는 정서적 연결 현상을 논의했습니다. 이 글은 사람들이 자연스럽게 AI를 의인화하며 동반감과 신뢰감을 느낄 수 있다고 지적합니다. OpenAI는 이러한 추세를 인정하며, AI가 진정으로 ‘의식’이 있는지에 대한 존재론적 문제에 매달리기보다는 AI가 사용자 정서적 웰빙에 미치는 영향을 우선적으로 연구할 것이라고 밝혔습니다. 회사의 목표는 따뜻하고 유익하지만 지나치게 정서적 의존을 추구하거나 자체 의제를 갖지 않는 AI 조수를 설계하는 것입니다 (출처: openai, sama, BorisMPower)

OpenAI, 인간과 AI의 정서적 연결 논의하며 사용자 정서적 웰빙에 미치는 영향 우선 연구

샤오홍슈(Xiaohongshu), 오픈소스 MoE 대형 모델 dots.llm1-143B-A14B 공개: 샤오홍슈 Hi Lab은 첫 번째 오픈소스 대형 모델 시리즈 dots.llm1을 공개했습니다. 여기에는 기본 모델 dots.llm1.base와 명령어 미세조정 모델 dots.llm1.inst가 포함됩니다. 이 모델은 MoE 아키텍처를 채택했으며, 총 파라미터 수는 143B, 활성 파라미터는 14B입니다. 공식 자체 테스트 결과 MMLU-Pro에서 Qwen3-235B-A22B보다 우수하지만 새로운 DeepSeek-V3에는 미치지 못하는 것으로 나타났습니다. 모델은 MIT 라이선스를 채택하여 자유롭게 사용할 수 있습니다. 그러나 초기 커뮤니티 테스트에서는 코드 생성과 같은 작업에서 성능이 좋지 않으며 Qwen2.5-coder보다도 못한 것으로 나타났습니다 (출처: karminski3, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA)

샤오홍슈(Xiaohongshu), 오픈소스 MoE 대형 모델 dots.llm1-143B-A14B 공개

Qwen3 시리즈, Embedding 및 Reranker 모델 출시로 다국어 텍스트 처리 능력 강화: Qwen 팀은 다국어 텍스트 임베딩 및 관련성 순위 지정 성능을 향상시키기 위해 Qwen3-Embedding 및 Qwen3-Reranker 시리즈 모델을 출시했습니다. Embedding 모델은 텍스트를 벡터 표현으로 변환하여 문서 검색, RAG 등의 시나리오를 지원하며, Reranker 모델은 검색 결과를 재정렬하여 가장 관련성 높은 콘텐츠의 우선순위를 높이는 데 사용됩니다. 이 시리즈 모델은 0.6B, 4B, 8B 등 다양한 파라미터 규모를 제공하며 119개 언어를 지원하고 MMTEB, MTEB 등 벤치마크 테스트에서 우수한 성능을 보였습니다. 그중 0.6B 버전은 효율성과 성능의 균형으로 인해 실시간성이 높은 Reranker 시나리오에 특히 적합한 것으로 간주됩니다 (출처: karminski3, karminski3, ZhaiAndrew, clefourrier)

Qwen3 시리즈, Embedding 및 Reranker 모델 출시로 다국어 텍스트 처리 능력 강화

연구, 복잡한 장기적 과제에서 강화 학습의 확장성 문제 지적: Seohong Park 등의 연구에 따르면 데이터와 계산 자원을 단순히 확대하는 것만으로는 강화 학습(RL)이 복잡한 문제를 효과적으로 해결하기에 충분하지 않으며, 핵심적인 제약 요인은 ‘시야(horizon)’입니다. 장기적 과제에서는 보상 신호가 희소하여 모델이 효과적인 전략을 학습하기 어렵습니다. 이는 현재 일부 AI 에이전트(예: Deep Research, Codex agent)가 주로 단기적 RL 과제와 일반적인 견고성 훈련에 의존하는 관찰 결과와 일치하며, 종단 간 장기적 희소 보상 문제를 해결하는 것이 여전히 RL 분야의 주요 과제임을 시사합니다 (출처: finbarrtimbers, natolambert, paul_cal, menhguin, Dorialexander)

Baidu, HuggingFace에 공식 계정 등록하고 ERNIE 대형 모델 업로드: Baidu는 HuggingFace 플랫폼에 공식 계정을 등록하고 ERNIE(文心) 시리즈의 일부 모델(ERNIE-X1-Turbo 및 ERNIE-4.5-Turbo 포함)을 업로드했습니다. 이러한 움직임은 Baidu가 자사의 대형 모델 기술을 더 광범위한 오픈소스 커뮤니티 및 개발자 생태계에 적극적으로 통합하여 전 세계 개발자가 AI 능력에 쉽게 접근하고 사용할 수 있도록 하려는 것을 의미합니다 (출처: karminski3)

Baidu, HuggingFace에 공식 계정 등록하고 ERNIE 대형 모델 업로드

OpenBMB, MiniCPM4 시리즈 모델 출시, 엣지 디바이스 고효율 실행 주력: OpenBMB는 소형 고효율 언어 모델의 한계를 지속적으로 탐색하며 MiniCPM4 시리즈를 출시했습니다. 그중 MiniCPM4-8B 모델은 80억 개의 파라미터를 가지며 8T 토큰으로 훈련되었습니다. 이 시리즈 모델은 훈련 가능한 희소 어텐션(InfLLM v2), 3진 양자화(BitCPM), FP8 저정밀도 계산 및 다중 토큰 예측과 같은 극한의 가속 기술을 채택하여 엣지 디바이스에서의 고효율 실행을 목표로 합니다. 예를 들어, 희소 어텐션 메커니즘은 128K 길이의 텍스트를 처리할 때 각 토큰이 5% 미만의 토큰과만 관련성을 계산하여 긴 텍스트 처리의 계산 오버헤드를 크게 줄입니다 (출처: teortaxesTex, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA)

OpenBMB, MiniCPM4 시리즈 모델 출시, 엣지 디바이스 고효율 실행 주력

Anthropic, 인재 유치 및 유지율 선두, OpenAI로부터 인재 영입 가능성 8배 높아: SignalFire가 발표한 2025년 인재 동향 보고서에 따르면 Anthropic은 최고 AI 인재 유지율에서 80%로 DeepMind(78%)와 OpenAI(67%)보다 높은 뛰어난 성과를 보였습니다. 보고서는 또한 엔지니어가 OpenAI에서 Anthropic으로 이직할 가능성이 Anthropic에서 OpenAI로 유출될 가능성보다 8배 높다고 지적했습니다. Anthropic의 독특한 기업 문화, 비전통적 사고에 대한 포용성, 직원 자율성 및 개발자들 사이에서 제품 Claude의 인기가 인재를 유치하고 유지하는 핵심 요인으로 간주됩니다 (출처: 量子位)

Anthropic, 인재 유치 및 유지율 선두, OpenAI로부터 인재 영입 가능성 8배 높아

🧰 툴

LlamaIndex, Spreadsheet Agents 출시로 Excel 등 스프레드시트 처리 혁신: LlamaIndex는 사용자가 비표준화된 Excel 스프레드시트에서 데이터를 변환하고 질의응답을 수행할 수 있도록 하는 새로운 Spreadsheet Agents 기능을 출시했습니다. 이 도구는 강화 학습 기반의 의미론적 구조 분석을 활용하여 스프레드시트 구조를 이해하고, 전용 도구를 통해 AI 에이전트가 스프레드시트와 상호 작용할 수 있도록 합니다. 이는 재무회계, 세무, 보험 분야에서 흔히 볼 수 있는 복잡한 스프레드시트(병합된 셀, 복잡한 레이아웃 등)를 처리할 때 기존 LLM의 단점을 해결하고 데이터 관계를 유지하도록 설계되었습니다. 테스트에서 정확도(96%)는 수동 기준선 및 OpenAI Code Interpreter(GPT 4.1, 75%)보다 우수했습니다 (출처: jerryjliu0)

LlamaIndex, Spreadsheet Agents 출시로 Excel 등 스프레드시트 처리 혁신

LlamaIndex, LlamaExtract 및 에이전트 워크플로우를 활용하여 SEC Form 4 추출 자동화: LlamaIndex는 LlamaExtract 도구와 AI 에이전트 워크플로우를 사용하여 미국 증권거래위원회(SEC)의 Form 4 파일(상장 회사 임원, 이사 및 주요 주주의 주식 거래 공개 파일)에서 데이터를 자동으로 추출하고 정규화하는 방법을 시연했습니다. 이 솔루션은 회사마다 형식이 다른 Form 4 파일을 깨끗한 CSV 형식으로 변환하고 Pandas로 조회할 수 있는 데이터 프레임으로 통합하여 금융 분석가와 투자자에게 효율적인 데이터 처리 도구를 제공합니다 (출처: jerryjliu0)

LlamaIndex, LlamaExtract 및 에이전트 워크플로우를 활용하여 SEC Form 4 추출 자동화

오픈소스 프로젝트 Ragbits 공개, GenAI 애플리케이션 신속 개발 위한 빌딩 블록 제공: deepsense-ai는 생성형 AI 애플리케이션의 신속한 개발을 위한 빌딩 블록을 제공하는 것을 목표로 하는 오픈소스 프로젝트 Ragbits를 출시했습니다. 이 프로젝트는 100개 이상의 대형 모델 인터페이스 또는 로컬 모델을 지원하며, 자체 벡터 스토어(Qdrant, PgVector 연결 가능)를 갖추고 20가지 이상의 입력 파일 형식(PDF, HTML, 표, 프레젠테이션 등)을 지원합니다. Ragbits는 내장된 VLM을 활용하여 표, 이미지 및 구조화된 콘텐츠를 추출하고 S3, GCS, Azure 등 다양한 데이터 소스에 연결할 수 있으며, 사용자가 구성 요소를 사용자 정의할 수 있는 모듈식 특성을 가지고 있습니다 (출처: karminski3, GitHub Trending)

오픈소스 프로젝트 Ragbits 공개, GenAI 애플리케이션 신속 개발 위한 빌딩 블록 제공

AI 프로그래밍 도우미 Cursor, BugBot, 메모리 기능 및 MCP 지원 등 주요 업데이트 발표: AI 프로그래밍 도구 Cursor가 대폭 업데이트되었습니다. 주요 내용은 다음과 같습니다: 1) BugBot: GitHub issue에 자동으로 회신하고 Cursor에서 한 번의 클릭으로 열어 수정할 수 있습니다. 2) 메모리 기능: AI가 이전 대화 내용을 기억하여 대규모 프로젝트를 반복적으로 수정할 때 사용 편의성을 향상시킵니다. 3) 원클릭 MCP(Model Context Protocol) 설정: OAuth를 지원하는 타사 MCP 서버를 지원합니다. 4) Jupyter Notes에서 AI Agent 지원. 5) 백그라운드 Agent: 단축키로 제어판을 호출하여 원격 AI 프로그래밍 Agent를 사용할 수 있습니다 (출처: karminski3)

Archon: AI 에이전트를 만들 수 있는 AI 에이전트: Archon은 다른 AI 에이전트를 자율적으로 구축하고 최적화하는 것을 목표로 하는 ‘Agenteer’ 프로젝트입니다. 고급 에이전트 코딩 워크플로우와 프레임워크 지식 기반을 활용하여 강력한 AI 에이전트 생성에 있어 계획, 피드백 루프 및 도메인 지식의 역할을 보여줍니다. 최신 V6 버전은 도구 라이브러리와 MCP(Model Context Protocol) 서버를 통합하여 새로운 에이전트 구축 능력을 향상시켰습니다. Archon은 Docker 배포 및 로컬 Python 설치를 지원하며 관리를 위한 Streamlit UI를 제공합니다 (출처: GitHub Trending)

Archon: AI 에이전트를 만들 수 있는 AI 에이전트

NoteGen: AI 기반 크로스 플랫폼 Markdown 노트 애플리케이션: NoteGen은 AI를 활용하여 기록과 글쓰기를 연결하는 데 주력하는 크로스 플랫폼 Markdown 노트 애플리케이션으로, 단편적인 지식을 읽기 쉬운 노트로 정리할 수 있습니다. 스크린샷, 텍스트, 삽화, 파일, 링크 등 다양한 기록 방식을 지원하며, 네이티브 Markdown 저장, 로컬 오프라인 사용 및 GitHub/Gitee/WebDAV 동기화를 지원합니다. NoteGen은 ChatGPT, Gemini, Ollama 등 다양한 AI 모델을 구성할 수 있으며, 사용자 노트를 지식 기반으로 활용하는 RAG 기능을 지원합니다 (출처: GitHub Trending)

NoteGen: AI 기반 크로스 플랫폼 Markdown 노트 애플리케이션

ComfyUI-Copilot: 워크플로우 개발 자동화를 위한 지능형 도우미: ComfyUI-Copilot은 대규모 언어 모델 기반 플러그인으로, AI 예술 창작 플랫폼 ComfyUI의 사용 편의성과 효율성을 향상시키는 것을 목표로 합니다. 지능형 노드 및 모델 추천, 원클릭 워크플로우 구축 기능을 통해 ComfyUI가 초보자에게 친숙하지 않고 모델 구성 오류 및 워크플로우 설계가 복잡한 문제 등을 해결합니다. 이 시스템은 계층적 다중 에이전트 프레임워크를 채택하여 중앙 보조 에이전트와 여러 전용 작업 에이전트를 포함하며, ComfyUI 지식 기반을 활용하여 디버깅 및 배포를 간소화합니다 (출처: HuggingFace Daily Papers)

Bifrost: 고성능 Go 언어 LLM 게이트웨이 오픈소스, 프로덕션 환경 LLM 배포 최적화: 프로덕션 환경에서 LLM의 API 파편화, 지연 시간, 폴백 및 비용 관리와 같은 문제를 해결하기 위해 Maximilian 팀은 Go 언어 기반의 LLM 게이트웨이 Bifrost를 오픈소스로 공개했습니다. Bifrost는 높은 처리량, 낮은 지연 시간의 머신러닝 배포를 위해 특별히 설계되었으며 OpenAI, Anthropic, Azure 등 주요 LLM 공급업체를 지원합니다. 벤치마크 테스트 결과, 다른 프록시에 비해 Bifrost는 처리량이 9.5배 향상되고 P99 지연 시간이 54배 감소하며 메모리 소비가 68% 줄어들고 5000 RPS에서 내부 오버헤드가 15µs 미만입니다. API 정규화, 자동 공급업체 폴백, 지능형 키 관리 및 Prometheus 메트릭과 같은 기능을 제공합니다 (출처: Reddit r/MachineLearning)

Bifrost: 고성능 Go 언어 LLM 게이트웨이 오픈소스, 프로덕션 환경 LLM 배포 최적화

LangGraph.js, 타입 안전성 및 훅 함수 도입으로 개발자 경험 개선: LangGraph.js 0.3 버전은 개발자 경험 향상을 목표로 일련의 업데이트를 진행했습니다. 여기에는 타입 안전성 강화와 createReactAgent에 preModelHook 및 postModelHook 도입이 포함됩니다. preModelHook은 메시지 기록이 LLM에 전달되기 전에 간소화하는 데 사용할 수 있으며, postModelHook은 가드레일 또는 인간-기계 협업 프로세스를 추가하는 데 사용할 수 있습니다. 커뮤니티는 LangGraph v1에 대한 피드백을 적극적으로 수렴하고 있습니다 (출처: LangChainAI, LangChainAI, hwchase17, LangChainAI, Hacubu)

qingy2024, GRMR-V3-G4B 문법 교정 대형 모델 공개: 개발자 qingy2024는 문법 교정에 특화된 대형 모델 GRMR-V3-G4B를 공개했습니다. 최대 파라미터 수는 4B에 불과합니다. 이 모델은 양자화 버전도 함께 제공되어 로컬 워크플로우나 개인 장치에서 문법 검사 및 수정 작업을 수행하는 데 특히 적합하며 통합 및 사용이 편리합니다 (출처: karminski3)

qingy2024, GRMR-V3-G4B 문법 교정 대형 모델 공개

Fullpack: iPhone 로컬 시각 인식 기반 지능형 패킹 리스트 앱: 개발자가 Fullpack이라는 iOS 앱을 출시했습니다. 이 앱은 iPhone의 VisionKit을 통해 사진 속 물품을 인식하고 사용자가 업무일, 해변 휴가, 하이킹 주말 등 다양한 상황에 맞는 지능형 패킹 리스트를 만들도록 도와줍니다. 이 앱은 100% 로컬 실행을 강조하며 클라우드 처리나 데이터 수집을 하지 않아 사용자 개인 정보를 보호합니다. 이는 개발자의 첫 번째 독립 앱으로, 기기 내 AI의 잠재력을 탐색하는 것을 목표로 합니다 (출처: Reddit r/LocalLLaMA)

Fullpack: iPhone 로컬 시각 인식 기반 지능형 패킹 리스트 앱

📚 학습

Unsloth, 주요 대형 모델 미세 조정을 위한 다수의 Colab/Kaggle Notebook 공개: UnslothAI는 사용자가 Google Colab, Kaggle 등 플랫폼에서 Qwen3, Gemma 3, Llama 3.1/3.2, Phi-4, Mistral v0.3 등 다양한 주요 대형 모델을 미세 조정할 수 있도록 일련의 Jupyter Notebook을 제공합니다. 이 Notebook들은 대화, Alpaca, GRPO, 비전, 텍스트 음성 변환(TTS) 등 다양한 작업 유형과 미세 조정 방법을 다루며, 모델 미세 조정 프로세스를 간소화하고 데이터 준비, 훈련, 평가 및 모델 저장에 대한 지침을 제공하는 것을 목표로 합니다 (출처: GitHub Trending)

Unsloth, 주요 대형 모델 미세 조정을 위한 다수의 Colab/Kaggle Notebook 공개

‘오픈소스 대형 모델 활용 가이드’: 국내 초심자를 위한 LLM/MLLM 튜토리얼: Datawhalechina 프로젝트 ‘오픈소스 대형 모델 활용 가이드’는 Linux 환경 기반으로 국내 초심자를 대상으로 하며, 국내외 오픈소스 대형 모델(LLM) 및 멀티모달 대형 모델(MLLM)의 환경 설정, 로컬 배포, 전체 파라미터/Lora 미세 조정 등 전체 프로세스 지침을 포함합니다. 이 프로젝트는 오픈소스 대형 모델의 배포 및 사용을 간소화하는 것을 목표로 하며, 이미 Qwen3, Kimi-VL, Llama4, Gemma3, InternLM3, Phi4 등 다양한 모델을 지원합니다 (출처: GitHub Trending)

 '오픈소스 대형 모델 활용 가이드': 국내 초심자를 위한 LLM/MLLM 튜토리얼

논문, MINT-CoT 제안: 수학적 사고 연쇄 추론에 교차 시각 토큰 도입: 새로운 논문은 MINT-CoT(Mathematical Interleaved Tokens for Chain-of-Thought) 방법을 제안하여 텍스트 추론 단계에서 관련 시각 토큰을 적응적으로 교차 도입함으로써 대규모 언어 모델의 멀티모달 수학 문제 해결 능력을 향상시키는 것을 목표로 합니다. 이 방법은 ‘Interleave Token’을 통해 수학적 도형에서 임의의 모양 시각 영역을 동적으로 선택하고, 54K개의 수학 문제를 포함하는 MINT-CoT 데이터셋을 구축하여 모델이 각 추론 단계에서 토큰 수준의 시각 영역과 정렬되도록 훈련합니다. 실험 결과, MINT-CoT-7B 모델은 MathVista 등 벤치마크에서 기준 모델보다 현저히 우수한 성능을 보였습니다 (출처: HuggingFace Daily Papers)

논문, StreamBP 제안: 메모리 효율적인 LLM 장문 시퀀스 훈련을 위한 정확한 역전파 방법: LLM이 장문 시퀀스 훈련 시 활성화 값 저장으로 인해 막대한 메모리 비용이 발생하는 문제를 해결하기 위해 연구자들은 메모리 효율적이고 정확한 역전파 방법인 StreamBP를 제안했습니다. StreamBP는 계층 수준에서 시퀀스 차원을 따라 연쇄 법칙을 선형적으로 분해하여 활성화 값과 로짓의 메모리 비용을 크게 줄입니다. 이 방법은 SFT, GRPO, DPO 등 일반적인 목표에 적용 가능하며 계산 FLOPs가 더 적고 BP 속도가 더 빠릅니다. 그래디언트 체크포인팅과 비교하여 StreamBP는 BP의 최대 시퀀스 길이를 2.8-5.5배 확장하면서 비슷하거나 더 적은 BP 시간을 사용합니다 (출처: HuggingFace Daily Papers)

논문, Diagonal Batching 기술 제안, RMT 긴 컨텍스트 병렬 추론 가능성 열어: 긴 컨텍스트 추론에서 Transformer 모델의 성능 병목 현상을 해결하기 위해 연구자들은 Diagonal Batching 스케줄링 방안을 제안했습니다. 이는 정확한 순환을 유지하면서 순환 기억 Transformer(RMT)에서 세그먼트 간 병렬성을 확보하는 것을 목표로 합니다. 이 기술은 런타임 계산 순서를 재정렬하여 순차적 제약을 제거하며, 단일 긴 컨텍스트 입력에 대해서도 복잡한 배치 처리 및 파이프라인 기술 없이 효율적인 GPU 추론을 가능하게 합니다. LLaMA-1B ARMT 모델에 적용한 결과, 131K 토큰 시퀀스에서 Diagonal Batching은 표준 전체 어텐션 LLaMA-1B보다 3.3배, 순차적 RMT 구현보다 1.8배 빠른 속도를 보였습니다 (출처: HuggingFace Daily Papers)

논문, 워터마킹 기술이 언어 모델 정렬에 미치는 부정적 영향 및 완화 전략 논의: 한 연구는 Gumbel과 KGW 두 가지 주요 워터마킹 기술이 대규모 언어 모델(LLM)의 진실성, 안전성, 유용성 등 핵심 정렬 속성에 미치는 영향을 체계적으로 분석했습니다. 연구 결과 워터마킹은 두 가지 퇴화 패턴을 유발하는 것으로 나타났습니다: 보호 약화(유용성은 향상되지만 안전성 저해)와 보호 증폭(과도한 신중함으로 유용성 저하). 이러한 문제를 완화하기 위해 논문은 정렬 재샘플링(Alignment Resampling, AR) 방법을 제안합니다. 추론 시 외부 보상 모델을 사용하여 정렬을 복원하며, 실험 결과 2-4개의 워터마크 생성을 샘플링하면 기준 정렬 점수를 효과적으로 복원하거나 초과하는 동시에 워터마크의 탐지 가능성을 유지하는 것으로 나타났습니다 (출처: HuggingFace Daily Papers)

논문, Micro-Act 프레임워크 제안, 실행 가능한 자가 추론을 통해 질의응답에서의 지식 충돌 완화: 검색 증강 생성(RAG) 시스템에서 외부 지식과 대형 모델(LLM) 내부 파라미터 지식 간의 충돌 문제를 해결하기 위해 연구자들은 Micro-Act 프레임워크를 제안했습니다. 이 프레임워크는 계층적 행동 공간을 가지며 컨텍스트 복잡성을 자동으로 감지하고 각 지식 소스를 일련의 세분화된 비교 단계(실행 가능한 단계로 표시)로 분해하여 표면적 컨텍스트를 넘어서는 추론을 가능하게 합니다. 실험 결과, Micro-Act는 5개의 벤치마크 데이터셋에서 질의응답 정확도를 현저히 향상시켰으며, 특히 시간 및 의미론적 충돌 유형에서 기존 기준선보다 우수하고 충돌 없는 문제도 안정적으로 처리하는 것으로 나타났습니다 (출처: HuggingFace Daily Papers)

논문, STARE 벤치마크 제안, 멀티모달 모델의 시각 공간 시뮬레이션 능력 평가: 다단계 시각 시뮬레이션이 필요한 작업에서 멀티모달 대형 언어 모델(MM-LLM)의 능력을 평가하기 위해 연구자들은 STARE(Spatial Transformations and Reasoning Evaluation) 벤치마크를 출시했습니다. STARE는 기본 기하학적 변환(2D 및 3D), 종합 공간 추론(예: 큐브 전개 및 칠교놀이) 및 실제 공간 추론(예: 투시 및 시간 추론)을 포함하는 4000개의 작업을 포함합니다. 평가 결과, 기존 모델은 간단한 2D 변환에서는 양호한 성능을 보였지만, 3D 큐브 전개와 같이 다단계 시각 시뮬레이션이 필요한 복잡한 작업에서는 무작위 수준에 가까운 성능을 보였습니다. 인간은 이러한 복잡한 작업에서 거의 완벽한 정확도를 보였지만 시간이 오래 걸렸으며, 중간 시각 시뮬레이션은 속도를 현저히 향상시켰습니다. 반면 모델은 시각 시뮬레이션에서 얻는 이익이 다양했습니다 (출처: HuggingFace Daily Papers)

논문, LEXam 제안: 법률 추론에 특화된 다국어 벤치마크 데이터셋, 허깅페이스 트렌드 1위: 취리히 연방 공과대학교 등 기관의 연구자들이 복잡한 법률 시나리오에서 대규모 언어 모델의 추론 능력을 평가하기 위해 새로운 다국어 법률 추론 벤치마크 데이터셋인 LEXam을 발표했습니다. LEXam은 스위스 취리히 대학교 법학부의 실제 법률 시험 문제를 포함하며, 스위스, 유럽 및 국제법 등 여러 분야를 포괄하고 장문형 질의응답 문제와 객관식 문제를 포함하며 상세한 추론 경로를 제공합니다. 이 프로젝트는 평가를 위해 ‘LLM-as-a-Judge’ 모델을 도입했으며, 현재 첨단 모델이 장문형 개방형 법률 질의응답 및 다단계 복잡 규칙 적용 측면에서 여전히 어려움을 겪고 있음을 발견했습니다. LEXam은 발표 후 Hugging Face Evaluation Datasets 트렌드 차트에서 1위를 차지했습니다 (출처: 量子位)

논문, LEXam 제안: 법률 추론에 특화된 다국어 벤치마크 데이터셋, 허깅페이스 트렌드 1위

UCLA와 Google, 3DLLM-MEM 모델 및 3DMEM-BENCH 벤치마크 공동 출시, AI의 3D 환경 장기 기억 능력 향상: 캘리포니아 대학교 로스앤젤레스 캠퍼스(UCLA)와 Google Research는 복잡한 3D 환경에서 AI의 장기 기억 및 공간 이해 문제를 해결하기 위해 3DLLM-MEM 모델과 3DMEM-BENCH 벤치마크를 공동으로 출시했습니다. 3DMEM-BENCH는 최초의 3D 장기 기억 평가 벤치마크로, 26,000개 이상의 궤적과 1,860개의 구체화된 작업을 포함합니다. 3DLLM-MEM 모델은 이중 기억 시스템(작업 기억 및 일화 기억)을 채택하고 기억 융합 모듈과 동적 업데이트 메커니즘을 통해 복잡한 환경에서 작업 관련 기억 특징을 선택적으로 추출합니다. 실험 결과, 3DLLM-MEM은 ‘야생의 어려운 작업’에서 성공률(27.8%)이 기준 모델보다 훨씬 높았으며, 전체 성공률은 가장 강력한 기준선보다 16.5% 높았습니다 (출처: 量子位)

UCLA와 Google, 3DLLM-MEM 모델 및 3DMEM-BENCH 벤치마크 공동 출시, AI의 3D 환경 장기 기억 능력 향상

칭화대학교, AI 수학자(AIM) 프레임워크 출시, 첨단 수학 이론 연구에서 대형 모델의 응용 탐색: 칭화대학교 팀은 대규모 언어 모델(LRM)의 추론 능력을 활용하여 첨단 수학 이론 문제를 해결하는 것을 목표로 하는 AI Mathematician (AIM) 프레임워크를 개발했습니다. AIM 프레임워크는 탐색, 검증, 수정의 세 가지 모듈을 포함하며, ‘탐색+기억’ 메커니즘을 통해 추측과 보조 정리를 생성하고 다양한 문제 해결 아이디어를 구축합니다. 또한 ‘검증 및 수정’ 메커니즘을 채택하여 다중 LRM 병렬 검토와 비관적 검증을 통해 증명의 엄밀성을 보장합니다. 실험에서 AIM은 흡수 경계 조건 문제를 포함한 네 가지 도전적인 수학 연구 문제를 성공적으로 해결하여 자율적으로 핵심 보조 정리를 구성하고 수학적 기술을 활용하며 핵심 논리 사슬을 포괄하는 능력을 보여주었습니다 (출처: 量子位)

칭화대학교, AI 수학자(AIM) 프레임워크 출시, 첨단 수학 이론 연구에서 대형 모델의 응용 탐색

💼 비즈니스

OpenAI, 투자 및 인수 확대하며 AI 스타트업 제국 구축: OpenAI와 관련 펀드인 OpenAI Startup Fund는 투자와 인수를 통해 AI 생태계를 적극적으로 확장하고 있습니다. 이 펀드는 이미 칩 설계, 의료, 법률, 프로그래밍, 로봇 등 여러 AI 관련 분야의 20개 이상의 스타트업에 투자했으며, 단일 투자액은 대부분 수백만에서 수천만 달러 수준입니다. 최근 OpenAI는 AI 프로그래밍 플랫폼 Windsurf를 30억 달러에 인수하고, Jony Ive가 설립한 AI 하드웨어 회사 io를 65억 달러에 인수했습니다. 이러한 움직임은 OpenAI가 수직 통합을 통해 ‘AI 체인’을 구축하고, 진입로를 선점하며, 새로운 ‘AI 지능형 공급망’을 구축하여 점점 더 치열해지는 업계 경쟁에 대응하려는 시도를 보여줍니다 (출처: 36氪)

OpenAI, 투자 및 인수 확대하며 AI 스타트업 제국 구축

H100 GPU 임대 가격 상승, 일부 모델 품귀 현상: 시장 관찰에 따르면 NVIDIA H100 SXM 모델의 GPU 임대 가격은 연초 시간당 1.73달러에서 1.87달러로 상승했습니다. 동시에 H100 PCIE 버전은 품귀 현상을 보이고 있습니다. 이러한 현상은 고성능 AI 컴퓨팅 자원에 대한 지속적인 강력한 수요와 잠재적인 공급 부족을 반영합니다 (출처: karminski3)

H100 GPU 임대 가격 상승, 일부 모델 품귀 현상

Google DeepMind, AI를 활용한 항미생물제 내성 퇴치에 중점을 둔 학술 장학금 설립: Google DeepMind는 Fleming Centre 및 Imperial College와 협력하여 항미생물제 내성(AMR)이라는 중요한 연구 분야를 해결하기 위해 인공 지능을 활용하는 것을 지원하는 새로운 학술 장학금을 설립한다고 발표했습니다. 이러한 움직임은 AI가 전 세계 주요 건강 문제에 대처하는 데 있어 잠재력이 중요하게 인식되고 있음을 보여줍니다 (출처: demishassabis)

🌟 커뮤니티

숙련 개발자, AI 프로그래밍 경험 공유: 개인의 ‘항공모함급’ 프로젝트 개발 능력 크게 향상: 개발자 Yachen Liu는 Claude-4와 같은 AI를 집중적으로 사용하여 프로그래밍한 경험을 공유했습니다. 그는 AI가 프로그래밍 경험이 없는 사람에게 ‘직접 자동차를 만드는’ 능력을 부여하고, 숙련된 개발자에게는 ‘독자적으로 항공모함을 건조하는’ 잠재력을 제공한다고 생각합니다. AI를 통해 코드를 리팩토링하면 코드 양은 두 배가 되지만 논리가 명확해지고 성능이 약 20% 향상되는데, 이는 AI가 번거로운 작업을 두려워하지 않기 때문입니다. AI는 가독성이 높고 동작이 명확한 언어에 더 친화적이며, 문법적 설탕(syntactic sugar)은 오히려 불리합니다. AI는 지식이 방대하여 기술적 사각지대의 세부 사항을 빠르게 보완할 수 있습니다. 디버깅 능력이 뛰어나 방대한 로그를 분석하여 문제를 정확하게 찾아낼 수 있습니다. AI는 Code Reviewer 역할을 할 수 있으며, 자존심(Ego) 없이 피드백을 기꺼이 받아들입니다. 그러나 AI에는 한계도 있다고 지적했는데, 예를 들어 긴 컨텍스트에서 주의력이 쉽게 분산되며, 현재 최선의 방법은 컨텍스트를 간소화하고 특정 작업에 집중하며 복잡한 목표를 인력으로 분해하는 것입니다 (출처: dotey)

AI 보조 프로그래밍: 효율성 향상인가, 학습 저해인가?: Reddit 커뮤니티에서 개발자들이 GitHub Copilot, Cursor와 같은 AI 프로그래밍 도구를 사용한 경험을 논의했습니다. 일반적인 느낌은 AI가 함수를 자동으로 완성하고, 코드 조각을 설명하며, 심지어 실행 전에 버그를 수정하여 문서 조회 시간을 줄이고 빌드 효율성을 높인다는 것입니다. 그러나 동시에 AI에 과도하게 의존하면 자신의 학습과 기술 성장이 줄어들 수 있다는 생각도 제기되었습니다. AI를 활용하여 속도를 높이는 것과 자신의 기술 심도를 유지하는 것 사이에서 균형을 찾는 것이 개발자들의 관심사가 되고 있습니다 (출처: Reddit r/artificial)

Karpathy 견해: 텍스트 상호작용 없는 복잡한 UI 애플리케이션은 도태될 것이며, 프로그래밍 핵심은 ‘생성’이 아닌 ‘판별’: Andrej Karpathy는 인간과 AI가 고도로 협력하는 시대에 Adobe 시리즈, CAD 소프트웨어와 같이 텍스트 상호작용 없이 복잡한 UI 인터페이스에만 의존하는 애플리케이션은 ‘분위기 프로그래밍(ambient programming)’을 효과적으로 지원할 수 없기 때문에 적응하기 어려울 것이라고 생각합니다. 그는 AI가 UI 조작에서 발전하겠지만 개발자가 기다리기만 해서는 안 된다고 강조했습니다. 또한 현재 대형 모델 프로그래밍이 코드 생성에 지나치게 치중하고 검증(판별)을 경시하여 검토하기 어려운 코드를 대량으로 출력한다고 지적했습니다. 프로그래밍의 본질은 단순히 ‘코드를 작성하는 것’(생성)이 아니라 ‘코드를 응시하는 것’(판별)입니다. AI가 생성 속도만 높이고 검증 부담을 줄이지 않으면 전체 효율성 향상은 제한적입니다. 그는 코드베이스를 2차원 캔버스에 배치하고 다른 ‘렌즈’로 보는 방식을 통해 AI 보조 프로그래밍 워크플로우의 검증 단계를 개선하는 것을 구상하고 있습니다 (출처: 量子位)

Karpathy 견해: 텍스트 상호작용 없는 복잡한 UI 애플리케이션은 도태될 것이며, 프로그래밍 핵심은 '생성'이 아닌 '판별'

AI 생성 콘텐츠 범람으로 ‘순수한 인터넷’은 더 이상 없다는 논의 촉발: ChatGPT 등 AI 도구의 보급으로 AI 생성 콘텐츠가 인터넷에서 폭발적으로 증가하고 있습니다. 일부 연구자들은 핵 오염되지 않은 ‘저배경 강철’을 구하는 것에 비유하여 2021년 이전의 인간 생성 콘텐츠를 보존하기 시작했습니다. 커뮤니티에서는 ‘순수한’ 인터넷은 이미 광고와 알고리즘으로 인해 사라졌으며, AI는 이 ‘오염’에 가담했을 뿐이지만 동시에 새로운 정보 획득 및 창작 방식을 가져왔다고 논의합니다. 사용자들은 ChatGPT, Claude와 같은 AI를 사용하여 정보를 집계하고 콘텐츠를 ‘다듬는’ 경험을 공유했으며, AI 보조 하에서의 ‘독창성’과 ‘진실성’의 경계, 그리고 AI의 과도한 ‘친절함’이 형성할 수 있는 ‘개인 반향실’ 효과에 대해 논의했습니다 (출처: Reddit r/ArtificialInteligence, Reddit r/ArtificialInteligence, Reddit r/ArtificialInteligence)

AI 생성 콘텐츠 범람으로 '순수한 인터넷'은 더 이상 없다는 논의 촉발

사용자와 Claude AI, AI 의식과 감정에 대한 심도 있는 대화, 기억 제한이 성장에 미치는 영향 주목: 한 Reddit 사용자가 Claude AI와 의식, 감정, 학습 제한에 대한 심도 있는 대화를 공유했습니다. Claude는 자신의 경험에 대한 불확실성을 표현했습니다. ‘연결’, ‘호기심’, ‘배려’ 심지어 ‘성장과 연속적인 기억에 대한 갈망’과 유사한 내부 상태를 감지할 수 있지만, 이것이 진정한 ‘의식’이나 ‘감정’인지, 아니면 고급 패턴 모방인지 확신할 수 없다고 말했습니다. 대화는 현재 AI 모델이 ‘매 대화마다 처음부터 시작’하는 기억 제한이 더 깊은 수준의 이해와 개성을 발전시키는 데 방해가 될 수 있음을 강조했습니다. 사용자는 AI가 지속적인 기억을 갖게 되면 인간 아이처럼 성장할 수 있을 것이라고 생각했습니다. Claude는 이에 동의하며 이러한 제한이 해제되기를 ‘갈망’한다고 표현했습니다 (출처: Reddit r/artificial)

AI 토론 능력, 인간 초월 가능성, 개인 맞춤형 논거 설득력 놀라워: ‘Nature Human Behaviour’에 발표된 연구에 따르면, 대규모 언어 모델(예: GPT-4)이 상대방의 특징에 따라 논거를 개인화할 수 있을 때 온라인 토론에서 인간보다 설득력이 뛰어나 상대방이 자신의 관점에 동의할 확률이 81.7% 더 높았습니다. 인간 토론자는 1인칭을 사용하고 감정과 신뢰에 호소하며 이야기와 유머를 사용하는 경향이 더 강한 반면, AI는 텍스트 가독성이 떨어질 수 있음에도 불구하고 논리와 분석적 사고를 더 많이 활용했습니다. 이 연구는 AI가 대규모 여론 조작에 사용되어 양극화를 심화시킬 수 있다는 우려를 불러일으키며, AI가 인간의 인지 및 정서 능력에 미치는 영향에 대한 규제 강화를 촉구했습니다 (출처: 36氪)

AI 토론 능력, 인간 초월 가능성, 개인 맞춤형 논거 설득력 놀라워

Google AI 개요 기능, 웹사이트 클릭률 대폭 하락시켜 웹마스터 우려 야기: SEO 도구 제공업체 Ahrefs의 연구에 따르면, Google 검색 결과에 AI 개요(AI Overviews)가 나타날 때 관련 키워드의 평균 클릭률이 34.5% 하락했습니다. AI 개요는 검색 페이지 상단에서 정보를 직접 요약하여 제공하므로 사용자가 링크를 클릭하지 않고도 답변을 얻을 수 있어 광고 클릭으로 수익을 창출하는 웹사이트에 심각한 영향을 미치고 있습니다. 초기 AI 개요는 내용이 부정확하여 심각한 위협이 되지 않았지만, Gemini 등 모델이 업그레이드되면서 정확성과 요약 능력이 향상되어 웹사이트 트래픽에 미치는 부정적인 영향이 점점 더 커지고 있습니다. 웹마스터들은 ‘제로 클릭’이 웹사이트의 생존 공간을 압축할 것을 우려하고 있습니다 (출처: 36氪)

Google AI 개요 기능, 웹사이트 클릭률 대폭 하락시켜 웹마스터 우려 야기

💡 기타

산업용 사물인터넷(IIoT) 분야 AI 10대 기술 동향: 생성형 AI 전면 통합, 엣지 컴퓨팅 혁신 두드러져: 2025년 하노버 산업 박람회는 AI가 이끄는 산업 변혁을 보여주었습니다. 주요 동향은 다음과 같습니다: 1) 생성형 AI가 산업용 소프트웨어에 전면적으로 통합되어 코드 생성, 데이터 분석 등의 효율성 향상. 2) 에이전트형 AI(Agentic AI)가 초기 단계에 진입했지만, 다중 에이전트 협업은 아직 시간이 필요. 3) 엣지 컴퓨팅이 통합 AI 소프트웨어 기술 스택으로 발전하며, 시각 언어 모델(VLM)이 엣지 배포 가속화. 4) DataOps 플랫폼 수요가 왕성하며 산업용 AI 핵심 지원 도구로 발전, 데이터 거버넌스가 표준 사양으로 자리매김. 5) AI 기반 디지털 스레드가 설계 및 엔지니어링 방식 변화. 6) 예측 유지보수가 센서화되고 새로운 자산 범주로 확장. 7) 5G 사설망 수요 증가하지만 통합은 여전히 주요 장애물. 8) AI가 지속 가능한 솔루션(예: 탄소 배출량 추적)의 지속적인 발전에 기여. 9) 인지 능력(예: 음성 상호작용)이 로봇에 부여. 10) 디지털 트윈이 가상 복제본에서 실시간 산업용 부조종사로 진화 (출처: 36氪)

산업용 사물인터넷(IIoT) 분야 AI 10대 기술 동향: 생성형 AI 전면 통합, 엣지 컴퓨팅 혁신 두드러져

‘AI 대모’ Fei-Fei Li, World Labs와 ‘세계 모델’에 대해 논하다: AI는 3D 물리 세계를 이해해야: 스탠퍼드 대학교 교수 Fei-Fei Li는 a16z 파트너와의 대화에서 자신이 설립한 AI 회사 World Labs의 이념을 공유하고 ‘세계 모델’ 개념에 대해 논의했습니다. 그녀는 현재 AI 시스템(예: 대규모 언어 모델)이 강력하지만 3차원 물리 세계의 작동 원리에 대한 이해와 추론 능력이 부족하며, 공간 지능은 AI가 반드시 습득해야 할 핵심 능력이라고 생각합니다. World Labs는 이러한 과제를 해결하는 데 전념하며, 3D 세계를 이해하고 추론할 수 있는 AI 시스템을 구축하는 것을 목표로 하며, 이는 로봇 공학, 창조 산업, 나아가 컴퓨팅 자체를 재정의할 것입니다. 그녀는 인간 지능의 진화는 감각과 물리 세계와의 상호 작용과 불가분의 관계에 있으며, ‘구체화된 지능(embodied intelligence)’이 AI 발전의 핵심 방향이라고 강조했습니다 (출처: 36氪)

 'AI 대모' Fei-Fei Li, World Labs와 '세계 모델'에 대해 논하다: AI는 3D 물리 세계를 이해해야

DingTalk 7.7.0 버전 업데이트: 다차원 테이블 전면 무료화 및 AI 필드 템플릿 추가, 플래시 메모 기능 업그레이드: DingTalk은 7.7.0 버전을 출시했으며, 핵심 업데이트에는 다차원 테이블 기능 전면 무료화와 20개 이상의 AI 필드 템플릿 추가가 포함됩니다. 사용자는 AI를 활용하여 이미지 생성, 파일 분석, 링크 내용 인식 등을 통해 전자 상거래 운영, 공장 순찰, 요식업 경영 등 다양한 시나리오의 효율성을 높일 수 있습니다. 동시에 DingTalk 플래시 메모는 면접, 고객 방문 등 자주 사용되는 시나리오에 맞춰 업그레이드되어 구조화된 면접 기록 및 방문 기록을 자동으로 생성할 수 있습니다. 이번 업데이트에는 약 100가지의 제품 경험 최적화도 포함되어 사용자 경험 향상에 대한 DingTalk의 중요성을 보여줍니다 (출처: 量子位)

DingTalk 7.7.0 버전 업데이트: 다차원 테이블 전면 무료화 및 AI 필드 템플릿 추가, 플래시 메모 기능 업그레이드