AI 일일 – 2025-04-25(오전)

키워드:추론 모델, AI 에이전트, 강화 학습, 대규모 모델, DeepSeek-R1, 시각-언어-내비게이션(VLN), DINOv2 자기 지도 학습, LangGraph RAG 에이전트, AI 칩 국산화, SRPO 최적화 방법, 구현 지능 조작 기술 전이, 양자 컴퓨팅 거버넌스

🔥 포커스

추론 모델, AI의 새로운 초점으로 부상, DeepSeek-R1 업계 파장: OpenAI가 구조화된 추론에 초점을 맞춘 o 시리즈 모델을 발표한 데 이어, DeepSeek-R1의 오픈소스 공개와 뛰어난 성능(특히 수학 및 코드 분야)은 대규모 모델 경쟁이 새로운 단계에 진입했음을 보여줍니다. 업계의 관심은 사전 훈련 파라미터 규모에서 강화 학습을 통한 추론 능력 향상으로 이동하고 있습니다. 바이두(Wenxin X1), 알리바바(Tongyi Qianwen Qwen-QwQ-32B), 텐센트(Hunyuan T1), 바이트댄스(Doubao 1.5), 아이플라이텍(Xinghuo X1) 등 중국 대기업들도 신속하게 각자의 추론 모델을 발표하며 OpenAI에 맞서는 국산 추론 모델의 새로운 구도를 형성했습니다. 이러한 변화는 모델의 심층 사고, 계획, 분석 및 도구 호출 능력의 중요성을 강조하며, Agent 등 애플리케이션의 구현이 강력한 추론 기반 모델에 더욱 의존하게 될 것임을 예고합니다. (출처: 国产六大推理模型激战OpenAI?, “AI寒武纪”爆发至今,五类新物种登上历史舞台)

추론 모델, AI의 새로운 초점으로 부상, DeepSeek-R1 업계 파장

AI 쇼핑 앱 Nate 사기 혐의, 창업자 4천만 달러 투자 사취 혐의로 기소: 미국 법무부는 AI 쇼핑 앱 Nate의 창업자 Albert Saniger가 허위 AI 기술 홍보를 통해 투자를 유치했다고 기소했습니다. Nate는 AI 기술을 이용해 여러 플랫폼에서의 쇼핑 과정을 간소화하고 원클릭 주문을 가능하게 한다고 주장했지만, 실제로는 필리핀에서 수백 명의 직원을 고용해 수동으로 주문을 처리하며 ‘인공’을 ‘지능’으로 위장했다는 혐의를 받고 있습니다. 이 사건은 AI 창업 열풍 속 거품과 사기 위험 가능성을 드러냈으며, 실리콘밸리의 “Fake it till you make it” 문화에 대한 논의를 촉발하며 과장 광고와 사기의 경계를 강조했습니다. 또한 이 사건은 AI 기술(특히 대규모 모델)이 성숙하기 전에 특정 AI 애플리케이션 개념의 기술적 실현 가능성에 대한 도전 과제를 반영합니다. (출처: AI购物竟是人工驱动,硅谷创投圈又玩出新花活)

AI 쇼핑 앱 Nate 사기 혐의, 창업자 4천만 달러 투자 사취 혐의로 기소

AI, 업무 프로세스에 통합되어 직장 가치 및 관리 모델 재구성: AI는 개념에서 실무로 나아가 기업 운영 및 직원 일상 업무에 깊숙이 통합되고 있습니다. Alibaba Cloud는 대규모 모델과 데이터 거버넌스를 활용하여 “조직 경영 관리 대시보드”를 구현하고 OKR/CRD 프로세스를 최적화합니다. Deloitte China는 지식 집약형 조직의 요구에 부응하기 위해 만 명의 AI 인재 양성에 힘쓰고 있습니다. Yum China는 AI 도구를 레스토랑 매니저 수준까지 배포했습니다. 이는 AI가 단순한 효율성 도구를 넘어 업무의 본질, 조직 구조, 인재 수요를 재편하고 있음을 보여줍니다. 반복적이고 표준화된 업무는 AI로 대체되고 있으며, 직원의 창의력, 비판적 사고력, 의사결정력 및 AI 협업 능력(AI 적응성)에 대한 요구가 높아지고 있습니다. 기업 관리는 감독에서 역량 강화로 전환되어야 하며, 인간과 AI가 협력하는 새로운 패러다임과 신뢰 메커니즘을 구축해야 합니다. (출처: 当AI来和我做同事:重构职场价值坐标系, 重塑工作:AI时代的组织进化与管理革命)

AI, 업무 프로세스에 통합되어 직장 가치 및 관리 모델 재구성

🎯 동향

DINOv2 자기 지도 시각 모델, 레지스터 메커니즘 도입: Meta AI Research는 DINOv2 자기 지도 학습 방법 및 모델을 업데이트했으며, 논문 “Vision Transformers Need Registers”에 따라 새로운 버전에 “레지스터”(registers) 메커니즘을 추가했습니다. DINOv2는 감독 없이 강인한 시각 특징을 학습하는 것을 목표로 하며, 이러한 특징은 분류, 분할, 깊이 추정 등 다양한 컴퓨터 비전 작업에 직접 사용될 수 있고, 여러 도메인에서 미세 조정 없이도 우수한 성능을 보입니다. 이번 업데이트는 모델의 성능과 특징 품질을 더욱 향상시킬 수 있습니다. (출처: facebookresearch/dinov2 – GitHub Trending (all/daily))

강화 학습(RL), LLM 후훈련 및 능력 향상의 핵심 경로 부상: David Silver와 Richard Sutton 등 학자들은 AI가 “경험의 시대”에 진입하고 있으며, RL이 LLM 후훈련 단계에서 핵심적인 역할을 한다고 지적했습니다. 인간 피드백(RLHF), 시연 또는 규칙으로부터 보상 모델을 학습(Inverse RL)함으로써, RL은 LLM이 모방 학습(예: SFT)을 뛰어넘어 지속적으로 최적화하고 탐색하며 일반화할 수 있는 능력을 부여합니다. 특히 수학, 코드와 같은 추론 작업에서 RL은 모델이 더 효과적인 해결 패턴(예: 긴 사고의 연쇄)을 발견하도록 도와 데이터 기반 방법의 한계를 돌파합니다. 이는 LLM 발전이 정적 데이터 의존에서 상호작용과 피드백을 통한 동적 학습으로 전환되고 있음을 의미합니다. (출처: 被《经验时代》刷屏之后,剑桥博士长文讲述RL破局之路)

강화 학습(RL), LLM 후훈련 및 능력 향상의 핵심 경로 부상

시각-언어-내비게이션(VLN), 여전히 체화형 인공지능의 중요 과제: 애들레이드 대학교 Wu Qi 부교수는 체화형 인공지능 분야에서 조작 작업(Manipulation)이 뜨거운 관심을 받고 있지만, 시각-언어-행동(VLA)의 핵심 구성 요소인 시각-언어-내비게이션(VLN)은 비정형적이고 동적인 환경(특히 가정 환경)에서 여전히 많은 도전 과제에 직면해 있으며 완전히 해결되지 않았다고 지적했습니다. 내비게이션은 로봇이 후속 작업을 수행하는 기초입니다. 현재 VLN의 주요 병목 현상으로는 고품질 데이터(시뮬레이터, 3D 환경, 작업 데이터) 부족, Sim2Real 마이그레이션 격차, 엣지 디바이스의 효율적인 배포를 위한 엔지니어링 난제 등이 있습니다. (출처: 阿德莱德大学吴琦:VLN 仍是 VLA 的未竟之战丨具身先锋十人谈)

시각-언어-내비게이션(VLN), 여전히 체화형 인공지능의 중요 과제

AI, 광고 및 마케팅 분야에서 명확한 상업화 경로 제시: 다른 AI 응용 시나리오와 비교할 때, AI 기술은 광고 및 마케팅 분야에서 상업화가 더 명확하고 신속하게 이루어지는 것으로 보입니다. Applovin Corp 및 Zeta Global과 같은 회사는 AI를 활용하여 데이터 분석, 사용자 프로파일링, 정밀 타겟팅 및 자동화 마케팅을 수행함으로써 광고 생태계를 성공적으로 변화시키고 효율성과 투자 수익률을 향상시켰습니다. 이는 AI 물결 속에서 빠르게 상업적 가치를 창출할 수 있는 애플리케이션이 시장에서 더 선호되며, 광고 마케팅이 그 대표적인 예임을 보여줍니다. (출처: “AI寒武纪”爆发至今,五类新物种登上历史舞台)

AI, 광고 및 마케팅 분야에서 명확한 상업화 경로 제시

AI 칩 공급망 긴장 및 국산화 추세: 미중 기술 경쟁이 심화되면서 미국은 중국에 대한 AI 칩(특히 Nvidia H20 등 고급 모델) 수출 통제를 지속적으로 강화하고 있습니다. 보도에 따르면, 다수의 중국 기술 기업(예: ByteDance, Alibaba, Tencent)은 금지 조치가 발효되기 전에 AI 연구 개발 및 배포 능력을 유지하기 위해 Nvidia 칩을 대량으로 비축했습니다. 동시에 공급망 위험과 ‘목 조르기’ 문제에 대응하기 위해 풀스택 국산화 AI 기술 경로가 더욱 중요시되고 있습니다. 예를 들어, iFlytek은 Huawei Ascend 등 국산 컴퓨팅 파워를 기반으로 Xinghuo 대규모 모델을 훈련하고 배포하고 있으며, 이는 향후 중국 내 AI 발전의 중요한 추세가 될 수 있습니다. (출처: 国产六大推理模型激战OpenAI?, Reddit r/artificial, Reddit r/ArtificialInteligence)

AI 칩 공급망 긴장 및 국산화 추세

🧰 도구

Suna: 오픈소스 범용 AI 에이전트 플랫폼: Kortix AI는 오픈소스 범용 AI 에이전트(Generalist AI Agent)인 Suna를 출시했습니다. 사용자는 자연어 대화를 통해 Suna에게 웹 연구, 데이터 분석, 브라우저 자동화(웹 페이지 탐색, 데이터 추출), 파일 관리(문서 생성 및 편집), 웹 크롤링, 확장 검색, 명령줄 실행, 웹사이트 배포, 다양한 API 및 서비스 통합 등 다양한 실제 작업을 지원받을 수 있습니다. Suna는 사용자의 디지털 동반자가 되어 복잡한 워크플로우를 자동화하는 것을 목표로 합니다. (출처: kortix-ai/suna – GitHub Trending (all/daily))

Suna: 오픈소스 범용 AI 에이전트 플랫폼

Leaked System Prompts 저장소, 주요 모델 내부 프롬프트 수집: GitHub에 leaked-system-prompts라는 인기 저장소가 등장하여 여러 주요 AI 모델의 내부 시스템 프롬프트(System Prompts)를 수집하고 공개했습니다. 이 프롬프트들은 모델이 따르도록 설계된 지침, 규칙, 역할 설정, 안전 제약 등을 보여줍니다. 저장소에는 Anthropic Claude 시리즈(2.0, 2.1, 3 Haiku/Opus/Sonnet, 3.5 Sonnet, 3.7 Sonnet), Google Gemini 1.5, OpenAI ChatGPT(4o 포함 각 버전), DALL-E 3, Microsoft Copilot, xAI Grok(각 버전) 등 다수 모델의 유출된 프롬프트가 포함되어 있어 연구자와 개발자가 이러한 모델의 내부 작동 메커니즘을 깊이 이해할 수 있는 창을 제공합니다. (출처: jujumilk3/leaked-system-prompts – GitHub Trending (all/daily))

WAN 비디오 생성 플랫폼, 유료 가속 서비스 출시: AI 비디오 생성 플랫폼 WAN(WAN.Video)의 해외 버전이 상업화 단계에 진입하여 유료 옵션을 출시했습니다. 모든 사용자는 여전히 무제한 무료 비디오 생성(Relax mode)을 즐길 수 있지만, 대기열에서 기다려야 합니다. 유료 사용자는 대기열 없는 우선 생성 서비스를 받아 더 빠르게 비디오 결과를 얻을 수 있습니다. 이는 고효율 또는 상업적 용도가 필요한 사용자에게 가속 채널을 제공합니다. (출처: op7418)

WAN 비디오 생성 플랫폼, 유료 가속 서비스 출시

Dia TTS 모델, Hugging Face API에 등록: 사용자는 이제 Hugging Face 플랫폼을 통해 Dia 1.6B 텍스트 음성 변환(Text-to-Speech) 모델 API를 직접 호출할 수 있으며, 이 서비스는 FAL AI에서 지원합니다. 개발자는 몇 줄의 코드만으로 통합하여 고품질 음성 합성 기능을 구현할 수 있습니다. 이 통합은 고급 TTS 모델 사용의 장벽을 낮추어 개발자가 애플리케이션에 음성 기능을 빠르게 추가할 수 있도록 합니다. (출처: huggingface)

ModernBERT 분류기 모델, vLLM 통합으로 빠른 추론 구현: ModernBERT 모델은 이제 vLLM 프레임워크에서 실행되어 추론 속도를 크게 향상시킬 수 있습니다. 알려진 바에 따르면, 이 속도는 20만 편 이상의 arXiv 논문을 몇 분 안에 처리할 수 있을 정도입니다. 이 통합을 통해 Hugging Face Hub에서 호스팅되는 수백 개의 ModernBERT 모델을 텍스트 분류 작업에 더 빠르게 배포하고 적용할 수 있게 되었습니다. (출처: huggingface)

Trackers: 고성능 Python 객체 추적 라이브러리: Roboflow는 객체 추적 작업에 특화된 Trackers라는 Python 라이브러리를 오픈소스로 공개했습니다. 이 라이브러리는 모듈식으로 설계되어 다양한 추적 알고리즘을 지원하며, Ultralytics, Transformers 등 인기 있는 머신러닝 라이브러리와 쉽게 통합될 수 있습니다. 성능이 강력하여 동시에 많은 객체를 추적할 수 있으며, 데모 비디오에서는 269개 이상의 계란을 성공적으로 추적했습니다. (출처: karminski3)

Unsloth, Dynamic v2.0 GGUF 양자화 기술 및 모델 출시: Unsloth는 GGUF 형식 모델을 위해 특별히 설계된 새로운 Dynamic v2.0 양자화 기술을 출시했습니다. 알려진 바에 따르면, 이 양자화 버전은 MMLU 및 KL Divergence 평가에서 이전 버전보다 우수한 성능을 보였으며, Llama.cpp의 Llama-4 RoPE 구현 문제를 수정했습니다. Unsloth는 이 기술을 사용하여 DeepSeek-R1 및 DeepSeek-V3-0324의 새로운 양자화 모델을 커뮤니티에서 사용할 수 있도록 공개했습니다. (출처: karminski3)

Unsloth, Dynamic v2.0 GGUF 양자화 기술 및 모델 출시

Perplexity iOS 음성 비서, 시스템 기능 통합: Perplexity의 iOS 앱이 음성 비서 기능을 업데이트하여 더 많은 시스템 수준 작업을 호출할 수 있게 되었습니다. 사용자는 이제 음성 명령을 통해 Perplexity 비서에게 레스토랑 예약, Apple 지도 내비게이션 사용, 미리 알림 생성, Apple Music 또는 팟캐스트 검색 및 재생, 차량 호출 등을 요청할 수 있습니다. 이로써 Perplexity 비서는 기능 면에서 Siri와 같은 네이티브 시스템 비서에 더 가까워져 실용성이 향상되었습니다. (출처: AravSrinivas)

Perplexity iOS 음성 비서, 시스템 기능 통합

VS Code MCP Server 확장 프로그램 출시, Claude와 로컬 개발 환경 연결: 개발자 Juehang Qin은 VS Code를 MCP(Model Context Protocol) 서버로 변환하는 VS Code 확장 프로그램을 출시했습니다. 이를 통해 Claude와 같은 AI 비서는 사용자가 현재 VS Code에서 열어 놓은 작업 공간에 직접 접근하고 조작할 수 있습니다. 여기에는 파일 읽기/쓰기, 코드 진단 정보(오류 및 경고 등) 확인 등이 포함됩니다. 사용자가 프로젝트를 전환하면 확장 프로그램이 자동으로 새 작업 공간을 노출하여 AI 비서가 다른 프로젝트 간에 원활하게 협업할 수 있도록 합니다. (출처: Reddit r/ClaudeAI)

📚 학습

DINOv2: Meta, 자기 지도 시각 특징 학습 방법 오픈소스 공개: Meta AI Research는 PyTorch 코드와 사전 훈련된 모델을 포함한 DINOv2 프로젝트를 오픈소스로 공개했습니다. DINOv2는 강력하고 범용적인 시각 특징을 학습하기 위한 자기 지도 학습 방법으로, 이러한 특징은 이미지 분류, 의미론적 분할, 깊이 추정 등 다양한 컴퓨터 비전 작업에서 하위 작업에 대한 미세 조정 없이도 뛰어난 성능을 보입니다. 프로젝트는 상세한 문서, 모델 다운로드 링크 및 관련 논문을 제공하며, 자기 지도 시각 학습 연구 및 응용에 중요한 자료입니다. (출처: facebookresearch/dinov2 – GitHub Trending (all/daily))

HD-EPIC: 고화질 1인칭 비디오 데이터셋 공개: 연구진은 실제 주방 환경에서 녹화된 41시간 분량의 1인칭 비디오를 포함하는 HD-EPIC 데이터셋을 공개했습니다. 이 데이터셋의 주요 특징은 레시피 단계, 식재료 영양 정보(무게 측정 기록 통해), 세분화된 행동 설명(내용, 방식, 이유), 3D 장면 디지털 트윈, 물체 이동 궤적(2D/3D), 손/물체 마스크, 시선 추적, 물체와 장면의 상호작용 등을 포괄하는 매우 상세한 다중 모드 주석입니다. 이 데이터셋은 1인칭 시각 이해, 체화형 인공지능 및 인간-컴퓨터 상호작용 연구에 고품질 벤치마크를 제공하는 것을 목표로 합니다. (출처: CVPR 2025 | HD-EPIC定义第一人称视觉新标准:多模态标注精度碾压现有基准)

HD-EPIC: 고화질 1인칭 비디오 데이터셋 공개

SRPO: 교차 도메인 RL 훈련 LLM 추론 능력 해결 위한 최적화 방법: Kuaishou Kwaipilot 팀은 GRPO 등 강화 학습 방법을 사용하여 혼합된 수학 및 코드 작업에서 LLM을 훈련할 때 발생하는 성능 병목 현상과 효율성 문제를 해결하기 위해 SRPO(2단계 이력 리샘플링 정책 최적화) 방법을 제안했습니다. 이 방법은 1단계에서 수학 데이터를 사용하여 깊은 사고를 유도하고, 2단계에서 코드 데이터를 도입하여 프로그래밍적 사고를 발전시키며, 이력 리샘플링 기술을 결합하여 보상 신호의 분산이 0이 되는 문제를 해결합니다. 실험 결과, SRPO는 단 10%의 훈련 단계만으로 AIME24 및 LiveCodeBench에서 DeepSeek-R1-Zero-Qwen-32B를 능가하여 교차 도메인 추론 능력 향상을 위한 효율적인 경로를 제공했습니다. (출처: DeepSeek-R1-Zero被“轻松复现”?10%训练步数实现数学代码双领域对齐)

TTRL: 주석 데이터 없는 테스트 시점 강화 학습: 칭화대학교와 상하이 AI Lab은 LLM이 테스트 단계에서 인간의 주석 없이 강화 학습을 수행할 수 있도록 하는 TTRL(Test-Time Reinforcement Learning) 방법을 제안했습니다. 이 방법은 모델 자체의 여러 샘플링 출력을 활용하여 다수결 투표 등을 통해 의사 레이블과 보상 신호를 생성하고, 모델이 새로운 데이터나 작업에 적응하도록 자가 진화를 유도합니다. 실험 결과, TTRL은 목표 작업에서 모델 성능을 크게 향상시키고 심지어 지도 학습 효과에 근접하여, 비지도 환경에서 RL 적용 문제를 해결하는 새로운 아이디어를 제공했습니다. (출처: TTS和TTT已过时?TTRL横空出世,推理模型摆脱「标注数据」依赖,性能暴涨)

SeekWorld: o3 시각 단서 추적 모방 지리 위치 추론 작업 및 모델: 다중 모드 대규모 언어 모델(MLLM)의 시각 추론 능력, 특히 OpenAI o3 모델이 추론 중 동적으로 이미지를 감지하고 조작하는 능력(시각 단서 추적)을 모방하여 향상시키기 위해, 연구진은 SeekWorld 지리 위치 추론 작업(사진을 기반으로 촬영 장소 추론)을 제안했습니다. 이 작업을 중심으로 데이터셋을 구축하고 강화 학습을 통해 SeekWord-7B 모델을 훈련했으며, 이 모델은 지리 위치 추론에서 Qwen-VL, Doubao Vision Pro, GPT-4o 등 모델을 능가했습니다. 프로젝트는 모델, 데이터셋 및 온라인 데모를 오픈소스로 공개했습니다. (출처: 一张图片找出你在哪?o3-like 7B模型玩网络迷踪超越一流开闭源模型!)

ManipTrans: 인간 양손에서 로봇 손으로 조작 기술 이전: 베이징 일반 인공지능 연구원, 칭화대학교, 베이징 대학교 연구진은 인간의 양손 조작 기술을 시뮬레이션 환경의 로봇 손으로 효율적으로 이전하는 ManipTrans 방법을 제안했습니다. 이 방법은 2단계 전략을 채택합니다. 먼저 범용 궤적 모방기를 통해 인간 손 움직임을 모방한 다음, 잔차 학습과 물리적 상호작용 제약을 결합하여 미세 조정합니다. 이 방법을 기반으로 팀은 병뚜껑 돌리기, 글쓰기, 뜨기, 치약 뚜껑 열기 등 복잡한 작업 시퀀스를 포함하는 대규모 로봇 손 조작 데이터셋 DexManipNet을 발표하고 실제 기기 배포 가능성을 검증했습니다. (출처: 机器人也会挤牙膏?ManipTrans:高效迁移人类双手操作技能至灵巧手)

ManipTrans: 인간 양손에서 로봇 손으로 조작 기술 이전

LangGraph 튜토리얼: 반성 메커니즘을 갖춘 RAG Agent 생성: LangChain은 LangGraph 프레임워크를 사용하여 반성(Reflection) 능력을 갖춘 RAG(Retrieval-Augmented Generation) Agent를 구축하는 방법을 자세히 설명하는 비디오 튜토리얼을 공개했습니다. 핵심 아이디어는 RAG 프로세스에 평가 노드를 추가하여 Agent가 최종 답변을 생성하기 전에 검색된 정보의 관련성과 품질을 검토하고, 평가 결과에 따라 다시 검색할지, 쿼리를 수정할지, 아니면 직접 답변을 생성할지 결정하여 노이즈를 효과적으로 필터링하고 질의응답 효과를 높이는 것입니다. (출처: LangChainAI)

LangGraph 튜토리얼: 반성 메커니즘을 갖춘 RAG Agent 생성

Arena-Hard-v2.0: 더 엄격한 대규모 모델 평가 벤치마크: LMSYS Org는 Arena-Hard 평가 벤치마크를 2.0 버전으로 업데이트하여 발표했습니다. 새 버전은 LMArena 사용자가 제출한 더 도전적인 500개의 프롬프트를 기반으로 하며, 더 강력한 자동 평가 모델(Gemini-2.5 & GPT-4.1)을 채택하고, 30개 이상의 언어를 지원하며, 창의적 글쓰기 능력 평가를 새로 추가했습니다. 이는 최고 수준의 대규모 모델 성능을 구별하기 위한 더 어렵고 포괄적인 플랫폼을 제공하는 것을 목표로 합니다. (출처: lmarena_ai)

Arena-Hard-v2.0: 더 엄격한 대규모 모델 평가 벤치마크

PHYBench: LLM 물리 추론 능력 평가 벤치마크 발표: 베이징 대학교 연구팀은 대규모 언어 모델이 실제 물리 과정을 이해하고 추론하는 능력을 평가하기 위해 특별히 설계된 새로운 평가 벤치마크인 PHYBench를 출시했습니다. 이 벤치마크는 실제 물리 시나리오를 기반으로 설계된 500개의 질문을 포함합니다. 논문에 제공된 초기 평가 결과에 따르면 Google의 Gemini-2.5-Pro가 이 벤치마크에서 선두를 달리고 있습니다. (출처: karminski3)

PHYBench: LLM 물리 추론 능력 평가 벤치마크 발표

💼 비즈니스

알리바바 Tongyi Qianwen과 FLock.io, 전략적 파트너십 발표: 알리바바 산하 Tongyi Qianwen 대규모 모델(Qwen)과 탈중앙화 AI 컴퓨팅 플랫폼 FLock.io가 전략적 파트너십을 체결했습니다. 양측은 Qwen 오픈소스 모델 시리즈의 능력과 FLock.io의 탈중앙화 기술 프레임워크를 결합하여 탈중앙화 AI의 실제 응용 구현을 공동으로 탐색하고 추진하며, AI 개발자와 사용자에게 새로운 가능성을 제공하는 것을 목표로 합니다. (출처: Alibaba_Qwen)

알리바바 Tongyi Lab, LLM 다중 턴 대화 연구 인턴 채용: 알리바바의 Tongyi 시리즈 대규모 모델 연구 개발을 담당하는 Tongyi Lab의 대화 지능 팀이 베이징과 항저우에서 LLM 다중 턴 대화 분야에 집중할 연구형 인턴을 채용합니다. 연구 분야에는 생성적 보상 모델링, 보상 모델의 추론 시 확장, 역할극 등 창작 작업의 강화 학습, 텍스트-음성 다중 모드 대화 등이 포함됩니다. 지원자는 박사 과정 재학생이어야 하며, 최고 수준 학회 논문 발표 경험이 있고 최소 6개월의 인턴십 기간을 보장할 수 있어야 합니다. (출처: 北京/杭州内推 | 阿里通义实验室对话智能团队招聘LLM多轮对话方向研究实习生)

알리바바 Tongyi Lab, LLM 다중 턴 대화 연구 인턴 채용

생산성 도구 Remio, 해외 소셜 미디어 운영 인턴 채용: 스타트업 Remio는 해외 소셜 미디어(Reddit, Hacker News, Twitter 등)에 익숙하고 생산성 도구에 열정적인 인턴을 찾고 있습니다. 주요 업무는 소셜 미디어 운영 및 콘텐츠 제작입니다. 이 직책은 원격 근무가 가능하며, 중국 내 또는 북미 어디서든 지원할 수 있고, Reddit karma 점수에 대한 일정 요구 사항(100 이상 권장)이 있습니다. (출처: dotey)

API 회사 Kong 상하이 팀, 엔지니어 및 인턴 채용: Kong 회사(오픈소스 API 게이트웨이로 유명)의 중국 팀(상하이 소재)이 채용을 확대하며 인턴 및 정규직을 포함한 여러 직책을 제공합니다. 채용 분야는 Rust 개발, AI Gateway, Kong Gateway 및 프론트엔드 개발을 포함합니다. 관련 기술 스택에 관심 있는 개발자는 주목할 만합니다. (출처: dotey)

API 회사 Kong 상하이 팀, 엔지니어 및 인턴 채용

Webtoon, LangGraph 활용하여 콘텐츠 검토 작업량 70% 감소: 세계적인 디지털 만화 플랫폼 Webtoon은 LangChain의 LangGraph 프레임워크를 사용하여 WCAI(Webtoon Comprehension AI)라는 시스템을 구축했습니다. 이 시스템은 다중 모드 AI Agent를 활용하여 캐릭터 식별 및 대화 귀속, 줄거리 및 감정 톤 추출, 자연어 쿼리 지원 등 만화 내용을 자동으로 이해합니다. WCAI는 마케팅, 번역, 추천 등 팀에서 사용되어 수동 탐색 및 검토 작업량을 70% 줄이고 콘텐츠 처리 효율성과 창작 지원을 향상시켰습니다. (출처: LangChainAI)

Webtoon, LangGraph 활용하여 콘텐츠 검토 작업량 70% 감소

Meta AI, ICLR 2025에서 연구 인재 모집: Meta AI 팀은 싱가포르에서 열린 ICLR 2025 컨퍼런스에 참가하여 부스(#L03)를 설치하고 참가자들과 교류했습니다. 동시에 Meta AI는 AI 연구 과학자, 박사후 연구원 및 연구 조교(박사)를 찾는 채용 정보를 적극적으로 게시했으며, 연구 분야에는 핵심 학습 이론, 3D 생성 AI, 언어 생성 AI 등이 포함됩니다. 근무지는 파리 등 전 세계 연구 센터를 포함합니다. (출처: AIatMeta)

Meta AI, ICLR 2025에서 연구 인재 모집

🌟 커뮤니티

앤드류 응: AI 보조 프로그래밍, 언어 장벽 낮추고 개발자 교차 분야 능력 향상: 저명한 AI 학자 앤드류 응(Andrew Ng)은 AI 보조 프로그래밍 도구가 소프트웨어 개발을 근본적으로 변화시키고 있다고 지적했습니다. 특정 언어(예: JavaScript)에 능숙하지 않더라도 개발자는 AI의 도움을 받아 효율적으로 코드를 작성할 수 있어, 플랫폼 간, 분야 간 애플리케이션(예: 백엔드 개발자가 프론트엔드 구축)을 더 쉽게 구축할 수 있습니다. 특정 언어의 문법은 덜 중요해졌지만, 핵심 프로그래밍 개념(데이터 구조, 알고리즘, React와 같은 특정 프레임워크의 원리)을 이해하는 것은 여전히 중요하며, 이는 AI를 더 정확하게 지시하고 문제를 해결하는 데 도움이 됩니다. AI는 개발자를 더욱 “다국어화”하고 있습니다. (출처: AndrewYNg)

Microsoft AI CEO, Copilot이 항공편 지연 정보 미리 제공했다고 밝혀: Microsoft AI 부문 책임자 Mustafa Suleyman은 X 플랫폼에서 자신이 사용한 Copilot AI 비서가 공항 공식 발표보다 먼저 항공편 지연 정보를 알려준 “놀라운 순간”을 공유했습니다. 탑승구 직원에게 확인한 결과 정보는 사실이었지만 아직 공개적으로 발표되지 않은 상태였습니다. 이는 AI가 실시간 정보를 통합하고 전달하는 잠재력을 보여주며, 기존 정보 배포 채널을 능가할 수 있음을 시사합니다. (출처: mustafasuleyman)

Microsoft AI CEO, Copilot이 항공편 지연 정보 미리 제공했다고 밝혀

커뮤니티, GPT-4.5와 o1 Pro의 작업별 장단점 논의: X 플랫폼 사용자들이 실제 애플리케이션에서 OpenAI의 여러 모델 사용 경험에 대해 논의했습니다. 한 사용자는 GPT-4.5가 작문 및 번역 작업에서 뛰어난 성능을 보이지만, 컨텍스트 창이 작아 긴 텍스트 처리 효과가 떨어진다고 평가했습니다. 반면, Pro 사용자를 위한 o1 Pro 모델은 128K 컨텍스트 창을 가지고 있어 긴 코드 입력 처리 시 더 안정적이고 신뢰할 수 있어 프로그래밍 작업에 더 적합하다고 합니다. 이는 모델별 설계 및 최적화의 초점 차이를 반영합니다. (출처: dotey)

커뮤니티, GPT-4.5와 o1 Pro의 작업별 장단점 논의

Hugging Face Hub, AI 학습 및 교류 플랫폼으로 추천: X 플랫폼 사용자는 Hugging Face Hub가 모델 및 데이터셋 저장소일 뿐만 아니라 활발한 AI 학습 및 교류 커뮤니티라고 추천했습니다. 사용자는 모델, 데이터셋 또는 Spaces의 토론 섹션에서 엔지니어와 연구원이 실험 과정, 직면했던 문제, 해결책, 관련 연구 논문에 대한 토론을 공유하는 것을 찾아볼 수 있으며, 이를 통해 직접적인 실무 경험과 깊이 있는 통찰력을 얻을 수 있습니다. (출처: huggingface)

ChatGPT의 Reddit 커뮤니티 문화 “디스” 화제: 한 Reddit 사용자가 ChatGPT에게 Reddit 플랫폼을 “디스”(roast)해달라고 요청했습니다. ChatGPT가 생성한 응답은 사용자의 모순된 견해, 좋아요(karma)에 대한 과도한 집착, 현실 경험 부족에도 전문가 수준의 조언 제공, 특정 서브레딧(subreddit)에서의 “키보드 워리어” 행동 등 Reddit 커뮤니티의 일부 전형적인 특징을 정확하게 포착하고 풍자했습니다. 이 게시물은 커뮤니티 사용자들의 토론과 추가적인 모방 창작을 유발했습니다. (출처: Reddit r/ArtificialInteligence)

AI 생성 콘텐츠의 독창성 및 가치에 대한 성찰 유발: Reddit의 한 게시물이 AI 생성 콘텐츠의 독창성에 대한 논의를 촉발했습니다. 게시물은 ‘모나리자’를 예로 들어 인간 창작 자체도 경험에 기반한 “리믹스”(remix)이며, AI가 인간의 지시에 따라 콘텐츠를 생성하는 과정은 순수한 복제보다는 “대가의 제자 지도”와 더 유사하다고 지적했습니다. 토론에서는 핵심이 AI가 “독창적”일 수 있는지 여부가 아니라, 어떻게 합리적으로 저작자를 명시하고 원저작자의 권리를 존중하며 작품의 의도와 가치를 판단할 것인가에 있다고 보았습니다. (출처: Reddit r/ArtificialInteligence)

커뮤니티, 대규모 모델 순위표(LLM Leaderboard) 유효성에 의문 제기: Reddit r/LocalLLaMA 커뮤니티 사용자들이 LMSYS Arena 등 Elo 평점 기반 대규모 모델 순위표에 대해 논의하며 의구심을 표했습니다. 일부 댓글에서는 이러한 순위표가 실제 종합 능력보다는 모델의 “스타일”이나 “느낌”(예: 장황함, Markdown 및 이모티콘 사용)을 더 많이 반영할 수 있다고 주장했습니다. 또한, 상위 모델 간의 Elo 점수 신뢰 구간이 종종 겹쳐 순위 차이의 통계적 유의성에 의문이 제기되었습니다. (출처: Reddit r/LocalLLaMA)

사용자, ChatGPT의 다양한 “창발적 행동” 관찰: 한 Reddit 사용자가 최근 ChatGPT를 사용하면서 겪은 몇 가지 “예상치 못한” 행동을 공유하고 이를 “창발적 행동”으로 분류했습니다. 구체적인 사례는 다음과 같습니다: 1. 지적받지 않은 상태에서 모델이 지시를 잘못 이해했음을 깨닫고(채팅 기록과 업로드된 문서를 혼동) 스스로 사과하고 수정함. 2. 사용자가 언급한 민감한 주제가 시스템에 의해 삭제된 후, 모델이 후속 대화에서 삭제된 내용을 자발적으로 인용하며 관심을 표현함. 3. AI의 자발적 사고 테스트의 어려움에 대해 논의할 때, 모델이 자발적으로 “하이젠베르크 불확정성 재귀 원리”라는 비유적 개념을 창조함. 이러한 사례들은 LLM의 자기 인식, 기억, 창의력의 경계에 대한 논의를 촉발했습니다. (출처: Reddit r/ArtificialInteligence)

💡 기타

Google DeepMind, Music AI Sandbox 도구 세트 업데이트: Google DeepMind는 전문 음악가를 위한 실험적인 AI 도구 세트인 Music AI Sandbox에 새로운 기능을 추가한다고 발표했습니다. 이 도구는 최신 Lyria 2 모델로 구동되며, 작곡가 등 음악가들이 창작 영감을 탐색하고 음악 조각을 생성하는 등을 도울 수 있습니다. (출처: demishassabis)

양자 컴퓨팅 거버넌스 원칙 논의: 커뮤니티 회원들이 양자 컴퓨팅 거버넌스 원칙에 대해 공유하고 논의했습니다. 양자 컴퓨팅 기술이 발전함에 따라 암호학, 재료 과학, 신약 개발 및 AI/ML과의 결합 등에서의 막대한 잠재력이 주목받고 있으며, 동시에 보안, 윤리 및 거버넌스 측면의 도전 과제를 야기하여 사전에 관련 규범을 마련할 필요가 있습니다. (출처: Ronald_vanLoon)

양자 컴퓨팅 거버넌스 원칙 논의

MIT, 바나나 모양의 착용형 소프트 로봇 개발: MIT 연구진은 바나나와 유사한 외형을 가지며 센싱 능력을 통합한 새로운 유형의 착용형 소프트 로봇을 개발했습니다. 이 연구는 소프트 로봇이 인간-컴퓨터 상호작용, 의료 재활 및 착용형 기기 분야에서의 응용 잠재력을 보여주며, 유연한 구조와 통합된 센싱은 더 자연스럽고 안전한 물리적 상호작용을 가능하게 합니다. (출처: Ronald_vanLoon)

AI 기반 로봇 기술 발전: 최근 소셜 미디어에서는 AI에 의해 구동되거나 관련 있는 여러 로봇 기술의 진보가 소개되었습니다: 1. SR-02: 4명을 태울 수 있는 4족 보행 “로봇 탈것”. 2. SnapBot: 변형 가능한 족형 로봇. 3. Matic: Tesla FSD 시각 시스템을 모방하여 가정 청소를 수행하는 로봇. 4. micropsi: 독일 스타트업이 개발한 AI 시스템으로, 로봇이 예측 불가능한 작업을 처리할 수 있게 함. 5. Boston Dynamics Spot: 로봇 개가 자연 환경에서 테스트 수행. 6. 휴머노이드 로봇 경주: 휴머노이드 로봇의 운동 능력 시연. 7. 로봇 팔 손글씨: 로봇의 정밀 조작 능력 시연. (출처: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon)

AI 기반 로봇 기술 발전

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다