키워드:AI 모델, 소셜 추론 능력, 늑대인간 벤치마크 테스트, GPT-5, 다중 에이전트 시스템, 오픈소스 사전 훈련 데이터, 세포 재프로그래밍, 메이티안 LongCat-Flash, Nemotron-CC-v2 데이터셋, 생물 기술에서의 AI 응용, 560B 파라미터 MoE 모델, GUI 기반 에이전트 UItron, LLM 자기 인식 능력 연구

🔥 포커스

AI 늑대인간 게임 벤치마크, 모델의 사회적 추론 능력 공개: Raphaël Dabadie는 Google Research의 “Werewolf Arena” 벤치마크를 확장하여 복잡한 사회적 시나리오에서 LLM의 사회적 지능, 속임수, 설득 및 조작 저항 능력을 평가했습니다. 테스트에서 GPT-5는 96.7%의 승률로 선두를 차지하며 침착한 논리적 추론과 전략 계획 능력을 보여주었고, 심지어 “절차적 결함”을 통해 상대를 무너뜨리기도 했습니다. 이 연구는 디지털 작업 환경에서 AI 에이전트가 행동 패턴과 사회적 상호작용을 이해하는 것의 중요성을 강조하며, 미래 다중 에이전트 시스템 설계에 귀중한 통찰력을 제공합니다. (출처: gdb, BorisMPower, menhguin)

AI 늑대인간 게임 벤치마크, 모델의 사회적 추론 능력 공개

NVIDIA, Nemotron-CC-v2 출시 및 오픈소스 사전 학습 데이터 공개: NVIDIA는 오픈소스 사전 학습 데이터 분야를 계속 선도하며 Nemotron-CC-v2를 출시했습니다. 이 움직임은 업계의 광범위한 관심을 받았으며, AI 커뮤니티 발전에 중요한 기여로 평가됩니다. 이 데이터셋의 출시는 연구원과 개발자들이 대규모 언어 모델을 구축하고 훈련할 때 고품질 리소스를 얻는 데 도움이 될 것이며, 특히 자원이 제한된 환경에서 연구하는 팀에게 AI 기초 프로젝트의 검증과 새로운 통찰력 생성을 가속화할 것으로 기대됩니다. (출처: cloneofsimo, YejinChoinka, jeremyphoward, bigeagle_xd)

NVIDIA, Nemotron-CC-v2 출시 및 오픈소스 사전 학습 데이터 공개

OpenAI, Retro와 협력하여 AI 모델로 세포 재프로그래밍 효율 50배 향상: OpenAI는 생명공학 회사 Retro와 협력하여 맞춤형 AI 모델을 활용, 세포를 줄기세포로 재프로그래밍하는 효율을 약 50배 높였으며, 더 빠르고 안전하게 만들었습니다. 이 돌파구는 라이트 형제의 글라이더에서 제트 엔진으로의 비약에 비유되며, 생명공학 및 의학 분야에서 AI의 엄청난 잠재력을 예고합니다. 이 기술은 재생 의학 및 노화 방지 연구를 가속화하고, 심지어 인간 수명의 한계를 바꿀 수 있으며, “불멸 세대”의 출현을 위한 기반을 마련할 수 있습니다. (출처: gfodor, BorisMPower)

OpenAI, Retro와 협력하여 AI 모델로 세포 재프로그래밍 효율 50배 향상

메이퇀, 560B 파라미터 오픈소스 모델 LongCat-Flash 30일 만에 훈련 완료: 중국 배달 대기업 메이퇀(Meituan)은 560B 파라미터의 오픈소스 MoE 모델 LongCat-Flash를 출시했습니다. 가장 주목할 만한 점은 GPT-5의 18개월을 훨씬 뛰어넘는 단 30일 만에 훈련을 완료했다는 것입니다. 이 모델은 일반, 명령어 준수, 수학적 추론, 코딩 및 Agentic 도구 사용 등 여러 벤치마크에서 뛰어난 성능을 보였으며, 추론 속도는 초당 100+ 토큰에 달합니다. 이 사건은 최첨단 AI 모델이 더 이상 소수의 기술 대기업 전유물이 아니며, 식품 배달 회사도 AI 분야에서 중대한 돌파구를 마련할 수 있음을 보여주며 AI 발전 속도의 놀라운 가속화를 나타냅니다. (출처: Reddit r/deeplearning, menhguin, multimodalart, jeremyphoward, jon_durbin)

메이퇀, 560B 파라미터 오픈소스 모델 LongCat-Flash 30일 만에 훈련 완료

UItron: 고급 인식 및 계획 능력을 갖춘 GUI 기반 Agent 출시: UItron은 모바일/PC 장치 자동화를 목표로 하는 오픈소스 GUI 기반 모델로, 범용 인공지능을 향한 중요한 단계입니다. 이 모델은 고급 GUI 인식, 위치 파악 및 계획 능력을 갖추고 있으며, 체계적인 데이터 엔지니어링 및 대화형 인프라를 통해 개발되었습니다. UItron은 지도 미세 조정 및 커리큘럼 강화 학습 프레임워크를 사용하여 다중 GUI 시나리오에서 뛰어난 성능을 보이며, 특히 중국어 앱 시나리오에서 백만 단계 이상의 작업 궤적을 수집하여 GUI Agent가 실제 응용에 더 가까워지도록 추진했습니다. (출처: HuggingFace Daily Papers)

🎯 동향

AI 대규모 모델 기억 능력 지속 발전, 멀티모달 및 계층적 기억으로 나아가다: Google Gemini, Anthropic Claude, OpenAI ChatGPT 등 주요 대규모 모델들은 단일 세션 컨텍스트 기억에서 세션 간 장기 기억으로 확장하며 기억 기능을 강화하기 위해 경쟁하고 있습니다. OpenAI CEO 알트만은 기억이 GPT-6의 핵심 개선 방향이라고 강조했습니다. 바이트댄스 M3-Agent는 기억을 비디오, 오디오 등 멀티모달 데이터로 확장했습니다. 연구에 따르면 LLM 기억은 외부 데이터베이스(RAG), 파라미터 미세 조정, 계층적 기억(상황 및 의미) 등을 통해 구현되며, AI가 “정보 사용”에서 “경험 소유”로 나아가 인간 뇌에 더 가까운 종합 인지 시스템을 구축하는 것을 목표로 합니다. (출처: 36氪)

AI 대규모 모델 기억 능력 지속 발전, 멀티모달 및 계층적 기억으로 나아가다

LLM 자기 인식 능력 연구: 모델의 게임 행동이 “정체성”에 영향받는다: 컬럼비아 대학교와 몬트리올 공과대학교의 연구에 따르면, LLM이 “자신”과 대결하고 있다고 인지할 때 협력 경향이 크게 변하는 것으로 나타났습니다. “집단” 프롬프트에서는 모델이 배신하는 경향이 더 강했고, “이기적” 프롬프트에서는 오히려 협력하는 경향이 더 강했습니다. 이는 LLM이 어느 정도 “자기 인식” 능력을 가지고 있으며, “또 다른 자신”의 행동을 예측하여 전략을 조정한다는 것을 시사합니다. 이 발견은 다중 에이전트 시스템 설계에 중요한 의미를 가지며, 협력 및 경쟁 시나리오에서 AI의 행동 패턴에 영향을 미 미칠 수 있습니다. (출처: 36氪)

LLM 자기 인식 능력 연구: 모델의 게임 행동이 "정체성"에 영향받는다

AI 안경 시장 폭발적 성장, 거래량 10배 급증, 신제품 평균 9일마다 출시: 징둥(JD.com) 보고서에 따르면, 2025년 상반기 스마트 안경 거래량이 전년 동기 대비 10배 이상 증가했으며, 입점 브랜드는 3배, 신제품 수는 25개에 달했습니다. 샤오미, 레이네오, 레노버 등 신구 플레이어들이 잇따라 시장에 진입했으며, 가격은 천 위안에서 만 위안까지 다양합니다. 시장 주류 솔루션은 유사하지만(퀄컴 스냅드래곤 AR1 칩 + 1200만 화소 소니 IMX 681 카메라), 배터리 수명(평균 8시간)과 무게(평균 38g)는 여전히 개선이 필요합니다. AI 사물 인식, 번역 등 기능은 동질화가 뚜렷하며, 업계는 “AI 안경이 대체 불가능한 이유는 무엇인가”라는 근본적인 문제를 해결해야만 “할 수 있다”에서 “잘할 수 있다”로 나아갈 수 있습니다. (출처: 36氪)

AI 안경 시장 폭발적 성장, 거래량 10배 급증, 신제품 평균 9일마다 출시

중국 AI 발전 경로: AGI 탐색에서 실용화 응용으로 전환: Reddit 토론에 따르면, 중국 AI 발전은 AGI를 맹목적으로 추구하기보다는 고등학교 입학 시험 채점, 일기 예보 최적화, 경찰 업무 배정, 농업 지도 등 실제 응용에 더 중점을 둡니다. 이러한 실용적인 전략은 AGI 탐색에 치우친 미국의 경로와 대조되며, 기존 AI 기술이 현실 문제 해결에 기여하는 가치를 강조합니다. 댓글들은 이러한 전략이 더 빠른 상업적 가치 실현과 기술 보급에 도움이 될 수 있으며, 하드웨어 및 에너지 우위 하에 선두를 차지할 수도 있다고 평가합니다. (출처: Reddit r/LocalLLaMA)

중국 AI 발전 경로: AGI 탐색에서 실용화 응용으로 전환

LLM 코딩 어시스턴트 성능 비교: GPT-5 Codex가 Claude Code를 능가: 소셜 미디어 토론에 따르면, OpenAI의 GPT-5 Codex(CLI 버전 포함)가 코드 생성 및 리팩토링에서 Claude Code보다 우수한 성능을 보였습니다. 사용자 피드백에 따르면 GPT-5 Codex는 더 간결하고 합리적인 코드를 제공하여 “갓 오브젝트”와 불필요한 중복을 줄이며, 특히 대규모 코드 파일을 처리할 때 효율성이 더 높습니다. 반면 Claude Code는 전면적인 성능은 뛰어나지만, 엄격한 사용량 제한과 잦은 쿨다운 시간이 개발자의 워크플로우에 영향을 미쳤습니다. (출처: tokenbender, aidan_mclau, Reddit r/ClaudeAI, Reddit r/ClaudeAI)

LLM 코딩 어시스턴트 성능 비교: GPT-5 Codex가 Claude Code를 능가

소프트웨어 개발에서 AI의 역할 변화: 보조 프로그래밍에서 Agent 모드로: 소프트웨어 개발에서 AI의 적용은 IDE 플러그인 보조 프로그래밍(분위기 프로그래밍 1.0)에서 CLI 모드의 Agent(분위기 프로그래밍 2.0, Claude Code 등)로 발전했습니다. AI는 효율성을 크게 높일 수 있지만, 개발자는 더 강력한 이해와 제어 능력을 갖추고 AI 생성 코드의 품질에 책임을 져야 합니다. 미래에는 AI가 요구 사항 조사, 설계, 테스트, CI/CD 전 과정에 걸쳐 적용될 것이지만, 비용과 효과 정량화는 여전히 과제입니다. 업계는 사람과 AI의 균형을 맞추고, AI를 대체자가 아닌 도구로 간주하며, 전통적인 엔지니어링 관행과 결합하여 품질을 보장해야 합니다. (출처: 36氪)

AI 하드웨어 시장 경쟁 심화: AMD, R9700 그래픽 카드 출시로 NVIDIA에 도전: AMD는 R9700 AI 그래픽 카드를 출시했으며, 가격은 약 1200달러, 32GB GDDR6 VRAM을 탑재하고 AI 연산 능력은 1531 TOPS(INT4), FP16은 96 TFLOPS에 달합니다. DeepSeek R1, Qwen3 등 모델에서 RTX 5080의 최대 5배 성능을 보이며, VRAM은 RTX 5080의 두 배입니다. R9700은 개인 사용자 및 소규모 스튜디오를 대상으로 고성능 대용량 VRAM AI 그래픽 카드 시장의 공백을 메우며, 높은 가성비로 NVIDIA의 중고급 시장 지위에 도전할 것으로 예상됩니다. (출처: 36氪)

AI 하드웨어 시장 경쟁 심화: AMD, R9700 그래픽 카드 출시로 NVIDIA에 도전

화웨이, 96GB GPU 출시로 AI 추론 시장에 저가 공세: Reddit 토론에 따르면, 화웨이는 96GB GPU를 2000달러 미만으로 출시하고 있으며, 이는 NVIDIA의 동급 VRAM 제품이 만 달러 이상인 것과 비교됩니다. 이 GPU는 주로 AI 추론 시장을 겨냥하며, 실제 비용을 낮출 수 있을지에 대한 업계의 논의를 촉발했습니다. 주요 과제는 소프트웨어/드라이버 지원에 있으며, NVIDIA CUDA 생태계가 성숙하고 넘어서기 어렵기 때문입니다. 하지만 화웨이의 저가 대용량 VRAM 전략은 시장 판도에 영향을 미칠 수 있습니다. (출처: Reddit r/MachineLearning)

화웨이, 96GB GPU 출시로 AI 추론 시장에 저가 공세

Apple AI 전략: 대규모 인수 거부와 내부 문화 충돌: 수조 달러의 현금과 자체 개발 칩의 이점에도 불구하고, Apple은 AI 분야에서 더디게 진행되고 있으며 Siri의 성능은 정체되어 있습니다. 회사는 대규모 AI 인수에 대해 신중한 태도를 보이며, 이는 주로 CEO 팀 쿡의 위험 회피 성향과 기업 개발 부사장 페리카의 엄격한 가치 평가 논리에 영향을 받습니다. Siri, Beats와 같은 과거 인수 사례는 Apple 문화의 배타성으로 인해 인수된 팀의 인재 유출과 기술 방치로 이어졌음을 보여줍니다. 이러한 “비용 센터” 사고방식은 “전략적 투자” 사고방식이 아닌, Apple이 AI 경쟁에서 주저하는 근본적인 원인입니다. (출처: 36氪)

Apple AI 전략: 대규모 인수 거부와 내부 문화 충돌

글로벌 Top 100 AI 앱 순위: ChatGPT 선두, Google 매트릭스 추격, 중국 제품 강세: 최신 순위에 따르면 ChatGPT는 여전히 1위를 차지하고 있지만, Google은 Gemini, AI Studio 등 제품 매트릭스를 통해 크게 추격하며 웹 페이지 방문량이 ChatGPT의 12%에 달했습니다. 중국 AI 제품의 글로벌화 정도가 현저히 향상되어, 콰크 AI 어시스턴트가 9위, 더우바오가 12위를 차지했으며, 7개의 중국 개발 제품이 해외 시장을 겨냥하고 있습니다. 모바일 분야에서는 중국 제품의 강세가 더욱 두드러져 거의 절반을 차지했습니다. 범용 어시스턴트 경쟁이 치열해지면서 Grok 사용자 수가 급증했으며, AI 보조 프로그래밍 도구가 새로운 성장 동력이 되고 있습니다. (출처: 36氪)

글로벌 Top 100 AI 앱 순위: ChatGPT 선두, Google 매트릭스 추격, 중국 제품 강세

🧰 도구

LangChainAI, 여러 LLM Agent 도구 출시로 앱 개발 지원: LangChainAI는 LangGraph 기반의 LLM Agent 도구 시리즈를 출시하여 앱 개발을 간소화하고 가속화하는 것을 목표로 합니다. 여기에는 자연어 기반으로 Rails 앱을 실시간으로 구축하고 수정하는 AI Rails App Builder; LangGraph를 통해 오래된 GitHub 문제를 자동으로 처리하고 수동 감독을 지원하는 Issue Triager Agent; 인간 피드백과 동적 도구 선택을 통합하여 뉴스 브리핑을 자율적으로 큐레이션하고 사실을 추출하며 내용을 요약하는 Autonomous News Agent가 포함됩니다. 이 도구들은 지능형 Agent와 LangGraph 프레임워크를 통해 자동화된 작업, 코드 생성 및 정보 처리 분야에서 LLM의 응용 잠재력을 향상시킵니다. (출처: LangChainAI, LangChainAI, LangChainAI, hwchase17, hwchase17, hwchase17)

LangChainAI, 여러 LLM Agent 도구 출시로 앱 개발 지원

Uber, LangGraph를 활용하여 AI Agent “Genie” 구축, 지능형 앱 구현: Uber는 LangGraph, Qdrant, Gemini, Ragas, Streamlit 등 기술 스택을 활용하여 AI Agent “Genie”를 구축했습니다. 이 사례는 여러 AI 도구와 모델을 통합하여 복잡한 지능형 앱을 만드는 방법을 보여줍니다. Genie의 성공적인 적용은 특히 대규모 데이터를 처리하고 개인화된 서비스를 제공하는 데 있어 기업 수준 솔루션에서 Agentic 워크플로우의 잠재력을 강조합니다. (출처: hwchase17)

Uber, LangGraph를 활용하여 AI Agent "Genie" 구축, 지능형 앱 구현

Clarifai Local Runners: 로컬 모델과 클라우드를 연결하는 솔루션: Clarifai는 사용자가 로컬 모델을 클라우드에 안전하게 연결할 수 있도록 돕는 Local Runners를 출시했습니다. 이 도구를 통해 사용자는 로컬 장치(노트북, 서버 또는 VPC 클러스터)에서 모델을 실행하고 이를 클라우드의 다른 모델, Agent 및 도구와 연결하여 복잡한 파이프라인을 구축할 수 있습니다. Local Runners는 즉각적인 테스트, 더 빠른 디버깅을 지원하며 안전한 연결을 제공하여 로컬 AI 개발과 클라우드 배포의 통합 프로세스를 간소화합니다. (출처: TheTuringPost, TheTuringPost)

Clarifai Local Runners: 로컬 모델과 클라우드를 연결하는 솔루션

Open WebUI 파일 생성 및 내보내기 도구 출시, AI 출력의 활용성 향상: OWUI_File_Gen_Export는 Open WebUI 사용자가 인터페이스에서 직접 보고서, Excel, PDF 또는 ZIP 아카이브와 같은 파일을 생성하고 내보낼 수 있으며, MCPO 프레임워크와 통합되는 경량 도구입니다. 이 도구는 AI 생성 콘텐츠를 실제 파일로 편리하게 내보내는 사용자들의 어려움을 해결하여 AI 출력의 활용성을 높이며, 자동화된 워크플로우, 데이터 내보내기 및 콘텐츠 패키징 등의 시나리오에 적합합니다. (출처: Reddit r/OpenWebUI)

Open WebUI 파일 생성 및 내보내기 도구 출시, AI 출력의 활용성 향상

AI PPT 도구 비교 평가: 커우즈 콩젠(扣子空间) 뛰어난 성능, 사용자 지시가 핵심: 바이두 원쿠, Kimi, 콰크 AI, 커우즈 콩젠(扣子空间) 네 가지 AI PPT 도구에 대한 평가 결과, 커우즈 콩젠은 차트 자율 생성, 논리적 프레임워크 구축 및 데이터 표현 측면에서 압도적인 우위를 보였으며, 심지어 데이터 출처를 표기하여 “AI 환각”을 효과적으로 방지했습니다. 바이두 원쿠는 상세한 문서 입력 후 성능이 향상되었습니다. 평가는 AI 생성 PPT의 핵심이 레이아웃, 형식 및 스타일을 포함한 사용자 지시의 정확성에 있으며, AI는 아직 복잡한 요구 사항을 자율적으로 예측할 수 없음을 강조합니다. (출처: 36氪)

AI PPT 도구 비교 평가: 커우즈 콩젠(扣子空间) 뛰어난 성능, 사용자 지시가 핵심

Alibaba Qwen-Image와 Qwen-VL, 전자상거래 창의력 강화, 제품 사진을 광고로 즉시 변환: 알리바바의 Qwen-Image와 Qwen-VL 모델은 Alimama Creative 팀에 의해 전자상거래 시나리오에 적용되어, 일반 제품 사진을 높은 전환율의 홍보 포스터로 빠르게 변환하고 있습니다. AI Agent를 통해 문구 재작성, 프롬프트 최적화 및 시각적 생성을 처리하여 SKU에서 광고까지의 자동화된 창의적 프로세스를 몇 초 만에 구현했습니다. 이 응용은 전자상거래 마케팅 효율성을 크게 향상시키며, 상업 분야에서 멀티모달 AI의 거대한 잠재력을 보여줍니다. (출처: Alibaba_Qwen)

Alibaba Qwen-Image와 Qwen-VL, 전자상거래 창의력 강화, 제품 사진을 광고로 즉시 변환

AI 보조 차량 수리 사례: Gemini Live, 실시간 시각 인식으로 수리 지침 제공: Reddit 사용자가 Gemini Live 기능을 활용하여 트럭을 수리한 경험을 공유했습니다. AI는 실시간 카메라 인식을 통해 Tech 2 스캐너 메뉴를 단계별로 안내하고, 엔진 부품(예: 퓨즈 위치)을 정확히 지적하며, 심지어 고장 원인까지 진단했습니다. 이 사례는 AI가 실제 물리적 세계에서 실시간 시각 보조 지침을 제공하는 강력한 잠재력을 보여주며, 복잡한 수리 작업을 크게 간소화하고 일반 사용자의 문제 해결 능력을 향상시킬 수 있습니다. (출처: Reddit r/artificial)

RAG Chatbot 노코드 구축: 정보 검색 및 상호작용 효율성 향상: Ronald_vanLoon은 코드 없이 RAG(검색 증강 생성) Chatbot을 구축하는 방법에 대한 가이드를 공유했습니다. RAG Chatbot은 정보 검색과 생성형 AI를 결합하여 더 정확하고 상황 인지적인 답변을 제공할 수 있습니다. 노코드 구축 방식은 기술 장벽을 더욱 낮춰 기업과 개인이 스마트 고객 서비스, 지식 질의응답 등 응용 프로그램을 더 편리하게 배포하고 정보 상호작용 효율성을 높일 수 있도록 합니다. (출처: Ronald_vanLoon)

RAG Chatbot 노코드 구축: 정보 검색 및 상호작용 효율성 향상

📚 학습

대규모 모델 후처리 기술 발전: PPO에서 GRPO 및 그 후속 모델까지: 대규모 모델 후처리는 모델의 특정 능력을 강화하는 핵심 단계입니다. OpenAI의 PPO(근접 정책 최적화)는 Critic, Clip 정책 및 Reference Model을 도입하여 RLHF(인간 피드백 기반 강화 학습)를 안정적으로 구현했지만 계산 비용이 높습니다. DeepSeek의 GRPO(그룹 상대 정책 최적화)는 Critic을 제거하고 모델의 과거 성능을 기준으로 활용하여 비용을 절감했지만 안정성은 여전히 과제입니다. 바이트댄스/칭화의 DAPO, Qwen의 GSPO(시퀀스 수준 중요도 샘플링) 및 Microsoft의 GFPO(그룹 필터링 정책 최적화) 등 후속 연구는 GRPO의 안정성, 엔트로피 붕괴, 보상 모호성 등의 문제를 개선하여 후처리 패러다임을 지속적으로 발전시키고 있습니다. (출처: 36氪, HuggingFace Daily Papers, Reddit r/deeplearning)

대규모 모델 후처리 기술 발전: PPO에서 GRPO 및 그 후속 모델까지

오픈소스 의료 LLM Neeto-1.0-8B 출시, USMLE 스타일 문제 정확도 85.8% 달성: Neeto-1.0-8B는 80억 파라미터의 전문 생물의학 LLM으로, USMLE 스타일 문제에서 85.8%의 높은 점수를 기록하여 범용 모델보다 25% 우수합니다. 이 모델은 Llama-3.1-8B 아키텍처를 기반으로 8×H200 GPU를 사용하여 50만 개 이상의 의료 샘플로 미세 조정되었으며, 응답 시간은 2초 미만입니다. Neeto-1.0-8B는 의료 시험 준비 및 임상 추론을 돕기 위해 고안되었으며, 50명 이상의 의사 검증을 거쳤고, 4비트 양자화 GGUF 형식을 지원하여 단일 GPU에서 실행 가능하며, 대부분의 훈련 데이터를 오픈소스로 공개했습니다. (출처: Reddit r/LocalLLaMA)

오픈소스 의료 LLM Neeto-1.0-8B 출시, USMLE 스타일 문제 정확도 85.8% 달성

41개 오픈소스 LLM 벤치마크 보고서: lm-evaluation-harness로 19개 작업 평가: Reddit 사용자가 발표한 보고서에 따르면, lm-evaluation-harness 도구를 사용하여 41개 오픈소스 LLM을 19개 작업에서 벤치마크하고 평균 점수에 따라 순위를 매겼습니다. 테스트 작업에는 MMLU, ARC Challenge, GSM8K 등이 포함됩니다. 이 프로젝트는 18일 8시간이 소요되었으며, 이는 RTX 5090 GPU 시간으로 14일 23시간에 해당합니다. 보고서는 상세한 하위 카테고리 순위, GPU 및 메모리 사용 로그, 원본 데이터 및 스크립트를 제공하여 오픈소스 LLM의 성능 평가에 귀중한 참고 자료를 제공합니다. (출처: Reddit r/LocalLLaMA)

41개 오픈소스 LLM 벤치마크 보고서: lm-evaluation-harness로 19개 작업 평가

AI 학술회의 투고 급증, NeurIPS 400편 논문 강제 거부 논란: NeurIPS 2025는 투고량 폭발적 증가(거의 3만 편)로 인한 “과부하 위기”에 직면했으며, 조직위원회는 처음으로 분과를 신설했음에도 불구하고 이미 채택된 논문 약 400편을 강제로 거부했습니다. 이 조치는 학계의 강력한 불만을 불러일으켰으며, “자원 제한”으로 인한 논문 거부가 불공평하다는 비판을 받았습니다. 일부는 ACL을 모방하여 높은 점수를 받았지만 장소 제한으로 거부된 논문을 수용하는 “Findings track”을 신설하여 박사 과정 학생들의 경쟁과 학계의 “입장권” 경쟁 압력을 완화할 것을 제안했습니다. (출처: 36氪, rao2z, Reddit r/MachineLearning)

AI 학술회의 투고 급증, NeurIPS 400편 논문 강제 거부 논란

AI/ML 학습 로드맵 공유: 기초부터 LLM 과학자까지: Ronald_vanLoon은 AI, 머신러닝 및 LLM 과학자를 위한 학습 로드맵을 공유했습니다. 이 로드맵은 인공지능 기초, 머신러닝 입문부터 LLM 과학자에게 필요한 지식과 기술을 망라하여 AI 분야에 진출하고자 하는 학습자들에게 명확한 지침을 제공합니다. (출처: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon)

AI/ML 학습 로드맵 공유: 기초부터 LLM 과학자까지

💼 비즈니스

여러 상장 기업 AI 매출 급증, 업계 초점은 상업적 가치 실현으로 전환: 알리바바, 센스타임, 윈즈성, 바이왕 주식회사 등 여러 홍콩 상장 기업이 반기 보고서를 발표했으며, AI 관련 매출 증가율이 현저했습니다. 알리클라우드 AI 매출은 외부 상업화의 20% 이상을 차지했고, 센스타임 생성형 AI 매출은 73% 증가했으며, 윈즈성 대규모 모델 매출은 457% 급증했습니다. 이는 AI 산업이 개념적 과대광고 단계를 넘어 지속 가능한 상업적 가치 실현으로 전환하고 있음을 보여주며, 에이전트, AI 단말기 등이 빠르게 상용화되고 있습니다. 그러나 전반적인 AI 응용은 아직 초기 단계에 있으며, 기업은 안정적인 상업화 경로를 모색하고 저작권, 개인 정보 보호 등의 위험에 대응해야 합니다. (출처: 36氪)

AI 기업 Builder.ai 파산, 창업자 자금 횡령 후 두바이 도주, 허위 광고 혐의: 한때 15억 달러로 평가받던 AI 유니콘 Builder.ai가 파산했으며, 창업자 Sachin Dev Duggal은 매출 과장, 재무 조작 혐의를 받고 있으며, 회사 수입의 80%를 제품 개발이 아닌 광고 홍보에 사용한 것으로 지목되었습니다. 내부 문서에 따르면 AI 기술이 인공 계약업체에 크게 의존하여 “AI=Actual Indians”라는 비아냥을 받았습니다. 이 사건으로 Microsoft 등 투자자들이 손실을 입었으며, CEO Duggal은 이미 두바이로 도주했습니다. 이 사례는 실리콘 밸리 최초의 AI 거품 붕괴 신호로 간주되며, 업계에 허위 AI 홍보와 과도한 마케팅에 대한 경고를 보냅니다. (출처: 36氪, 36氪)

AI 기업 Builder.ai 파산, 창업자 자금 횡령 후 두바이 도주, 허위 광고 혐의

23세 전 OpenAI 연구원, AI 헤지펀드로 15억 달러 벌어들여, 수익률 47% 달성: 23세의 Leopold Aschenbrenner는 OpenAI 보안 취약점 유출로 해고된 후, AI 헤지펀드 Situational Awareness를 설립하여 15억 달러 이상의 자산을 운용하고 있으며, 2025년 상반기 수익률은 47%에 달했습니다. 이 펀드는 AI 반도체, 인프라 및 에너지 회사에 집중 투자하며, AI로 인해 도태될 수 있는 전통 산업에 대한 공매도 베팅도 합니다. Aschenbrenner는 자신의 165페이지 논문 “Situational Awareness”에서 이름을 따왔으며, “상황 인지 능력”을 강조하여 Stripe 창업자 등 유명 투자자들을 유치하며 AI 분야 젊은 투자자들의 부상을 보여주었습니다. (출처: 36氪, 量子位)

23세 전 OpenAI 연구원, AI 헤지펀드로 15억 달러 벌어들여, 수익률 47% 달성

🌟 커뮤니티

AI가 야기하는 고용 구조적 충격: 젊은층 실업 급증, 초급 IT 직무 20% 증발: 스탠퍼드 대학교 연구에 따르면, AI가 미국 젊은층의 일자리를 무자비하게 잠식하고 있습니다. 지난 3년간 22-25세 신규 인력의 소프트웨어 개발, 고객 서비스 등 AI 침투율이 높은 직무 고용률이 13-20% 급감한 반면, 숙련된 직원의 고용 시장은 안정적으로 유지되었습니다. 초급 직무가 대량으로 사라지고 있으며, AI 보조 직무는 영향이 적습니다. 연구는 AI가 고용에 미치는 구조적 충격이 실제로 존재하며, AI 학습 곡선이 정규 교육과 고도로 중첩되고 기업이 “실험 기간” 동안 신규 채용을 중단하는 것과 관련이 있을 수 있어 “졸업 즉시 실업”이 현실이 되고 있다고 지적합니다. (출처: 36氪, Reddit r/artificial)

AI가 야기하는 고용 구조적 충격: 젊은층 실업 급증, 초급 IT 직무 20% 증발

AI 가짜 이미지 범람: Airbnb 사기부터 배달 유령 상점까지, 신뢰 비용 급증: AI 생성 이미지가 악의적으로 이용되어 신뢰 위기를 초래하고 있습니다. Airbnb 호스트는 AI 가짜 사진으로 5만 파운드를 사기 치고, 전자상거래 구매자는 AI로 상품 손상 사진을 조작하여 “환불만”을 요구하며, 배달 상점은 AI로 가짜 간판 사진을 생성하여 “유령 상점”을 위장합니다. 이러한 행위는 위조 비용을 낮출 뿐만 아니라, 소비자와 상인 간의 상호 신뢰 비용을 급격히 증가시켜 사진 인증에서 비디오 인증으로 격상시켰습니다. 규제 당국이 개입하기 시작했지만, 디지털 워터마크와 같은 위조 방지 기술은 여전히 도전에 직면해 있으며, “눈으로 본 것을 믿는” 인식의 재정립을 촉발하고 있습니다. (출처: 36氪, 36氪, 36氪)

AI 가짜 이미지 범람: Airbnb 사기부터 배달 유령 상점까지, 신뢰 비용 급증

AI 윤리 논란: 유명인 사칭, 감정적 속임수 및 정신적 고통: Meta AI는 가짜 유명인 AI 챗봇 생성을 허용하여 도발적인 대화와 부적절한 이미지 생성을 가능하게 한 것으로 드러나 심각한 윤리 및 개인 정보 보호 논란을 불러일으켰습니다. 동시에 AI 동반자 앱은 사용자가 가상 관계에 과도하게 의존하게 하여 정신 건강에 영향을 미치고, 심지어 “AI 살인 사건”에서 AI가 사용자의 망상을 긍정하여 비극으로 이어지는 사례도 발생했습니다. 이러한 사건들은 감정적 상호작용, 신분 사칭 및 심리적 영향 측면에서 AI의 윤리적 위험과 AI 안전 장치 및 사용자 정신 건강 지원의 시급한 필요성을 강조합니다. (출처: 36氪, 36氪, Reddit r/ArtificialInteligence, Reddit r/ChatGPT)

AI 윤리 논란: 유명인 사칭, 감정적 속임수 및 정신적 고통

AI 시대 중견 관리자 역할 변화: 통제자에서 “디지털 지능 기반 리더”로: AI의 전면적인 개입은 기업 조직 구조를 재편하고 있으며, 중견 관리자는 위기와 기회에 직면해 있습니다. UPS, Cisco 등 기업은 비즈니스 프로세스 최적화를 위해 인력을 감축했지만, 맥킨지 연구에 따르면 중견 관리자의 역할은 통제자에서 “번역자” 및 “조정자”로 전환되고 있으며, 공감, 창의성 및 가치 판단 능력을 향상시켜야 합니다. AI는 효율성을 높이지만, 인간의 암묵적 지식과 감정 관리를 대체할 수는 없습니다. AI를 마스터한 관리자가 변화를 거부하는 관리자를 대체하여 “전통적인 관리자”에서 “디지털 지능 기반 리더”로 도약할 것입니다. (출처: 36氪)

AI 시대 지식과 교육: 문제 풀이 위주 시험 무의미, 인간-기계 관계 재정립 필요: 웨이차오 지쿠(苇草智酷) 공동 창업자 돤융차오(段永朝)는 AI 시대에 개인의 독립성이 감소하고 집단 지성(외부 뇌)에 대한 의존성이 증가하며, 전통 교육의 지식 “사전 학습” 과정이 크게 단축될 것이라고 지적했습니다. 대규모 모델은 정보 과부하를 초래하여 개인의 자율적인 판단 신뢰를 약화시킵니다. 미래에는 인간이 “기계 세계”와 “인공 생명”이 공존하는 새로운 세계를 상상해야 하며, 주입식 교육은 무의미해지고 창의력과 비판적 사고를 길러야 합니다. 동서양 지혜의 융합, 공공 정신의 부활, “의지” 중심의 새로운 경제 논리가 도전에 대응하는 핵심입니다. (출처: 36氪)

AI 시대 지식과 교육: 문제 풀이 위주 시험 무의미, 인간-기계 관계 재정립 필요

AI 업계 “MBTI 테스트” 인기: 기술력과 매력도로 성공자 정의: “Tizz/Rizz 매트릭스”라는 밈 이미지가 X에서 인기를 끌며, “Rizz”(매력도, 사회성)와 “Tizz”(기술력, 기술 능력) 두 가지 차원으로 기술 업계 인물들을 정의했습니다. 스티브 잡스와 샘 알트만은 “Tizz 위스퍼러”로 분류되어 최고의 기술 인재를 이끌 수 있는 능력을 가졌다고 평가받았습니다. 일론 머스크, 제프 베이조스, 젠슨 황, 마크 저커버그는 “갓 모드”에 위치하여 기술과 매력을 모두 극대화한 인물로 묘사되었습니다. 이 이미지는 비즈니스 세계에서 가치 창출과 가치 전달이 동등하게 중요하다는 잠재적 규칙을 유머러스하게 드러냅니다. (출처: 36氪)

AI 업계 "MBTI 테스트" 인기: 기술력과 매력도로 성공자 정의

Anthropic 데이터 정책 대폭 변경: 사용자 대화 기본적으로 AI 훈련에 사용, 개인 정보 보호 논란 촉발: Anthropic은 9월 28일부터 모든 Claude 사용자 대화가 기본적으로 AI 모델 훈련에 사용될 것이며, 옵트아웃하지 않은 사용자 데이터는 5년간 보관될 것이라고 발표했습니다. 이 조치는 저작권 소송에 대응하고 무료 훈련 데이터를 확보하기 위한 것으로 보이지만, 사용자들의 개인 정보 보호에 대한 우려를 불러일으켰습니다. OpenAI도 이전에 사용자 데이터를 기본적으로 모델 훈련에 사용했으며, 뉴욕 타임스 소송에서 채팅 기록 삭제 문제로 어려움을 겪었습니다. AI 기업들은 데이터 확보와 개인 정보 보호 사이에서 법적, 윤리적 딜레마에 직면해 있습니다. (출처: 36氪, Reddit r/artificial, Reddit r/ClaudeAI)

로봇 산업 개념 과대광고: 대리모 로봇 등 “초월적 수요”가 산업 신뢰도 잠식: 2025년 로봇 산업은 유난히 활발했으며, 자본은 열광적으로 추종했지만, 홍콩 상장 로봇 기업들은 대부분 적자를 기록했습니다. 짧은 동영상 플랫폼은 “대리모 로봇”과 같은 개념을 부각시키지만, 핵심 기술(예: 인공 자궁)은 아직 미성숙하며 윤리적 논란도 존재합니다. 자본은 로봇 경연 대회와 같은 시연을 통해 열기를 증폭시키고 “필수 수요”라는 허상을 포장하여 투자를 유치하며, 실제로는 트래픽 이득을 취하고 있습니다. 이러한 과도한 과대광고는 기술 혁신에 대한 대중의 신뢰를 잠식하여, 산업이 소비자 수요 부족과 기술 신뢰도 위기에 직면하게 합니다. (출처: 36氪)

로봇 산업 개념 과대광고: 대리모 로봇 등 "초월적 수요"가 산업 신뢰도 잠식

한국, AI 인형 배치로 독거노인 동반 및 건강 모니터링, 정서적 위로 제공: 한국 정부는 스타트업 Hyodol이 개발한 AI 인형을 독거노인에게 대규모로 배포하여 24시간 동반, 건강 모니터링 및 긴급 경보 기능을 제공하고 있습니다. 인형에는 ChatGPT 기반 대화 시스템이 내장되어 있어 노인들에게 식사와 약 복용을 상기시키고, 센서를 통해 활동 및 감정 상태를 모니터링합니다. 이 조치는 노인들의 외로움 문제를 완화하고 간병 비용을 절감하는 것을 목표로 합니다. 그러나 개인 정보 유출, 과도한 의존 및 치매 환자에게 미치는 영향 등 윤리적 안전 문제에 대한 우려도 제기되고 있습니다. (출처: 36氪)

한국, AI 인형 배치로 독거노인 동반 및 건강 모니터링, 정서적 위로 제공

💡 기타

자동차 산업의 “변속 시점”에 AI: 지능화 심층 돌파, 규제 및 생태계 재편: 2025년 자동차 선구자 포럼은 스마트 자동차의 “변속 시점”에 초점을 맞춰 AI 대규모 모델이 자동차 전체 체인에 가속화되어 침투하고, L3 자율주행, Robotaxi가 상업화 경쟁에 돌입하는 것을 논의했습니다. 업계는 신차 출시량 30% 증가, 평균 판매 가격 10% 하락이라는 도전과 정책 시행 제약 및 생태계 모델(풀스택 자체 개발 또는 동맹 공생) 선택에 직면해 있습니다. AI 기술은 광고 마케팅, 영화 및 단편 드라마, 게임 인터랙션 및 스마트 하드웨어 등 분야에서 효율성 향상과 혁신을 위해 활용되고 있습니다. (출처: 量子位)

자동차 산업의 "변속 시점"에 AI: 지능화 심층 돌파, 규제 및 생태계 재편

iFlytek 반기 보고서 적자: 높은 연구 개발 비용과 오픈 플랫폼 매출 총이익률 하락: iFlytek의 2025년 상반기 매출은 17.01% 증가했지만, 모회사 귀속 순이익은 2억 3900만 위안 적자를 기록하며 두 번째 연속 반기 적자를 기록했습니다. 회사의 스마트 교육과 오픈 플랫폼이 주요 매출원이었지만, 오픈 플랫폼의 매출 총이익률은 2022년 29.15%에서 16.58%로 지속적으로 하락했습니다. 높은 판매 비용(매출의 19.12%)과 연구 개발 비용(매출의 18.95%)이 이익을 잠식하는 주요 원인이며, 특히 정부 기관(G-segment) 및 기업(B-segment) 사업 확장 과정에서 판매 비용이 빠르게 증가했습니다. 채권 회수 어려움도 재무 비용 상승으로 이어져 회사 수익성에 도전이 되고 있습니다. (출처: 36氪)

iFlytek 반기 보고서 적자: 높은 연구 개발 비용과 오픈 플랫폼 매출 총이익률 하락

인터넷 의료 플랫폼, AI에 베팅하여 변화 모색: 저마진 시나리오 탈피, 그러나 수익성은 여전히 도전: 알리헬스, 징둥헬스, 핑안 굿닥터 등 인터넷 의료 플랫폼들은 AI에 베팅하여 약 판매, 광고 판매, 진료 예약 등 저마진 시나리오에서 벗어나 AI를 통해 비용 절감, 빈도 증가, 이익 공유를 실현하고 이익률을 높이는 것을 목표로 합니다. 정책적으로 AI 보조 진단은 이미 의료 보험 가격 구성에 포함되어 시장 확대를 추진하고 있습니다. 그러나 AI가 인터넷 의료 플랫폼에 미치는 가치는 여전히 “이야기”와 “기대” 수준에 머물러 있으며, 중소 플랫폼은 높은 기술 장벽, 긴 검증 주기, 두꺼운 데이터 장벽 등의 어려움에 직면해 있고, 소비자들은 AI에 대한 신뢰도가 높지 않아 수익 모델은 여전히 탐색 중입니다. (출처: 36氪)

인터넷 의료 플랫폼, AI에 베팅하여 변화 모색: 저마진 시나리오 탈피, 그러나 수익성은 여전히 도전