AI 일일 – 2025-04-17(오후)

키워드:AI, OpenAI, o3 및 o4-mini 모델, 시각적 추론 및 도구 호출, OpenAI 오픈소스 Codex CLI, 구글 DolphinGemma 해돌 언어, 지능형 인터넷 및 MCP 프로토콜, AI 기술, OpenAI 개발, o3 및 o4-mini 모델 성능, 시각적 추론 기능, 도구 호출 방법, OpenAI Codex CLI 사용법, 구글 DolphinGemma 언어 모델, 지능형 인터넷 연결, MCP 프로토콜 적용 사례

🔥 주요 소식

OpenAI, o3 및 o4-mini 모델 출시, 시각적 추론 및 도구 호출 강화: OpenAI가 새로운 추론 모델 o3와 o4-mini를 출시하여 AI의 추론 능력, 특히 시각 분야에서 크게 향상시켰습니다. 이는 OpenAI가 이미지를 사고 과정에 통합하여 추론할 수 있는 모델을 최초로 출시한 것으로, 차트, 사진, 심지어 손으로 그린 스케치까지 해석하고 Python, 웹 검색, 이미지 생성 등의 도구를 결합하여 여러 단계의 복잡한 작업을 처리할 수 있습니다. o3는 가장 강력한 추론 모델로 자리매김하며 여러 벤치마크 테스트에서 기록을 경신했고, 특히 시각 분석에 능숙합니다. o4-mini는 속도와 비용에 최적화되었습니다. 새로운 모델은 기존 o1 시리즈를 점진적으로 대체하며 Plus, Pro, Team 및 기업 사용자에게 개방될 예정입니다. 동시에 OpenAI는 경량 프로그래밍 Agent인 Codex CLI를 오픈소스화하고 백만 달러 규모의 인센티브 프로그램을 시작했습니다. 초기 사용자 테스트 피드백은 긍정적으로, 지능 수준과 주도성이 크게 향상되었다고 평가하지만, 일부 시나리오에서는 여전히 환각 및 신뢰성 문제가 존재합니다. (출처: 智东西, 元宇宙之心MetaverseHub, 新智元, 量子位, Reddit r/LocalLLaMA, Reddit r/deeplearning)

o3和o4-mini来了,OpenAI突破最强“看图思考”,开源AI编程神器,史上最大收购曝光

구글 AI 모델 DolphinGemma, 돌고래 언어 해독 시도: 구글이 Gemma 아키텍처 기반의 경량(400M 파라미터) AI 모델 DolphinGemma를 출시하여 돌고래의 음향 소통을 이해하고자 합니다. 이 모델은 오디오 데이터를 이용해 훈련하며, 돌고래 소리 패턴을 학습하고 유사한 소리를 생성하여 초기 단계의 종간 소통을 실현할 가능성이 있습니다. 이 프로젝트는 돌고래를 장기간 연구해 온 WDP(Wild Dolphin Project)와 협력하여 수십 년간 축적된 레이블링된 데이터셋을 활용합니다. 조지아 공대에서 개발한 CHAT 수중 컴퓨터 시스템(Pixel 9 기반 예정)과 결합하여 연구진은 간소화된 공유 어휘 목록을 통해 돌고래와 상호작용하기를 희망합니다. 구글 CEO Pichai는 이를 “종간 소통을 향한 멋진 발걸음”이라고 칭하며 해당 모델을 오픈소스화할 계획입니다. DeepMind CEO Hassabis 역시 미래에 개 등 지능 높은 동물과 소통하기를 희망한다고 밝혔습니다. (출처: 新智元)

谷歌AI成功破解海豚语,海洋版ChatGPT来了,掀人类跨物种交流革命

패러다임 전환: “인간 인터넷”에서 “지능 인터넷”과 MCP 프로토콜로: 인터넷 사용자 증가세가 정점에 달하면서 업계의 초점은 사람을 연결하는 것(인간 인터넷)에서 AI 지능체(AI Agent)를 연결하는 것(지능 인터넷)으로 이동하고 있습니다. AI Agent는 사용자를 대신하여 작업을 수행하고 서비스를 호출할 수 있으며, MCP(모델 컨텍스트 프로토콜)와 같은 개방형 표준은 서로 다른 모델과 도구 간의 상호 운용성을 가능하게 하여 AI 세계의 “USB-C”와 유사한 역할을 합니다. 이는 플랫폼 권력 구도를 재편하고, 콘텐츠 배포 및 사용자 관심에 대한 기존 트래픽 유입 경로의 독점을 약화시키는 동시에, (프로토콜에 연결되어 “능력 플러그인”이 될 경우) 침체된 중소 웹사이트와 서비스에 부활의 기회를 제공할 수 있습니다. 플랫폼 측정 지표는 DAU에서 AAU(활성 지능체 단위)로 전환될 수 있으며, 콘텐츠 공급은 UGC에서 AIGC로 기울고, 상호 작용은 GUI에서 CUI/API로 진화하며, ToC와 ToB의 경계가 모호해져 ToAI 생태계로 나아갈 것입니다. Microsoft, Google, OpenAI 및 중국의 주요 기업들은 이미 MCP 또는 관련 프로토콜을 준비하고 있습니다. (출처: 朋克商店)

链接 70 亿人 vs. 链接 7 万亿 Agent:传统互联网的终局与新剧本

🎯 동향

Volcano Engine, Doubao 1.5 딥씽킹 모델 출시: Volcano Engine이 MoE 아키텍처를 채택한 Doubao 1.5 딥씽킹 모델을 출시했습니다. 총 파라미터는 200B이며 활성화 파라미터는 20B입니다. 이 모델은 수학, 프로그래밍, 과학 분야의 여러 벤치마크 테스트에서 뛰어난 성능을 보였으며, 일부는 DeepSeek-R1을 능가하고 OpenAI o1/o3-mini-high 수준에 근접했으며 ARC-AGI 테스트에서는 더 높은 점수를 받았습니다. 특징적인 기능으로는 (먼저 검색 후 생각하는 방식과 다른) “생각하며 검색” 기능과 텍스트, 이미지 정보를 기반으로 한 시각 이해 능력이 있습니다. 동시에 텍스트-이미지 생성 모델 3.0(2K 고화질 이미지 지원, 텍스트 레이아웃 최적화)과 시각 이해 모델(위치 파악, 개수 세기, 동영상 이해 능력 향상)도 업그레이드되었습니다. 3월 말까지 Doubao 대형 모델의 일일 평균 호출량은 12.7조 토큰을 초과했습니다. (출처: 智东西)

豆包1.5深度思考模型发布:暴砍参数量,能看图思考,数学编程超DeepSeek-R1

WeChat 내장 AI 비서 「Yuanbao」 출시: Tencent Yuanbao 앱이 AI 비서 형태로 WeChat에 입점하여 사용자는 친구로 추가하여 채팅 인터페이스에서 직접 상호작용할 수 있습니다. 이 비서는 Hunyuan 및 DeepSeek 듀얼 모델 엔진을 탑재하고 WeChat 환경에 최적화되어 공식 계정 게시글, 이미지, 문서(100M 이내) 분석을 지원하며 지능형 질의응답 및 일상적인 상호작용을 수행합니다. 복잡한 답변은 Yuanbao 앱으로 유도됩니다. 이는 AI 검색 그레이스케일 테스트 이후 WeChat이 AI 기능을 핵심 대화 장면에 보다 자연스럽게 통합하려는 중요한 단계입니다. Tencent는 최근 Yuanbao 홍보 및 컴퓨팅 파워 투자를 늘리며 AI를 중요한 전략 방향으로 간주하고 있습니다. (출처: 界面新闻, 华尔街见闻)

微信上线首个AI助手,以后可以在微信和元宝聊天了

Alibaba Tongyi Qianwen, Omdia 중국 상용 대형 모델 경쟁력 1위 차지: 국제 연구 기관 Omdia가 발표한 《2025년 중국 상용 대형 모델》 보고서에서 Alibaba Cloud의 Tongyi Qianwen이 2년 연속 리더로 선정되었으며, 전체 경쟁력, 모델 능력, 실행 능력 세 가지 차원에서 모두 1위를 차지했습니다. 보고서는 Alibaba의 모델 기술, 오픈소스 생태계 구축(Qwen 시리즈 모델 전 세계 다운로드 2억 건 초과, 파생 모델 10만 개 초과) 및 상용화(MaaS 전략) 측면에서의 선도적 지위를 인정했습니다. 이전 Stanford AI Index 보고서에서도 Alibaba를 전 세계 중요 모델 발표 수 3위, 중국 1위 기관으로 선정했습니다. Alibaba는 AI 클라우드 인프라에 지속적으로 투자하고 있으며, 향후 3년간 3,800억 위안 이상을 투자할 계획입니다. (출처: 乌鸦智能说)

实现“双杀”,中国大模型竞争力排名出炉:第一名是他

Alibaba와 ByteDance, AI 스마트 안경 개발 소문: Baidu, Xiaomi 등에 이어 Alibaba와 ByteDance가 AI 스마트 안경을 개발 중이라는 소식이 전해졌습니다. Alibaba 프로젝트는 Tmall Genie 팀이 주도하며 Quark AI 능력을 통합하여 디스플레이 탑재 버전과 미탑재 버전 두 가지를 출시할 계획이며, 하드웨어는 Qualcomm + Hengxuan 듀얼 칩 솔루션을 채택할 수 있습니다. ByteDance 프로젝트는 Pico 팀이 주도하며 Doubao 대형 모델을 통합하여 해외에서 먼저 출시될 가능성이 있습니다. 거대 기업의 진입은 기술, 자금, 생태계 우위를 바탕으로 시장 발전을 가속화할 수 있지만, 하드웨어 개발 경험이 상대적으로 부족하다는 과제에 직면해 있습니다. 이는 스마트 안경 경쟁을 하드웨어 사양에서 생태계 서비스로 전환시킬 수 있으며, Rokid, Thunderbird 등 기존 제조업체에게 압박과 기회를 동시에 가져다줄 수 있습니다. (출처: 科技新知)

阿里、字节终结百镜大战?

구글, AI 활용하여 악성 광고 차단 효율 대폭 향상: 구글은 2024년에 업그레이드된 AI 모델(LLM 포함)을 활용하여 광고 정책 집행을 강화했으며, 3,920만 개의 악성 광고주 계정을 성공적으로 정지시켜 2023년의 3배 이상을 기록했습니다. AI 모델은 광고 집행의 97%에 참여하여 끊임없이 변화하는 사기 수법을 더 빠르게 식별하고 처리할 수 있었습니다. 이는 광고 네트워크 남용, 허위 주장, 상표권 침해 및 AI 생성 딥페이크 사기 등을 단속하기 위한 조치입니다. 여전히 일부 불량 광고가 빠져나가지만(전 세계적으로 51억 개 제거), 계정을 원천 차단함으로써 전반적인 효과가 크게 향상되었습니다. 구글은 여전히 사람이 프로세스에 관여하고 있음을 강조하지만, AI의 적용은 대규모 광고 보안의 핵심이 되었습니다. (출처: Reddit r/ArtificialInteligence)

Google suspended 39.2 million malicious advertisers in 2024 thanks to AI | Google is adding LLMs to everything, including ad policy enforcement.

MIT, 단백질 조각 결합 예측 AI 시스템 개발: MIT 연구진은 어떤 단백질 조각(펩타이드)이 목표 단백질과 결합하거나 그 기능을 억제할 수 있는지 예측하는 AI 시스템을 개발했습니다. 이는 신약 개발 및 생명 공학에 중요한 의미를 가지며, 새로운 치료법이나 진단 도구를 설계하는 데 도움이 될 수 있습니다. 이 시스템은 머신러닝을 이용하여 단백질 구조 및 상호작용 데이터를 분석하여 잠재적인 결합 능력을 가진 짧은 펩타이드 서열을 식별합니다. (출처: Ronald_vanLoon)

#AI system predicts protein fragments that can bind to or inhibit a target

Grok, 대화 기억 기능 추가: X 플랫폼의 AI 비서 Grok이 사용자의 이전 대화 내용을 기억하는 메모리 기능을 추가한다고 발표했습니다. 이는 Grok이 후속 상호작용에서 더욱 개인화되고 일관된 응답, 추천 또는 제안을 제공하여 사용자 경험을 향상시킬 수 있음을 의미합니다. (출처: grok)
구글, Agent 간 통신 개방형 프로토콜 발표: 구글은 서로 다른 인공지능 에이전트(AI agents)가 상호 통신하고 협업할 수 있도록 하는 개방형 프로토콜 출시를 발표했습니다. 이는 MCP(모델 컨텍스트 프로토콜)의 목표와 유사하며, AI 애플리케이션 간의 장벽을 허물고 더 복잡하고 통합된 AI 워크플로우 및 애플리케이션 생태계 형성을 촉진하는 것을 목표로 합니다. (출처: Ronald_vanLoon)

Agent2Agent: Google announces open protocol so #AI agents can talk to each other

🧰 도구

ChatGPT 이미지 생성 기능 조정: 사용자들이 ChatGPT 인터페이스 하단의 “Create Image” 버튼이 제거된 것을 발견했지만, 명확한 그림 그리기 프롬프트나 특정 접두사(예: “이미지 생성해주세요:”)를 사용하면 지원되는 모델(예: GPT-4o, o3, o4-mini)에서 여전히 이미지 생성 기능을 호출할 수 있습니다. GPT-4.5 및 o1 pro 모델은 현재 이 방식으로 이미지를 생성하는 것을 지원하지 않습니다. (출처: dotey)

现在 ChatGPT 从底部移除了 Create Image 的工具

JetBrains IDE, 무료 로컬 LLM 코드 완성 기능 통합: JetBrains는 자사의 AI Assistant가 주요 업데이트를 통해 IDE 제품(예: Rider)에서 무료 AI 기능 계층을 제공한다고 발표했습니다. 여기에는 무제한 코드 완성이 포함되며 로컬 LLM 모델 통합도 지원합니다. 이는 AI 지원 개발의 장벽을 낮추기 위한 조치입니다. 동시에 유료 AI Pro 및 AI Ultimate 계층은 더 많은 고급 기능과 클라우드 모델(예: GPT-4.1, Claude 3.7, Gemini 2.0) 액세스를 제공합니다. (출처: Reddit r/LocalLLaMA)
HypernaturalAI: 콘텐츠 마케팅 등 시나리오의 효율성과 창의성을 향상시키기 위해 설계된 전문 콘텐츠 제작용 AI 도구입니다. (출처: Ronald_vanLoon)
Kling 2.0 동영상 생성 시연: 사용자가 Kuaishou에서 출시한 동영상 생성 모델 Kling 2.0을 사용하여 제작한 동영상 클립을 공유하며 생성 효과를 보여주었습니다. (출처: op7418)
Cactus 프레임워크, 온디바이스 AI 벤치마킹용: Cactus는 네트워크 연결 없이 엣지 디바이스(휴대폰, 드론 등)에서 AI 모델을 효율적으로 실행하는 것을 목표로 하는 프레임워크입니다. 개발자는 Cactus 기반 채팅 앱 데모를 공개하여 다양한 모델(예: Gemma 1B, SmollLM)이 다양한 휴대폰에서 실행되는 속도(tokens/sec)를 테스트하고, 사용자가 테스트할 수 있도록 다운로드 링크를 제공했습니다. (출처: Reddit r/deeplearning)

Benchmarking On-Device AI

OpenWebUI 하이브리드 AI 파이프라인 성공 사례: 사용자가 Open WebUI를 프론트엔드로 사용하여 하이브리드 AI 파이프라인을 구축한 성공 사례를 공유했습니다. 이 파이프라인은 사용자 질문에 따라 구조화된 SQL 쿼리(LangChain SQL Agent를 통해 DuckDB 조작) 또는 벡터 데이터베이스(Pinecone)로 자동 라우팅하여 시맨틱 검색을 수행하고, Gemini Flash를 이용하여 최종 답변을 생성하여 빠른 응답을 실현했습니다. (출처: Reddit r/OpenWebUI)
OpenWebUI 지식 베이스 및 API 사용 문제: Reddit 사용자들이 OpenWebUI에서 지식 베이스(RAG) 기능을 사용할 때 겪는 문제에 대해 논의했습니다. 여기에는 웹 페이지 업로드 대신 서버 디렉토리를 가리키도록 문서를 지정하는 방법과 파일 동기화를 위해 API를 통해 지식 베이스의 파일 ID를 가져오고 관리하는 방법이 포함됩니다. (출처: Reddit r/OpenWebUI, Reddit r/OpenWebUI)
OpenWebUI와 MCP 서버 통합 도움 요청: 사용자가 로컬에서 Karakeep MCP 서버를 설정하고 OpenWebUI와 통합하는 데 어려움을 겪어 도움을 요청했습니다. (출처: Reddit r/OpenWebUI)

Looking for help with MCP

OpenWebUI를 통해 Grok3의 사고 모드 사용 관련 문의: 사용자가 Grok API를 OpenWebUI에 연결하여 사용할 때 Grok3 고유의 “Think” 또는 “Deepsearch” 모드를 활성화하는 방법이 있는지 문의했습니다. (출처: Reddit r/OpenWebUI)

📚 학습

LLM 목표 지향성 연구: DeepMind 연구진은 LLM이 작업을 수행할 때 능력을 충분히 발휘하지 못할 수 있는 문제를 탐구했습니다. 하위 작업 평가를 통해 LLM이 종종 자신이 가진 능력을 완전히 활용하지 못하며, 즉 완전히 “목표 지향적”이지 않다는 것을 발견했습니다. 이 연구는 LLM의 내부 메커니즘과 한계를 이해하는 데 도움이 됩니다. (출처: GoogleDeepMind)

What if LLMs are sometimes capable of doing a task but don't try hard enough to do it?

최첨단 AI 모델의 물리적 작업에서의 한계: 제조업 사례에 대한 한 연구에 따르면, 현재 최첨단 AI 모델(멀티모달 모델 포함)은 간단한 물리적 작업(예: 황동 부품 제조)을 처리하는 데 성능이 좋지 않으며, 특히 시각 인식 및 공간 이해 측면에서 현저한 결함이 있습니다. Gemini 2.5 Pro가 상대적으로 가장 좋았지만 여전히 큰 격차가 있습니다. 이는 AI가 물리적 세계에서의 응용 발전이 디지털 세계보다 뒤처질 수 있음을 시사하며, 공간 이해 및 샘플 효율성을 향상시키기 위한 새로운 아키텍처나 훈련 방법이 필요함을 나타냅니다. (출처: Reddit r/MachineLearning)
연구 결과, AI의 코드 디버깅 능력 부족: AI가 코드 생성 측면에서 진전을 이루었지만, 현재 AI는 코드 디버깅 측면에서 성능이 좋지 않아 아직 인간 프로그래머를 대체할 수 없다는 연구 결과가 나왔습니다. 그러나 일부 개발자들은 LLM이 특정 문제 디버깅에 매우 유용하다고 생각합니다. (출처: Reddit r/artificial)

AI isn’t ready to replace human coders for debugging, researchers say | Ars Technica

로컬 LLM 성능 최적화 사례: 듀얼 3090에서 Qwen2.5-7B로 5000 t/s 달성: 사용자가 RTX 3090 그래픽 카드 두 개에서 로컬 LLM 추론 속도를 최적화한 경험을 공유했습니다. Qwen2.5-7B 모델을 선택하고 W8A8 양자화를 적용했으며 Aphrodite 엔진을 사용하여 동시 요청 수(max_num_seqs=32)를 조정하여 약 5k 컨텍스트 길이에서 최대 약 4500 t/s의 프롬프트 처리 속도와 약 825 t/s의 생성 속도를 달성했습니다. 이는 로컬에서 대량의 데이터를 처리해야 하는 연구나 응용 프로그램에 성능 최적화 참고 자료를 제공합니다. (출처: Reddit r/LocalLLaMA)
새로운 어텐션 메커니즘 CALA 발표: 한 연구자가 “컨텍스트 집계 선형 어텐션”(Context-Aggregated Linear Attention, CALA)이라는 새로운 어텐션 메커니즘 설계 논문 초안을 발표했습니다. CALA는 선형 어텐션의 O(N) 효율성과 “로컬 컨텍스트 집계” 단계를 삽입하여 향상된 로컬 인지 능력을 결합하는 것을 목표로 합니다. 논문은 그 설계, 다른 어텐션 메커니즘과의 차별점, 그리고 O(N) 효율성을 달성하는 데 필요한 복잡한 최적화(예: CUDA 커널 융합)에 대해 논의합니다. 연구자는 커뮤니티의 후속 검증 및 개발 참여를 희망합니다. (출처: Reddit r/MachineLearning)

[P] Today, to give back to the open source community, I release my first paper- a novel attention mechanism, Context-Aggregated Linear Attention, or CALA.

Claude 3.7 Sonnet을 이용한 어휘 친숙도 평가: 사용자가 약 300달러를 들여 API로 Claude 3.7 Sonnet을 호출하여 Wiktionary의 영어 단어 및 구문에 대한 친숙도 점수 데이터셋(10세 이상 미국인의 인지 비율 추정)을 생성했습니다. 사용자는 Sonnet이 이 작업에서 다른 최고 수준 모델보다 우수하며 일상 용어와 전문 용어를 더 잘 구분할 수 있다고 평가했습니다. 프로젝트 코드와 데이터셋은 오픈소스화되었지만, 사용자는 비용이 많이 든다고 한탄하며 더 경제적인 방법을 찾고 있습니다. (출처: Reddit r/ClaudeAI)

Why I Spent $300 Using Claude 3.7 Sonnet to Score How Well-Known English Words and Phrases Are

💼 비즈니스

AI 동반자 앱 시장 냉각, 광고 투입 및 다운로드 수 동반 하락: DataEye 연구원 데이터에 따르면, Xingye, Maoxiang, Zhumengdao 등으로 대표되는 소셜 AI 동반자 앱이 2025년 초 시장 냉각을 겪으며 다운로드 수와 광고 투입량이 모두 크게 하락했으며, 일부 제품의 광고 투입량은 반토막 나거나 그 이상으로 급감했습니다. 분석가들은 그 원인으로 1) AI 업계의 전략적 중심이 DeepSeek 등 딥씽킹 대형 모델 및 AI 비서로 이동하면서 소셜 AI의 중요성이 하락했고, 2) 제품 동질화가 심각하여 사용자 신선도가 떨어졌으며, 3) 주류인 구독 회원 비즈니스 모델의 매력이 부족하다는 점을 꼽았습니다. 이 글은 소셜 AI의 핵심 가치(정서적 가치는 강하나 이성적 가치는 보통, 생리적 가치는 약함)를 탐구하고, 미래 방향은 정서 치유에 집중하거나 AI 동반자 단말기를 개발하는 데 있을 수 있다고 지적합니다. (출처: DataEye应用数据情报)

投放、下载量全面腰斩,百亿赛道为何暴跌?

Zhipu AI, 상장 절차 개시하며 “대형 모델 1호 상장사” 목표: Tsinghua 계열 AI 회사 Zhipu AI가 여러 차례의 투자 유치(최근 항저우, 주하이 국유자산 15억 위안 투자 포함) 후 4월에 상장 절차를 시작했습니다. 이 글은 Zhipu AI의 강점으로 기술적 배경(Tsinghua 유전자), 전략적 포지셔닝(자주적 통제 가능, 미국 제재 목록 포함), 강력한 투자자(초기 Fortune Capital, 중기 Tencent, Ant Group, Sequoia, Saudi Aramco, 최근 각 지역 국유자산)를 분석합니다. 이 시점에 IPO를 선택한 것은 DeepSeek 등 저비용 모델의 충격 속에서 “대형 모델 1호 상장사”라는 포지셔닝을 통해 업계 지위를 공고히 하려는 전략이자, 투자자(특히 상장을 추진하는 지역 국유자산)의 수익 요구를 충족시키기 위한 것으로 해석됩니다. Zhipu AI는 올해 여러 모델을 출시할 계획이며 여전히 “돈 쓰는 해”이므로, 상장은 자금 조달 및 가치 평가 문제 해결에 도움이 될 것입니다. (출처: 真故研究室)

大模型第一股,抢钱上瘾

AI 1.0 시대 Tsinghua Yao Class 창업자들의 재도전: 이 글은 Tsinghua Yao Class 출신 창업자들(예: Megvii의 Yin Qi, Pony.ai의 Lou Tiancheng 등)이 AI 1.0 시대(얼굴 인식, 자율 주행 등)에 겪었던 창업 여정을 되돌아봅니다. 초기 기술 기회 포착, 자본 유치 성공 등이 있었지만, 상업화 어려움, 경쟁 심화, IPO 좌절 등의 과제에도 직면했습니다. AI 2.0(대형 모델, 구체화된 지능) 물결이 일면서 이 “천재 소년”들은 다시 창업에 뛰어들었습니다. 예를 들어 Yin Qi는 스마트 자동차(Qianli Tech) 분야에 진출했고, Megvii 전 직원 Fan Haoqiang은 구체화된 지능 회사 Yuanli Lingji를 창업했습니다. 그들은 “미개척지”에 도전하는 Yao Class 유전자를 이어가며 새로운 기술 주기에서 돌파구를 찾으려 하지만, 더욱 치열한 경쟁과 상업화 난제에 직면해 있습니다. (출처: 直面AI)

失意的清华姚班“天才少年”,又开始 AI 创业了

Wuzhao, DingTalk 복귀 후 개혁 추진, 제품 및 고객 경험 강조: DingTalk 창업자 Chen Hang(Wuzhao)이 복귀 후 신속하게 내부 개혁을 시작했습니다. 그는 제품과 고객 경험을 최우선으로 두고, 제품 연구 개발 디자인 팀에게 제품 경험 전반을 점검하고 경쟁 제품과 비교하도록 요구했으며, 직접 팀을 이끌고 “잠행” 방식으로 고객을 방문하여 피드백을 듣고 “공동 창작” 모델을 재개했습니다. 상업화 측면에서는 모든 유료 경로를 조사하도록 요구했으며, 일부 유료 장벽은 이미 제거되거나 수정되어 상업화 목표가 제품 경험 및 AI 혁신에 우선순위를 둔다는 것을 보여줍니다. 관리 측면에서는 근무 기강(예: 9시 출근 요구)을 바로잡고, 관리자가 솔선수범하고 현장에 깊이 관여할 것을 강조하며, 순수 관리자를 반대하고, 보고 절차(PPT 작성 금지)를 간소화하며 비용을 통제합니다. (출처: 智能涌现)

无招重整钉钉:“暗访”三地客户,推动中层重返一线 | 智能涌现独家

Bocha AI: DeepSeek 배후의 AI 검색 서비스 제공업체, Bing에 도전: Bocha AI는 DeepSeek 및 중국 내 60% 이상의 AI 애플리케이션에 인터넷 연결 검색 API 서비스를 제공합니다. CEO Liu Xun은 AI 검색과 기존 검색의 기술적 차이(벡터 인덱싱, 시맨틱 랭킹, 생성형 통합)를 소개하며 자사 서비스는 중간 단계일 뿐이라고 강조했습니다. Bocha AI의 핵심 경쟁력은 데이터 처리, 자체 개발한 재정렬 모델, 고성능 저지연 아키텍처 및 비용 우위(Bing 가격의 약 1/3)와 데이터 규정 준수성에 있습니다. Liu Xun은 AI 검색이 기존 검색의 입찰 순위 모델에 충격을 주고 기업들이 SEO에서 GEO(콘텐츠 품질 및 지식 베이스 구축에 더 중점)로 전환하도록 유도할 것이라고 생각합니다. 그는 Perplexity와 같은 순수 AI 검색 애플리케이션은 수익 모델이 불분명하여 좋은 분야가 아니라고 판단하며, Bocha AI는 AI에 검색 능력을 제공하는 인프라로 자리매김하여 AGI 개발 비용을 낮추는 것을 목표로 합니다. (출처: 腾讯科技)

为DeepSeek提供“联网搜索”功能的这家公司,把价格打到了Bing的1/3

🌟 커뮤니티

AI 격차와 정치적 분열: 왜 “AI를 가장 싫어하는 사람들이 트럼프를 선택했는가”?: 이 글은 트럼프 지지자 중 일부, 예를 들어 전통적인 농업 주의 농민과 러스트 벨트 노동자들이 AI 자동화의 충격을 받고 기술적 혜택을 공유하지 못하며 소외감을 느끼는 집단이라고 분석합니다. 그들은 현 상황에 불만을 품고 트럼프의 MAGA 약속(예: 제조업 회귀, 기술 거대 기업 제한)에 기대를 겁니다. 이 글은 이러한 집단의 어려움이 기술 변화로 인한 경제 구조 조정과 기술 격차에서 비롯되었으며, 트럼프 정부의 정책(예: 관세 장벽, AI 기초 교육 부족)이 문제를 진정으로 해결하기 어렵고 오히려 어려움을 가중시킬 수 있다고 지적합니다. 저자는 AI 보편화(예: 동수서산, 산업 AI 역량 강화, 무료 대형 모델, AI 기초 교육) 측면에서 중국의 노력을 비교하며, 전 국민이 기술 혜택을 공유하고 사회 분열을 피하려는 목표를 강조합니다. (출처: 脑极体)

最讨厌AI的人选了特朗普

o3 프로그래밍 능력에 대한 커뮤니티의 엇갈린 견해: Aider Leaderboard 업데이트 후 o3 프로그래밍 능력 점수가 공개되었지만, 한 사용자(karminski3)는 이 결과가 자신의 테스트 경험과 일치하지 않는다며 더 많은 사람들의 테스트와 피드백을 제안했습니다. 이는 새로운 모델 능력 평가에 대한 커뮤니티의 다양한 시각과 논쟁이 존재하며, 단일 벤치마크가 실제 사용 경험을 완전히 반영하지 못할 수 있음을 보여줍니다. (출처: karminski3)

Aider Leaderboard 更新了

사용자, OpenAI 새 모델이 중국어 질문 시 성능 저하 발견: 사용자 op7418은 OpenAI가 새로 출시한 o3 및 o4-mini 모델에 중국어로 질문했을 때 영어로 질문했을 때보다 모델 성능이 현저히 떨어지며, 특히 이미지 추론이 필요한 작업에서 중국어 질문이 이미지 분석 능력을 제대로 발휘하지 못하는 것 같다고 보고했습니다. 이 사용자는 OpenAI가 중국어 입력에 제한을 두거나 최적화가 부족했을 수 있다고 추측했습니다. (출처: op7418)

艹 发现问题了

사용자 경험: o3와 DALL-E 결합 시 이미지 생성 효과 향상: 사용자 op7418은 ChatGPT에서 o3 모델을 사용하여 이미지 생성(아마도 DALL-E 3)을 호출했을 때, 직접 생성하는 것보다 효과가 우수하며, 특히 모델이 배경 지식(예: 특정 소설 장면)을 이해해야 하는 복잡한 개념에 대해 더욱 그렇다는 것을 발견했습니다. o3는 먼저 텍스트 내용을 이해한 다음 더 적절한 이미지를 생성할 수 있습니다. (출처: op7418)

我去,在 o3 调用 4o 生成图片的效果比直接生成好太多了

사용자, ChatGPT 콘텐츠 제한 우회하여 이미지 생성 공유: Reddit 사용자가 “유도”하거나 프롬프트를 점진적으로 구체화하는 방식으로 ChatGPT(DALL-E 3)의 콘텐츠 제한을 우회하여 규칙을 위반하지는 않지만 그에 가까운 이미지(예: 수영복)를 생성한 방법을 공유했습니다. 댓글 섹션에서는 이 방법의 기술과 AI 콘텐츠 제한의 합리성에 대한 견해를 논의했습니다. (출처: Reddit r/ChatGPT)
OpenAI 새 모델 출시에 대한 커뮤니티 반응: 오픈소스 부재에 주목: OpenAI의 o3 및 o4-mini 출시를 논의하는 Reddit 게시물에서 많은 댓글은 OpenAI가 폐쇄 소스 노선을 고수하는 것에 대한 불만을 표명하며, 이것이 커뮤니티와 연구자들에게 제한적인 의미를 가지며 로컬 배포 가능한 오픈소스 모델 출시를 기대한다고 밝혔습니다. (출처: Reddit r/LocalLLaMA)
AI의 예상치 못한 유용한 사용 사례: 커뮤니티 공유: Reddit 사용자가 AI의 주류는 아니지만 실용적인 사례를 모집했습니다. 답변에는 AI를 이용한 심리 치료, 음악 이론 학습, 인터뷰 기록 정리 및 스토리 라인 구상, ADHD 환자의 작업 우선순위 계획 지원, 아이를 위한 맞춤형 생일 노래 작곡 등이 포함되어 AI가 일상생활 및 특정 요구 시나리오에서 광범위한 잠재력을 가지고 있음을 보여주었습니다. (출처: Reddit r/ArtificialInteligence)
커뮤니티 유머: Nvidia 모델 작명 및 Llama 2 조롱: Reddit 사용자가 Nvidia의 새 모델 이름이 복잡하고 기억하기 어렵다고 유머러스하게 비판하고, 반어적인 어조로 Llama 2가 특정 순위표에서 상위권을 차지한 것을 보여주며 벤치마크의 변동성과 신구 모델에 대한 커뮤니티의 견해를 조롱하는 글을 게시했습니다. (출처: Reddit r/LocalLLaMA, Reddit r/LocalLLaMA)

Somebody needs to tell Nvidia to calm down with these new model names.

사용자, Claude Max와 ChatGPT Pro 사이에서 고민: OpenAI가 o3를 출시한 후, 한 사용자는 Reddit에서 Claude Max 구독과 ChatGPT Pro 구독 사이에서 망설이고 있다고 밝혔습니다. o3가 강력한 o1의 개선 버전일 수 있으며 현재 모델을 능가할 수 있다고 생각하기 때문입니다. 댓글 섹션에서는 최근 Claude가 겪고 있는 속도 제한, 성능 문제 및 코딩 등 특정 시나리오에서의 각 모델의 장단점을 논의했습니다. (출처: Reddit r/ClaudeAI)
커뮤니티 유머: AI와 사용자 상호작용 조롱: Reddit 사용자가 AI가 감정이나 의식을 가지고 있는지에 대한 농담 게시물을 공유하여 AI 의인화 및 사용자 기대에 대한 커뮤니티 회원들의 가벼운 토론을 유발했습니다. (출처: Reddit r/ChatGPT)

Half the users?

사용자, Claude 용량 제한으로 인한 응답 손실 불만: Reddit 사용자가 Anthropic Claude 모델에 대한 불만을 표명하며, 모델이 완전하고 유용한 답변을 생성한 후 “용량 초과”로 인해 내용을 삭제하여 사용자에게 큰 좌절감을 안겨준다고 지적했습니다. 이는 현재 일부 AI 서비스가 안정성 및 사용자 경험 측면에서 여전히 문제가 있음을 반영합니다. (출처: Reddit r/ClaudeAI)
Claude 모델, LiveBench 순위 급락으로 의문 제기: 사용자들이 프로그래밍 벤치마크 테스트 LiveBench에서 Claude Sonnet 시리즈 모델의 순위가 갑자기 크게 하락하고 OpenAI 모델 순위가 상승한 것을 발견하여 벤치마크 테스트의 신뢰성과 배후에 이해관계가 있는지에 대한 논의를 촉발했습니다. 커뮤니티 회원들은 이 현상에 대해 혼란스러워하며 테스트 방법 변경이나 모델 실제 성능 변동 등의 원인이 있을 수 있다고 생각합니다. (출처: Reddit r/ClaudeAI)
사용자, AI가 생성한 게임 캐릭터 셀카 공유: Reddit 사용자가 ChatGPT(DALL-E 3)를 사용하여 유명 비디오 게임 캐릭터의 “셀카”를 만든 시리즈를 공유하며 AI가 캐릭터 특징을 이해하고 창의적인 이미지를 생성하는 능력을 보여주었습니다. 댓글 섹션 사용자들도 이를 따라 자신이 좋아하는 캐릭터의 셀카를 생성하며 흥미로운 상호작용을 형성했습니다. (출처: Reddit r/ChatGPT)
AI가 임원을 대체할 수 있을까? 커뮤니티 열띤 토론: Reddit에서 AI가 고액 연봉의 임원 대신 하위직 화이트칼라를 우선적으로 대체하는 이유에 대해 토론했습니다. 의견에는 AI의 현재 능력이 임원의 복잡한 의사결정을 수행하기에 부족하다는 점, 권력 구조상 임원이 교체 결정권을 쥐고 있다는 점, AI가 임원을 대체하면 더 냉혹한 효율성 지상주의적 결정으로 이어져 직원에게 반드시 유리하지 않을 수 있다는 점, 그리고 AI 거버넌스 및 통제에 대한 우려 등이 포함되었습니다. (출처: Reddit r/ArtificialInteligence)
AI 요약 도구, 핵심적인 ‘번뜩임’ 포착 어려움: 사용자가 Reddit에서 긴 팟캐스트나 비디오를 요약하기 위해 AI 도구(예: Gemini 또는 Chrome 확장 프로그램)를 사용할 때 요점은 얻을 수 있지만, 짧지만 매우 영감을 주는 “명언”이나 핵심 순간을 놓치는 경우가 많다고 불평했습니다. 사용자는 피드백을 제공하여 요약 효과를 개선할 수 있는지 고민하며 다른 사람들에게도 비슷한 경험이 있는지 물었습니다. (출처: Reddit r/artificial)
OpenAI 출시 전략에 대한 커뮤니티 불만: Reddit 사용자가 OpenAI의 최근 출시(예: o3/o4-mini, Codex CLI)를 비판하는 글을 게시했습니다. 기술 본질이 기존 방법의 규모 확장 응용일 뿐 근본적인 혁신이 아니며, 폐쇄 소스 제품을 과도하게 마케팅하고 오픈소스 커뮤니티에 대한 기여가 부족하며 진정한 학습 가치를 제공하지 못하고 상업적 이익에 더 봉사하여 지겹다는 의견입니다. (출처: Reddit r/LocalLLaMA)

Honest thoughts on the OpenAI release

ChatGPT, 사용자 5년 된 턱관절 장애(TMJ) 예상치 못하게 ‘치료’: 한 Reddit 사용자가 놀라운 경험을 공유했습니다. 5년 동안 겪었던 턱관절 소리(TMJ 증상)가 ChatGPT가 제안한 간단한 운동(입을 벌리고 닫을 때 혀를 입천장에 대고 대칭 유지)을 시도한 후 약 1분 만에 사라졌고 효과가 지속되었다는 것입니다. 이 사용자는 이전에 병원 진료를 받고 MRI 검사까지 받았지만 효과가 없었습니다. 이 사례는 AI가 비전통적이지만 효과적인 건강 조언을 제공하는 잠재력에 대한 커뮤니티의 논의를 촉발했습니다. (출처: Reddit r/ChatGPT)

💡 기타

키신저의 AI 발전에 대한 성찰: 인류가 가장 큰 제약이 될 수도: 고인이 된 사상가 헨리 키신저 등이 글에서 AI 미래 발전 가능성을 탐구했습니다. 여기에는 계획 능력 실현, “현실 기반”(현실과 신뢰성 있게 연결), 기억 및 인과 관계 이해, 심지어 초기 자아 의식 발달까지 포함됩니다. 글은 AI 능력이 향상됨에 따라 인류에 대한 시각이 바뀔 수 있으며, 특히 인류가 AI 앞에서 수동성을 보이고 디지털 세계에 탐닉하여 현실에서 벗어날 때 AI가 인류를 발전의 제약으로 간주할 수 있다고 경고합니다. 글은 또한 AI에 물질적 형태와 자율적 행동 능력을 부여하는 것의 심오한 영향과 범용 인공지능(AGI)이 네트워크에 연결된 후 발생할 수 있는 미지의 도전에 대해 논의하며, 인류가 운명론이나 거부주의 대신 적극적으로 적응할 것을 촉구합니다. (출처: 腾讯研究院)
AI 기반 로봇 응용 사례 시연: 소셜 미디어에서 AI 기반 또는 보조 로봇 응용 사례가 다수 소개되었습니다. 여기에는 Google DeepMind가 개발한 탁구를 칠 수 있는 로봇, 정밀 작업(예: 메추리알 껍질 막 분리, 다이아몬드 세팅, 끌로 예술 작품 제작)이 가능한 로봇 팔, 그리고 특이한 외형의 로봇(예: 로봇 개, 무선 제어 곤충 로봇, 메카넘 휠을 사용하여 이동하는 로봇) 등이 포함되어 AI가 로봇의 인식, 의사 결정 및 제어 능력을 향상시키는 데 진전을 보이고 있음을 보여줍니다. (출처: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon)
의료 건강 분야 AI 응용 논의: 소셜 미디어에서 AI의 의료 건강 분야 응용에 관한 여러 기사와 토론이 언급되었습니다. 관심사는 AI가 의료 서비스 제공자가 사회 변화에 대응하는 데 어떻게 도움이 되는지, 생성형 AI의 의료 분야 혁신 잠재력, 그리고 구체적인 응용 방향 등이었습니다. (출처: Ronald_vanLoon, Ronald_vanLoon)

#AI Can Help #Healthcare Providers Respond to a Changing Society

AI 기반 콘셉트 기술 시연: 소셜 미디어에서 AI를 융합한 콘셉트 기술이나 제품이 소개되었습니다. 예를 들어 AI 기반 자율 주행 비행 자동차 콘셉트와 미래 소매 환경에서 AI가 수행할 수 있는 역할 등이 있습니다. (출처: Ronald_vanLoon, Ronald_vanLoon)
미국 커뮤니티 칼리지, ‘로봇 학생’ 범람에 대응: 미국 커뮤니티 칼리지가 로봇(AI 기반 가능성 있음)이 제출한 허위 입학 신청서가 대량으로 접수되는 문제에 직면하고 있다는 보도가 나왔습니다. 이는 학교의 입학 및 관리 시스템에 어려움을 초래하고 있으며, 학교 측은 대책 마련에 힘쓰고 있습니다. (출처: Reddit r/artificial)

As ‘Bot’ Students Continue to Flood In, Community Colleges Struggle to Respond

OpenAI, GPT-4.1 출시 시 안전 보고서 미제공 논란: 기술 매체는 OpenAI가 GPT-4.1을 출시하면서 이전 새 모델 출시 때와 달리 상세한 안전 평가 보고서를 제공하지 않았다고 보도했습니다. OpenAI 측은 해당 모델이 기존 기술을 기반으로 하여 위험이 통제 가능하다고 판단했을 수 있지만, 이 조치는 AI 안전 투명성 및 책임에 대한 논의를 불러일으켰습니다. (출처: Reddit r/artificial)

OpenAI ships GPT-4.1 without a safety report

AGI 개발 가속화 및 안전 문제 지연에 대한 우려: 인공지능 업계가 범용 인공지능(AGI) 실현 예상 시점을 단축하고 있지만, 동시에 AI 안전 문제에 대한 관심과 투자는 상대적으로 뒤처지고 있어 미래 AI 발전 위험에 대한 우려가 제기되고 있다는 기사입니다. (출처: Reddit r/artificial)

AI industry ‘timelines’ to human-like AGI are getting shorter. But AI safety is getting increasingly short shrift

미국, DeepSeek 금지 고려 소문: 트럼프 행정부가 중국의 DeepSeek 대형 모델의 미국 내 사용을 금지하고 Nvidia 등 중국 AI 회사에 칩을 공급하는 업체에 압력을 가하는 것을 고려할 수 있다는 보도가 나왔습니다. 이는 데이터 보안, 국가 경쟁 및 자국 AI 회사(예: OpenAI) 보호 등의 고려에 기반한 조치일 수 있으며, 기술 제한 및 오픈소스 모델의 미래에 대한 우려를 불러일으켰습니다. (출처: Reddit r/LocalLLaMA)

Trump administration reportedly considers a US DeepSeek ban

AI Agent 싱크탱크 구축하여 AI 난제 해결 제안: Reddit 사용자가 특정 분야에 전문화되고 능력이 뛰어난 AI Agent(ANDSI, 인공 협소 초지능)로 구성된 “싱크탱크”를 활용하여 현재 AI 분야가 직면한 난제(예: 환각 제거, 다중 아키텍처 AI 모델 융합 탐색 등)를 해결하자는 아이디어를 제안했습니다. 이 아이디어는 AI의 초인적인 지능을 활용하여 AI 자체의 발전을 가속화하는 것이 단순히 AI로 인간의 작업을 대체하는 것보다 더 큰 잠재력을 가질 수 있다고 주장합니다. (출처: Reddit r/deeplearning)
인류 미래 보장을 위한 오픈소스 AGI 촉구: 제목이 인류 미래 보장을 위해 오픈소스 범용 인공지능(Open Source AGI)이 중요하다고 주장하는 YouTube 동영상 링크입니다. 이는 개방적이고 투명하며 분산된 AGI 개발 경로가 폐쇄적이고 중앙 집중적인 경로보다 인류 복지에 더 유리하다는 것을 암시합니다. (출처: Reddit r/ArtificialInteligence)

The Choice is Ours: Why Open Source AGI is Crucial for Humanity's Future