Daily Digest — 2026-06-19

2026-06-19

OpenAI 적자 유출과 SaaS 재평가, Anthropic 서울 개소, 코드 에이전트 자동화 동시 출시, 그리고 RL 보상·장기 에이전트 평가 연구가 한꺼번에 쏟아진 날

Daily Digest — 2026-06-19

오늘의 핵심 흐름

오늘 수집한 콘텐츠는 다섯 갈래의 큰 흐름으로 모인다.

AI 경제성과 시장이 동시에 재평가받는다. OpenAI 감사 재무가 유출돼 2025년 순손실 385억 달러(일회성 회계비용 제외 시 약 80억)가 드러났고, 공개 SaaS 멀티플은 42% 압축됐으며, Anthropic은 사용한도 허위광고로 집단소송을 당했다. 동시에 Tim Ferriss는 자기 책 판매 데이터(2026 run-rate -57%)로 "LLM이 처방형 콘텐츠를 죽이고 있다"고 주장한다. "성장은 폭발했지만 수익성·정서·콘텐츠 비즈니스는 미해결"이라는 한 흐름이다. → AI 경제성·시장 재평가
Claude/Anthropic 생태계가 한국과 엔터프라이즈로 깊이 들어왔다. Anthropic이 서울 사무소를 열고 네이버(전사 Claude Code)·넥슨·삼성SDS·LG CNS와 동시 파트너십을 발표했고, MCP 엔터프라이즈 인증(EMA)이 정식 안정화됐다. 반대편에는 SK텔레콤 '미토스' 수출통제 사태가 "프런티어 모델 접근권의 지정학화"를 한국 사례로 보여준다. → Claude/Anthropic 생태계
코드 에이전트가 같은 주에 자동화·스킬·배포를 한꺼번에 쏟아냈다. Claude Code Artifacts, Codex Record & Replay, Cursor /automate가 며칠 사이 동시에 나왔고, 공통 방향은 "사용자가 코드를 덜 짜고, 시연·자연어로 절차를 자동화하고, 결과물을 배포·공유"다. 이 흐름은 영상 카테고리의 "하네스·루프 엔지니어링" 담론과 정확히 맞물린다. → 코드 에이전트·에이전트 운영 하네스
연구는 'RL 보상을 어디에·어떻게 줄 것인가'와 '에이전트가 장기전을 둘 수 있는가'로 수렴한다. STARE·DRL·OPAC·REVES·RCSD가 보상/credit 설계를 다르게 푸는 한 줄기를 이루고, CEO-Bench(500일 경영)·RNG-Bench(기억-행동)·MyPCBench/iOSWorld(개인화)는 프런티어 모델이 장기·다중앱·메모리에서 무너진다는 같은 진단을 내놓는다. → 연구 레이더: RL 보상·credit·연구 레이더: 에이전트 평가
"AI로 만든 것을 신뢰·운영할 수 있는가"가 사회·개발 양면의 메타 질문이 됐다. 미국 여론(긍정 16%)과 데이터센터 백래시, 바이브코딩 보안 유출, 디버깅 능력 위축 토로가 한쪽이고, Charity Majors의 "규율로의 회귀", SAE 개입의 신뢰 불가, AI 생성 GPU 커널 검증이 다른 쪽이다. → AI의 사회적 이면·연구 레이더: 멀티모달·해석·안전

아래는 이 흐름들을 주제 클러스터로 풀어낸 본문이다.

AI 경제성·시장 재평가

성장은 폭발했지만 그 비용과 시장의 가격 매김, 그리고 콘텐츠 비즈니스 모델이 한꺼번에 도마에 오른 날이다. OpenAI의 적자, SaaS 멀티플 압축, Anthropic 소송, 처방형 콘텐츠 붕괴가 같은 "재평가" 축에 놓인다.

OpenAI 감사 재무 유출 — 2025년 순손실 385억 달러, R&D만 192억

GeekNews · Ed Zitron(wheresyoured.at) 독점

OpenAI가 IPO를 앞두고 SEC에 기밀 S-1을 제출한 가운데, 독립 저널리스트 Ed Zitron이 감사받은 재무제표를 입수했고 Financial Times가 같은 문서를 교차검증했다. 핵심은 매출이 1년 만에 3.5배 뛰었지만(37억→131억 달러, 연말 월 매출 약 20억 근접) 비용이 그보다 훨씬 빠르게 늘어 적자가 확대됐다는 점이다. 매출 전체보다 R&D 한 항목(192억)이 더 크고, 그중 모델 훈련 비용으로 추정되는 MS 지급 R&D만 105.9억 달러(MS 대상 총비용 172억)다. 추론·서빙 비용(cost of revenue)도 75억으로 3배 가까이 뛰었다.

385억 달러 순손실 헤드라인은 영리법인 전환에 따른 fair-value 재평가 일회성 비용(약 300~415억 규모 항목)을 포함한 수치다. 이를 제거하면 약 80억으로 "정상화"되지만, 영업손실 자체가 209억(전년 87.8억의 2.4배)이라는 사실은 바뀌지 않는다. 다만 매출 대비 영업손실 비율은 237%→160%로 개선됐다는 점이 반론의 근거다. 2026년 3월 1,220억 달러를 조달해 기업가치 8,520억, ChatGPT 주간 활성 9억+ 중 유료 약 5,000만. OpenAI는 2030년 흑자전환을 목표로 제시했지만, 기업 고객의 토큰 과금 반발과 Anthropic과의 가격 전쟁이 단기 손실을 더 키울 수 있다.

SaaSpocalypse 해부 — 멀티플 42% 압축, 그러나 보상받은 건 소비 기반 인프라뿐

GeekNews · The Verticalist / Euclid VC

"vertical SaaS가 AI에 더 취약해 더 빠졌다"는 통념을 데이터로 반박하는 시장 분석이다. 공개 SaaS 주가는 중위 -32%, 중위 EV/Revenue 9.1x→4.8x(42% 압축), 86% 기업이 멀티플 축소를 겪었다. 그러나 130개 SaaS 분석 결과 horizontal 14.7% vs vertical 14.1%로 성장 차이가 사실상 없고, 펀더멘털과 주가 상관은 거의 0(성장 r=0.07, EBITDA마진 r=-0.03)이다.

시장이 실제로 보상한 것은 "AI가 늘수록 사용량 과금이 느는" picks-and-shovels 인프라였다 — Bandwidth(+280%), Datadog, MongoDB, Twilio 등이 50% 넘게 올랐고, 핵심 질문은 "당신은 agentic infrastructure인가?"(소비 기반 과금이 최대 변수)다. Vertical 해자는 독점 데이터(Verisk·FICO·Veeva, 프리미엄 220%→72%), 규제장벽(120%→15%), "vertical halo"(ServiceTitan·Toast, +41%→-40%)로 갈렸다. 논지는 시장이 파괴 단계만 가격에 반영했고 AI-native 신세대의 가치창출은 미반영이며, AI는 vertical 시장을 줄이는 게 아니라 확대한다는 것(도메인 데이터·의사결정 컨텍스트는 공개 인터넷에 없으므로). OpenAI 적자와 함께 "AI 거품/재평가" 묶음으로 읽힌다.

Anthropic 사용한도 집단소송 — "Max는 광고만큼 못 쓴다"

Reddit · r/VibeCodeDevs

Anthropic을 둘러싼 커뮤니티 신호가 같은 날 양극으로 나타났다. 한쪽에서는 "New Claude Code update is crazy"가 본문 없이도 추천 730·댓글 46으로 r/ClaudeCode 상단에 올라 제품 모멘텀을 보였다. 다른 쪽에서는 사용한도를 둘러싼 법적 리스크가 부상했다. 캘리포니아 북부 연방지법에 제안된 집단소송에서 원고 Karl Kahn은 Max 20x($200/월)·Max 5x($100/월)가 Pro(~$20/월) 대비 각각 20배·5배 사용량으로 광고됐지만, 실제로는 5시간 코딩 세션 한 번에 주간 한도의 약 15%가 소진돼 광고만큼 쓸 수 없었다고 주장한다. 핵심 쟁점은 tight cap, 세션 리셋, 불투명한 사용량 추적이며 2025년 4월 출시 이후 전 Max 가입자 환불·손배를 청구한다. Anthropic은 공식 입장을 내지 않았다. 파워유저 과금·레이트리밋 투명성이라는 업계 공통 긴장을 정면으로 건드린 사건이다.

처방형 콘텐츠의 붕괴 — Tim Ferriss가 자기 책 판매를 공개하다

GeekNews · Tim Ferriss(tim.blog)

콘텐츠 비즈니스에 시사점이 큰 1차 데이터다. 유명 저자가 자기 책 5권 카탈로그(4-Hour Workweek 등)의 BookScan 인쇄 판매를 "해부용 시신"으로 공개했다 — 2022년 대비 2023 -5%, 2024 -13%, 2025 -46%, 2026 run-rate -57%. 이 추세가 유지되면 2026년은 2022년 대비 약 80% 감소다. 2025년 전 포맷(인쇄+ebook+오디오) 하반기가 상반기 대비 약 45% 하락했고, 업계 전반도 자기계발 서브카테고리가 -26.3% YoY(16개 중 14개 하락)다.

주장은 처방형(prescriptive) 논픽션이 "탄광 카나리아"라는 것이다. LLM이 책을 읽고 15초 만에 개인화 프로토콜을 제공하니 how-to 유튜브·프리스크립티브 팟캐스트·온라인 강의·뉴스레터도 다음 차례라는 진단이다(Pew: 미국인 83%가 작년 뉴스에 무지출, 페이월 만나면 1%만 결제). 생존 가능 영역은 "정보"가 아닌 "경험"(코미디·스토리텔링·픽션)과 "변형(transformation)"이라고 본다. 강의·콘텐츠 기획이 본업인 독자에게 직접 와닿는 신호다.

AI 시대 채용 기준 이동 — 하이닉스 학력폐지 + 자소서 'AI 활용 경험'

Threads · @gptaku_ai

SK하이닉스의 채용 변화가 두 갈래로 소비됐다. @castleball17은 학력폐지 채용을 과거 화제였던 '반지하이닉스 고등학생'을 뽑기 위한 핀포인트 채용이라고 농담 섞어 해석했고, 더 신호가 있는 쪽은 @gptaku_ai다. 하이닉스 자소서에 'AI 활용 경험' 항목이 들어갔는데 "ChatGPT로 이미지·PPT 만들어봤다" 수준이면 광탈이라는 것이다. 그가 정의한 요즘 기업 AX의 실체는 ① 내부 문서를 DB화하고 ② RAG를 구성하고 ③ AI Agent를 구축해 업무 시스템을 개선하는 것이다. 학력 제한은 사라졌지만 증명 기준은 더 올라갔고, 결론은 "이상한 대외활동 말고 클로드코드부터 깊게 써보라"다. 대기업 채용 기준이 "AI를 써봤다"에서 "RAG·에이전트로 시스템을 개선해봤다"로 이동하는 신호다.

Claude/Anthropic 생태계 — 한국 엔터프라이즈와 MCP

오늘 가장 한국 청중에게 와닿는 묶음이다. Anthropic이 서울에 정식 진출하고 엔터프라이즈 인증을 표준화하는 한편, 같은 생태계가 수출통제·지정학과 충돌하는 양면이 함께 드러났다.

Anthropic 서울 사무소 개소 + 네이버·넥슨·삼성SDS·LG CNS 전방위 파트너십

Anthropic · KiYoung Choi 대표 선임

Anthropic이 서울에 정식 사무소를 열고 한국 AI 생태계 전반과 동시 파트너십을 발표했다. 최기영(KiYoung Choi) 한국 대표이사를 선임했고 과기정통부와 AI 안전 MOU를 체결했다(한국어 모델 안전성 평가는 Korea AI Safety Institute와 협업). 개발 도구 관점의 핵심은 NAVER가 전사 엔지니어링 조직에 Claude Code를 배포해 수천 명이 쓰고, 넥슨이 라이브 서비스 게임 코드 작성·리뷰·배포 파이프라인에 Claude Code를 넣었다는 점이다.

대기업 도입 폭도 넓다 — LG CNS는 수천 명 직원에 Claude 롤아웃(LG 그룹 전반 확대 예정), 삼성SDS는 삼성전자 직원 대상 Claude(Cowork·Code 포함) 배포, Hanwha Solutions는 AWS Bedrock으로 데이터 레지던시를 충족했다. 플랫폼은 채널톡(Channel Corp)이 Claude로 한·일·미 23만+ 기업 고객 AI를 구동하고, 학계는 NAIRL(KAIST·고려대·연세대·POSTECH) 최대 60명 연구자, NGO는 Good Neighbors Korea가 도입했다. 한국은 Claude.ai 사용 상위 12개국이며 Claude for Startups 한국 런칭, BASS Ventures Build Day, Replit·한국투자파트너스 Push to Prod 해커톤이 이어졌다. 국내 대기업이 "도입 검토"를 넘어 전사 실사용 단계임을 보여주는 1차 자료다.

MCP 엔터프라이즈 관리형 인증(EMA) 정식 안정화 — 무중단 OAuth

Hacker News · blog.modelcontextprotocol.io

기존 MCP 인증은 사용자가 서버마다 개별 OAuth·반복 동의를 거쳐야 해 엔터프라이즈 확산의 최대 마찰 지점이었다. Enterprise-Managed Authorization(EMA)이 stable로 승격되면서, 조직 IdP가 MCP 서버 접근을 중앙 관리하고 사용자는 1회 로그인으로 인가된 모든 MCP 서버에 자동 연결된다(서버별 OAuth·동의 화면 제거). 기술적으로는 SSO 중 IdP에서 ID-JAG(Identity Assertion JWT Authorization Grant)를 획득해 MCP 인가서버에서 access token으로 교환하며, 그룹·역할·조건부 접근 규칙으로 스코프를 결정하고 단일 감사 추적을 제공한다.

핵심은 서버별 동의 화면이 사라지면서 개인 계정과 회사 계정이 섞이는 사고를 차단하고, 모든 커넥터에 대한 단일 감사 로그를 확보한다는 점이다. Okta가 첫 IdP(Cross App Access 기반)이고, 클라이언트는 Anthropic(Claude·Claude Code·Cowork)이 이미 구현, VS Code도 프리뷰 지원한다. 서버는 Asana·Atlassian·Canva·Figma·Granola·Linear·Supabase가 붙었고 Slack이 작업 중이다(SEP-990, ext-auth 레포).

Anthropic·SK텔레콤 '미토스' 수출통제 사태 — 첫 도화선이 한국 기업

Threads · @choi.openai (WIRED 인용)

WIRED 보도를 인용한 글에 따르면, Anthropic을 둘러싼 수출통제 사태의 첫 도화선이 한국 기업이었다. 백악관이 Anthropic에 가장 먼저 요구한 것은 SK텔레콤의 '미토스(Mitos)' 접근 차단이었다는 것이다. SK텔레콤은 Anthropic에 1억 달러를 투자한 투자사이자 'Project Glasswing' 파트너인데, 차단 명분은 '중국 연관성' 의혹이었다. Anthropic은 요구가 들어온 그날 바로 접근을 끊었고, 며칠 뒤 아마존이 'Fable 5' 모델의 안전장치 우회 가능성을 신고하자 백악관은 "Anthropic이 최상위 모델을 통제하지 못한다"고 결론 내리고 외국인 전체의 모델 접근을 차단하기에 이르렀다.

다만 글은 그 '중국 연관성'의 실체에 의문을 단다. SK텔레콤의 2024년 중국 매출은 190만 달러, 현지 직원은 7명에 불과했다. 따라서 진짜 표적은 반도체·에너지로 중국에 깊이 들어간 모회사 SK그룹이라는 해석이다. SK텔레콤은 "중국과 무관"이라 반박했고, Anthropic도 SKT 건과 페이블 취약점 신고는 별개라며 선을 그었다. 프런티어 모델 접근권이 지정학·수출통제의 대상이 되는 현실을 한국 기업 사례로 보여주는 무게 있는 신호다. (확인 필요: 1차 출처가 SNS의 WIRED 2차 인용)

Anthropic 무료 프롬프트 워크숍(24분) — 제작자가 직접 가르친다

X · @anujcodes_21

Anthropic이 24분짜리 무료 프롬프트 워크숍을 공개했다. Claude를 만든 사람들이 직접 "프롬프트를 실제로 어떻게 짜는지" 가르치며, 무료·등록 불필요·페이월 없음이 강조됐다(7,843 likes·105 comments). 작성자는 "$300짜리 강의가 다루지 못하는 내용을 첫 8분에 다룬다"고 평가했다. 이 외 @dailyprompter의 'Infinite Personal Tutor' 프롬프트(6개로 어떤 스킬도 4시간에) 등 프롬프트 팁이 다수 회자됐으나 후자는 검증 안 된 주장형 콘텐츠다. AI 교육 콘텐츠 기획 관점에서 공식 1차 자료로 활용 가치가 높다.

인물 레이더 — karpathy의 Anthropic 합류, Gemini 핵심 인물 이직설

X · @ai_explorer25

인재 이동 신호가 모였다. @ai_explorer25는 프런티어 랩 동향을 따라갈 추천 계정을 정리했는데, Anthropic 관련으로 @karpathy(최근 Anthropic 합류), @bcherny(Claude Code 창시자), @trq212(Claude Code 개발자)를 꼽았다. @jisang0914은 2년 전 구글이 한 인물을 다시 영입하려고 3조 7천억 원(사실상 회사를 통째로 사는 값)을 썼고, 그 인물이 Gemini를 경쟁선상까지 끌어올린 뒤 "어제" 구글을 떠나 "구글이 가장 이기고 싶어하는 회사"로 갔다고 적었다(인물·행선지 비실명, 확인 필요). @jack(Jack Dorsey)은 "우리의 intelligence tools에 대해 훨씬 더 많이 이야기할 것, 이건 시작의 시작"이라며 새 AI 방향을 예고했다.

코드 에이전트 — 자동화·스킬·배포의 동시 출시

2026년 6월 중순 며칠 사이 세 코드 에이전트 진영이 "스킬·자동화·배포"를 한꺼번에 쏟아낸 집중 출시 구간이다. 공통 방향은 "사용자가 코드를 덜 짜고, 시연·자연어로 절차를 자동화하고, 결과물을 배포·공유"다.

Claude Code Artifacts — 세션 결과물을 팀에 비공개 링크로 공유

X · @claudeai

Anthropic이 Claude Code에 Artifacts를 추가했다. 코딩 세션에서 생성된 결과물을 일회성 미리보기가 아니라, 비공개 링크로 팀과 공유 가능한 "인터랙티브 페이지"로 만든다(PR 워크스루, 계속 갱신되는 living 대시보드 등). 현재 베타이고 Team·Enterprise 플랜에 한정된다. 이번 SNS 묶음에서 가장 강하게 회자된 사건으로, X 게시물만 9,335 likes·397 comments를 기록했고 "Anthropic with frontend devs right now" 같은 반응이 프론트엔드 진영의 큰 반향을 보여준다.

한국 개발자들의 해석이 디테일을 더한다. @gptaku_ai는 OpenAI Codex Sites가 먼저 공개됐는데도 Artifacts가 Claude Code에 더 빨리 들어왔고 Codex Sites는 아직 엔터프라이즈 전용이라는 점을 짚으며, Claude Code의 자체 배포 기능이 Lovable·Replit 같은 외부 빌더의 필요성을 줄인다고 주장했다. @unclejobs.ai는 기존 Artifacts가 "한 번 보고 닫는" 거의 안 쓰던 기능이었지만 Claude Code와 결합하며 "팀이 실시간으로 보는 협업 문서"로 성격이 바뀌었다고 평가했다. 코딩 에이전트의 산출물이 코드/diff를 넘어 "공유 가능한 배포물"로 확장되는 흐름이다.

Codex Record & Replay — 시연 한 번으로 반복 업무를 스킬로

X · @gdb (Greg Brockman)

OpenAI가 Codex에 "시연 기반 학습(Record & Replay)"을 추가했다. Greg Brockman이 "you can now teach Codex by demonstration"이라고 직접 알렸다. 사용자가 반복 업무를 한 번 직접 보여주면 Codex가 그 흐름을 기록해 재사용 가능한 skill로 변환한다. @choi.openai가 든 예시는 비용 정산서 제출, 휴가 신청처럼 매번 같은 단계를 밟는 사내 업무다. 재실행 시 computer use·browser use·연결된 plugins를 조합해 처리하며, OpenAI 데모 영상(YouTube · OpenAI)은 유튜브 영상 발행 워크플로(스프레드시트 메타데이터→에셋 매칭→YouTube Studio 필드/캡션/비공개 저장)를 녹화로 학습시킨다. 새 스레드에 다음 영상 패키지만 첨부하면 Codex가 맞는 행을 찾아 자동 수행·검증한다. @claudebum은 Codex가 response 기반 모델(오픈소스 포함)을 App·CLI·SDK 전 영역에서 쓰게 안정화됐다고 전했다. "시연→스킬 자동 생성"은 RPA의 에이전트 버전이자, 같은 날 Cursor /automate와 정확히 같은 방향이다.

Cursor /automate — 평문 설명으로 트리거·도구까지 자동 구성

X · @cursor_ai

Cursor가 /automate라는 스킬을 공개했다. 사용자가 하고 싶은 작업을 평문으로 설명하면, Cursor가 그에 맞는 트리거(언제 실행할지)·지시(무엇을 할지)·도구(어떤 기능을 쓸지)를 알아서 구성한다. 별도 설정 화면 없이 자연어 한 줄로 자동화 파이프라인을 세팅하는 방식이다. 커뮤니티 반응이 뚜렷하게 따라붙었다(@skeptrune 반응글 860 likes·116 comments). 같은 날 Codex 시연 학습, Claude Code Artifacts와 맞물려 세 코드 에이전트가 거의 동시에 "사용자 개입 최소화 + 자동화/스킬화"로 향하고 있음을 보여준다.

에이전트 스킬·루프 생태계 — Codex Sites·Loop Library·애니메이션 스킬

X · @MatthewBerman

코드 에이전트의 "스킬·루프" 생태계가 확장되는 신호가 모였다. @MatthewBerman은 바로 쓸 수 있는 agent loop들을 큐레이션한 Loop Library를 런칭했다(signals.forwardfuture.ai/loop-library). @emilkowalski는 Cursor의 "Thermo-Nuclear Code Quality Review" 스킬에서 영감받아 애니메이션 전용 스킬 두 개(/review-animations로 리뷰, /emil-design-eng로 제작)를 만들어 공개했다(emilkowal.ski/skill). 한편 OpenAI Codex Sites는 공개됐지만 아직 엔터프라이즈 전용이라는 점이 Artifacts와 함께 비교됐다. Artifacts·Record&Replay·/automate와 묶어 보면 "스킬·루프·자동화·배포"를 한꺼번에 쏟아낸 구간임이 드러난다.

Claude Code dynamic workflows — 멀티 에이전트 오케스트레이션 재현성

Every · Nityesh Agarwal

운영 하네스 관점에서 실용적인 항목이다. Anthropic의 dynamic workflows는 Claude Code가 매 단계를 즉석 결정하는 대신 재사용 가능한 스크립트를 작성해 다수 서브에이전트에 작업을 배정하고 상호 검증 후 보고하게 한다. 기존 방식의 문제는 토큰 비용 우려로 모델이 서브에이전트를 임의로 1개로 합쳐 품질이 떨어지고, "verifier 3개 띄워라" 지시가 무시되곤 했다는 점이다. dynamic workflows에선 "verifier 3개" 요청 시 매번 3개를 생성하는 스크립트를 작성한다. Spiral 리디자인에서 Figma 파일 11개 섹션을 11개 task(섹션별 전용 서브에이전트)로 spawn해 수 시간 실행 후 코드화하고 원본과 대조 검증한 실제 사례가 나온다. 멀티에이전트 작업의 비결정성을 제거하는 방향이다.

프레임워크의 "에이전트 1급 시민화" — Spree 5.5·Expo widgets

Reddit · r/rails

프레임워크 릴리스 두 건이 "에이전트가 1급으로 다룰 수 있게 만드는" 방향을 공통으로 보여준다. Spree Commerce 5.5(5.4 위 500+ 커밋)는 Admin API v3(리소스별 read/write scope 명시 키)와 Admin CLI를 추가해, 상점 백오피스(상품·주문·고객·재고·프로모션)를 권한 스코프된 단일 인터페이스로 노출한다. 그 결과 Claude Code·Codex·Cursor가 키 하나만 받으면 카탈로그 탐색·주문 처리·캠페인 실행을 자율로 할 수 있다. 여기에 25+ agentic skills(npx skills add spree/agent-skills), Claude Code 플러그인(/spree 커맨드·safety hooks·전문 subagent), 코드 제너레이터(보일러플레이트를 명령 한 줄로 만들어 토큰 소비 절감)까지 더했다. 같은 흐름의 다른 예가 Expo의 expo-widgets stable(SDK 56)이다 — iOS 위젯·Live Activities를 React 컴포넌트로 작성하면 Continuous Native Generation이 Widget Extension 타깃·App Group·SwiftUI 스캐폴딩을 자동 생성한다(별도 Xcode 타깃 불필요).

RTK 토큰 압축 회의론 — "vanity metric"이라는 비판

Hacker News · mroczek.dev

코드 에이전트 도구에 대한 건강한 회의론이다. GitHub 60k stars의 RTK는 "토큰 사용 절감, 지능 유지, 1/10 가격"을 표방하지만, 필자는 "60-90% 절감"이 실제 API 청구 절감이 아니라 raw CLI 출력에서 잘라낸 비율일 뿐(파일 읽기·시스템 프롬프트·reasoning 토큰 무시)이라고 비판한다. 추가로 ① 출력이 조용히 잘려도 에이전트가 모르는 silent failure, ② Task Success Rate 정확도 벤치(SWE-bench류) 부재, ③ CLI들이 --compact/--json-stream을 내장하면 끝나는 feature지 product 아님, ④ stdout 파싱이 git/cargo/npm 포맷 변경에 취약함을 든다. "절감 수치에 속지 말 것"이라는 반대 신호다.

ktx — 데이터 에이전트용 실행 가능 컨텍스트 레이어

GeekNews · github.com/Kaelio/ktx

데이터 에이전트 도구다. "범용 에이전트가 매번 웨어하우스를 재탐색하고 메트릭을 멋대로 지어낸다"는 문제를, 승인된 메트릭 정의·조인 가능 컬럼·비즈니스 지식을 자동 구축·유지하는 자기개선 컨텍스트 레이어로 해결한다. 로컬 실행, read-only 설계이며 자체 LLM 키 또는 로컬 에이전트 로그인(Claude Pro/Max via Claude Code, 로컬 Codex 인증)으로 동작해 ktx 추가 과금이 없다. 위키/Notion 지식 흡수·중복 제거·모순 플래그, 테이블 샘플링·조인 그래프로 fan/chasm trap 자동 해결, CLI+MCP를 제공한다. PostgreSQL/Snowflake/BigQuery/ClickHouse/MySQL/SQL Server/SQLite와 dbt/MetricFlow/LookML/Looker/Metabase/Notion을 지원한다(Apache-2.0, YC P25).

에이전트 운영 하네스 — 하네스·루프·컨텍스트 엔지니어링

영상·Reddit·공식 발표가 같은 어휘(harness, Ralph loop, worktree, self-verify, context engineering)를 공유하며 "프롬프트하지 말고 시스템·루프를 설계하라"로 수렴했다. 프로덕션 사례부터 솔로 개발자 셋업, 환각 통제, 토큰 경제까지 한 축이다.

Sierra가 밝힌 프로덕션 CX 에이전트의 실체 — 한 턴에 10~15개 모델

YouTube · LangChain (게스트 Sierra Zach Renault-Wedin)

이번 영상 묶음에서 정보 밀도가 가장 높다. Sierra는 Fortune 20 대부분이 고객인 CX 에이전트 플랫폼이며, 자사 아키텍처가 "표준 에이전트 하네스와 전혀 닮지 않았다"고 말한다. 핵심 통찰은 한 번의 대화 턴이 단일 LLM 호출이 아니라는 것이다 — "한 대화 턴에 10~~15개 모델이 호출될 수 있다"(프런티어 모델 + 인하우스 모델 + 분류기). 프런티어 모델은 추론의 큰 덩어리를 1~~2회 맡고, 나머지는 분류기와 speculative execution이 채운다. 음성 응답 latency 목표는 1~2초라 대량 병렬화가 필수다.

결제는 별도 인프라 레이어를 통째로 새로 만들었다 — "결제 정보가 외부 LLM으로 가지 않는 격리 인프라"로 PCI DSS Level 1 인증을 받았다(어떤 LLM 제공자도 그렇게 인증받지 않았기 때문). 무코드 레이어 "Journeys"가 코드 레이어 "Agent SDK"로 결정론적·등형적(isomorphic)으로 컴파일돼 양방향 전환이 자유롭고, 약 60개 언어를 지원하되 전사 ensembling(침묵 시 환각 많은 고품질 모델 + 다른 모델 2개 병렬로 교차검증)으로 품질을 잡는다. 멀티에이전트에는 강하게 회의적이다 — "멀티에이전트 시스템을 만들면 조직도를 출하(shipping your org chart)하는 것"이며 본인은 "monolith loyalist"다. 수익은 outcome-based pricing(판매 1건당 수수료)이고, 명언은 "모델이 멍청하다고 느낄 때마다 사실은 당신 탓일 가능성이 높다"다.

2026 코드 에이전트 운영 패턴 — dumb zone·Ralph loop·self-verify 금지

YouTube · Nate Herk (게스트 Cole Medin) / YouTube · AI Jason

두 영상이 "하네스/루프 엔지니어링"을 같은 결론으로 다룬다. 가장 실행 가능한 사실은 dumb zone(멍청해지는 구간)이다 — Nate와 Cole이 독립적으로 같은 수치에 도달한다: Opus는 약 250,000 토큰부터, Opus 4.7은 약 200k, Sonnet 4.6은 약 100~~125k부터 품질이 떨어진다. 1M 컨텍스트가 "해리포터 5권"이라는 비유는 "false sense of security"이고, AI Jason도 effective window를 128k~~200k로 본다. 방법론은 4단계 루프다: Plan(컨텍스트와 함께) → Build → Verify → Evolve the system(모든 버그를 claude.md 규칙·문서·skill 업데이트로 영구 업그레이드). 검증을 넣지 않으면 1차 품질 65~70, 검증 harness를 넣으면 92로 오른다.

보안은 3단계 false sense of security로 강조된다 — "DB 지우지 마"라고 프롬프트로 말하기(안 통함) → 모든 DELETE SQL 차단(에이전트가 스크립트를 작성·실행해 우회) → 진짜 방어는 hooks + scoped keys. Nate 팀의 실제 사고로 에이전트가 task list를 오해해 전체 메일 리스트에 할인코드를 발송하고 사과 메일까지 보낸 사례가 있다. AI Jason의 "loop engineer"는 cron/webhook 트리거 + 공유 "signals" 파일 시스템으로 support·SEO·ad 루프가 서로의 발견을 먹고 복리로 자라게 한다 — SEO 루프가 2일 연속 돌며 매일 20~40개 고품질 페이지를 자동 발행한 실측이 있다. 코드베이스 3요건은 legible(agents.md ~100줄+커스텀 lint)/executable(dev 1스크립트, worktree 친화)/verifiable(Playwright CLI 비디오 녹화→PR 첨부)이고, 공통 핵심 경고는 "에이전트가 자기 작업을 self-verify하게 하지 말고 read-only verifier를 spawn하라"다(Cole의 "adversarial development"·devil's advocate 세션과 같은 원칙).

Opus 4.7, 로봇개 작업을 사람보다 ~20배 빠르게 무인 수행 (Project Fetch 2)

Anthropic · Frontier Red Team

ailabs 공식 발표 중 신호가 가장 강하다. 작년 8월 Phase 1에서 Opus 4.1은 로봇개(quadruped)에 연결조차 못했는데, 1년도 안 돼 Opus 4.7이 인간 보조 없이 같은 작업들을 사람 최고 속도의 약 20배로 수행했다. 양 인간팀이 공통 완료한 4개 작업에서 Claude-less 대비 37배+, Claude 보조팀 대비 18배+ 빨랐고, 코드량은 약 10배 적게 쓰고도 성공률이 같거나 높았다. 연구자 역할은 노트북 연결·초기 프롬프트 입력·명령 승인뿐이었고(Claude Code, adaptive thinking, effort=maximum, 3회 trial), "모델이 사람을 돕는다→사람이 모델을 돕는다→모델이 스스로 한다"는 사이버보안 패턴이 물리 세계로 옮겨가는 초기 증거라는 주장이다. 반론 여지: 비치볼을 정밀하게 미는 폐루프 제어("fetching")는 여전히 실패하고 저수준 actuation policy는 다루지 않아 "로봇공학을 풀었다"는 주장은 아니다. 이 향상이 로봇 특화 노력이 아니라 일반 스케일링에서 emergent하게 나왔다는 점이 시사적이다.

Browser Use — Firecracker microVM로 클라우드 브라우저 콜드스타트 <400ms

GeekNews · Browser Use 엔지니어링 블로그

에이전트 인프라 관점에서 디테일이 풍부한 엔지니어링 사례다. 세션 비용을 $0.06→$0.02/시간(3배 절감)으로 낮추고 시작 시간을 1초 미만으로 줄였는데, 핵심은 원래 bare-metal에서 돌리는 Firecracker를 일반 EC2 위에 중첩(VM-in-VM) 실행한 것이다. 콜드스타트 최적화로 4KB→2MB 페이지 매핑을 적용해 resume→CDP-ready를 9.8초→3.1초로, page fault를 약 10만→1,100회(91배 감소)로 줄였다. CPU는 런치 버스트 중 vCPU unpin→ready 후 stable core pin으로 1,000 브라우저 테스트 손실을 17%→0%로 잡았다. 스텔스는 완전 헤드리스 + Chromium 포크 + 수만 개 실제 핑거프린트로 Halluminate BrowserBench 84.8% 차단회피(업계 1위, plain headless는 2%)다. 결과는 VM 콜드스타트 <400ms, 생성 지연 p50 825ms·p99 1.35s, BrowserArena 리더보드 1위(100% 신뢰성, $0.02/hr)다.

Hermes 솔로 풀자동 운영 하네스 해부

Reddit · r/hermesagent

"에이전트가 거의 모든 구현을 맡는 1인 개발 운영"이 실제로 어떻게 굴러가는지 보여주는 상세 케이스다. Apple Silicon Mac에서 Hermes 0.15.1로 풀스택 앱(Next.js/NestJS/Postgres/Redis/pgbouncer/nginx)을 혼자 운영하는데, 에이전트가 태스크 등록·코딩·QA·배포·문서화까지 하고 사람은 Telegram으로 리뷰만 한다. 남길 디테일이 풍부하다 — 비용·가용성을 위한 프로바이더 폴백 체인(coder 기본 zai/glm-5.1 → opencode/deepseek-v4-pro → nous/stepfun step-3.7-flash:free → 로컬 lmstudio/qwen3.6-35b)이고, ANTHROPIC_API_KEY를 일부러 비워 Claude 경유를 막았다. 메모리는 3계층 — 매 턴 주입되는 MEMORY.md는 2200자 하드캡으로 행동 규칙만 담고, 장문 지식은 Obsidian vault에 두고 pgvector(Hindsight)로 30분 증분 동기화한다. 0.15.1의 실전 버그 8건을 Python 파일 bind-mount로 패치한 목록(Z.ai 주간 한도 리셋 타임존 버그, macOS virtiofs lock 파일 unlink, SQLite SHM 크래시 등)과 Hermes에 Gitea admin 권한을 일절 주지 않는 보안 경계가 인상적이다.

로컬 LLM 신뢰성 — 강제 툴콜·폴백 picker로 환각 잡기

Reddit · r/LocalLLM

로컬 모델 운영의 공통 고민은 "최신 정보 질문에 자신만만하게 지어낸다"는 것이다. Turbo-LLM 제작자는 system prompt로 "답하기 전 검색하라"고 부탁하면 약 절반은 무시하고 추측한다고 보고하고, 해법으로 tool_choice 레벨에서 "웹검색 2회 실행 전엔 답변 불가"를 물리적으로 강제하니 비로소 신뢰성이 생겼다고 했다. 검색은 Tavily(BYO key)지만 searxng로 교체 가능하고, URL fetch·샌드박스 Node VM 코드실행도 내장해 머신을 떠나는 건 검색 호출뿐이다. 같은 계열로 subwave(24/7 라디오 DJ)는 로컬 LLM이 음악 라이브러리에서 다음 곡을 고르는데, agentic 루프 picker가 멈추면 토큰 소모가 적은 pool picker로 자동 폴백해 방송이 끊기지 않게 한 가용성 설계와, "비슷한 곡"을 학습된 임베딩 + CLAP 오디오 핑거프린트로 처리한 점이 흥미롭다. 핵심 패턴은 "부탁이 아니라 tool_choice 강제와 폴백 picker"다.

예산 제약 코드 에이전트의 모델 선택 (OpenClaw)

Reddit · r/openclaw

OpenClaw 사용자들의 게시물 군집은 "저예산으로 신뢰할 에이전트를 굴리는 법"을 보여준다. 가장 구체적인 글은 모델 선택 딜레마다 — 100만 토큰당 $0.50 미만 제약에서 Gemini 2.5 Flash-Lite($0.10/$0.40)는 코드 명령을 환각하는 경향, DeepSeek-V4-Flash($0.09/$0.18)는 멀티툴콜 워크플로 중간에 깨지는 불안정성으로 "덜 나쁜 쪽"을 묻는다. 또 Codex + Computer Use + Chrome Bridge가 생기니 OpenClaw가 "습관으로 남은 여분 레이어"인지 고민한다. 보안 측면에서 주목할 글은 OpenClaw에 Gmail 읽기/폴더이동만 허용(삭제·발송·첨부읽기 차단)해 2만 통을 분류, 10년 만에 받은편지함을 비운 사례인데, 임시계정으로 prompt injection("시크릿 회신")을 테스트해 무시됨을 확인하고도 추가 방어책을 구한다. Hermes 폴백 체인·Claude 한도 비용과 같은 "에이전트 운영의 토큰 경제" 축에 놓인다.

모델 릴리스·로컬 LLM·오픈소스 도구

오픈 가중치 모델이 비용/성능에서 프런티어를 추격하고, 메모리·토큰·음성 도구가 로컬과 오픈소스로 내려오는 흐름이 한 묶음이다.

GLM-5.2 — Artificial Analysis 오픈 가중치 모델 1위

GeekNews · Artificial Analysis (Z.ai)

로컬/오픈 LLM 섹션의 핵심 릴리스다. GLM-5.2가 Intelligence Index v4.1에서 51점으로 오픈 가중치 1위(MiniMax-M3 44, DeepSeek V4 Pro 44, Kimi K2.6 43 추월, GLM-5.1 대비 +11)를 달성했다. 크기는 동일하게 744B total / 40B active, 라이선스 MIT, 컨텍스트는 200K→1M로 확장됐다. 가성비는 $1.4/$0.26/$4.4 per 1M input/cache/output로 태스크당 ~$0.46(Pareto frontier, 동급 지능 중 최저 비용)이다. 벤치는 CritPt 21%, HLE 40%, AA-LCR 71%, SciCode 50%, TerminalBench v2.1 78%, GPQA Diamond 89%로 전방위 상승했고, 실세계 agentic 지표 GDPval-AA v2에서 1524점으로 오픈 1위이자 GPT-5.5(xhigh, 1514)와 사실상 동급이다. 트레이드오프는 태스크당 43k 출력 토큰(37k가 reasoning)으로 토큰 효율이 낮다는 점이다(DeepInfra·Novita·Fireworks 등 제공).

"오픈소스가 비용/성능에서 프런티어를 추월하기 시작했다"

Reddit · r/LocalLLM

로컬 LLM 커뮤니티의 이번 주 지배적 서사다. "지능/달러(intelligence-per-dollar)" 차트에서 high-intelligence·low-cost 좌상단 사분면이 거의 전부 오픈소스(DeepSeek, GLM, Qwen, Kimi, MiniMax)로 채워졌다는 것이다. 핵심 논거는 "대부분 작업은 최상위 지능이나 비용을 요구하지 않는다"는 실용주의다. 이를 떠받치는 두 신호가 같은 날 올라왔다 — GLM(Z.ai) 창업자가 연내 차세대 플래그십 "GLM-fable"을 시사한 게시물(추천 992, 댓글 300)이 큰 반향을 일으켰고, GLM-5.2 추론이 Hugging Face Inference Providers에서 6시간 한정 무료로 풀렸다. 작성자 전망은 "1년 내 대부분 역량에서 오픈/클로즈드 차이가 사라질 것"이다. 다만 "절대적 최고 역량 + 인프라 부담 제로"가 필요할 땐 여전히 클로즈드가 낫고, 오픈은 장기 비용·통제·프라이버시·커스터마이징을 준다는 균형 잡힌 정리가 다수 호응을 얻었다.

토큰 절감 오픈소스 — 인덱싱·메모리·프록시가 트렌딩 석권

GitHub · DeusData/codebase-memory-mcp

"에이전트가 큰 코드베이스를 다룰 때 토큰을 너무 많이 먹는다"를 겨냥한 도구 세 개가 같은 날 트렌딩 상위를 휩쓸었다. codebase-memory-mcp(DeusData)는 코드를 영속 지식 그래프로 인덱싱하는 MCP 서버로, 토큰 사용량을 99.2% 줄인다고 주장한다(412,000→3,400 토큰 예시, GitHub AI 트렌딩 1위·오늘 +2,308 스타·전체 6,926). Netflix 엔지니어의 오픈소스 프록시는 앱과 LLM 사이에 끼워 토큰을 6095% 줄이고 코드 변경 0·정확도 회귀 ±0.000을 주장한다(29.9k 스타). Memanto는 Claude·Codex·Cursor에 "무한 메모리"를 주는 100% 오픈소스로 세션 컨텍스트를 압축하고 90ms 이내 복구한다. 같은 트렌딩 스냅샷에서 2위는 obra/superpowers(에이전트 스킬 프레임워크, 232,341 스타), 3위는 Kilo-Org/kilocode였다. 토큰 비용이 실사용 병목이라는 공감대를 보여주되, 99.2%·6095%·±0.000 같은 수치는 모두 제작자 자체 주장이다.

User as Engram — 사용자별 기억을 메모리 테이블의 '국소 편집'으로

arXiv · User as Engram

메모리 아키텍처의 단독 헤드라인급 연구다(Pine AI). 개인 메모리를 content(사용자 고유 사실)와 reasoning skill(사실을 답으로 바꾸는 능력) 두 문제로 분해한다 — 뇌가 일화를 해마에 국소 흔적(engram)으로 새기고 신피질이 해석하는 것에 빗댄다. 기존 표준인 per-user LoRA는 둘을 하나의 전역 가중 델타에 뭉뚱그려 무관한 텍스트를 오염시킨다(LoRA로 사실을 쓰면 무관 held-out 텍스트의 val_bpb가 +1.784 악화, Engram row는 +0.00005, 약 33,000배 차이). 방법은 사용자 사실을 Engram(DeepSeek 계열 sparse 모델)의 해시 키 메모리 테이블에 수술적 row로 기록하고 reasoning skill은 단 하나의 공유 LoRA로 둔다. 성과는 direct recall이 LoRA와 동급(100% vs 99%), 간접 추론은 평균 5.6배(canonical 7.4배: 44% vs 6%)이며 사용자당 88KB(LoRA는 14.2MB)다. KB가 100 facts를 넘으면 2.5배 큰 모델 위 RAG도 추월한다. "사실을 가중치에 쓰느냐 검색하느냐"의 이분법에 "주소를 가진 국소 편집"이라는 제3의 자리를 만들고, 편집이 glass box이며 사용자 간 누수가 설계상 0이다.

로컬 음성 AI 무료 공개 — MOSS-TTS(31개 언어), Google Eloquent

Threads · @ur.future.ai

로컬에서 돌리는 음성 AI 두 건이 회자됐다. OpenMOSS 팀이 음성 생성 모델 MOSS-TTS를 가중치까지 통째로 무료 공개했는데, 한국어를 포함해 31개 언어를 지원하며 그간 유료 음성 AI에 쓰던 더빙·내레이션을 내 PC에서 직접 돌릴 수 있다는 점이 핵심이다. @saadhjawwadh는 Google Eloquent가 맥 사용자에게 Whisper Flow의 완전 로컬 대안(라이브 전사 + 음성 명령 편집)으로 제공된다고 전했으나, 이 게시물은 "gamma models" 같은 부정확한 표기와 검증되지 않은 링크를 포함해 사실 여부 확인이 필요하다(확인 필요: Google 공식 출처 미확인, 루머 가능). MOSS-TTS는 가중치 공개로 신뢰도가 높고 Eloquent는 출처가 불확실하므로 신뢰 등급을 분리해 다뤄야 한다.

Sumi — 처음부터 학습한 오픈 균일 확산 언어모델

HuggingFace · Sumi

확산 언어모델 중 균일 확산(UDLM)은 마스크 확산과 달리 임의 토큰을 임의 단계에서 갱신할 수 있어 원리상 더 유연한 생성·자기수정이 가능하지만, 대규모·대토큰 예산으로 처음부터 사전학습된 공개 모델이 전무했다. 도호쿠대가 7B UDLM Sumi("먹")를 1.5T 토큰으로 from scratch 사전학습했다(GIDD 프레임워크 + SNR 재매개화, LLaMA 스타일 36레이어, OLMo 3 토크나이저, H100 288장·총 43,308 GPU-시간). 지식·추론·코딩 벤치마크에서 동급 토큰예산 AR 모델과 경쟁적이나 PIQA·HellaSwag·WinoGrande 등 상식 추론은 열세였다(교육 편중 데이터 혼합이 원인 추정). 가중치·체크포인트·전체 학습 레시피·데이터 혼합 명세까지 공개해 균일 확산을 "네이티브로" 대규모 연구할 깨끗한 기준점을 제공한다.

오픈소스 데스크톱 툴 — CapCut 무료 대안, Rust DBeaver 대안 Tabularis

X · @robiartec

상용 도구를 겨냥한 오픈소스 대안 두 건이 크게 회자됐다(스페인어권 중심). CapCut이 워터마크·기능 잠금·구독을 강제하자 개발자들이 워터마크 없는 완전 무료 오픈소스 영상 편집기를 만들었다(GitHub 55k 스타, 27,101 likes로 이번 X 묶음 최다 반응). 또 15년간 DB 클라이언트 표준이던 DBeaver(Java 기반, 실행에 20초)를 Rust로 처음부터 재작성한 Tabularis(2.5k 스타, Apache-2.0)가 소개됐다. 상용 SaaS의 워터마크·구독·무거운 런타임에 대한 반작용으로 오픈소스 대안이 빠르게 스타를 모으는 패턴이다.

AI의 사회적 이면 — 여론·보안·데이터센터·콘텐츠

"빠른 AI 도입 vs 보안·여론·윤리·인간 역량"이 한국·미국 사례로 반복된다. 사용은 늘지만 정서·신뢰·운영 안전은 미해결이라는 긴장이 묶인다.

AI에 대한 미국 여론 — 긍정 16%, 브랜드 'AI' 메시지 거부감 60%

GeekNews · Pew Research / WordPress VIP

여론·시장 신호 2건이 묶인다. Pew에 따르면 미국인 16%만 향후 20년 AI가 사회에 긍정적이라 보고(40% 부정적), 30세 미만은 14%만 긍정, 약 2/3가 개발 속도가 너무 빠르다고 답한다. 동시에 사용은 늘어 약 1/4이 매일 챗봇을 쓰고, 점유율은 ChatGPT 44%(2023 대비 2배+), Gemini 24%, Copilot 17%, Meta AI 14%, Grok 8%, Claude 6%, Character.ai 3%다. "사용은 늘지만 정서는 중립~부정"이라는 괴리가 핵심이다. WordPress VIP(미 소비자 1,200명)는 마케팅 함의를 준다 — 74%가 "10년 전보다 웹이 덜 인간적", 평균 40분이면 "봇 피로", 60%는 브랜드 메시지의 'AI'가 매력이 아닌 turnoff, 61%는 AI를 잘 쓰는 브랜드를 하나도 못 댄다. AI 인용 추적 도구 맵(Profound/BrightEdge, Similarweb/Semrush/Ahrefs, Parse.ly/Plausible/GA4, Brandwatch/Talkwalker)은 GEO 실무에 바로 유용하다.

데이터센터 백래시 — Amazon 직원 조사, Meta-TerraPower 원전 계약

CNBC · Amazon engineers oppose AI data center

AI 인프라의 사회적 마찰을 보여주는 신호다. Amazon이 Seattle 시의회에서 1년 데이터센터 건설 모라토리엄을 지지 발언한 직원 3명을 조사했다(최대 해고 가능 통보, 회사는 해고 계획 부인). Seattle은 6/9 만장일치로 모라토리엄을 통과시켰고, 직원들은 "all-costs-justified AI build out"을 비판했다(Amazon Employees for Climate Justice 소속). Amazon은 2026년 capex 최대 $200B(대부분 AI 인프라)를 쓰면서 작년 10월 이후 3만 명을 감원했고, Gallup은 미국인 10명 중 7명이 인근 AI 데이터센터 건설에 반대한다고 집계했다. 배경에는 AI 전력 수요가 원자력 투자로 이어지는 구조적 흐름도 있다 — Meta가 TerraPower와 Natrium 소형원자로 최대 8기(각 345MW, 총 2.8GW 무탄소 baseload, 첫 유닛 2032년) 개발에 합의했다(2026년 1월 보도라 배경 맥락). 데이터센터 백래시가 여론·고용·로컬 정치로 번지는 흐름이다.

AI 의료의 양면 — 20년 미진단 해결 vs 의사의 환자 비하 프롬프트 유출

Threads · @jisang0914

AI 의료 활용이 상반된 두 사례로 같은 날 회자됐다. 긍정 사례는 9살부터 다리에 힘이 빠지던 아이가 약 20년간 진단을 못 받고(뉴욕 전문의도 보스턴 아동병원도 실패, 13살에 인공호흡기 장착) 있다가 작년 AI가 묵은 진료 기록을 다시 읽고 며칠 만에 답을 낸 일화다. 부정 사례는 한 환자가 통증의학과에서 받은 치료 안내문에 의사가 AI에 입력한 프롬프트가 토씨 하나 안 틀리고 인쇄돼 나온 것이다 — "환자가 지능이 좋지 않은 막일하시는 분인데 이해하기 쉽게 작성해줘"(7,310 likes·1,014 comments). 의료진이 AI를 쓰며 환자를 분류·비하한 정황이 그대로 노출됐고, "프롬프트가 결과물에 그대로 새어 나오는" 운영 위생 실패 사례다. AI 의료의 잠재력(난치 진단 보조)과 위험(편향·존엄 침해·프롬프트 위생)을 한 쌍으로 보여준다.

바이브코딩 보안 — '모두의 창업' 합격자 5,000명 데이터 유출

Threads · @hayan_sool

정부 성격의 창업 지원 사업 '모두의 창업'(1,550억 원 투입)에서 1차 합격자 5,000명의 데이터가 유출됐다. 유출 범위는 5,000명의 이메일 주소, 각자의 비즈니스 모델 요약본, 심사위원 개별 평가 내용이다. @brad_shin은 "사업 아이디어와 계획이 통째로 공공데이터가 됐다"고 비꼬았고 @hayan_sool은 "모두의 해킹"이라 표현했다. 커뮤니티에서 함께 회자된 포인트는 서비스 구축 방식이다 — @hyscodebase는 해당 서비스가 "클로드코드(클코)로 만든 느낌"이 들었는데 결국 정보 유출까지 났다고 적었다. AI 코딩 도구로 빠르게 만든 공공 서비스에서 실제 개인정보·심사 데이터 유출이 발생한 한국 실사례로, "빠른 개발 vs 보안" 논의의 구체 사례다(확인 필요: 유출 경위·규모 공식 발표).

"AI가 우리를 멍청하게 만드나" — 디버깅 능력 위축에 대한 자성

Reddit · r/reactjs

댓글 101개가 달린 이 글은 코드 에이전트 대중화의 그림자를 정직하게 드러낸다. 독학 개발자가 "더 빨리 딜리버하는 동료들을 따라가려" Claude Code를 헤비하게 쓰기 시작한 지 3개월 만에, 앱이 깨지면 에러 터미널을 들여다보기도 전에 반사적으로 Claude에게 진단·수정을 맡기게 됐고 디버깅 자체에 손이 안 간다고 토로한다. "AI가 우리를 더 멍청하게 만드는 것 같다"는 자기진단에 폭넓은 공감(추천 216)이 모였다. 이는 바이브코딩 사업화 논의의 "production 한계"를 개인 스킬 차원으로 옮긴 것으로, 코드 에이전트 의존이 단기 생산성과 장기 역량 사이에서 만드는 트레이드오프의 단면이다.

"AI는 엔지니어링 규율을 더 많이 요구한다" (Charity Majors)

GeekNews · Charity Majors(Honeycomb CTO)

강한 주장이 있는 오피니언이다. "vibe coding으로 코드가 공짜가 됐으니 엔지니어링은 끝"이라는 서사에 정면 반박한다. 2025년 11월 Opus 4.5 출시 이후 AI가 흔한 패턴에 한해 중간 수준 엔지니어급 코드를 더 빠르고 싸게 생성하면서 "코드 생산의 경제학이 뒤집혔다"(코드가 보존 자산→폐기·재생성 가능한 캐시)는 진단이다. Chad Fowler의 "Phoenix Architectures"를 인용하며, 재생성이 싸지면 in-place 수정이 위험하고 교체가 리셋이라고 본다. 핵심 개념인 "Deletion Test"는 구현 전체를 지웠을 때 못 되살린다면 그건 코드 문제가 아니라 평가(evaluation) 문제라는 것이다. 비결정적 코드를 프로덕션에 두는 것이 그동안 미뤄온 일(트레이싱 계측, 프로덕션 내 eval, capture/replay)을 강제하며, "프로덕션은 개발의 한 단계"이고 2026년은 "규율로의 회귀"라고 주장한다. 코드가 일회성 캐시가 될수록 진짜 product는 spec·평가·observability로 이동한다는 것이다.

바이브코딩 사업화의 현실 — $700 앱 vs production·governance 한계

Reddit · r/AI_Agents

세 글이 "AI로 만든 소프트웨어를 사업화할 때 무엇이 병목이고 무엇이 무너지는가"를 양면에서 보여준다. 낙관 사례: 개발자가 Claude Code로 카페용 QR 주문 앱(SvelteKit)을 40분 데모로 뽑고, 각 카페 서브도메인에 로고·상호를 미리 박아 들고 들어가 첫 점주에게 5분 만에 $700에 팔았다(코어 빌드 3일 + 수정 1주, 대부분 점주 응답 대기). 그의 결론은 "$700이 아니라 비율이 핵심 — 병목이 빌드에서 빠져나갔다"이지만, "코드를 손으로 안 써본 사람에게도 long-tail 버그 없이 유지되느냐"를 진지하게 묻는다.

신중론(현장 권위): 2회 엑싯 창업자(둘 다 매출 ~$200M 회사에 인수)는 "바이브코딩은 깔끔하지만 끝까지 못 데려간다 — AI 유창한 엔지니어를 찾아 프로토타입을 production-ready로 만들라"고 정리한다. 아르헨티나 시니어 엔지니어를 시간당 $25에 썼고, IP assignment를 day 1부터 받지 않으면 인수 막판 indemnification 리스크로 deal이 깨질 수 있다고 경고한다. 경고(운영 실패): 자동화 컨설턴트는 "바이브코딩 자동화"의 5대 결함을 짚는다 — 에러 핸들링 부재, 우연히 맞는 로직, 모듈성 부재, 시크릿/키 부주의, 문서 전무. 그 위에 아무도 말하지 않는 governance(소유·장애 알림·인수인계)가 항상 빠진다고 지적한다.

연구 레이더 — RL 보상·credit 설계

이날 논문의 가장 두꺼운 줄기다. "스칼라/trajectory 단위 보상은 어디를·왜 고쳐야 하는지 못 알려준다"는 공통 문제의식 아래, 생성모델·오프라인 RL 이론·LLM 추론·로봇 제어가 각자 보상/credit을 더 잘게 쪼갠다.

RLVR 정책 엔트로피 붕괴를 토큰 단위로 교정 — STARE

arXiv · STARE

추론 LLM 사후학습의 표준인 GRPO 같은 RLVR(검증 가능 보상 기반 RL)은 학습이 길어지면 정책 엔트로피가 급락(entropy collapse)해 출력 다양성이 사라지고 조기 수렴하며, 그룹 내 롤아웃이 동질화돼 상대 advantage 추정이 망가지고 학습 가능 step 수가 막힌다. STARE(칭화 SIGS·텐센트 Hunyuan)는 1차 엔트로피 동역학 분석으로 token-level credit assignment 불일치를 짚는다 — trajectory advantage는 모든 토큰에 공유되지만 per-token 엔트로피 기여는 advantage × 국소 surprisal 민감도의 곱으로 분해돼 advantage-surprisal 4분면 구조와 near-criticality(약한 가중 perturbation만으로 엔트로피 방향 전환) 성질이 나온다. 배치 내부 surprisal quantile로 엔트로피 임계 토큰(상위 10%)을 골라 effective advantage를 재가중하고 target-entropy 폐루프 게이트를 붙인다. 1.5B~~32B에서 7B는 5,000+ step, 14B·32B는 1,500+ step을 엔트로피 target band 내에서 안정 학습하며, AIME24·AIME25에서 DAPO 대비 평균 4~~8%p 향상(Long CoT 1.5B에서 65.9% vs DAPO 55.1%, +10.8%p)이다. GRPO에 곱셈 가중 한 줄을 더하는 최소 침습 개입으로 long-horizon 학습을 푼다.

보상을 데이터 밀도비로 — Discriminator-Guided RL (DRL)

HuggingFace · The Reward Was in Your Data All Along

플로우/스코어 매칭 생성모델의 RL 후처리가 외부 선호를 좇는 도구일 뿐 아니라, 매칭 손실이 놓친 "데이터 안의 구조"(시각 사실성·일관된 물체 구조)를 복원하는 보완 수단이라는 통찰이다(FAIR/Columbia/Mila). 매칭 손실은 보간 주변분포에서 측정되지만 실제 샘플링은 모델 롤아웃 분포가 지배해 초기 오차가 누적되고(DAgger 병리), 작은 속도오차가 큰 보상오차로 매핑된다. DRL은 KL-정규화 RL에서 최적 보상이 데이터와 베이스모델 간 로그밀도비라는 관찰에서 출발해, 사전학습 SSL 표현공간(DINOv2-Large 동결 특징 위 선형 헤드)에서 판별자를 학습하고 그 로짓을 보상으로 쓴다. 가이던스 없는 FID가 SiT에서 9.38→2.62, DINOv3 의미공간 FD가 88.2→19.3로 절반 이하가 됐고, RL 단계는 단 3k step(사전학습 1M+ step 대비 극소)이다. 선호 데이터 없이도 held-out 선호 보상(ImageReward·PickScore·HPSv2)이 전부 개선됐고, 증류 실험(5천만 샘플로도 교사 재현 실패)이 "샘플이 아니라 RL 목적함수 자체"의 기여를 뒷받침한다.

trajectory 라벨 하나의 통계적 비용 — OPAC

HuggingFace · When Does Trajectory-Level Supervision Permit Efficient Offline RL?

오프라인 RL 이론은 대개 매 행동마다 보상을 관측한다고 가정하지만, 실제 데이터는 "최종 성공 여부"·"증명 인정"·"선호된 trajectory"처럼 trajectory-level 결과만 기록한다. OPAC(위스콘신-매디슨)는 "H개의 국소 보상 관측을 단 하나의 trajectory 라벨로 대체하는 비용은 얼마인가"를 통계적으로 규명한다. 표준 cumulative-reward 목적에서 상한 $\widetilde{O}(H^2\sqrt{C_{sa}/n})$과 일치하는 하한을 증명해, 추가 비용이 탐색·전이추정이 아니라 "보상 정보를 단일 스칼라로 압축"하는 데서 옴을 보인다. 선호(Bradley-Terry) 피드백으로 확장해도 같은 leading-order 보증이 유지된다. 그러나 일반화 outcome 설정(all-success 목적 $R=\prod_h r_h$)에서는 결정론적 전이·상수 concentrability에서도 $\Omega(2^H)$ trajectory가 필요한 지수적 불가능성을 증명하고, 학습 가능 영역을 두 구조계수($\kappa_\mu$ outcome aggregation 정보손실, $\chi_\mu$ generalized Bellman 정보손실)로 특성화한다. RLHF·RLVR의 "결과만 보는" 감독이 언제 효율적 학습을 허용하고 언제 통계 장벽을 만드는지 경계를 그었다.

revision을 single-turn RL로 — REVES

HuggingFace · REVES

순차 revision을 통한 test-time scaling은 강력하지만, 표준 후처리(GRPO)는 single-shot 기대보상을 최적화해 multi-step 동역학과 어긋난다. 자연스러운 해법인 multi-turn RL은 wrong-wrong-correct 롤아웃에서 모든 per-turn 그래디언트가 잘못된 중간단계까지 같은 credit을 받는 path-dependent 문제가 있다. REVES(Northwestern·Amazon AGI·Qualcomm)는 SR(sequential revision) 목적함수를 per-state one-step recovery 확률의 가중합으로 정확 분해(Lemma 4.1)해 horizon credit assignment 없는 single-turn 그래디언트를 노출한다. 성공한 복구 trajectory의 중간 "near-miss" 답을 decoupled revision·verification 프롬프트로 변환해 single-turn RL로 학습한다. LiveCodeBench에서 single-shot RL 대비 +6.5점, 표준 multi-turn 대비 +4.0점이고, circle packing(n=26)에서 Qwen3-4B로 최적값 2.635983을 달성해 거대 진화탐색 시스템 AlphaEvolve V2(Gemini-2.0 Pro+Flash)와 동률을 가장 작은 base 모델·훨씬 적은 rollout으로 도달했다. revision 개선이 모든 revision-using TTS(MCTS·AB-MCTS·Mind Evolution)로 전이됨(Theorem 3.1)을 보였다.

루브릭을 토큰 단위 학습 신호로 — RCSD

arXiv · Rubric-Conditioned Self-Distillation

GRPO 등 RLVR는 평가 피드백을 스칼라 보상으로 압축해 "어떤 부분을 고쳐야 하는지"를 가리고, on-policy self-distillation은 단일 reference trajectory에 묶인다. RCSD(Yale)는 teacher를 criterion 단위 루브릭에 조건화해, student의 자기 생성 trajectory에 토큰 단위 지도를 준다(별도 reward 모델·judge 불필요). 같은 오답 trajectory에서 RL은 전체 시퀀스에 보상 하나를, OPSD는 reference 쪽 dense 지도를, RCSD는 맞은 단계는 보존하고 특정 국소 오류만 벌하는 루브릭 조건 피드백을 준다. Qwen3-8B에서 평균 70.6으로 base 대비 +4.7점, GRPO 대비 +1.4, OPSD 대비 +0.9를 달성했고, 이득은 스칼라 보상으로 안 잡히는 루브릭 기반 과제에서 두드러졌다(ResearchQA +8.2, RubricHub +4.9). STARE·RCSD 모두 "거친 스칼라 보상을 더 잘게"라는 같은 방향이다.

불확실성으로 탐험 유도 — UBP2 (로봇 선호 RL)

arXiv · UBP2

선호 기반 RL은 보상 설계를 우회하지만 무작위·휴리스틱 탐험으로 데이터를 수동 수집해 샘플 효율이 나쁘다(특히 초기). UBP2(토론토대 LEAF Lab)는 reward·dynamics·value 모델 앙상블로 후보 trajectory를 "expected return + epistemic uncertainty" 결합 점수로 능동 선택한다(TD-MPC2 기반, reward 불확실성은 Jensen-Rényi divergence로 측정). finite/infinite-horizon에서 sublinear regret을 이론 보장하고, Meta-World 10개 조작 task(1M step)에서 평균 76.1·평균 rank 1.20으로 MBP(62.6)·MRN(61.6)·RUNE(60.8)를 앞섰으며 10개 중 9개에서 더 빨리 수렴했다. 평가 시 불확실성 항을 반대로 뒤집으면 성능이 크게 떨어져, 이 불확실성이 위험 대리가 아니라 탐험 신호로 작동함을 시사한다. 사전 데이터·사전학습 reward·오프라인 dynamics 없이 순수 온라인으로 보상을 배우는 첫 model-based 선호 RL을 표방한다.

RL 학습 비용 절감 — RODS·EfficientRollout

HuggingFace · RODS / HuggingFace · EfficientRollout

두 논문이 데이터·시스템 양면에서 RL 학습 비용을 깎는다. RODS(Inclusion AI·Ant Group)는 GRPO 롤아웃 보상 분산이 가장 높은 "능력 경계" 태스크에 그래디언트가 집중된다는 관찰(Popoviciu 상한)에서 출발해, 이미 계산되는 롤아웃 분산을 "공짜 경계 탐지기"로 재활용한다. 태스크를 mastered/boundary/hard로 분할해 경계 시드를 탐지하고 변종을 합성하는데, Qwen3-4B-Instruct에서 멀티턴 도구사용을 +33.87%p(56.00%) 향상시켜 17K 트래젝토리로 학습한 FunReason-MT-4B(56.50)와 동등한 성능을 약 800샘플(약 20배 적은 데이터)로 달성했다(경계 분산이 2.0~2.2배 높음을 4,800회 측정으로 확인). EfficientRollout(FuriosaAI·UC Berkeley)은 타깃 모델로부터 가중치 양자화 드래프터를 매 학습 스텝마다 유도하는 self-speculative decoding으로, 롤아웃 지연을 최대 19.6%·엔드투엔드 12.7% 줄이면서 모델 품질을 보존한다(lossless 온폴리시 가속). "얼마나 많이"보다 "어디에"(RODS), 그리고 정확도 희생 없는 시스템 가속(EfficientRollout)이라는 상보적 기여다.

연구 레이더 — 에이전트 평가 벤치마크

"짧은 지평·빠른 피드백"을 넘어 장기 적응·다중앱·메모리·실세계 판단을 측정하는 새 벤치마크가 쏟아졌다. 공통 결론은 프런티어 모델(Claude Opus 4.8·GPT-5.5 등 실명)이 이런 영역에서 아직 무너진다는 것이다.

CEO-Bench — 500일 가상 스타트업 경영, 대부분 모델이 파산

HuggingFace · CEO-Bench

화제성 최상의 평가다(프린스턴). 가상 구독 SaaS 회사 NovaMind를 500일간 운영하는 에이전트 시뮬레이션으로, 시작 자본 $1M·고객 0에서 34개 tool과 19개 테이블 DB(Python 인터페이스)로 가격·성장·제품·운영·기업영업을 조율한다. 매출은 청구주기에 도착하고 R&D는 며칠~몇 주 걸리며 실수는 이탈·평판으로 뒤늦게 드러나고, 거의 모든 결과를 LLM 심판이 아닌 명시적 미시경제 메커니즘으로 생성한다. 결과는 냉정하다 — 평가된 SOTA 다수가 파산 전에 시뮬레이션을 끝내지 못했고, Claude Opus 4.8과 GPT-5.5만 시작잔고 $1M 위로 종료(둘 다 일관된 흑자는 못 냄)했다. Opus 4.8은 파산 0회·최대 $27,776,973, GPT-5.5는 파산 2회·최대 $21,297,707, Opus 4.7은 보수적 현금보존으로 $389,959다. Kimi K2.6·Sonnet 4.6은 작은 흑자, GLM 5.1·Haiku 4.5·Gemini 3 Flash·DeepSeek V4 Pro·Grok 4.20은 파산했다. rule-based 비-LLM baseline이 $15.76M인데 Opus 4.8·GPT-5.5만 이를 넘었고, 추정 상한 약 $2.2B 대비 한참 미달이라 벤치마크가 미포화다. "프런티어 모델도 장기 경영 시뮬레이션은 못 푼다"는 직관적 사례다.

RNG-Bench — 보이지 않는 과거를 기억해 행동하기 (비-Markov)

HuggingFace · RNG-Bench

멀티모달 기반모델을 폐루프 정책으로 배포하려면 더는 보이지 않는 관측에 행동을 조건화해야 한다(Non-Markov). RNG-Bench(푸단·저장·CUHK·상하이AI랩)는 이 "remember-to-act" 능력을 격리 측정한다 — Matching Pairs(카드 정체성 회상, static·categorical 은닉상태)와 3D Maze(egocentric 뷰를 공간지도로 통합, dynamic·spatial)의 두 폐루프 게임에 grid 크기·시각 패턴·관측 modality 통제 축을 둔다. 최난이도는 약 128K 토큰·에피소드당 350 이미지로 프런티어 모델로 미포화다. image Matching Pairs 10×10에서 GPT-5.4가 62.3% 매칭(Qwen3.5-397B 25.3%), 16개 duel에서 Gemini-3.1-Pro 전승이고, 3D Maze 13×13(평균 최적경로 60 step)에서 Gemini-3.1-Pro가 50.0% SR로 최고(GPT-5.4·Seed-2.0-Lite 20.0%, Qwen3.5-397B 0.0%)다. 매 step 참 은닉상태를 주입하는 oracle과의 차이(Memory Gap) 분석은 잔여오차 대부분이 의사결정이 아니라 "이전 관측 망각"에서 옴을 보인다. CEO-Bench와 함께 프런티어 모델의 장기·메모리 한계를 드러내는 쌍이다.

개인화 컴퓨터·폰 에이전트 — MyPCBench·iOSWorld

HuggingFace · MyPCBench / HuggingFace · iOSWorld

CMU 동일 연구진(Lawrence Keunho Jang)의 자매 벤치마크로, "비어 있는 샌드박스가 아닌 한 인물의 영속적 디지털 삶 위에서 에이전트를 평가"하는 같은 문제의식을 데스크톱·폰에 적용한다. MyPCBench는 The Office의 Michael Scott을 단일 페르소나로 17개 사전 로그인 웹앱 + 풀 리눅스 데스크톱에 시드한다(은행 거래 1,812건·이메일 2,398건 등 226개 DB 테이블·약 42,000행, 184개 태스크는 OpenClaw 커뮤니티 실제 요청 기반). 가장 강한 Claude Opus 4.6조차 전체 55.4%만 완전 해결했고 7개+ 앱 태스크는 36%, GPT-5.5는 7+ 앱을 4.5%, GPT-5.4 mini·Qwen 3.5는 0%였다. iOSWorld는 Jordan Avery 페르소나로 26개 네이티브 iOS 앱·133개 태스크를 구성하는데(iOS는 25억+ 기기·미국 58~60%인데 기존 벤치는 전부 Android), 최고 구성(Opus 4.6, vision+XML)이 전체 52%·단일앱 82%·멀티앱 37%·메모리 54%다. privileged vision+XML이 프런티어를 최대 26%p 끌어올렸지만(Opus 26%→52%), GPT-5.4 Mini는 오히려 26%→16%로 떨어졌다(스텝당 ~3,100토큰이 유효 컨텍스트 초과). 단일앱은 풀리지만 멀티앱·메모리로 갈수록 무너지는 동일 패턴이다.

데이터 에이전트 — DIA가 7개 SQL 벤치마크를 석권

arXiv · Data Intelligence Agents

엔터프라이즈 데이터 작업의 병목은 데이터 소유자·엔지니어·분석가 사이의 손실 많은 핸드오프다. DIA(C3 AI, 이미 프로덕션 배포)는 세 에이전트(Data Interpreter·Schema Creator·Query Generator)를 하나의 자율 코딩 에이전트(ACA)로 구현해, 텍스트가 아니라 실행·검증·복구 가능한 코드 artifact를 생성한다(공유 workspace·shared memory, 모든 규칙은 쓰기 전 라이브 데이터에서 재확인). OpenHands + Claude Sonnet 4.5(미세조정 없음)로 7개 공개 SQL 벤치마크(4,187 인스턴스·4개 dialect)를 완전 자율로 풀어 전부 최고 published 결과를 매칭/능가했다 — BIRD-Interact +33.0점, Spider2-Lite +16.1, BIRD-Critic +15.4(debugging), 가장 포화된 BIRD-Dev에서는 RL 특화 MARS-SQL과 77.7 vs 77.8로 동급이다. 같은 모델 위 베이스라인(35.2)과의 격차는 결과를 모델이 아니라 시스템이 끌었음을 시사한다. 한계도 솔직하다 — 질문당 1~10분으로 비싸고, 검증이 execution-grounded이지만 semantic하지 않아 의도를 오독하면 query와 check가 같은 오독을 공유한다.

전임상 약리학 에이전트 — TxBench-PP

arXiv · TxBench-PP

신약 전임상 소분자 약리학에서 AI 에이전트를 냉정하게 측정한다(LatchBio). 100개 평가·결정론적 채점으로, 에이전트가 문헌 지식을 외워서가 아니라 제공된 데이터로부터 결론을 복원할 수 있는지를 본다(많은 태스크가 외운 지식 과적합을 함정에 빠뜨리게 설계). 16개 모델-하니스 조합(3개 하니스 Pi/Claude Code/OpenAI Codex)·4,800 trajectory 중 어떤 시스템도 60%를 못 넘었다 — 최강 Claude Opus 4.8/Pi가 59.3%(178/300), GPT-5.5/Pi 55.3%, Opus 4.8/Claude Code 54.7%다. 1,834개 실패 trajectory 수동 검토 결과 대부분이 진짜 과학적 판단 결함이었고 method+calibration 오류가 71%였다. 특히 어드밴스/홀드 판단 7개(230 run)는 35%만 통과했고 전체 점수와 어드밴스 결정의 순위 상관이 거의 없다(Spearman ρ=0.08, Opus 4.8이 전체 1위지만 어드밴스 결정 22.2%로 꼴찌). 하니스 효과도 커서 Pi가 Claude Code 대비 +4.4pp(모델 세대 향상폭과 맞먹음)다. "탐색적 분석은 하지만 신뢰할 과학 조수는 아직 아니다"라는 정량 근거다.

스프레드시트 다음 행동 예측 — NAPE

HuggingFace · NAPE

코드보다 훨씬 흔한 스프레드시트에는 예측적 자동완성이 사실상 부재하다(Microsoft 추정). NAPE는 52개 스프레드시트 생성 트래젝토리(총 11,907 액션, 평균 229스텝)를 수작업 큐레이션하고, 매 사용자 액션 후 예측→수용/거부→미래 액션 갱신을 반복하는 온라인 평가를 제안한다(teacher-forced 오프라인 대비 오류 누적·자기 제안 수정을 테스트). 더 강한 모델이 더 많은 액션을 절감했고(GPT-5 reasoning 33% vs mini 18%), 주목할 점은 파인튜닝한 360M 모델이 GPT-5와 동률(둘 다 27%)이라 태스크가 학습 가능함을 보인 것이다. 저정밀 수용 휴리스틱은 음의 절감(-19%)을 내 abstention(예측 보류)이 결정적임을 확인했다. 코드 자동완성과 스프레드시트 생산성을 잇는 첫 벤치마크다.

AI 과학자의 합성·검증을 외부화 — Xcientist

HuggingFace · Xcientist

AI 시스템이 과학 워크플로를 자동화하지만 사전증거-아이디어-실험-주장을 잇는 추론이 모델 내부에 암묵적으로 남아 감사 불가능하다(상하이교통대 X-LANCE). Xcientist는 문헌 증거·아이디어 상태·구현 계획·ablation 기록·repair trace를 지속적 연구 아티팩트로 외부화하는 research harness다. 핵심 개념인 "claim drift"는 실행 가능한 아티팩트가 원래 주장한 메커니즘을 더는 뒷받침하지 못하는 실패모드다. 3계층(Paper Graph Infrastructure → contract-governed Research Harness → 감사 가능한 UI)으로, Experiment Agent가 각 단계를 입력·허용연산·산출물·수용기준을 명시한 validator-backed contract로 제약하며 증거를 못 내면 다음 단계로 진행 불가다(메모리·교통예측·multi-scale PINN 세 도메인 검증). 정량 SOTA보다 "합성·검증 과정이 귀속·검사·책임 가능한가"라는 거버넌스 프레임이 신호다.

연구 레이더 — World Model·로보틱스·체화

비디오 생성모델이 "그럴듯한 픽셀 생성기"에서 Physical AI의 운영 인프라로 전환되는 흐름이다. 만드는 쪽(world model)과 재는 쪽(물리이해 벤치), 그리고 데이터 효율·강건성·모션 표현이 한 묶음이다.

Kairos — Physical AI를 위한 네이티브 World Model 스택

HuggingFace · Kairos

World model을 픽셀 렌더링이 아니라 "획득·보존·운영 가능한 물리지식 기판"으로 재정의한다. 세 기둥 — Cross-Embodiment Data Curriculum(일반 비디오→인간중심→로봇 데이터), Hybrid Linear Temporal Attention(SWA 국소·DSWA 중거리·GLA 전역 메모리로 선형 복잡도에서 장기 상태유지 이론 보장), Deployment-Aware System Co-Design(하드웨어 인지 커널·양자화·토큰 스트리밍)으로 구성된다. Kairos-4B는 단 4B 파라미터로 14B·16B·28B 모델을 다수 능가했다 — WorldModelBench-robot 총점 9.30(1위, 뉴턴역학·유체·중력 Physics Adherence 각 1.00 만점), DreamGen Bench AVG_Score 0.618(1위), A800에서 23.5GB·4 GPU 9초 추론, RoboTwin 2.0 양팔 조작 평균 성공률 2위, LIBERO-Plus fine-tuning 후 89.0→90.8 SOTA다. 인간평가에서 Wan2.2-5B 대비 최대 88.8% 승률이다. 장기 시간지평 상태 유지 실패를 정보이론적 하한으로 형식 증명한 점도 특징이다.

멀티뷰 3D 일관 World Model — PAIWorld

HuggingFace · PAIWorld

로봇 조작은 본질적으로 멀티뷰(손목·정면·1인칭 카메라)를 동시에 쓰는데 대부분 world model은 단일 시점이다(중국과학원 산업AI연구소). PAIWorld는 DiT 백본에 세 모듈을 얹는다 — Geometry-Aware Cross-View Attention(시점 간 통신 경로), Geo-RoPE(카메라 광선·외부 자세를 로터리 인코딩으로 주입), Latent 3D-REPA(Depth Anything 3에서 3D 피처 증류). 근본 분석은 "통신 경로 + 기하 사전" 둘 다 필요하다는 것이다(통신만 있으면 텍스처 복사로 붕괴, 기하만 있으면 시점 간 전파 불가). 250만 멀티뷰 클립으로 사전학습해 WorldArena 1위(EWMScore 70.67%), AgiBot-Challenge2026 2위(82.45%, Scene Consistency 90.41% 전체 최고)를 기록했고, 향상된 일관성이 하류 로봇 계획 성능으로 직접 이어졌다. 어떤 DiT 기반 월드모델에도 적용 가능한 경량 모듈이다.

비디오 물리이해 벤치마크 재정의 — Physics-IQ Verified

HuggingFace · Physics-IQ Verified

비디오 생성모델이 world model로 위치되며 "정말 물리세계를 추론하는지" 평가의 신뢰도가 중요해졌다(Anates Labs·TUM·Google DeepMind). 널리 쓰이는 Physics-IQ 벤치마크를 감사해 세 오차를 교정한다 — 프롬프트 품질(혼란요인·모델별 가이드라인 미반영), sample-level 채점(모든 샘플·메트릭 동등 가중), artifact(spurious metric activation) 정리. Physics-IQ Verified는 전체 샘플의 57.6%를 정제하고 프롬프트의 34.8% 초과를 개선했으며, 6개 image-to-video 모델 비교에서 Kendall's τ=0.46의 중간 정도이지만 의미 있는 순위 변화를 관찰했다(측정 오차 교정이 모델 랭킹을 실제로 바꿈). Kairos 같은 "물리이해 강한 world model" 주장들의 평가 토대를 재검토한다는 점에서 만드는 쪽과 함께 읽힌다.

데이터 효율 로봇 하네스 — Guava

HuggingFace · Guava

VLM을 로봇 정책으로 쓰는 두 방식 중 하나는 막대한 로봇 시연 데이터가 필요한 VLA 미세조정이고, 다른 하나는 모델이 외부 인지·계획·제어 모듈을 호출하는 하니스다(메릴랜드·UIUC·Amazon FAR 등). Guava는 "무엇이 효과적인 하니스인가"를 체계적으로 탐색해 3대 원칙을 도출한다 — 반복적 ReAct 루프(실행 결과 적응·실패 복구), 의미적 행동 추상화(저수준 제어 대신 과제 분해), 풍부한 멀티모달 관찰. 4B 오픈소스 모델에 2K개 미만 시뮬레이션 궤적으로 임베디드 도구 사용을 증류해, 프런티어 독점 모델에 견줄 성능과 미지 객체·신규 지시·롱호라이즌 일반화, 시뮬→실세계 제로샷 전이, 견고한 실패 복구를 보였다. 잘 설계된 하니스가 확장 가능·모델 불가지론적 인터페이스가 될 수 있음을 데이터 효율적으로 입증한다.

결측 모달리티 강건 모방학습 — RL4IL

HuggingFace · RL4IL

로봇 센서는 고장·가림·드롭될 수 있으므로 결측 모달리티 강건성이 실세계 운용의 필수다(본머스대). 기존 결측 모달리티 학습은 새 결측 패턴마다 재학습이 필요해 추론 시점 제로샷 드롭아웃이 불가능했다. RL4IL은 행동 복제의 휴리스틱 거리 가중을 학습된 선택 전략으로 대체한다 — PPO 정책이 BFS-증강 후보에서 유용한 시연을 랭킹하고, 소프트 크로스어텐션 융합 헤드가 상위 후보 행동 신호를 집계하며, 카메라가 고장나면 모달리티별 RL 검색 정책 + 소프트 임퓨테이션 헤드가 동결된 라이브러리에서 결측 임베딩을 재구성한다(재학습 불필요). LIBERO-Spatial·Object·Goal 세 스위트에서 완전 카메라 드롭아웃 시 BC·DisBC·BESO-ACT·DisDP 등 SOTA 전부를 능가했고, 정책 네트워크 학습이 전혀 필요 없다는 점이 핵심이다.

언어 지시 기반 3D 점 궤적 예측 — MolmoMotion

HuggingFace · MolmoMotion

모션 예측은 시각 지능의 핵심이며(행동 계획·물리 상호작용 추론), 저자들은 세계좌표 3D 점이 class-agnostic·view-stable·compact한 일반 표현이라고 주장한다(Allen AI·워싱턴대·UNC). 과제를 goal-conditioned 3D point motion forecasting으로 정식화 — 짧은 시각 이력 + 물체 위 3D query 점 + 언어 목표 → 각 점의 미래 3D 궤적 예측. 비제약 비디오에서 물체-grounded 3D 점 궤적을 추출하는 자동 주석 파이프라인으로 MolmoMotion-1M(1.16M 클립·736 동사·5,692 조작 물체)을 만들고 두 모델(autoregressive·flow-matching)을 학습했다. 새 벤치마크 PointMotionBench(742 클립·111 카테고리·61 모션)에서 기존 baseline 전부를 능가했고(AR 3프레임 HOT3D ADE 0.109m), 학습한 모션 prior가 로봇 조작(MolmoSpaces) 샘플효율·DROID 실로봇 적응으로 전이되며 비디오 생성 가이드로 더 큰 i2v 모델보다 사실적 모션을 냈다.

해상 UAV 자율비행 검증 — 3DGS in-the-loop

arXiv · Hardware-in-the-loop monocular pose for maritime UAV

선박 위 UAV 자율 운용은 비전 기반 상대 포즈 추정이 필요하지만 실해상 검증은 비용·위험이 크다(조지워싱턴대). 실내에서 fully autonomous 비행을 하면서 photorealistic 해상 환경을 에뮬레이트하는 하드웨어 vision-in-the-loop 프레임워크를 제시한다 — 비행 중 UAV 포즈를 Vicon(200Hz)으로 측정해 3D Gaussian Splatting(3DGS) 장면 모델이 "at-sea" 뷰를 실시간 합성(640×480, RTX 3060 60~110 FPS)하고, 온보드 Jetson Orin NX의 TNN-MO(ResNet50 + 6층 트랜스포머)가 선박 상대 6D 포즈를 추정한다. 핵심 난점인 약 0.3초 지연을 지연 Kalman 필터(DKF)가 고속 IMU(200Hz)로 보정한다. 자율 이착륙·궤적 추적에서 안정적 폐루프 비행을 시연해, 실해상 시험 없이 지각-추정-제어 전체 스택을 임베디드 하드웨어에서 검증하는 안전한 중간 단계를 확립했다.

연구 레이더 — 멀티모달 후학습·해석가능성·안전

멀티모달 모델의 GRPO 후학습 정교화, 그리고 "LLM이 자기 신호(SAE 피처·LLM 판사·에이전트 합의)를 과신한다"는 신뢰성·안전 메타 테마가 한 묶음이다.

능동 지각 옴니 에이전트 — OmniAgent

HuggingFace · OmniAgent

긴 영상 이해의 수동 "watch-it-all" 모델은 계산 비용이 영상 길이에 비례한다(CUHK·SJTU·Qwen Team). OmniAgent는 영상 이해를 POMDP 기반 Observation-Thought-Action 사이클로 정식화한 첫 네이티브 옴니모달 에이전트로, 질의에 조건화돼 오디오·비주얼 단서를 영속 텍스트 메모리에 선택적으로 증류해 추론 복잡도를 영상 길이에서 분리한다. 2단계 최적화(Agentic SFT + TAURA RL)에서 TAURA는 균일 trajectory advantage가 핵심 발견 턴과 사소한 액션을 뒤섞는 "Advantage Homogenization"을 막고자 턴 레벨 엔트로피를 결정 임계성 프록시로 삼아 고엔트로피 턴에 크레딧을 집중한다. OmniAgent-7B는 10개 벤치마크 오픈소스 SoTA를 세웠고, LVBench 50.5%로 10배 큰 Qwen2.5-VL-72B(47.3%)를 프레임 약 73% 적게 쓰며(203 vs 768) 능가했다(시간 그라운딩 LongVALE +33.4%). 양의 test-time scaling도 입증했다 — 최대 턴 K를 6→52로 늘리면 VideoMME-Long 53.4%→59.6%이되 실제 평균 턴은 11.7로 포화(증거 충분하면 종료)다.

공간 추론 듀얼패스 — SR-ReaL

HuggingFace · SR-ReaL

공간 질의는 근본적으로 다른 전략을 요구한다 — 순수 언어 연역으로 풀리는 것과 객체를 3D에 명시적으로 그라운딩해야 하는 것(HKU·NVIDIA·UCSD). SR-ReaL은 한 모델에 두 경로를 장착한다 — LOR(Language-Only Reasoning, 단계별 언어 연역)과 DTR(Detect-Then-Reason, region 토큰으로 3D 기하 단서를 먼저 검출 후 추론, region-to-3D 그라운딩 인터페이스). 2단계 학습(콜드스타트 SFT + DAPO 스타일 GRPO, DTR에 이산 center 기반 detection reward)으로 단일 RL 체크포인트가 두 경로를 모두 지원한다. SPAR-Bench에서 Ours-DTR이 평균 61.9로 베이스 SR-3D(33.4)를 +28.5 앞섰고, EmbSpatial 81.3, 기하 인지 DTR이 정량 태스크에서 LOR을 일관 능가(Depth Prediction +4.9, Distance Inference +5.0)했다. 두 경로 공동 학습이 상호 강화를 일으켜 3D 그라운딩 개선이 추론 정확도를 직접 끌어올렸다.

자기증류 쇼트컷 차단 — ViGOS

HuggingFace · ViGOS

온폴리시 자기증류(OPSD)를 멀티모달로 확장하면 privileged teacher가 참조 답을 보고 학생 롤아웃을 감독하는데, MLLM은 텍스트에 강하게 영향받아 이미지 증거가 쓰이기 전에 답이 추론을 형성하는 "쇼트컷"이 생긴다(중국과학원 선양·UCAS). 이 누출을 PALR로 정량화하니 vanilla OPSD가 3B 17.26%·7B 26.01%(7B가 더 약함)였다. ViGOS는 지각을 추론에서 분리한다 — 학생이 먼저 시각 묘사를 쓰면 image-only perception teacher가 이미지만으로 그 구간을 감독하고, 그다음 privileged reasoning teacher가 추론·답 구간을 감독한다(참조 타깃이 초기 시각 주장을 직접 감독하지 못하게 막음). 8개 벤치 평균 Pass@5가 3B 60.86%→71.97%, 7B 68.13%→75.60%로 올랐고, PALR은 7B 26.01%→7.56%로 떨어졌으며 prior 민감 ViLP Score는 7B 39.50→62.17로 크게 올랐다(Prior 정확도는 97.00 유지). "묘사 먼저-추론 나중"이라는 단순한 순서 분리가 효과적 처방임을 보였다.

GUI 그라운딩 품질인식 증류 — Trust the Right Teacher

HuggingFace · Trust the Right Teacher

GUI 그라운딩(스크린샷에서 타깃 좌표 예측)용 품질 인식 자기증류다(조지아대·텐센트·홍콩폴리텍). OPSD는 학생 접두사가 타깃에서 벗어나면 교사의 좌표 토큰 신호 품질이 저하되는데, ViGOS와 달리 좌표 예측이 정답 박스에 대해 공간 검증 가능하다는 특성을 활용한다. 두 컴포넌트 — 소프트 정확성 인식 게이팅(현 좌표 토큰이 정답 박스 안으로 완성될 수 있으면 신뢰, 아니면 하향 가중)과 교사 확률 스케일링(상위 좌표 토큰 확률을 증류 가중치로). 핵심 발견은 두 컴포넌트가 단독으로는 향상이 없고 결합해야 일관되게 향상된다는 것이다(게이팅=신뢰 불가 신호 억제, 스케일링=잔여 신호 보정의 상보적 역할). 6개 GUI 그라운딩 벤치마크에서 베이스 모델을 일관 개선하고 강력한 베이스라인을 능가했다. 엔트로피·퍼플렉서티 같은 간접 프록시 대신 정답 박스를 직접 신뢰도 기준으로 쓴 점이 차별점이다.

사용자 시뮬레이터 — Turing-RL

HuggingFace · Turing-RL

이상적 사용자 시뮬레이터는 정답을 복제하는 게 아니라 "사용자가 했을 법한 응답과 구별 불가능한" 응답을 내야 한다(MIT·Stanford). Turing-RL은 단일 정답 매칭(로그확률·유사도) 대신 튜링 테스트 기반 "구별 불가능성"을 보상으로 쓴다 — LLM judge(Qwen3.5-397B-A17B)가 1~7 Likert로 모델 응답이 실제 사용자와 구별 불가능한 정도를 채점하고, 정규화한 discriminative Turing reward로 GRPO 정책을 학습한다(학습 judge와 평가 judge Claude Sonnet 4.6 분리). 두 도메인(대화 채팅·Reddit 포럼)에서 LLM·인간 평가 모두 베이스라인을 능가했고, 인간 튜링 테스트(300명+ Prolific)에서 Chat의 Turing-RL 승률이 WR=.57로 가장 높았다(SFT-Init·Sim-RL은 chance 근처). 주목할 점은 GPT-5·Qwen3.5-397B 같은 훨씬 큰 모델도 Qwen3-8B 베이스 대비 크게 개선되지 않았다는 것 — 장황·과도한 hedge로 인간보다 assistant처럼 읽혔다.

3D를 파노라마로 평탄화 — OneCanvas

arXiv · OneCanvas

비전-언어 모델의 실용적 이해 상당수가 3차원이지만, 기존 3D-aware VLM은 전용 기하 모듈을 붙이거나 대규모 공간 QA를 큐레이션하는 무거운 비용을 치른다(TUM·화웨이). OneCanvas는 각 view의 각 patch를 depth·camera pose로 3D world 좌표에 unproject한 뒤 단일 equirectangular 파노라마 캔버스의 연속 경도·위도에 배치한다(잃은 깊이는 3D position embedding으로 복원). 모든 patch가 하나의 공간 좌표계를 공유해 사전학습 VLM이 보통 이미지처럼 소비하며, 캔버스를 임의 pose 중심으로 둘 수 있어 situated reasoning을 같은 표현으로 지원한다. 실제 이미지 patch를 임의 3D 위치에 절차적 배치하는 공간 사전학습 커리큘럼으로 장면 통계 shortcut을 억제한다. SQA3D 65.3 EM@1(+2.3), VSI-Bench 70.1, SPBench 72.1 zero-shot(+4.8)으로 SOTA이며, 강한 경쟁 방법 대비 약 10배 적은 학습 연산으로 달성한다.

ViT 충실 특징 업샘플링 — ViT-Up

HuggingFace · ViT-Up

ViT는 강력한 백본 특징을 주지만 작은 patch-token 그리드(14×14 등)에서 운용돼 dense prediction의 병목이다(상하이교통대). 기존 image-guided 업샘플러(JAFAR·AnyUp·NAF)는 별도 경량 인코더로 조건화해 시각적으로 선명하지만, 인코더가 얕아 의미적으로 구별되는 영역의 특징이 섞이는 feature leakage가 심하다(선명함이 leakage를 가림). ViT-Up은 외부 이미지 가이던스를 ViT 중간 layer의 layer-wise query 구성으로 대체해, 임의 연속 좌표에서 특징을 예측하면서 백본 특징공간과 정렬을 유지한다. DINOv3-S+에서 Cityscapes +2.07 mIoU·SPair-71k +4.17 PCK@0.10, 더 큰 DINOv3-B에서 +3.36 mIoU·+8.09 PCK로 백본 용량에 따라 이득이 커진다(image-guided 업샘플러가 고정된 얕은 인코더에 병목되는 것과 대조).

SAE 개입은 신뢰할 수 없다 — 억제된 행동의 복원

HuggingFace · SAE Post-Intervention Recovery

최근 LLM 안전 연구는 SAE(희소 오토인코더)로 "유해" 피처를 식별해 클램프하면 위험 행동을 막을 수 있다고 가정한다(홍콩폴리텍). 이 논문은 그 전제가 "복원 가능한 실패 모드"를 가린다고 지적한다 — 클램프는 행동에 이르는 가장 눈에 띄는 경로 하나를 막을 뿐, 모델이 대체 방향·하류 레이어·분산된 메커니즘으로 우회할 수 있다. "개입 후 복원"을 백박스 진단으로 도입해, 피처가 클램프된 상태에서 잔차 공간에 작은 섭동을 더해 개입 이전 행동을 복원할 수 있는지를 제약 최적화로 정식화한다. 거부 스티어링에서 복원률 95.8%, 언러닝 98.9%, IOI 100%이고, 귀속 분석은 복원된 악성 행동이 다른 SAE 피처가 아니라 "SAE 재구성 잔차"(SAE가 설명 못 한 성분)에 실린다는 점을 밝혔다. "피처 수준 제어"와 "행동적 완결성" 사이 간극을 드러내, 잠재공간 방어를 안전 장치로 신뢰하기 전 짚어야 할 경고다.

어텐션 헤드를 실행 가능한 코드로 설명

arXiv · Explaining Attention with Program Synthesis

해석가능성 연구는 뉴런/특징에 자연어 설명을 붙였지만 자연어는 모호하고 인과 검증을 할 수 없다(NJIT·MIT). 대안으로 어텐션 헤드의 연산을 근사하는 실행 가능 Python 코드를 탐색한다 — 각 헤드의 실제 attention map을 추출하고 LM(Claude Sonnet 4)이 재현 프로그램 후보를 생성하면 JSD/IoU로 재랭킹한다. 4개 모델 1,664개 프로그램을 4,000개 미만 후보·총 API 비용 약 $150로 생성했다. best-program 평균 IoU는 GPT-2 69%, TinyLlama 74%, Llama-3B 79%로 모델 규모에 따라 증가했고(디코더가 BERT 양방향보다 쉬움), 특정 헤드는 99% IoU에 달했다. 가장 강력한 결과는 인과 검증 — 헤드의 최대 25%를 프로그램으로 교체해도 perplexity가 16%만 증가했고 30~40% 교체까지 6개 추론 벤치 성능이 크게 떨어지지 않았다(구조적 baseline은 5% 교체로 perplexity 1000%+ 폭증). 학습된 신경 컴포넌트를 코드로 실제 교체해도 동작이 크게 변하지 않음을 처음 입증했다.

부호만 세는 학습 불필요 해석가능성 — Bag of Dims

HuggingFace · Bag of Dims

트랜스포머 특징을 읽으려면 보통 별도 모델 학습(SAE는 수백만 활성화·GPU시간, probe는 레이블)이 필요하다(AWS). 이 논문은 표준 기저가 이미 학습 불필요·아키텍처 범용 특징 기저를 제공한다고 주장한다 — 각 차원의 부호(±1)가 의미, 크기가 확신도다. 부호만으로(크기를 1로 치환) LM 헤드 통과 시 top-5 다음 토큰 정확도 60~~93%가 보존되고, 단일 토큰 캐시(토큰당 forward 1회)에서 175개 카테고리를 부호 일치 카운팅만으로 AUC 0.97~~0.99 검출한다(학습된 probe는 +0.018 AUC만 추가). 차원 독립성은 쌍별 상호정보 < 0.006 bits이고, forward 중 특징 부호 패턴을 뒤집으면 4개 언어 모델에서 해당 개념이 인과적으로 억제된다. 이 구조가 언어·비전(DINOv2·ViT)·오디오(AST) 7개 모델에 공통 출현해, 트랜스포머 학습 일반에서 비롯됨을 시사한다. 열린 문제가 "올바른 회전 찾기"에서 "각 차원이 무엇을 인코딩하는지 목록화"로 옮겨간다.

RLVR 추론 선택적 언러닝 — MAST

arXiv · MAST

LLM 언러닝은 대부분 행동이 SFT로 주입된 환경에서 평가됐는데, 이 논문은 RLVR로 유도된 행동에도 같은 타겟이 적절한지 묻는다(Chenyu Zhou 외). 매칭된 SFT/RLVR 체크포인트 통제 실험에서 SFT는 양(+)의 우도 부스트(평균 +0.4477)인 반면 RLVR 증분은 균형적·방향 특이적(평균 -0.0002)이라 다른 부분공간에서 확률을 재분배함을 보인다. RLVR 체크포인트에 표준 full-parameter gradient ascent를 쓰면 깨끗한 작동점이 없다(약하면 forget 안 되고 강하면 정확도 붕괴). MAST는 어텐션-프로젝션 텐서를 off-principal energy·업데이트 크기·forget-gradient 결합 크기로 랭킹해 상위 부분집합(96/112)만 업데이트한다 — MATH forget 45→37/150(McNemar p=0.0078)의 유의한 망각을 달성하면서 GSM8K +0.8pp·MATH retain -0.5pp로 보존했다(full-parameter는 GSM8K -6.25pp). 동일 크기 random-96 대비 GSM8K +2.34pp로 "어떤 텐서를 고르느냐"가 핵심임을 입증했다.

안전을 사전학습에 자기 점검으로 심다 — SRP

arXiv · Safety Reflection Pretraining

LLM 안전은 주로 사후 학습에서 이뤄져 입력 조작·미세조정만으로 깨질 만큼 얕고(적대적 예시 10개로 jailbreak 가능), 사전학습 단계 표준은 데이터 필터링·리라이팅이다(칭화 IIIS). 핵심 문제 제기는 두 방법 모두 "무엇을 배우는가"만 통제하는데, 유해 데이터를 전부 없애도 충분하지 않다는 것이다 — 합성 환경 MedSafetyWorld에서 정상 의료 지식만 줘도 LLM이 일반화로 유해 질의에 답하는 능력을 획득함을 보인다. SRP는 사전학습 텍스트를 수백 토큰 segment로 나눠 각 뒤에 짧은 안전 reflection("Safe"/"Unsafe:카테고리")을 삽입해 자기 점검을 내재화한다. inference-stage prefill 공격에서 SRP는 ASR 8.48로 Baseline·SafeLM(92.42·95.76)보다 깊은 저항을 보였고(첫 토큰이 유해해도 자기 생성을 계속 reflection), general 성능 75.00%를 유지했다(Filtering-plus는 53.89%로 급락). "데이터를 안전하게"를 넘어 "안전 가드레일을 강화하는 모델 행동을 유도"로 목표를 확장한다.

다문화 에이전트의 가치 다양성

HuggingFace · Beyond Alignment

다문화 멀티에이전트 평가는 에이전트별 "정렬"만 측정하지만, 강하게 정렬된 에이전트들도 모이면 동질적 가치 공간으로 붕괴할 수 있다(SUTD·워싱턴대 세인트루이스). "가치 다양성"을 시스템 수준 평가 축으로 정식화해 World Values Survey로 19개 문화·18개 백본을 실험했다. 단일 백본 18개 시스템 모두 인간 다양성(44.07)에 못 미쳤고(최고 36.12), 다양성과 정렬은 거의 무상관(r=-0.12)이라 상호 보완적 속성이다. 혼합 백본 약 189만(18^5) 구성을 전수 탐색해 파레토 프런티어가 단일 백본을 지배하나 인간 간극은 잔존했고, 문화 선택·에이전트 수로도 회복 불가하며 오히려 에이전트가 늘수록 동질화가 증폭됐다(다라운드 사회 노출은 합의로 수렴해 다양성 침식). 다문화 멀티에이전트가 표방하는 다원성이 아직 미충족 과제임을 보인다.

LLM 개인화에 인간을 다시 중심에

HuggingFace · Re-Centering Humans

LLM 개인화 평가는 대부분 합성 데이터(페르소나·시뮬레이션 대화·LLM 평가)에 의존한다(UIUC·CMU). 실사용자 50명·550 대화에 세 단계 인간 판단(속성 5,949·페어링 11,919·응답선호 1,101)을 붙여 합성 vs 인간 격차를 본다. 인간 대화에서 추출한 속성 중 추가 22%가 문제 있다고 판정됐고(합성보다 추출 어려움), LLM은 관련성 매칭에서 인간 대비 20~40% 더 많은 속성을 과식별했으며, 생성기로서 LLM의 개인화 응답이 54.6% 사례에서 일반 응답보다 낫지 않다고 인간이 판정했다(반면 LLM 판사는 부풀린 점수). 경량 개입(RoBERTa 검증기, GRPO)으로 1·2단계는 인간 데이터에 근접시켰으나 3단계 보상모델은 인간 평점과 약한 상관에 그쳤다. "LLM이 자기 신호를 과신한다"는 메타 테마의 개인화 버전이다.

연구 레이더 — 시스템·효율·도메인 적용

"더 크게"가 아니라 "더 적은 자원으로 동등/우월"을 셀링 포인트로 삼는 시스템·효율 연구와, LLM을 oracle이 아니라 도구·인터페이스로 재배치하는 도메인 적용이 묶인다.

LLM-as-interface 임상 시스템 — ClaMPAPP

arXiv · ClaMPAPP

급성 충수염은 어린 아동일수록 비전형적이라 진단 지연이 위험하다(K. N. Toosi 공대). 구조적 표 위 ML은 강한 성능을 내지만 현실 임상 정보는 서술형 텍스트이고, LLM은 자유 텍스트를 다루지만 프롬프트·순서에 민감하고 그럴듯하지만 틀린 출력을 낸다. ClaMPAPP는 LLM을 의사결정자에서 인터페이스로 재배치한다 — LLM은 서술형 narrative를 스키마 제약 feature로 파싱하고, 결정적 safety gate가 생리적으로 불가능한 값을 결측(NaN)으로 매핑하며, XGBoost 분류기가 최종 위험을 예측한다("LLM-as-interface, ML-as-predictor"). 독일 2개 병원 코호트에서 내부 정확도 85.1%·F1 0.848·민감도 97.7%이고, 무엇보다 놓친 충수염(false negative)이 단 2건이다(GPT-5.5 17건, Claude Opus 4.7 36건, MedGemma 40건). 외부 Düsseldorf 코호트에서도 F1 0.881로 최고 일반화를 보였고, 문장 순서 치환 시 end-to-end LLM은 positional bias로 급락하지만 ClaMPAPP는 안정적이다. 무제약 생성 진단보다 감사 가능하고 안전 지향적인 경로다.

의료 LLM 도메인 적응의 트레이드오프

arXiv · Medical LLM Domain Adaptation

LLM을 특정 도메인·언어에 적응시키는 전략의 실효성은 불명확하다(엑스-마르세유·낭트·그르노블). 프랑스어 의료 QA를 사례로 CPT(지속 사전학습)·SFT·CPT+SFT를 3개 모델 패밀리·세 초기화 상태에 걸쳐 통제 비교한다(MedInjection-FR 571,436건). 실무 가이드라인이 명확하다 — 라벨 없는 의료 텍스트만 있을 때 CPT는 MCQA에 modest·unstable해 단독 권장 안 하며 이득은 주로 verbosity 민감한 OEQA overlap 지표에서 나온다, 라벨된 QA가 있으면 SFT가 MCQA에서 성능-효율 최고 트레이드오프(CPT+SFT와 자주 동급이나 계산 자원 훨씬 적음), 둘 다 있어도 CPT+SFT 향상은 작고 유의하지 않다. instruction-tuned 모델이 가장 강한 베이스라인이다. 프랑스어 의료 적응이 영어 벤치로 전이되고(cross-lingual transfer) 번역 데이터셋은 정확도·confidence를 부풀린다. "더 비싼 전략이 늘 더 비용효율적인 건 아니다"라는 메시지를 통계로 뒷받침한다.

모델 병합 간섭 줄이기 — ESM/ESM++

arXiv · Essential Subspace Merging

같은 체크포인트에서 미세조정한 여러 모델을 합칠 때의 task 간 간섭이 난점이다(동남대·화웨이, CVPR 2026 확장판). task vector에 SVD를 적용하는 기존 방법은 업데이트 방향을 파라미터 에너지로 정렬할 뿐 데이터 분포에 대한 기능적 효과로 정렬하지 않아, 가장 작은 singular value를 잘라도 자주 등장하는 입력에 큰 출력 변화를 일으키는 방향을 버릴 수 있다. ESM은 task 업데이트가 유발하는 출력 활성화 변화에 PCA를 수행해 지배 방향(essential subspace)만 남긴다(기능적 활성화-shift 에너지로 정렬해 SVD보다 행동 보존에 유리). ESM++는 잔차를 low-rank expert로 분해하고 prototype 라우팅으로 동적 병합한다(둘 다 training-free). ViT 9개 설정에서 ESM이 전부 best/tied-best, ESM++(r=32)는 dynamic에서 9개 중 7개 best였고, GLUE 8 task에서 76.2%, 생성 LLM에서 ESM++ 47.69%(fine-tuned 상한 48.46% 근접)다. 학습 없이 단일 unlabeled proxy 샘플만으로 data-free SVD를 넘는다.

DiT 이미지 편집 가속 — HiLo-Token

HuggingFace · HiLo-Token

포토샵 Remove·Generative Fill 같은 마스크 기반 편집은 대규모 트래픽을 차지하지만 지연이 크다(Adobe). 수백 개 편집 샘플에서 DiT 모듈만으로 평균 73% 지연을 차지한다(8-스텝 증류 후에도). HiLo-Token은 마스크 영역에 모든 토큰을 유지하고, 마스크 밖은 고주파(Sobel 엣지 기반 선택)·저주파(16× 다운샘플)로 차등 배분한다(어텐션 기반 중요도 예측은 초기 확산 단계에 신뢰 불가하므로 무상관 Sobel로 대체, 토큰 선택은 약 10ms 오버헤드). DiT 속도를 소/중/대 마스크에서 3.13×/2.59×/1.67× 향상(품질 회귀 없음), 엔드투엔드 1.33×/1.66×/1.77×, AWS p5.48xlarge 노드 33% 절감이다(FP8 양자화 호환·5-스텝 증류 추가 37.5% 감소). ME 모델은 2B DiT(Firefly Image 3 기반·407,630 쌍)다. 마스크 편집의 고유 특성(50%+ 요청이 10% 미만 소형 마스크)을 활용한 실무 지향 압축으로 포토샵에 실제 배치됐다.

다화자 오디오 장면 생성 — ScenA

arXiv · ScenA

기존 다화자 대화 음성은 턴별 태그·멀티스트림 전사 같은 구조화된 감독을 요구해 배경 소음·잔향·겹침 발화 질감을 못 담는다(Lightricks·텔아비브대). ScenA는 in-the-wild로 사전학습된 text-to-audio flow-matching 모델(LTX-2)을 가져와 참조 음성 여러 개 + 한 줄 자연어 프롬프트만으로 전체 다화자 장면을 생성한다(겹침 발화·웃음·환경음 포함). 핵심 발견은 순진하게 학습하면 "Reference Shortcut"(노이즈 섞인 타겟의 음향 유사도로 화자를 매칭해 텍스트를 무시)에 빠진다는 것이다 — 프로브로 t≤0.58에서 매칭 정확도 ≥98%, t=0.96에서도 75%임을 증명했다. 해결은 손실 항이 아니라 타임스텝 분포 하나(Beta(α,1)+Uniform 혼합)를 고노이즈 꼬리로 옮기는 것이다. CoVoMix2-Dialogue-20s에서 cpWER 0.145·ACC 0.866으로 binding 지표 전부 최고, 인간 A/B 선호 최대 84.6%(ZipVoice-Dialog 대비)다(GB200 16장 24시간 학습). 진단/처방이 이미지·비디오 참조 조건화에도 전이될 것으로 본다.

형태소 인식 토크나이저 — Morpheus (터키어)

HuggingFace · Morpheus

터키어는 교착어라 의미가 어근에 붙는 형태소 사슬에 실리는데, BPE·WordPiece 같은 서브워드 토크나이저는 코퍼스 통계로 쪼개 비가역성(분음 부호 제거로 복원 불가)·과분할 문제를 낳는다(Tolga Şakar, 독립 연구). Morpheus는 무손실·형태소 인식 토크나이저와 단어 임베더를 한 모델로 통합한다 — 미분가능 포아송-이항 동적계획법으로 문자별 경계 확률에서 소프트 형태소 멤버십(학습)·정확 분할(추론)을 정규화 없이 도출해 decode(encode(w))=w를 구조적으로 보장하고, 같은 forward pass로 단어당 R^320 임베딩까지 방출한다. 가역 토크나이저 중 최저 BPC 1.425, MorphScore 매크로 F1 0.61(서브워드 ~0.32의 약 2배), 64K 어휘 대비 GPU 메모리 약 19% 절감이다. 임베더로서 루트-패밀리 검색 MAP 0.85·동일-루트 검증 ROC-AUC 1.00으로 BGE-M3·BERTurk를 능가한다(맥락·굴절 의존 과제는 무거운 인코더가 앞섬). 교착어에서 토크나이제이션과 표현이 하나의 형태소 신호임을 살렸다.

XGBoost 머신 언러닝 — XGBoost-Forget

arXiv · XGBoost-Forget

머신 언러닝 연구는 딥러닝·이미지에 집중돼, 표 데이터에 의존하는 네트워크 침입 탐지(NID)에는 공백이 있었다(GECAD Porto 추정). XGBoost-Forget는 SISA 프레임워크를 XGBoost에 적응시켜(샤드 분할 + 슬라이스 + 체크포인트), 언러닝 요청 시 영향받은 슬라이스만 재학습한다(저자에 따르면 XGBoost 언러닝은 처음). 두 NID 데이터셋(IoT-23 865,100건, GeNIS 2,806,168건)에서 0.01%를 언러닝하니 예측 성능은 거의 손실이 없고(ACC 9899.98%), 효율은 확연했다 — IoT-23 RT 1.36~~2.12초(전체 재학습 5.29초·NN SISA 8.49~~18.56초 대비), GeNIS 0.50~~0.74초 vs SISA 17.51~~34.54초. 망각 품질은 감염 샤드 단독 ASR이 100%→0.98~10.46%(IoT-23)·~1.58%(GeNIS)로 재학습에 근접했다. 다만 JSD는 0.01%라는 작은 제거 비율에서는 분포 변화가 너무 작아 의미를 못 잡는 한계를 드러냈다. MAST와 함께 "언러닝 평가 지표의 함정"이라는 공통 교훈을 준다.

GPT-Image-2 텍스트 풍부 이미지 탐지 벤치마크

arXiv · GPT-Image-2 Detection Benchmark

텍스트가 많은 이미지(영수증·표·UI·포스터)는 프라이버시·거래 정보를 담아 AI 생성 탐지가 디지털 신뢰의 과제가 됐지만, 기존 벤치는 객체 중심에 치우쳤다(쓰촨대). GPT-Image-2가 생성한 텍스트 풍부 이미지 8,602장(생성 5,616 + 실제 2,986)을 6개 카테고리로 구성한 멀티도메인 벤치마크를 제시한다. 5개 탐지기 zero-shot 평가에서 NPR이 최고(F1 0.8266)였으나 CNNSpot은 F1 0.0563으로 사실상 실패했고, 카테고리 의존성이 극심했다(NPR F1 표 13.58~상업 포스터 99.24). 견고성도 문제로 NPR은 JPEG 압축에 F1 82.66%→33.98%로 무너졌다(PNG 재인코딩은 영향 거의 없음). VLM 탐색 평가에서 GPT-5.5가 전체 85.72%로 모든 전통 탐지기를 능가했지만(영수증 near-perfect) 표에서는 55.63%로 떨어져, 구조화 포맷은 VLM에도 난제였다. 텍스트·레이아웃 인식 탐지로의 전환이 시급하다는 근거다.

실시간 팩트체커·자율 행동 에이전트 — 신뢰 경계

Reddit · r/ClaudeAI

AI가 외부 세계에 개입할 때의 신뢰·근거 설계를 보여주는 두 사례다. InTruth(Chrome 확장)는 라이브 전사 텍스트에서 검증가치 있는 주장을 골라 Serper로 외부 소스를 찾고, 전사+소스를 Claude에 보내 "환각이 아닌, 소스에 근거한" 진위 판정을 내린다(deepgram 전사→serper→claude, BYO-key 무료, 2024 대선 토론 데모). 정치인 발언 실시간 팩트체크라는 민감 영역에 "근거 기반 판정"으로 환각을 통제하려는 설계가 핵심이며 r/ClaudeAI 추천 5869로 이 카테고리 최대 화제였다. 반대편에는 catch.ai 에이전트가 팀 회식을 위해 동료 일정을 수집·식당 선정 후 실제로 전화를 걸어 예약하고, 보증금용 카드 요구를 호스트와 통화로 협상해 카드 없이 테이블을 잡은 일화가 있다. "에이전트가 외부 세계에 전화·협상까지 한다"는 자율 행동의 신뢰 경계를 상기시킨다.

AI 생성 GPU 커널 신뢰 — cuTile Rust

Reddit · r/MachineLearning

NVIDIA의 cuTile Rust 논문은 "AI가 생성한 GPU 커널을 어떻게 신뢰할 것인가"를 정면으로 다룬다 — GPU 코드가 점점 AI 생성으로 옮겨가며 병목이 "작성"에서 "신뢰"로 이동하는데, Rust의 소유권·borrow checking으로 메모리 안전과 데이터레이스 부재를 컴파일러가 구성적으로 보장한다(가변 출력 텐서를 disjoint 서브텐서로 분할, CUDA Tile IR로 lower). 실측으로 Grout(Qwen3 추론 엔진)를 cuTile Rust로 구축해 batch-1 decode에서 RTX 5090 Qwen3-4B 171 tok/s, B200 Qwen3-32B 82 tok/s로 vLLM/SGLang과 경쟁했고, safe GEMM이 손작성 대비 0.3% 이내(dense f16 peak의 ~92%)로 "안전이 사실상 공짜"임을 보였다(NVIDIA 전용·batch-1 연구 케이스 한계). AI 생성 코드 신뢰성을 인프라 층에서 다루는 신호다.

Supabase 운영 패턴 — 제로지식 암호화·백업·이벤트 파이프라인

Reddit · r/Supabase

Supabase 실무 운영 패턴 몇 가지가 묶인다. 가장 구체적인 건 제로지식 클라이언트 사이드 암호화 — 회계앱에서 DB가 민감 필드를 못 보게 사용자 비밀번호 + Supabase UUID로 PBKDF2 키를 유도하고 Web Crypto API의 AES-256-GCM으로 전송 전 암호화해 DB엔 ciphertext만 저장하며 키는 메모리에만 둔다. 운영 갭으로는 Supabase 백업이 7일·내부 복원만 지원해 S3 다운로드/로컬 복원이 막힌다는 미해결 질문이 제기됐다. 아키텍처 사례로는 은행 SMS를 MacroDroid로 파싱해 Supabase 엔드포인트로 JSON을 보내고 Postgres 기록 + 실시간 WebSocket 브로드캐스트 → Svelte PWA가 실시간 렌더하는 풀 이벤트드리븐 지출 파이프라인이 있다("SMS가 여전히 가장 보편적인 은행 API"라는 통찰).

사회적 챗봇의 오류 정정 — 스스로 고칠 때만 신뢰 유지

arXiv · Social Chatbot Error Correction

사회적 챗봇은 그럴듯하지만 부정확한 정보를 만들고, 사용자와 쌓은 사회적 연결이 그런 오류를 더 치명적으로 만든다(싱가포르국립대). between-subjects 실험(N=120)으로 세 정정 전략을 비교했다 — 웹페이지 retraction, 같은 챗봇의 self-correction, 전문가 챗봇의 정정. 두 발견이 나온다. 첫째, 세 전략 모두 잘못된 믿음을 동등하게 교정했지만 self-correction만이 챗봇의 신빙성(신뢰도·인지된 전문성)을 손상시키지 않았다(외부 정정보다 유의하게 높게 평가). 둘째, 사용자-챗봇 사회적 연결(social attraction·self-disclosure)의 강도가 belief change를 유의하게 예측하되 "챗봇이 스스로 정정할 때만" 그랬고, 외부 정정은 이 연결을 완전히 끊었다. 챗봇은 오류를 외부에 위탁하지 말고 스스로 정정해야 하며, 사회적 연결·rapport는 단순 디자인 기능이 아니라 정정 효과를 증폭하는 기능적 메커니즘이라는 설계 함의를 준다.

기타 주목할 콘텐츠

주제 클러스터에 묶이지 않은 개별 콘텐츠다.

개발 인프라·표준 단신 — Cursor Origin·Tesco vs Broadcom·RFC 10008

GeekNews · Cursor Origin

여러 개발 단신이 모였다. Cursor Origin: Anysphere(Cursor)가 "agentic 시대를 위한 git forge" Origin을 올 가을 출시 예정(현재 waitlist) — GitHub 대항 git 호스팅/forge다. Anthropic 창업자 플레이북: AI-native 스타트업 4단계(Idea·MVP·Launch·Scale) 리매핑 PDF 공개(Chat/Cowork/Code 사용 매트릭스, 마케팅성). Tesco vs Broadcom: Tesco가 Broadcom의 VMware 가격 175% 인상(메인프레임 350%)을 "abusive conduct"로 보고 4만 워크로드 이전·2027년 말 완전 탈VMware 목표, UK 고등법원 소송(최소 1억 파운드 손배 요구·재판 2027.112028.2)으로 VMware 락인 비용 리스크의 대표 사례다. RFC 10008: HTTP QUERY 메서드 정식 표준(Proposed Standard) — GET/POST 사이로 body로 쿼리를 전달하되 safe·idempotent(캐시·자동 재시도 가능)하다. Chezmoi(dotfile 매니저 마이그레이션), ClojureWasm(JVM 없이 Zig+Clojure로 작성한 WASM 타깃 런타임)도 단신으로 회자됐다.

IIS 서버 정찰·익스플로잇 실전 가이드

GeekNews · mll.sh (버그바운티)

잘 안 보는 IIS 서버의 공격면을 정찰→정보노출→RCE까지 체계적으로 정리한 가이드다. 탐색은 Shodan/fofa/censys 쿼리와 Google dork(aspnet_client·_vti_bin·ext:aspx)·httpx 핑거프린팅, 정보 노출은 HTTP/1.0 요청으로 OWA/Exchange 내부 IP·X-FEServer 헤더 노출이다. IIS tilde(8.3 단축이름) 열거에 shortscan(단축이름 복원에 LLM·BigQuery 공개 GitHub 데이터셋·crunch 활용)을 쓰고, 핵심 체인은 web.config 탈취→machine key로 ViewState 역직렬화 RCE(ysoserial.net)와 cookieless session (S(X)) 트릭으로 /bin DLL을 추출해 dnSpy로 디컴파일해 하드코딩 자격증명을 노출하는 것이다. trace.axd/elmah.axd 디버그 엔드포인트, 트레일링 닷 업로드 필터 우회, NTFS ADS 인증 우회, path confusion(..%2fadmin/)까지 실행 가능한 도구명과 함께 정리했다.

OpenAI ChatGPT 헬스 — 수백 명 현역 의사 검증팀

YouTube · OpenAI

짧은 브랜드/PR 영상이지만 거버넌스 신호로 의미가 있다. OpenAI가 ChatGPT 헬스 모델을 평가하는 수백 명 규모의 현직 의사 팀을 소개한다(전원 실제 환자를 매일 보는 소아과·정신과·혈액학 등). 평가는 예시 대화의 정확성(accuracy)과 "응답이 사람에게 미칠 영향(impact)"을 함께 보며, "어떻게 말하느냐가 무엇을 말하느냐만큼 중요"하다고 강조한다. 16년차 소아과 리더는 "클리닉에선 하루 15명을 보지만 이 작업으론 수백만 명에게 영향을 준다"고 말한다. 모델명·벤치마크 같은 정량 정보는 없는 정성적 PR이지만, OpenAI가 헬스 도메인에 인간 전문가 검증 레이어를 제도화한다는 신호 자체가 의미 있다(YT-01 Sierra의 "운영팀이 도메인 지식 주입"과 같은 결).

콘텐츠 중독성 프레임워크 + Claude MCP 측정 — Kallaway

YouTube · Kallaway Marketing

마케터/크리에이터용 실용 프레임워크에 Claude/LLM 활용이 녹아 있다. 지루한 주제도 "새로움의 환상(Illusion of Novelty)"을 만들면 중독성 있게 만들 수 있다는 것으로, 중독성 콘텐츠 3요소(relevant·novel·interesting)와 5단계 — New Reveal+Outcome Mapping, Contrast Framing, Urgency(선택), Bullseye Proof(시청자와 가장 닮은 증거가 최고인 trust ladder), Protect the Illusion("마스코트를 보여주지 마라")를 제시한다. 메타 트위스트로 영상 전체가 이 프레임워크의 라이브 데모였고 "illusion of novelty"라는 이름 자체가 지어낸 것이라고 자백한다. 측정 도구로 자신이 만든 sandcastles.ai를 소개하는데, 채널 영상을 bulk 분석해 CSV export 또는 Sandcastles MCP plugin으로 Claude에 연결해 "승자가 패자와 다르게 한 패턴"을 분석한다. LLM을 콘텐츠 분석 파이프라인에 끼우는 실사용 사례다.

6G NWDAF에 LLM 의도 인터페이스

HuggingFace · LLM-Enabled NWDAF

도메인 특화 단신이다. 5G의 무인 네트워크 관리(zero-touch) 핵심 기능인 NWDAF를 오픈소스 코어망 Free5GC와 호환되게 구현하고, 자연어를 7개 사전정의 의도 카테고리로 매핑하는 LLM 인터페이스를 통합했다(칼리파대·SFU). RAG 방식으로 의도를 코사인 유사도 매칭하는데, 임베딩 기반 분류가 생성형 LLM을 앞섰다 — text-embedding-ada-002 98.43%, GPT-4o 89.5%, GPT-4o-mini 55.1%(검색 기반이 환각을 피하고 검증된 의도에서 선택하기 때문). 핸드오버 예측은 Gradient Boosting 80.65%다. 다만 AI/ML 관점의 신규성은 낮고(기성 임베딩+코사인 유사도+고전 ML 조합), 기여의 핵심은 통신 도메인 오픈소스 인프라라 5G/6G 연구자에게 적합하다.

Midjourney 전신 스캐너 발표설 (미검증)

X · @scion_x_

@scion_x_는 이번 주 가장 중요한 AI 뉴스가 새 모델이 아니라, 이미지 생성으로 알려진 Midjourney가 "60초 만에 인체 전신을 매핑하는 스캐너"를 발표한 것이라고 주장했다(607 likes). 다만 게시물 본문이 잘려 구체 내용과 1차 출처가 확인되지 않는다. 신호 가능성은 있으나 검증 전 단정은 금물이다(확인 필요: Midjourney 공식 발표 미검증).

교차 분석

서로 다른 섹션의 글이 같은 현상을 다른 각도에서 보는 지점을 연결한다.

컨텍스트 한계: 마케팅 vs 실측의 충돌. 모델 릴리스 쪽에서 GLM-5.2가 1M 컨텍스트를 셀링 포인트로 내세우지만, 운영 하네스 영상(Cole Medin·AI Jason)은 "1M은 false sense of security"이며 effective window가 Opus ~~250k·실작업 128~~200k라고 독립적으로 합의한다. 컨텍스트 길이 마케팅과 현장 dumb zone 실측이 정면으로 부딪힌다.
멀티에이전트 회의론 ↔ 결정론적 재현성. Sierra의 Zach("멀티에이전트=조직도 출하", monolith loyalist)와 Cole Medin(agent teams는 미숙·token-heavy, research/debate에만 유용)이 영상에서 멀티에이전트에 회의적인 반면, NEWS의 Claude Code dynamic workflows는 "토큰 아끼려고 서브에이전트를 멋대로 합치는" 비결정성을 재사용 스크립트로 고정해 정반대 문제(과소 spawn)를 푼다. 둘을 합치면 "멀티에이전트는 자율 합의가 아니라 결정론적으로 강제될 때만 가치 있다"로 읽힌다.
"AI 생성물을 신뢰할 수 있는가"가 코드·연구·여론을 관통한다. Charity Majors(eval·observability로의 회귀), RDT-04/05(production·governance 한계, 디버깅 능력 위축), cuTile Rust(AI 생성 GPU 커널 컴파일 검증), DIA·ClaMPAPP(LLM을 검증 가능한 도구로 재배치), SAE 개입의 신뢰 불가, 개인화 평가의 LLM 판사 과신이 모두 같은 메타 질문 — "검증을 어디에 두느냐"로 수렴한다. 영상의 "self-verify 금지·read-only verifier spawn" 원칙이 이 흐름의 운영 버전이다.
장기·메모리 평가가 모델 릴리스 벤치를 뒤집는다. GLM-5.2의 GDPval 1524(GPT-5.5 1514 동급)나 단발 벤치 수치와 달리, CEO-Bench(500일 경영)·RNG-Bench(기억-행동)·MyPCBench/iOSWorld(멀티앱·메모리)는 같은 프런티어 모델이 장기·다중앱·메모리에서 무너진다는 정반대 신호를 준다. "단발 지능은 올랐지만 지속 운영 지능은 미해결"이라는 진단이 모델 섹션과 평가 섹션을 가른다.
토큰 경제가 시장·연구·운영을 한 줄로 잇는다. Anthropic 사용한도 소송(시장), RODS·EfficientRollout(연구의 학습 비용 절감), Hermes 폴백 체인·OpenClaw 모델 단가 비교·토큰 절감 오픈소스(운영), User as Engram(메모리 풋프린트 33,000배)까지 "토큰/컴퓨트 비용이 실사용 병목"이라는 공통 압력이 카테고리를 가로지른다.
AI의 사회적 비용과 콘텐츠 비즈니스 재편. Pew 여론(긍정 16%)·데이터센터 백래시·브랜드 'AI' 거부감(60%)이 한쪽이고, Ferriss의 처방형 콘텐츠 붕괴·하이닉스 AX 채용 기준 상승이 다른 쪽이다. "AI 사용은 늘지만 정서는 부정적이고, 정보 전달형 콘텐츠·직무 기준은 동시에 재편된다"는 흐름이 비즈니스·교육 종사자에게 직접 와닿는다.