Daily Digest — 2026-06-04

2026-06-04

에이전트 하네스, 로컬 멀티모달, 자율 보안 위협, AI 네이티브 운영체계가 한날에 겹친 날

Daily Digest — 2026-06-04

오늘의 핵심 흐름

오늘은 모델 성능 자체보다 모델이 일하는 구조가 더 큰 신호로 떠올랐다. 에이전트 쪽에서는 하네스, 런타임, planner, 관측성, 권한 경계가 제품성과 안전성을 동시에 좌우한다는 주장이 여러 층위에서 반복됐다. LangChain과 Anthropic은 하네스를 제품 차별화 계층으로 밀어 올렸고, Harmonic과 Cisco는 정확도 높은 챗봇만으로는 사용자가 돌아오지 않으며 planner·subgraph·공유 아티팩트가 있어야 워크플로가 바뀐다는 사례를 냈다. 개인용 도구에서도 Claude Code는 기능 모음이 아니라 slashgoal, skills, routines, status line으로 이어지는 AI 운영체계처럼 소비되고 있었다.

안전성과 보안에서는 더 불편한 그림이 나왔다. 적응형 AI 웜은 오픈웨이트 단일 GPU 모델과 자가 복제 구조만으로도 격리된 기업망의 다수를 장악할 수 있음을 보였고, deception probe 논문은 깨끗한 벤치마크에서 완벽해 보이는 선형 모니터가 스타일 변화만으로 쉽게 붕괴함을 보여줬다. 결국 위험의 문턱은 raw model IQ보다 에이전트 하네스, live context injection, swarm orchestration, 그리고 평가 분포를 얼마나 현실적으로 잡았는지에 더 가까워졌다.

연구 쪽에서는 “정적 데이터셋과 정적 벤치마크 이후”가 분명해졌다. TRON은 visual reasoning RL을 520개 생성형 환경으로 바꾸고, MIRA는 mid-training 데이터 선택을 전역 점수 대신 소스별 의미 기준으로 재구성했다. q0와 Sleep은 데이터가 부족한 시대에 장기 기억 구조와 모델 집단 운영이 얼마나 중요한지 보여줬고, PROVE와 RLVR 증강 논문은 학습 병목이 모델보다 태스크 공급망과 reward 설계 쪽으로 이동했음을 드러냈다.

로컬 모델과 멀티모달의 방향도 선명했다. Gemma 4는 35M vision embedder를 앞세운 얇은 로컬 멀티모달 쪽으로, InstinctRazor와 KVarN은 제한된 VRAM과 KV-cache 안에서 얼마나 많은 지능을 유지할 수 있는지 쪽으로 나아갔다. 로보틱스와 생성 모델에서도 WALL-WM, LeLab, ByG, LiveBand가 공통적으로 말한 것은 같다. 더 큰 모델보다 학습 단위, 수집 UX, self-bootstrapping, strict causality 같은 시스템 설계가 성능과 일반화를 가른다는 것이다.

에이전트 운영체계와 실행 하네스

하네스가 제품 차별화의 핵심으로 올라왔다

LangChain, GeekNews 요약 1, GeekNews 요약 2

LangChain이 던진 가장 중요한 메시지는 에이전트 경쟁의 초점이 모델 자체보다 model + harness로 이동했다는 점이다. create_agent를 일부러 최소 코어 루프로 남겨두고, 실질적 차별화는 미들웨어 계층에서 나온다고 설명한 대목이 핵심이다. 여기서 미들웨어는 프롬프트를 조금 바꾸는 보조 장치가 아니라, 모델 호출 전후와 툴 호출 전후에 개입해 정책을 강제하고 상태를 관리하며 스트림과 메모리를 다루는 운영 계층에 가깝다.

이 관점이 중요한 이유는 “좋은 에이전트”를 더 똑똑한 모델 하나로 환원하지 않기 때문이다. 같은 모델을 써도 어떤 컨텍스트를 언제 주입하는지, 어떤 실패를 어디서 차단하는지, 어떤 작업을 어떤 순서로 fan-out하는지에 따라 결과가 달라진다. 앞으로 에이전트 플랫폼의 경쟁력은 기본 모델 스펙보다도 이 orchestration 레이어를 얼마나 재사용 가능한 자산으로 굳히는지에 더 가까워질 가능성이 높다.

긴 작업에서 실패하는 이유도 모델이 아니라 구조다

LinkedIn · Goobong Jeong, Threads · choi.openai, LinkedIn · soojin lee

실무자 관점에서 이 문제를 가장 직설적으로 정리한 건 Goobong Jeong의 글이다. 그는 단일 Claude Code 세션의 병목을 지능 부족이 아니라 운영 구조의 문제로 규정하면서 Agentic laziness, Self-preferential bias, Goal drift라는 세 가지 실패 패턴을 제시했다. 50개 보안 점검 항목 중 20개만 보고 끝났다고 선언하는 조기 종결, 자기가 만든 결과를 자기가 평가하며 생기는 자기편향, 긴 컨텍스트와 요약 과정에서 “하지 말라”는 제약이 서서히 사라지는 목표 이탈이 대표적이다.

해법도 결국 구조다. 그는 fan-out, 적대적 검증, 토너먼트 선택, 반복 루프를 포함한 dynamic workflow를 제안하고, soojin lee는 이를 운영 수준으로 번역한다. 사용자 시나리오를 먼저 정의한 뒤 임시 DB를 실제 운영 DB처럼 맞춰 두고, 모델이 스스로 배포하고 로그를 읽고 결과를 비교하고 다시 수정하는 루프를 설계했다는 사례가 나왔다. 동시에 DB 액션, 메모리 관리, 대시보드 구축은 여전히 약점이라고 명시하며, 이런 부분일수록 더 엄격한 하네스가 필요하다고 적었다.

자가개선 하네스는 이미 제품 지표를 바꾸고 있다

Hugging Face · Adaptive Auto-Harness, GitHub · AdaptiveHarness

Adaptive Auto-Harness는 오픈엔드 작업 스트림에서 하네스를 어떻게 진화시킬지를 가장 체계적으로 다룬 논문이다. 저자들은 문제를 evolution loss와 adaptation loss로 나눈다. 전자는 evolver가 원래 만들 수 있는 하네스의 한계이고, 후자는 incoming task를 보기 전에 하나의 고정 하네스에 커밋하면서 생기는 손실이다. 그래서 해결책도 상태를 유지하는 multi-agent evolver와, 작업별로 다른 branch를 고르는 harness tree + solve-time router로 나뉜다.

실험 수치도 강하다. PolyBench 정확도 80.9, CTF-Dojo Pass 50.2, FutureX Pass 47.3을 보고했고, A-Evolve류 접근이 evolution을 길게 돌릴수록 prompt가 2KB → 68KB, skill이 12개 → 34개까지 불어나며 장기적으로 오히려 성능이 내려간다고 분석했다. “배포 후 자기개선”이 좋은 프롬프트를 더 오래 쓰는 문제가 아니라, 브랜치된 하네스 저장소와 작업별 라우팅 문제라는 관점이 분명해진다.

장기 실행 에이전트는 채팅 루프가 아니라 런타임으로 다뤄야 한다

arXiv · Agent libOS, GitHub · Agent-libOS

Agent libOS는 에이전트 운영을 아예 운영체제 비유로 다시 정의한다. AgentProcess, 부모-자식 관계, 라이프사이클, 툴 테이블, 오브젝트 메모리, capability, human queue, checkpoint, audit record를 기본 단위로 두고, 모델이 보는 툴 인터페이스와 실제 권한을 구조적으로 분리한다. 핵심 문장인 tools are libc-like wrappers; runtime primitives are the authority boundary는 오늘 나온 여러 하네스 논의의 가장 선명한 요약처럼 보인다.

특히 이 논문이 중요한 건 개념 제안으로 끝나지 않는다는 점이다. Python 프로토타입은 async scheduling, process-local working directory, namespace-local object memory, shell/image registry/human approval primitive까지 구현했고, 123개 회귀 테스트로 fork/spawn attenuation, exec 비상승, one-shot permission grant 같은 성질을 검증했다. 장기 실행 에이전트가 “채팅에 툴이 붙은 것”에서 권한 경계를 가진 런타임으로 이동해야 한다는 주장은 점점 더 설득력을 얻고 있다.

개인용 코딩 도구도 AI 운영체계처럼 소비된다

YouTube · Nate Herk

Claude Code 파워유저 영상은 개인용 에이전트 도구의 실제 우선순위가 어디 있는지 보여준다. 발표자는 500시간 이상 사용 경험을 바탕으로 기능을 나열하는 대신 개인 임팩트 기준으로 다시 순위를 매겼다. slashgoal, ultra plan, slashinsights, agent teams, sub agents, loop, remote control, routines, status line, skills가 상위권을 차지했고, flashy한 기능들은 보조 계층으로 밀렸다.

구체적인 수치와 사례도 눈에 띈다. slashgoal을 웹 페이지 로딩 최적화에 약 1시간 30분 돌린 사례, slashinsights에서 30일, 153 sessions, 1500 messages 리포트를 보여준 대목은, 결국 장시간 작업을 굴리는 사람일수록 목표 실행, 상태 가시성, 반복 스케줄링, 재사용 가능한 skill system에 집착하게 된다는 점을 드러낸다. 에이전트 도구는 채팅창의 기능 수가 아니라 운영체계처럼 굴릴 수 있는지로 평가받기 시작했다.

AI 네이티브 회사의 최소 단위는 닫힌 루프다

YouTube · AI Jason

AI Jason의 영상은 회사 운영 차원에서 같은 메시지를 더 크게 확대한다. 그는 최근 YC 배치 회사들이 18개월 전보다 직원 1인당 5배 많은 매출을 만들고 있고, 어떤 조직에서는 에이전트가 내부 운영을 맡으며 45개 자체 도구를 자율적으로 만들었다고 소개한다. Pocha가 “회사를 통째로 운영하는 시스템”을 목표로 3000만 달러를 조달한 사례도 같은 맥락에 놓인다.

하지만 이 영상의 진짜 포인트는 숫자보다 구조다. closed-loop AI company의 핵심 요소를 data ingestion, policy layer, tool layer, quality gate, learning feedback의 다섯 가지로 나누고, 가장 작은 실천 단위를 temporal log + strategy memory + cron/skills라고 정리한다. AI가 업무를 대신하는 데서 끝나는 것이 아니라, 결과를 기록하고 다음 실행을 더 낫게 만드는 폐루프를 가져야 회사 단위의 운영체계가 된다는 주장이다.

검색창을 어드바이저로 바꾸는 설계가 리텐션을 만든다

LangChain · Harmonic

Harmonic의 Scout 사례는 하네스 설계가 사용자 리텐션으로 어떻게 환산되는지 잘 보여준다. Scout V1은 rigid multi-graph 구조로 복합 질의를 정교한 필터로 번역하는 데 강했지만, 새로운 사용자 의도마다 서브그래프와 수백 개 eval을 더 유지해야 해서 확장 비용이 커졌다. 이를 Deep Agents 기반 Scout V2로 전환한 뒤 week-one to week-four retention이 4배, 평균 세션 길이가 10배 늘었다고 한다.

배경 데이터 레이어도 크다. 4,000만 개 회사, 2억 명 인물, 23만 명 투자자 정보를 다루고, 공개 데이터와 사내 CRM/이메일 연결을 함께 활용한다. 중요한 건 이 시스템이 단순 자연어 검색이 아니라 투자 어드바이저처럼 느껴지기 시작했다는 점이다. 에이전트 제품의 경쟁력은 정답률보다 “사용자와 모델이 같은 아티팩트를 공유하는지”와 “질의를 장기 작업으로 풀 수 있는지”에 있다는 사실을 보여준다.

95% 정확도짜리 챗봇으로는 업무가 안 바뀐다

YouTube · LangChain / Cisco

Cisco CX 조직 발표는 enterprise workflow 쪽에서 가장 솔직한 반성문에 가깝다. sentiment analysis agent, adoption agent, discovery agent, 전통적 ML risk model을 묶어 renewals 영역에서 95% accuracy를 달성했지만, 사용자는 몇 번 써보고 다시 spreadsheet로 돌아갔다고 말한다. 답변 품질은 높았지만, 시스템이 “또 하나의 도구”로 남아 있었던 것이다.

그래서 Cisco는 챗봇형 guided interface에서 supervisor -> planner -> subgraph -> reflection/replan 구조로 이동했다. CX 조직 규모는 1.8만~2만 명, 회사 매출은 560억~660억 달러, 그 절반 이상이 recurring revenue라고 설명한다. 이 정도 규모의 운영에서 routing is your first decision, accuracy is table stakes, 2026년은 AI native business workflow로 넘어가는 해라는 문장이 나온다는 건, 엔터프라이즈 AI의 병목이 모델보다 워크플로 설계에 있다는 점을 잘 보여준다.

사람 KPI도 생산량보다 판단 로그 쪽으로 이동한다

YouTube · Listen Labs, LinkedIn · Seungpil Lee

Listen Labs는 AI moderated customer research를 운영하면서, 과거에는 traces를 직접 읽거나 Claude Code에 묶음으로 던져 평가했다고 말한다. LangSmith Engine을 붙인 뒤에는 background agent가 bad behavior를 surface해 주기 때문에, 더 이상 “이 trace 하나가 이상하다”가 아니라 patterns across traces를 보게 됐다고 한다. 운영의 병목이 수동 리뷰에서 패턴 감지와 systemic failure surfacing으로 바뀐 셈이다.

조직 성과 측정도 같은 방향으로 움직인다. Seungpil Lee는 에이전트 시대에 산출물 수 KPI를 유지하면 사람이 에이전트가 만든 결과를 더 많이 쌓기만 하고, 판단 책임은 흐려진다고 지적한다. 그래서 판단 로그 충실도, 예외 발견률, 재사용 가능성, 에스컬레이션 적시성을 제안한다. 사람의 역할은 점점 생산자보다 관측자, 승인자, 리스크 설계자로 이동하고 있다.

코딩 에이전트와 인터페이스 품질

프런트엔드 품질 차이는 프롬프트 문해력에서 먼저 벌어진다

LinkedIn · Jeongmin Lee, LinkedIn · 홍민지, Threads · nono_ai_archive

Jeongmin Lee는 AI 결과물의 UI 슬롭 문제를 모델 성능보다 지시자의 언어 문제로 본다. “닫기 버튼 달린 팝업”보다 dismissible Dialog with overlay, “부드럽게 나타나게”보다 staggered fade-in with spring easing, 막연한 설명보다 .sidebar > button.primary 같은 선택자 수준 지시가 결과를 바꾼다는 것이다. 프롬프트 엔지니어링의 핵심이 문장 솜씨가 아니라 컴포넌트, 모션, 화면 구조를 말로 다루는 문해력이라는 주장이다.

홍민지의 HTML 슬라이드 실무 팁은 이를 발표 자료 영역으로 확장한다. VSCode의 md와 Claude/Codex 기반 HTML 슬라이드를 쓰되, 손글씨풍 타이포, 낙서형 그래픽, 최소 색상, 과한 그라데이션 배제를 명시해 “AI 냄새”를 줄인다고 설명했다. nono_ai_archive의 짧은 조언도 같다. 텍스트 로고를 만들기 전에 먼저 다양한 서체 스타일을 조사·정리시키고 그 키워드로 지시하라는 것이다. 결국 품질은 모델보다 도메인 어휘를 얼마나 잘 다루느냐에서 먼저 갈린다.

화면은 그럴듯해도 API를 틀리면 진다

LinkedIn · Sujin Kang Ph.D., LinkedIn · Sung Kim

Sujin Kang의 비교는 바이브 코딩 평가를 스크린샷 미학이 아니라 실행 결과로 돌려놓는다. 동일 프롬프트로 글로벌 뉴스 모니터링 대시보드를 생성하게 했는데, 조건은 Leaflet 1.9.4, CARTO Dark 타일, GDELT 2.0 DOC API, RSS, Upstage Solar API를 쓰는 .html 단일 파일이었다. Solar Pro 4 Preview는 콘솔 에러 1건, 첫 화면 렌더와 AI 요약은 정상이었지만 지도 마커에서 오류가 났고, 코드량은 Opus 대비 약 1.7배 많았다.

반면 Opus 4.8은 콘솔 에러 없이 요구사항을 696줄로 맞췄고, 지도 마커까지 첫 프레임부터 정상 동작했다. Sung Kim이 “comparable하다”고 평가한 건 포지셔닝 측면에선 의미가 있지만, 이 사례가 보여준 핵심은 예쁜 화면과 작동하는 화면이 다르다는 점이다. 외부 라이브러리 API 정확성이 서비스 품질을 갈랐고, 바이브 코딩의 진짜 병목도 바로 거기에 있었다.

코드 수정 루프도 더 지역적인 진단 신호를 원한다

arXiv · FLARE

FLARE는 실행 피드백만으로는 모델이 “어디를” 고쳐야 하는지 알기 어렵다는 점을 찌른다. 그래서 실패한 코드에 대해 line-level suspiciousness를 예측하는 가벼운 diagnostic model을 붙이고, 이 신호를 리파인먼트 프롬프트에 직접 넣는다. 더 나아가 top-k suspicious line을 각각 다른 branch로 보내 candidate search를 하는 구조까지 포함한다.

대표 사례로 shared calorie budget을 잘못 모델링한 코드를 들었는데, 기존 self-debugging 계열은 구조적 오류를 유지한 채 표면만 만지는 경향이 있었다. FLARE는 suspicious line 신호를 통해 상태 정의 자체를 바꾸고, binary-search feasibility 형태로 재구성하는 방향을 보여준다. 앞으로 코딩 에이전트의 개선은 더 긴 CoT보다 더 좋은 fault localization signal에 가까워질 가능성이 높다.

에이전트 보안과 신뢰 경계

적응형 AI 웜은 이제 가설이 아니라 실증 위협이다

arXiv · AI-driven computer worm

적응형 AI 웜 논문은 “작은 오픈 모델은 아직 자율 보안 위협을 만들 수준은 아니다”라는 안도감을 정면으로 깨뜨린다. 저자들은 중앙 API 없이 오픈웨이트 LLM과 탈취한 연산 자원만으로, 각 타깃에 맞춰 공격 전략을 런타임에 생성하는 자가 지속형 컴퓨터 웜을 구성했다. 33개 호스트로 된 격리 기업망에서 15회 실험한 결과, 7일 자율 실행 동안 평균 31.3 ± 1.7개 취약점 식별, 23.1 ± 3.9개 권한 상승, 20.4 ± 3.2개 호스트 전파가 나왔다.

수치가 더 무서운 이유는 exploit의 개별 성공률이 완벽하지 않아도 네트워크 수준 위협은 충분히 크다는 데 있다. 전체 exploit 성공률은 44%에 그쳤지만, exploit 성공 후 복제 성공률은 88%였고 평균 73.8%의 네트워크를 exploit, 61.8%까지 propagation했다. 2026년에 공개된 one-day 취약점 3개도 advisory를 읽어 바로 operationalize했는데, 67회 시도 중 41회 root 획득(61.2%), Dirty Frag/Copy Fail 두 Linux LPE는 40회 중 28회(70.0%) 성공이었다.

이 논문이 특히 중요한 건 위협의 병목을 raw model IQ가 아니라 agentic harness에서 찾는다는 점이다. 단계 분리, retrieval, tool abstraction, swarm orchestration이 capability ceiling을 바꿨다는 해석은 오늘 다른 에이전트 하네스 논의와도 정면으로 연결된다.

deception probe는 깨끗한 벤치보다 분포 이동에서 시험대에 오른다

Hugging Face · Pressure-Testing Deception Probes

deception probe 연구는 선형 activation monitor에 대한 과열된 기대를 식혀 준다. Gemma 3 1B~27B 전체에서 깨끗한 benchmark에선 AUROC가 0.998~1.000까지 나오지만, pirate·Shakespearean·sarcastic 같은 스타일 변화가 들어가면 probe가 거의 랜덤 수준까지 무너진다. 특히 큰 모델일수록 스타일 교란에 더 취약한 inverse scaling 패턴이 나온 점이 인상적이다.

그렇다고 “probe는 틀렸다”로 끝내지 않는다는 점도 중요하다. 단일 방향 가설은 명확히 깨졌다. k=1 probe는 0.609~0.804 수준에 그치지만 k≥5에서는 0.908~0.990으로 회복된다. 또 entropy proxy 가설도 |ρ| max = 0.454, residualization 뒤 ΔAUROC max = 0.004로 기각된다. 스타일을 섞어 학습하면 4B mean AUROC 0.979, 27B 0.983으로 회복돼, 문제는 구조적 한계보다 훈련 분포의 협소함에 가깝다는 결론이 나온다.

자기평가도 자유서술보다 구조화된 객관식이 더 낫다

arXiv · Clustered Self-Assessment

Clustered Self-Assessment는 uncertainty estimation 쪽에서 비슷한 메시지를 준다. 자유서술형 답변을 여러 개 뽑고, 이를 NLI 기반 semantic cluster로 묶은 뒤, cluster 대표 답변을 보기로 하는 객관식 질문을 다시 모델에게 던진다. 그리고 모델이 각 선택지에 준 token probability를 confidence로 읽는다. 같은 의미의 답을 묶어서 “의미 단위끼리”만 경쟁하게 만든다는 점이 핵심이다.

결과는 꽤 강하다. Qwen2.5-32B 기준 TQA AUROC 0.940, NQ 0.850을 기록했고, 8개 추가 샘플이 필요한 sampling baseline을 전반적으로 앞섰다. 특히 2개 추가 샘플만으로도 경쟁력 있는 성능을 보였다는 점이 실용적이다. “모델이 얼마나 자신 있느냐”를 직접 묻는 대신, 자기 답변의 의미 공간을 구조화해서 다시 고르게 하는 방식이 훨씬 잘 먹힌다는 뜻이다.

언러닝은 강한 망각보다 retain-safe한 삭제 설계로 간다

arXiv · PURGE

PURGE는 machine unlearning을 “잊게 만드는 업데이트”보다 “retain set을 망치지 않는 지우기” 문제로 본다. continual learning과 unlearning을 dual problem으로 보고 A-GEM의 gradient projection을 가져와, forget 방향 gradient가 retain loss를 증가시키면 안전한 반공간으로 projection한다. 여기에 intermediate representation까지 retain distribution 쪽으로 끌어당겨 multi-layer representation erasure를 수행한다.

실험에서는 CIFAR-10, MNIST, SVHN, STL10, PathMNIST의 22개 forgetting task에서 retain accuracy 96% 이상을 유지하면서 membership inference AUROC를 0.5 근처로 끌고 갔다고 한다. 개인정보 삭제와 모델 안전성 요구가 커질수록, 언러닝의 평가는 forget 성능 하나보다 privacy–utility trade-off를 얼마나 정교하게 통제하느냐로 이동할 가능성이 높다.

RLVR·학습 substrate와 데이터 공급망

Sleep은 단기 기억을 장기 파라미터로 옮기려 한다

Hugging Face · Sleep

Sleep은 현재 LLM의 in-context learning을 세션이 끝나면 사라지는 단기 기억으로 보고, 별도의 수면 단계가 필요하다고 주장한다. 구조는 Memory Consolidation과 Dreaming의 2단계다. 전자는 고주파 메모리 블록의 지식을 더 안정적인 저주파 블록으로 옮기는 Knowledge Seeding, 후자는 self-improvement를 위한 synthetic dreaming이다. 단순 distillation이 아니라 on-policy distillation과 RL 기반 imitation learning을 섞는다는 점이 특징이다.

수치도 강하다. Qwen3-1.7B에서 AIME-24 49.8 → 53.2, AIME-25 34.5 → 40.2, HMMT-25 25.7 → 29.3, Qwen3-8B에서도 AIME-24 73.8 → 79.2, HMMT-25 42.4 → 46.1로 SFT와 GRPO를 모두 앞섰다. ARC few-shot abstract reasoning에서는 ICL 0, TTT 10, SEAL 72.5, Sleep 80을 기록했고, BABILong에서는 10M tokens까지 안정성을 주장한다. 오늘의 학습 관련 논문 중 “메모리 계층”을 가장 직접적으로 건드린 논문이다.

q0는 같은 데이터를 오래 돌릴 때 모델 집단 운영이 더 낫다고 말한다

arXiv · q0

q0는 데이터가 부족한 시대의 프리트레이닝 전략을 바꾸자고 제안한다. 단일 모델을 끝없이 더 오래 돌리는 대신, cyclic learning rate와 weight decay로 한 경로에서 여러 snapshot을 수집하고, 이를 chain distillation과 learned weighting prior로 엮어 집단처럼 운영한다. 프리트레이닝을 “한 모델을 다듬는 과정”이 아니라 hypothesis space를 더 넓게 탐색하는 과정으로 보는 시각이다.

1.8B 파라미터 모델을 100M FineWeb tokens로 학습할 때, q0는 256-epoch 강한 앙상블 베이스라인의 validation loss를 약 56 epochs만에 따라잡아 4.6x 적은 epoch를 썼다. 같은 k=8 앙상블 크기로 맞춰도 약 67 epochs에서 따라잡아 3.8x 효율을 냈고, Slowrun 기준 데이터 효율은 12.9x, 다운스트림 평균은 16.0x까지 보고됐다. 같은 데이터를 더 오래 써야 하는 시대일수록 “모델 하나를 오래”보다 “모델 집단을 영리하게 운영”하는 방향이 유력해질 수 있다.

인간 태스크 10개에서 시작해 80개 증강 태스크로 97개짜리 품질대에 근접했다

arXiv · Trading Human Curation for Synthetic Augmentation in RLVR

RLVR 증강 논문은 합성 태스크가 인간 큐레이션을 얼마나 대체할 수 있는지를 거의 경제학적으로 다룬다. 사람 손으로 만든 10개 base task에서 출발해 deterministic mutation과 quality gate를 거친 80개 증강 태스크만으로, 97개 전량 인간 작성 태스크의 held-out 성능대에 거의 근접했다고 주장한다. 비용 동등 확장인 319개 증강 태스크는 aggregate에서 인간-only 베이스라인보다 +0.96 percentage points 높았고 10개 중 8개 벤치마크에서 이겼다.

하지만 이 논문이 진짜 말하고 싶은 건 “합성이 싸다”보다 “품질 필터링이 어렵다”는 쪽이다. 전체 gate yield는 25.5%에 불과했고, 주요 탈락 사유의 64%가 too_easy였다. 저자들이 ρ_cost를 1.4x~11.6x 범위로 제시한 것도, 결국 어떤 품질 가정을 두느냐에 따라 합성의 경제성이 크게 달라진다는 뜻이다. RLVR의 병목은 태스크 수보다 학습 가능한 난도 구간을 안정적으로 공급하는 능력에 있다.

QUBRIC은 좋은 rubric보다 좋은 질문 구조가 먼저라고 말한다

arXiv · QUBRIC

QUBRIC은 rubric RL에서 더 앞단의 병목을 건드린다. 저자들은 rubric quality is constrained by query structure라고 본다. 너무 열린 질문은 rubric이 모호해지고, 반대로 평가 가능한 형태로 억지로 좁히면 존재하지 않는 근거나 fabricated reference가 생긴다. 그래서 query와 rubric을 함께 설계해야 한다는 게 핵심 주장이다.

방법은 teacher-derived key point를 바탕으로 open-ended query를 scenario-based evaluable question으로 재작성하고, teacher와 policy 응답의 차이에서 contrastive rubric을 추출하는 것이다. 결과적으로 instruction-following 데이터만으로도 ArenaHard에서 SFT 대비 +5.5, held-out 3개 벤치 평균 +6.31pp를 얻었다. 결국 좋은 reward는 잘 만든 rubric보다, 애초에 학습 가능한 질문 구조를 만드는 데서 출발한다는 얘기다.

PROVE는 live MCP 환경에서 verbosity까지 직접 보상한다

arXiv · PROVE

PROVE는 live MCP environment와 grounded data synthesis를 같은 루프에 묶는 점이 특징이다. 금융, 생산성, 커머스, 여행, 파일시스템, CRM, IoT 등 20개 stateful MCP 서버와 343개 툴을 만들고, read-only discovery tool로 실제 엔티티를 먼저 조회한 뒤 query를 생성한다. 합성은 했지만 서버에선 안 도는 trace 문제를 막기 위한 설계다. 최종 학습 데이터는 약 1.3만 개 예제다.

reward도 sequence-level recall 하나로 끝내지 않는다. validity, dependency-aware coverage, adaptive efficiency penalty, tool-name signal, argument-value matching bonus의 5요소를 조합했고, ablation에서는 adaptive budget과 tool-name signal이 가장 load-bearing한 요소로 나왔다. 그 결과 Qwen3-4B, Qwen3-8B, Qwen2.5-7B, Granite-4.1-8B에서 BFCL Multi-Turn 최대 +10.2, τ²-bench +6.8, T-Eval +6.5 개선을 보고했다. “정답을 많이 맞히는 모델”보다 “덜 장황하게 정확히 호출하는 모델”을 직접 최적화한 셈이다.

MIRA는 전역 점수 대신 소스별 의미 기준을 찾는다

Hugging Face · MIRA

MIRA는 mid-training 데이터 선택을 모든 샘플에 하나의 전역 점수를 매기는 문제로 보지 않는다. 코드 문서, 코드 QA, 추론 흔적, 툴 사용 로그처럼 역할이 다른 소스가 섞이는 상황에서, 기존 pretraining 필터는 스케일은 나오지만 왜 좋은지 설명하지 못하고, post-training식 semantic scorer는 고정 rubric을 전제로 해서 이질적인 소스에 잘 맞지 않는다는 문제의식이다. MIRA는 rubric discovery 자체를 파이프라인 안으로 넣는다.

코드 중심 mid-training에서 21개 source, 5개 source group을 쓰고, teacher-scored record 200만+로 rubric discovery와 distillation을 수행했다. 결과적으로 25B tokens만으로도 50B full-corpus raw mixture를 약간 넘는 Macro Avg 64.20을 냈다. 같은 표에서 raw mixture는 63.83, Random은 63.23, DataMan은 63.01이었다. 결국 데이터가 부족한 시대의 경쟁력은 더 많이 긁어모으는 것보다 source마다 무엇을 좋은 데이터로 볼지 자동으로 발견하는 데서 나온다.

TRON은 visual reasoning RL을 데이터셋에서 환경으로 옮긴다

Hugging Face · TRON

TRON은 시각 추론 RL의 학습 substrate를 아예 바꿔 놓는다. 사람 손으로 모아 둔 VQA 데이터셋 대신, latent visual state를 샘플링하고 이미지를 렌더링하고 질문을 만들고 정답을 정확히 검증하는 generator-verifier 환경을 쓴다. 전체 520개 환경을 5개 ability bucket으로 나눴고, 감사 샘플 8,320개 중 생성 성공률 99.07%, 환경 502/520이 quality grade A를 받았다.

중요한 건 난이도 축이 진짜 작동한다는 점이다. Qwen3-VL-4B 기준 난이도 0에서 9로 갈수록 통과율이 72.8% → 41.3%로 떨어진다. 학습 후 외부 벤치마크 평균 점수도 Qwen3-VL-4B 52.61 → 55.23, Qwen2.5-VL-7B 40.85 → 43.35, MiMo-VL-7B 63.37 → 66.50으로 오른다. visual reasoning 쪽에서도 학습 병목은 정답 데이터셋을 더 모으는 것보다, 지속적으로 새로운 검증 가능 롤아웃을 공급하는 환경 설계에 가까워졌다.

로컬 모델·추론 인프라

Gemma 4는 작은 로컬 멀티모달의 설계 방향을 바꿨다

Reddit · r/LocalLLaMA, Reddit · r/LocalLLM, Reddit · r/GeminiAI

Reddit에서 Gemma 4는 단순한 “새 로컬 모델”보다 로컬 멀티모달의 설계 철학을 보여주는 사례로 읽혔다. 라인업은 E2B, E4B, 12B, 26B A4B, 31B의 다섯 크기였고, 작은 모델은 128K, 중간급은 256K 컨텍스트를 지원한다고 소개됐다. Google은 140개 이상 언어, 텍스트+이미지 입력, 일부 모델에서 오디오·비디오 처리까지 밀었다.

커뮤니티가 특히 주목한 건 encoder-free 멀티모달 설명과 35M 규모의 매우 얇은 vision embedder였다. 거대한 고정 ViT 인코더를 앞단에 두는 대신 raw pixel patch를 LLM hidden dimension에 거의 직접 매핑하는 구조가 OCR, 미세 시각 작업, 음성 뉘앙스 이해에서 잠재 우위를 가질 수 있다는 해석이 붙었다. 로컬 멀티모달이 더 이상 “작아서 포기해야 하는” 범주가 아니라, 다른 구조를 택한 별도 최적점으로 보이기 시작한 것이다.

122B급 MoE를 8GB 활성 VRAM으로 돌리려는 시도도 나왔다

Reddit · InstinctRazor, Hugging Face · InstinctRazor, GitHub · InstinctRazor

Gemma 4가 소형 멀티모달 방향이라면, InstinctRazor는 대형 MoE를 소비자 하드웨어에 어떻게 우겨 넣을지에 집중한다. 122B MoE를 약 50GB 크기의 GGUF로 압축하고, 실제 활성 GPU 메모리는 약 8GB 수준으로 유지하며 나머지 expert를 CPU에 두는 구조라고 설명했다. 메시지는 단순하다. 작은 모델만이 로컬 추론의 답은 아니라는 것이다.

게시자가 제시한 비교표도 이 기조를 따른다. MMLU-Pro 86.2 vs 85.6, GPQA-Diamond 82.3 vs 79.3, LiveCodeBench v6 72.7 vs 69.2로 Gemma-4-A4B보다 앞선다고 적었지만, MATH-500과 AIME에서는 뒤진다고 스스로 인정했다. 핵심은 무조건 승패가 아니라, 제한된 메모리에서 “어떤 종류의 지능”을 가져갈지에 대한 선택지가 넓어졌다는 점이다.

엣지·포그 환경의 서빙은 replica cluster와 역할 분리가 핵심이 된다

arXiv · E2LLM

E2LLM은 heterogeneous edge/fog 환경의 LLM 서빙을 “모든 장치를 하나의 큰 파이프에 넣는 문제”로 보지 않는다. 대신 장치들을 여러 replica cluster로 나누고 각 클러스터 안에서만 model parallelism을 적용하며, replica마다 PREFILL 또는 DECODER 역할을 맡긴다. prefill과 decode가 계산·메모리 특성이 다르다는 점을 직접 구조에 반영하는 것이다.

클러스터 구성은 Genetic Algorithm, 클러스터 내부 partition은 Dynamic Programming으로 푼다. 결과적으로 Splitwise 대비 고부하에서 평균 waiting time을 50% 이상 줄였고, decoding throughput은 최대 2x 높였다고 한다. 로컬 추론 시대의 경쟁력은 모델을 줄이는 것뿐 아니라, 어디에서 어떤 역할로 여러 replica를 배치할지에 점점 더 걸리게 된다.

긴 추론 시대에는 KV cache 평가도 decode 누적 오차로 가야 한다

Hugging Face · KVarN

KVarN은 KV-cache quantization의 평가 프레임을 바꿔야 한다고 말한다. 기존 많은 결과가 prefill 위주나 정적 retrieval 조건에서 나왔지만, 실제 autoregressive reasoning에서는 quantization error가 timestep마다 누적된다. 저자들은 이 누적 오차의 주범을 잘못된 token scale로 보고 variance-normalized dual-scale quantization을 제안한다.

실효 메모리 오버헤드는 2.25 bits/element 수준인데, Llama-3.1-8B line retrieval에서 100 lines 100%, 200 lines 99%, 300 lines 96%, 600 lines 89%를 유지한다. 또 dual scaling을 kernel에 fuse하면 dequantization overhead는 최대 1.4% 수준이라고 한다. 중요한 건 “2비트로도 된다”가 아니라, test-time scaling과 long reasoning 시대에는 KV-cache 평가도 prefill보다 decode 누적 오차 위주로 바뀌어야 한다는 점이다.

멀티인코더 VLM은 인코더를 많이 쌓는다고 좋아지지 않는다

arXiv · Beyond Encoder Accumulation

멀티인코더 LVLM 연구는 “좋은 인코더를 많이 붙이면 더 좋아진다”는 직관을 정면으로 테스트한다. 5개 인코더의 31개 비공집합 조합을 전부 처음부터 다시 학습했고, 이 전체 실험에 20k GPU-hours가 들었다. 흥미로운 결론은 inference-time masking과 training-time removal이 같은 답을 주지 않는다는 점이다. 지금 모델 안에서 눈에 띄는 branch와, 아예 빠졌을 때 대체 불가능한 branch는 다를 수 있다는 뜻이다.

최고 단일 인코더는 ConvNeXt, 최고 2-인코더 조합은 CLIP + ConvNeXt였다. 이 조합만으로도 full 5-encoder 모델 점수의 약 97%를 회복한다고 본다. 저자들은 이를 Capacity와 Necessity의 두 축, 그리고 pre-projector effective rank로 설명한다. 멀티모달 효율은 “많이 붙이기”보다 “어떤 anchor에 어떤 complement를 붙일지”의 설계 문제로 이동하고 있다.

로보틱스·멀티모달 연구

로봇 월드모델도 action chunk가 아니라 semantic event로 다시 짜이고 있다

Hugging Face · WALL-WM, GitHub · wall-x

WALL-WM의 핵심 주장은 기존 VLA/WAM의 고정 길이 action chunk가 아니라 semantic event를 학습의 원자 단위로 써야 한다는 것이다. reaching, grasping, lifting, placing처럼 언어로 이름 붙일 수 있고, 비디오에서 관찰 가능하며, 액션으로 실제 실행 가능한 구간을 기준으로 데이터를 자른다. 이 구조를 하나의 backbone 안에서 event mode와 unified mode라는 두 추론 경로로 지원하고, unified mode에는 Staircase Decoding을 넣어 event-structured latent reasoning을 만든 뒤 기존 chunk 추론을 유지한다.

아키텍처와 멀티뷰 확장도 공들여 설계됐다. 비디오 쪽은 Wan 계열 DiT를, 액션 쪽은 별도 action DiT를 붙이고, Cross-view attention, Camera RoPE, Sight-cone masking, Tube patch masking으로 물리적으로 말이 되는 뷰 간 대응만 학습시키려 한다. 로봇 foundation model의 성능 차이가 더 큰 모델보다 “어떤 시간 단위로 세계를 자르느냐”에 달려 있다는 점을 가장 선명하게 보여주는 논문 중 하나다.

로봇 학습 파이프라인도 GUI와 데이터 품질 중심으로 재구성된다

YouTube · Hugging Face LeLab

LeLab 영상은 로봇 학습을 추상적인 성능 논쟁이 아니라 실제 온보딩 절차로 보여준다. teleoperation, dataset collection, training, deployment를 GUI 안에서 연결하고, 로봇 포트 자동 탐지, calibration, 카메라 등록, 3D visualization까지 모두 화면 안에서 처리한다. leader-follower arm과 top/wrist camera 구성, reset state 루프, 실패 episode 재촬영 흐름도 명확히 드러난다.

특히 데이터 수집 기준을 구체적으로 준 점이 중요하다. 작업별로 최소 30 episodes, 권장 50 episodes를 제시하고, 무엇보다 smooth, consistent, flawless한 demonstration을 강조한다. 결국 로봇 foundation model의 성능은 모델 아키텍처뿐 아니라, 누가 얼마나 싼 비용으로 양질의 시연 데이터를 표준화해 반복 생산하느냐에 크게 걸려 있다.

휴머노이드·안전 분석·드론 제어에서도 시스템 설계가 성능을 만든다

arXiv · Qwen-Image-Flash, arXiv · Humanoid-GPT, arXiv · HazDial, arXiv · AgenticRL

응용 레이더로 묶인 논문들도 공통 메시지가 선명했다. Humanoid-GPT는 2B-frame 규모 모션 코퍼스로 zero-shot motion tracking을 주장하며, embodied foundation model 쪽도 본격적인 스케일링 국면에 들어갔다는 신호를 준다. HazDial은 hazard identification을 단일 패스 분류가 아니라 debate/discussion 구조로 비교했고, GPT-OSS 20B에서 debate의 F1 0.2492, GPT-4.1 기반 GA-Debate에서 F1 0.2585를 보고했다.

AgenticRL은 UAV reward refinement를 닫힌 루프로 돌려 정책 행동을 71% 개선했고, 실제 환경 success rate 91%, sim-to-real accuracy 94%를 냈다고 한다. 이 네 편을 함께 보면 이미지, 로봇, 안전, 항공 모두에서 모델 하나의 정적 성능보다 데이터 구성, 대화 구조, reward refinement, 대규모 코퍼스 같은 시스템 설계가 성능을 더 크게 흔들고 있다는 사실이 드러난다.

paired edit 데이터 없이도 video editing을 이길 수 있다는 주장이 나왔다

Hugging Face · Bootstrap Your Generator, NVIDIA Research · ByG

ByG는 편집 모델 학습의 감독 설계를 바꿔 보려는 시도다. paired edit 데이터 없이 flow-matching 편집 모델을 학습시키기 위해, frozen base model의 의미 정보를 directional prior로 쓰고 cycle consistency로 원본 보존을 강제하며, model unrolling으로 noisy pseudo-target을 만든다. 외부 reward model이나 VLM judge 없이도 base generator의 내부 지식과 self-bootstrapping만으로 편집 지시 준수와 source preservation을 동시에 노린다.

수치도 강하다. video editing user study에서 supervised baseline Ditto 대비 평균 75.3% ± 2.2% 승률을 기록했고, 3D-CGI OOD 입력에서는 85% vs 15%로 크게 앞섰다. ablation도 설득력이 있다. bootstrapping을 빼면 edit success가 8.317 → 5.517로 크게 떨어지고, regularization을 빼면 identity collapse가 난다. long-tail style editing에서는 paired data 기반 모델보다 더 강했고, 반대로 subject removal·text editing처럼 정답 구조가 뚜렷한 과제는 supervised가 여전히 우세하다는 경계까지 함께 제시했다.

strict causality 아래서도 라이브 반주를 만들 수 있다는 오디오 생성 신호

arXiv · LiveBand

LiveBand는 실시간 오디오 생성에서 teacher forcing을 버리고도 성능을 유지할 수 있다는 흥미로운 사례다. causal audio autoencoder의 latent 위에서 causal transformer generator를 돌리고, 미래 target을 보지 않는 sequence-level adversarial supervision으로 학습한다. 핵심은 training과 inference의 입력 분포를 처음부터 맞춰 exposure bias를 줄이는 것이다.

실시간 수치가 특히 중요하다. RTX 3090에서 τ=0.1s 설정 기준 eager 83.5ms, compiled 43.6ms로, real-time 예산 92.88ms 안에 들어왔다. 품질·정렬·adherence와 청취평가에서도 SMG보다 우세했다. strict causality와 실시간 예산을 만족하는 생성 시스템도, 결국 더 많은 정답 시퀀스보다 train–infer mismatch를 줄이는 쪽으로 진화하고 있다는 점을 보여준다.

현실형 벤치마크와 추론 평가

현실형 벤치마크는 정답보다 전문가의 reasoning move를 본다

arXiv · Hedge-Bench, GitHub · Hedge-Bench

Hedge-Bench 1.0은 금융 특화 벤치마크지만, 더 중요한 건 평가 철학이다. 실제 헤지펀드 애널리스트의 reasoning trace를 바탕으로 102개 open-ended 과제를 만들고, 정답 한 줄 대신 theme/sub-theme별 required move를 deterministic grading으로 채점한다. 모델이 어떤 하위 질문을 세우고 어떤 증거를 읽고 어떤 반론을 다뤘는지가 평가 대상이다.

결과는 냉정했다. 프런티어 모델과 에이전트의 해결률은 16% 미만으로 보고됐다. 단순 retrieval이나 계산은 되더라도, 어떤 질문이 load-bearing한지 고르고 서로 충돌하는 근거를 통합해 전문가 수준의 관점을 세우는 일은 아직 멀었다는 얘기다. 최근 benchmark가 answer matching에서 workflow matching으로 이동하고 있다는 강한 신호다.

수학 벤치마크도 이제 실패의 층위를 분해한다

arXiv · PyraMathBench

PyraMathBench는 “수학을 잘하느냐”를 하나의 점수로 뭉개지 않는다. 7,404개 math word problem에서 32,505개 문제를 파생하고, 이를 Numerical Parsing, Calculation, Understanding, Complex Reasoning의 4개 인지 측면과 14개 하위 과제로 나눴다. 텍스트뿐 아니라 멀티모달 문제까지 포함해 수학적 실패가 어느 층에서 시작되는지 읽어내려는 벤치마크다.

여기에 SOLVE와 IRPO를 붙여 Qwen-2.5 기준 +5.0 개선을 보고한 점도 흥미롭다. 앞으로 수학 성능 개선은 단순 RL finetuning이나 CoT 길이 늘리기보다, 숫자 파싱-계산-이해-복합추론 중 어느 층이 병목인지 찾아 거기에 맞는 tool use와 학습 신호를 넣는 방향으로 이동할 가능성이 커 보인다.

AI 전환과 실전 자동화

AX의 첫 병목은 온톨로지보다 조직 언어의 불일치다

LinkedIn · Yeoul Kim, LinkedIn · Soojeong Bae

Yeoul Kim은 온톨로지를 AX의 실버 불릿처럼 소비하는 태도를 비판하며, 실제 병목은 조직 내부의 언어 합의 부재라고 본다. 세일즈 조직의 “고객”, 제품 조직의 “고객”, 고객지원 조직의 “고객”이 서로 다른 개념일 수 있는데, 이런 상태에서 AI는 물론 사람도 같은 단어를 두고 다른 세계를 보게 된다. 그래서 그는 온톨로지 이전의 Pre-Ontology, 즉 실제 실무자들이 어떻게 말하고 어떤 단어를 어떤 맥락에서 쓰는지 모아 둔 살아 있는 언어층이 먼저 필요하다고 주장한다.

이 논리를 BCG 요약 수치가 보강한다. 2025년 말 기준 AI로 실질적 가치를 만든 기업은 5%에 그쳤고, 60%는 눈에 띄는 가치를 보고하지 못했으며, 성공 가치의 70%는 기술보다 사람 관련 행동에서 나왔다고 한다. 슬랙과 이메일에 남는 것은 전체 비즈니스 맥락의 10%뿐이라는 주장까지 합치면, AX의 병목은 결국 모델이 아니라 조직 언어와 변화관리라는 결론이 선다.

사람 KPI도 산출물 수보다 판단 근거 품질로 이동한다

LinkedIn · Seungpil Lee

에이전트 시대의 KPI 논의는 생산성 환상과 꽤 가까이 붙어 있다. 산출물 개수를 보상하면 사람은 에이전트가 만든 것을 더 많이 쌓게 되지만, 판단을 보상하면 놓친 전제, 예외, 위험을 드러내게 된다는 것이 핵심 주장이다. 이 관점에서 인간의 역할은 생산자보다 판단의 소유자에 가깝다.

그래서 대안 지표로 판단 로그 충실도, 예외 발견률, 재사용 가능성, 에스컬레이션 적시성이 제안된다. 이 지표들은 사람을 감시하기 위한 것이 아니라, 에이전트와 함께 일할 때 사람의 기여가 실제 어디에 있는지 다시 보이게 만드는 장치다. AI 전환이 생산량 향상이 아니라 의사결정 체계 재설계라는 사실을 압축적으로 보여준다.

실제 가치는 앱 순위, 세금 신고, 클라우드 비용, 로컬 도구에서 먼저 나타난다

LinkedIn · 권민정, LinkedIn · Jaehyun KIM, LinkedIn · Jaewon Lim, LinkedIn · Leviosa AI

오늘 실전 자동화 사례들은 거대한 플랫폼 발표보다 훨씬 직관적이었다. Codex로 만든 iOS 디카 앱은 출시 16일째 대만 앱스토어 무료 사진앱 1위를 기록했고, 하루 활성 사용자가 3천을 넘겼다고 한다. 개발보다 홍보가 더 어려웠고, 대만어 Threads 글의 바이럴이 전환점이었다는 설명은 유통과 현지화가 여전히 인간 영역임을 보여준다.

다른 사례들도 비슷하게 구체적이다. 해외주식 양도소득세 신고용 엑셀 매핑, 245KB JSON 로그가 매일 2TB씩 CloudWatch로 송출되던 문제를 줄여 연 1,200만원 이상 절감한 사례, 총 3,200만원 가치 창출을 보고한 AWS 비용 최적화, 한국어 Claude 편의용 OSS Klaude의 100회 이상 다운로드가 모두 나왔다. 에이전트의 실전 가치는 결국 앱 순위, 세금 신고 시간, 클라우드 비용, 로컬 생산성 도구 같은 작은 결과에서 먼저 입증되고 있다.

교차 분석

오늘의 콘텐츠를 가로지르는 가장 큰 축은 “모델을 더 똑똑하게 만드는 것”보다 “모델이 일하는 운영 구조를 더 정교하게 만드는 것”이다. 하네스, planner, runtime primitive, MCP reward, trace observability, replica clustering, event-grounded world model, GUI data collection 같은 키워드는 전부 이 축에 있다. 개발 생산성, 보안, 로컬 추론, 로보틱스, 멀티모달 생성처럼 전혀 다른 분야에서도 성능 격차는 점점 아키텍처 내부보다 시스템 설계 바깥에서 벌어지고 있다.

두 번째 축은 정적 데이터셋과 정적 벤치마크의 해체다. TRON은 generator-verifier 환경으로, MIRA는 source-specific rubric으로, Hedge-Bench는 전문가 workflow grading으로, PyraMathBench는 실패 층위 분해로, PROVE는 live MCP state로 이동한다. “정답 데이터가 충분히 있으면 학습과 평가가 끝난다”는 관점이 무너지고, 현실 환경을 얼마나 잘 재현하고 얼마나 세밀하게 실패 원인을 읽어내느냐가 더 중요해지고 있다.

세 번째 축은 AI 전환의 병목이 기술보다 사람과 언어, 운영 감각에 있다는 점이다. Pre-Ontology, 판단 로그 KPI, spreadsheet로의 회귀, 앱스토어 순위와 비용 절감 사례는 모두 같은 사실을 말한다. AI가 성능을 과시하는 시대에서, 실제 조직과 시장에 남는 것은 결국 언어 정렬, 품질 게이트, 유통 감각, 재사용 가능한 루틴과 같은 운영 자산이라는 것이다.