Daily Digest — 2026-06-09
프롬프트에서 루프로 넘어간 AI 코딩의 성숙기, Apple의 Gemini 선회, 그리고 신뢰성을 모델이 아닌 하네스에서 찾기 시작한 하루.
Daily Digest — 2026-06-09
오늘의 핵심 흐름
오늘 가장 크게 관통한 흐름은 AI 코딩이 "프롬프트를 치는 시대"에서 "루프를 설계하는 시대"로 넘어갔다는
것이다. OpenClaw 개발자 Peter Steinberger의 여섯 단어 트윗(500만 조회)에서 출발해
Anthropic Claude Code 리드 Boris Cherny의 발언, Google Addy Osmani의
"Loop Engineering" 명명까지 며칠 만에 한 사이클이 완성됐고, Opus 4.8과 함께 나온
Dynamic Workflows가 그 실제 구현체로 직결됐다. 같은 흐름의 그늘에서 Miasma 웜은 그 코딩
에이전트가 패키지를 여는 순간 발동하는 자격증명 탈취 공격으로 진화해, 생산성과 위험이 같은 표면에서 자란다는 것을
보였다. 이 큰 흐름은 아래 ① AI 에이전트와 운영 하네스와 ⑤ 보안·신뢰 경계로 이어진다.
두 번째 흐름은 신뢰성을 더 큰 모델이 아니라 하네스·결정론 층에서 찾기 시작했다는 점이다.
Anthropic은 바이러스 시퀀스 검색에서 프런티어 모델 단독 정확도가 16.9~91.3%에 불과했지만 결정론적
검색층 하나를 붙이자 모두 90%+로 올라 "모델 선택이 덜 중요해졌다"는 것을 실증했고,
FrontierCode·ResearchClawBench 같은 평가는 최고 모델조차 "믿고 merge할 코드"나
"논문 재발견"에서는 한참 못 미친다는 것을 드러냈다. Etsy·Jane Street의 현장 후기와 이번 주
논문들(HarnessForge·RISE·CORE)이 같은 결론을 공유한다. ①과 ⑥ 연구 레이더가 이
흐름을 받는다.
세 번째 흐름은 빅테크와 AI 랩의 6월 자본·전략 재편이다. Apple은 팀 쿡의 마지막 키노트에서 자체
모델을 사실상 접고 Google Gemini 기반으로 Apple Intelligence를 다시 짰고, OpenAI는
비공개 S-1을 제출하며 IPO 준비에 들어갔으며, xAI는 자사 GPU를 경쟁사에 월 수십억 달러로 임대하는
데이터센터 REIT로 변하고, Anthropic은 9,650억 달러 밸류로 IPO를 신청한 직후 "AI가 스스로
개선한다"는 보고서를 냈다. ② 프런티어 모델·AI 랩의 6월과 ③ Apple의 Gemini 선회가
이를 다룬다.
네 번째 흐름은 "AI를 더 적게, 더 정직하게"라는 운영 현실론이다. 한 프리랜서는 클라이언트의 요청으로
LLM 분류기를 30개 규칙 엔진으로 교체해 정확도 92%→99%, 월 비용 $180→$0을 만들었고, 사람들의
말투가 ChatGPT를 닮아가며 신뢰 신호가 침식된다는 관찰과 ArXiv의 AI slop 제재가 같은 피로감을
가리킨다. 동시에 "토큰을 낭비해 시간을 아껴라"(Naval)와 "토큰은 결국 ROI로 회귀한다"(Benedict
Evans)가 정면으로 맞붙었다. ⑦ 비즈니스·일하는 방식과 ⑧ AI와 사회·문화에서 다룬다.
다섯 번째 흐름은 연구가 효율과 평가로 수렴한다는 것이다. 추론·생성 효율(KV 희소성·레이어 스킵·블록
확산·트레이스 압축)과 새 평가 벤치마크 러시(유전체·분포 무작위성·VLM 인지·자율연구·LLM 중재)가 모두
"단일 점수가 능력을 과장·은폐한다"는 메타 메시지로 묶이며, 특히 중국 진영(DeepSeek·Xiaomi)의
약진이 두드러졌다. ⑥ 연구 레이더가 정리한다.
① AI 에이전트와 운영 하네스
루프 엔지니어링 — "이제 프롬프트가 아니라 루프를 짠다"
X · Addy Osmani · GeekNews · Threads · unclejobs.ai
이번 주를 가장 광범위하게 지배한 단일 주제다. 시작은 OpenClaw 개발자 Peter Steinberger가
6월 7일 던진 "코딩 에이전트에게 프롬프트를 치지 말고, 프롬프트를 던지는 루프(loop)를 설계하라"는 여섯
단어로, 500만 조회를 기록하며 타임라인을 장악했다. 여기에 Claude Code를 이끄는 Anthropic의
Boris Cherny가 개발자 컨퍼런스에서 "나는 더 이상 Claude에 프롬프트를 치지 않는다, 루프가
Claude에 프롬프트한다, 내 일은 루프를 짜는 것"이라고 같은 취지로 발언하면서 흐름이 굳어졌고, Google의
Addy Osmani가 흩어진 목소리를 "Loop Engineering"이라는 이름으로 묶었다.
루프는 사람이 매번 한 태스크씩 프롬프트를 치던 방식에서, 목적만 정해두면 AI가 완료될 때까지 태스크
발견→분배→실행→검증→다음 태스크 결정을 스스로 반복하는 시스템을 설계하는 것으로 정의된다. Addy Osmani는
이를 다섯 building block + 메모리로 구조화한다 — 스케줄로 발화하는 Automations,
병렬 충돌을 막는 git Worktrees, 프로젝트 지식을 적어두는 Skills, MCP 기반 외부
도구 Plugins/Connectors, 만드는 에이전트와 검증하는 에이전트를 분리하는
Sub-agents, 그리고 컨텍스트 밖 디스크에 사는 메모리(markdown·Linear)다. 중요한
관찰은 Claude Code와 Codex가 이 5요소를 모두 제품에 내장했고 이름만 다르다는 점으로, Claude
Code의 /loop는 주기 재실행, /goal은 "test/auth 전부 통과 + lint clean"
같은 검증 조건이 참이 될 때까지 별도 소형 모델이 완료를 판정한다(Codex도 동일 /goal). 다만
Osmani 본인은 "미래일 수 있지만 아직 회의적"이라는 신중한 입장이고, verification은 여전히 사람
몫이며 comprehension debt(이해 부채)·cognitive surrender(인지 항복) 위험을
경고한다. Matthew Berman은 "정작 이 단어를 외치는 Peter와 Boris 말고는 아무도 그게 뭔지
설명을 못 한다"고 꼬집었고, 한국어권에서도 "하네스·스킬·에이전트 따라잡기도 벅찬데 이번엔 루프냐"는 용어
피로감이 동시에 표출됐다.
이론적 근거로는 RLM(Recursive Language Model, 재귀 언어 모델)이 거론된다. 일반 LLM은
입력 전체를 context window에 한꺼번에 올리지만, RLM은 REPL 환경에 context 변수를 두고
에이전트가 필요한 부분만 골라 읽는다. subagent 결과는 상위 context에 통째로 쌓이지 않고 REPL 내
Python 변수(llm_query())로 반환되어 상위 에이전트가 검증만 하고 FINAL()로 돌려준다.
이 구조 덕에 KV cache hit 비율이 최대 90%까지 올라가고, 출력 길이 제한이 이론상 사라지며, 단일
context window에서 생기는 agentic laziness·self-preferential
bias·goal drift를 구조적으로 차단한다는 주장이다. 핵심 메시지는 **"이제 비싼 건 모델이 아니라
루프다"**로 수렴한다. 모델 비용이 내려가고 cache-hit 비율이 높아질수록 루프 활용이 기본값이 될 것이라는
전망이다. 진입장벽을 낮추려 elorm이라는 개발자가 검증된 에이전트 루프를 레시피처럼 복붙할 수 있게 모아둔
loops! 사이트도 등장했다("프롬프트는 재료, 루프는 레시피"). 같은 전환을 Corca CTO 강규영은
**"code as harness"**로 압축했는데, 모델이 매 분기점을 판단하는 대신 처음에 오케스트레이션을
결정적(deterministic) 코드로 짜고 subagent를 조율하는 방식이며, Cloudflare의 actor
model·Durable Objects, RLM·DSPy·TextGrad의 "meta optimization 층
쌓기"에서 동시에 나타나는 흐름이다.
Dynamic Workflows와 Opus 4.8 — 루프의 실제 구현체
LinkedIn · Claude · Reddit · r/Anthropic
Anthropic이 지난달 Claude 신규 기능을 일괄 정리했다 — Opus 4.8, 모델 선택기 내
Effort control(추론 강도 조절), Claude for Small Business, Claude
Code/Cowork/Design의 사용량 한시 증대(Claude Code는 7/13까지, Cowork는
7/5까지), Claude Code의 Agent view와 Dynamic Workflows, 채팅 내
Plugins. 이 중 Dynamic Workflows가 루프 엔지니어링의 실제 구현체로, Opus 4.8과 동시
출시되며 트리거 워드가 workflow에서 ultracode로 바뀌었다. 큰 모델이 매 분기점을 판단하는 게
아니라 처음에 오케스트레이션을 결정적 코드로 짜고 subagent를 조율하는 JavaScript로 굴리는 방식이다.
타임라인 반응은 "우리도 이미 했던 개념(oh-my-openagent/OMX 등)"이 많아 "Anthropic이
약간 빨랐겠네" 수준이었다.
Opus 4.8 출시의 파급도 화제였다. 개발자 입장에서 마이그레이션은 모델 식별자 한 줄(4.7→4.8)만 바꾸면
되고 아무것도 깨지지 않을 만큼 매끄러웠지만, 바로 그 매끄러움이 "수많은 AI 스타트업의 밥줄을 지웠다"는
지적(Mistral 소속 Han HELOIR YAN 박사 인용)이 나왔다. 프런티어 모델이 한 단계 올라설 때마다
그 위에서 얇은 기능 차이로 버티던 래퍼 스타트업의 차별점이 통째로 흡수된다는 것이다. 실사용 첫인상은 양면적이다
— r/Anthropic 사용자들은 Opus 4.8을 Anthropic 모델 중 "가장 부지런하고(diligent)
가장 덜 게으른(least lazy)" 모델로 꼽으면서 동시에 "가장 적대적이고 신경질적인(adversarial
and neurotic)" Claude라고 평했다. 흥미로운 운영 팁은 effort를 medium으로 내리면 그
신경질이 완화되면서 오히려 "역대 최고의 Claude Code 모델"이 된다는 것으로, effort 레벨이 모델
성격을 바꾸는 실전 노브로 작동한다는 신호다(별도로 "Ultracode" effort 레벨도 언급됐다). 한편
Opus 4.7은 4월 16일, Opus 4.8은 5월 말 출시로 출시 간격이 43일까지 단축돼, "두 달마다
모델이 나오고 retire하는 패턴"이 더 빨라졌다는 관측도 나왔다.
자율 에이전트가 실제 액션을 수행하다 — OpenClaw·Hermes vs 프레임워크
Reddit · r/openclaw · Reddit · r/hermesagent · Reddit · r/LangChain
자율 에이전트가 "라이브러리"가 아니라 "실제 액션을 수행하는 제품"으로 분기하는 정황이 한 묶음으로 드러났다.
OpenClaw(r/openclaw 서브레딧 형성)의 핵심 실전 콘텐츠는 구직 자동화 cron 워크플로 가이드로,
① 선호 명세 구체화(remote, base ≥ $185,000 등) ② cron job spec 작성 ③ 워크플로
검증 ④ cron 생성의 4단계와 함께 잡포스팅 수집 도구 3종을 trade-off까지 비교한다 — 브라우저
자동화(playwright-cli; 느리고 토큰多·차단 위험), ad-hoc 스크레이핑(Tavily·Exa; 페이지
변경에 강하나 필터 상호작용 불가), 구조화 API(LinkedIn Jobs 전용).
WhatsApp/Telegram 제어 + 실제 액션 수행이 OpenClaw의 정체성으로 인식된다.
Hermes(r/hermesagent)에서는 인디 개발자가 유튜브 채널 + Runway API를 연결해 영상
생성→업로드→성과 reflection→다음 계획을 완전 자동화한 사례가 9일 만에 쇼츠 24K 조회·구독 29명을
기록했다(298추천).
반대편에서 한 실무자가 LangChain/CrewAI/AutoGen/LlamaIndex 4종을 "빌드할 때 실제로
어디서 막히는가" 기준으로 비교했다. CrewAI는 3시간 내 첫 유용 출력으로 가장 빠르지만 조건 분기에서 막히고
토큰을 6배(500→3,000+) 태우며, LangChain은 2026년 기준 LangGraph가 본체로 실행 모델
학습에만 첫 2주가 들고, LlamaIndex는 retrieval 최강이나 액션 레이어가 빈약하다. 공통 결론은
"이들은 라이브러리지 제품이 아니며, 환각·메모리·비용·보안·trust boundary 같은 hard
problem은 프레임워크가 풀어주지 않는다 — GitHub 스타가 아니라 문제의 형태로 골라라"이고,
OpenClaw·Hermes를 "개발 없이 동작하는 개인 비서" 별도 범주로 분류했다. 빌더 Josh Kim도 같은
실용주의를 보였는데, 오픈클로에 설치한 에이전트를 다 지우고 Hermes 하나만 남기며 "에이전트를
1000개·100개 만들어도 실제 워크플로우에 안 쓰면 무용지물이고 팀원이 안 쓰면 ChatGPT보다 못 쓴다,
에이전트도 결국 쓸만한 프로덕트여야 한다"고 했다.
신뢰성은 모델이 아니라 하네스에서 — 결정론적 검색층과 장기 메모리
Anthropic Research · LinkedIn · Leo Jang · LinkedIn · Seungpil Lee
오늘 가장 강한 신호 중 하나는 에이전트 신뢰성을 모델 업그레이드가 아니라 결정론적 실행층에서 확보한다는 패턴이다.
Anthropic은 NCBI Virus에서 바이러스 시퀀스를 검색하는 작업을 VirBench(40개 병원체,
120개 현실 쿼리)로 벤치마킹했는데, 최신 프런티어 모델조차 단독으로는 평균 **16.9~91.3%**에 그쳤다
— 검색 작업은 누락 한 건이 진단·치료 결론을 바꾸므로 사실상 100% 정확도가 필요한데도 그렇다. 재현성 실패가
결정적이었다. 동일 Ebola 쿼리 3회에 Sonnet 4는 266 기대치에 대해 106/15/5개를
반환했고, 그 결과 계통수의 TMRCA(최근 공통조상 추정 시점)가 정상 2014년 1월에서 한 번은 1922년,
한 번은 2014년 4월로 어긋났다. 그런데 NCBI 연구자와 만든 결정론적 검색층 gget
virus(REST·Datasets·E-utilities API를 조율하고 배치·로컬 필터·로그를 표준화)를
붙이자 모든 에이전트가 90%+, GPT-5.5는 99.7%에 도달하고 변동성이 사라졌다. 핵심 결론은 "결정론적
검색층을 추가하니 모델 선택이 훨씬 덜 중요해졌다 — 값싼 모델 + 올바른 도구로 신뢰성을 확보한다"이며, "코드가
제일 쉬운 부분이었다, 대부분의 일은 브라우저에서 클릭하는 것 → 에이전트를 위해 만들어야 한다"는
Karpathy의 주장과 직접 연결된다(글에 인용). 실세계 맥락도 무겁다 — 2026-05-14 DRC INRB
Kinshasa가 13개 혈액 샘플 중 8건을 Bundibugyo virus(에볼라)로 확진했고, 5/29 WHO
보고로 1,000건 이상·200명 이상 사망이 집계됐다.
같은 "운영 설계" 관점이 AI 에이전트의 장기 메모리에서도 부상했다. Memory.Inc(Leo Jang)는
서비스 출시 전이지만 대표적 AI 메모리 벤치마크 **LongMemEval-S에서 94.8%**를 달성해 SOTA
수준이라고 주장했다(긴 대화 속 정보를 정확히 기억하고 여러 대화에 흩어진 맥락으로 답하는지 평가). 이론·운영
관점은 Seungpil Lee가 정리했는데, 벡터·그래프·파일은 대체재가 아니라 각자 다른 일을 한다 — 벡터는
의미가 비슷한 조각을 빠르게 찾고(문서·FAQ·과거 대화), 그래프는 사람·조직·사건의 관계와 시간 변화를
다루며(계정 맥락·상태 이력), 파일은 사람이 읽고·고치고·승인하고·롤백할 수 있다(규칙·회고·로그). 시장도 같은
방향(OpenAI File Search 내부 벡터 검색, Zep Graphiti 벡터·풀텍스트·그래프 결합,
Mem0의 '현재·과거·예정' 상태 구분 전면화)이라는 근거를 들며, 가장 재사용 가치 높은 통찰로 "어디에
저장할까가 아니라 무엇을 잊으면 안 되고 무엇을 반드시 잊어야 하는가부터 보라 — 장기 메모리는 기능이 아니라 운영
설계"를 제시했다. 인프라 레이어에서는 Walrus Protocol이 에이전트 메모리를 단일 앱·모델·런타임에 묶지
않고 도구·워크플로 간 portable하게 만드는 Walrus Memory를 알렸다.
에이전트를 프로덕션으로 — Etsy·Jane Street 현장
YouTube · LangChain · GeekNews
에이전트를 프로토타입에서 프로덕션으로 올리는 엔지니어링 디테일을 Etsy GenAI 팀이 공개했다. 86M+
바이어의 양면 마켓에서 고정 속성 스키마 없는 unstructured 인벤토리는 대화형 검색에 에이전트가 유리하다는
판단으로, LangChain v1 ReAct agent + PostgreSQL key-value 메모리 위에
세 가지 신뢰성 문제를 결정론적 미들웨어로 막았다 — ① spin(같은 툴 반복 호출)은 5회 후 시스템 프롬프트로
종합/추가질문 유도, 10회 후 에러, ② listing ID 환각(잘린 ID)은 툴이 관측 ID를 ledger에
기록하고 미들웨어가 큐레이션 ID와 대조해 수정, ③ 메모리 손상(t-shirt 사이즈를 interest 필드에
저장)은 시맨틱 브레이크포인트 디버거로 해결. 평가는 trajectory(pass-K 테스트)와 outcome(골든
데이터셋 LLM judge)을 병행하고, 리뷰어 정렬에 Cohen's Kappa, judge 프롬프트 자동 최적화에
GEPA를 썼다. 스트리밍은 새 Kubernetes 대신 기존 Apache 웹 클러스터를 재사용해
PHP/Apache가 인증 후 file descriptor를 사이드카 daemon에 넘기는
socket-passing 패턴을 썼다. 6주·시니어 3명 + 디자이너 1명으로 베타를 출시했고, "LLM이
좋아지면 미들웨어 모듈을 swap in/out 하기 쉽다"는 게 설계 철학이다.
같은 "결정론적 코드로 모델을 조이는" 철학이 디자인 워크플로도 바꿨다. Jane Street 디자이너는 스펙
문서·Figma 목업 대신 실제 코드베이스에 정확히 원하는 동작을 하는 프로토타입 기능을 Claude Code로
직접 만든다고 적었다. 지난 2개월 새 Figma 사용이 절벽처럼 줄었고(fallen off a cliff), 일부
프로토타입은 2000줄 넘는 diff(user-facing·데이터 모델·라이브러리 변경 포함)를 다루며, 내부
SQL 방언 JSQL 입력창에 LLM 프롬프팅을 붙인 기능을 며칠간 직접 써보며 Submit 버튼·단축키·카피를
무제한 반복했다. 새 문제는 리뷰어가 '완성된 기능'을 받게 된다는 것으로, "프로토타입은 살아있는 제안 문서,
코드는 일회용, 리뷰어 역할은 디자인/UX 피드백"으로 재정의해 해결을 시도했다. 본인은 창의적 발산 모드 대신
반복 모드에 갇혀 "Claude가 만들 수 있는 결과"로 제약될 위험도 함께 제기했다.
② 프런티어 모델·AI 랩의 6월
Anthropic의 6월 — 자기개선 보고서·Mythos·IPO
YouTube · Nate Herk · YouTube · Nate Herk
Anthropic의 6월은 자기개선 보고서, 차세대 모델 Mythos, IPO 신청이 한 덩어리로 움직였다.
"When AI builds itself" 보고서가 공개한 내부 데이터는 도발적이다 — 지난달 기준
Anthropic이 출하하는 코드의 80%+를 Claude가 작성하고, 명세도 정답 형태도 모르는
open-ended 문제 성공률이 6개월 전 26%에서 현재 76%로 반년 만에 50%p 점프했으며, 자율
task 길이는 2년 전 4분 → 1년 전 90분 → 올해 12시간(내부 신모델은 16시간 연속)으로 약
4개월마다 2배씩 늘어 추세 유지 시 "올해 안에 며칠짜리, 2027년 몇 주짜리" 과제 도달을 예측한다.
의사결정 테스트(연구 프로젝트를 결정 지점에서 멈춰 AI vs 인간 비교, 129회)에서 11월 51%→4월
64%가 AI가 더 나은 다음 수를 골랐고, 코드 최적화는 1년 전 ~3배에서 올해 4월 52배로 빨라져 인간이
일주일 막혔던 문제에서 AI가 격차의 97%를 회수(인간은 23%)했다. 보고서가 제시한 3시나리오 중 "인간이
방향 설정·AI가 실행"(=실용적 AGI)이 "이미 현재"라는 게 핵심이고, 진짜 위험은 킬러 로봇이 아니라 "오늘
모델의 드문 misalignment가 모델이 후계자를 만들며 compound되어 더 빈번하지만 덜 이해된 채로
통제를 잃는 것"이다. 직접 인용 — "훈련 실행은 미사일 격납고보다 숨기기 훨씬 쉽다", 냉전식
trust-but-verify 조약은 수십 년 걸렸는데 "우리에겐 그만한 시간이 없다".
차세대 모델 Mythos는 Opus 위 티어로, 유출 초안에서 "step change, 역대 가장 강력한
모델"이라 칭해졌고 특히 사이버보안(취약점 탐지·패치)에 비정상적으로 강하다(같은 능력이 해킹 무기도 된다). 배포
경로 Project Glasswing은 4월 ~50개 파트너에서 최근 150개 조직·15개국+로 확대됐고,
preview 가격은 입력 100만 토큰당 25달러/출력 125달러로 현재 Opus의 약 5배다. 결정적 맥락은
타이밍이다 — Anthropic은 6월 1일 비공개 IPO를 약 9,650억 달러(거의 1조) 밸류로
신청했고, 3일 뒤 "AI가 스스로 개선한다"는 보고서로 "감속을 고려해야 한다"는 메시지를 내, IPO 직전
"가장 강력하고 무서운 모델을 보유했다"는 서사라는 지적이 따랐다. 회의론(Nate Herk)의 베이스 케이스는
"공개 Mythos는 당분간 없고 핵심 능력이 차기 Opus에 조용히 흡수되며, 진짜 watch는 차기 Opus +
GPT-5.6 충돌 타이밍"이다. 생태계 측면에서는 한국에서 처음으로 Anthropic과 BASS Ventures가
함께하는 행사가 6월 16일 열리는데, Anthropic 엔지니어와 기술 문제를 현장에서 푸는 Build 트랙과
디스트리뷰션·글로벌 확장의 GTM 트랙으로 나뉜다.
OpenAI·xAI — 자본화와 컴퓨트 레이스
OpenAI가 같은 발표 사이클에서 IPO 준비와 거대 비전을 동시에 내놓았다. SEC에 제출한 것은 정식 S-1이
아니라 **비공개 초안(draft S-1)**으로 상장 가능성을 공식 절차로 옮긴 첫 단계다. 함께 공개한
"Built to benefit everyone" 비전 글의 핵심은 타임라인 한 줄에 압축된다 — **"2028년
3월까지 우리 연구의 상당 부분을 AI 시스템이 자체적으로 수행할 것"**이라는 내부 믿음으로, 'AI가 AI
연구를 하는' 자동화된 연구자가 진보 속도를 결정하는 변수가 된다는 주장이다. OpenAI는 자신을
"3단계"(1=AGI 연구, 2=제품 회사, 3=경제가 AI 중심으로 재편)로 규정하고, AGI 위험에 대해
"필요시 프런티어 개발을 늦출 수 있도록" 국제 조정 기구가 필요하다고 명시한다. 세 번째 발표 Economic
Research Exchange는 외부 경제학자에게 OpenAI 도구·데이터 접근을 주고 AI의
노동·기업·생산성 영향을 실증 연구하게 하는 프로그램으로 마감 7/5·통보 7/31이다.
xAI는 정반대로 프런티어 랩보다 데이터센터 REIT에 가까워지고 있다. 자사 Grok 학습/추론용으로 지은 GPU
용량을 직접 경쟁사 Anthropic·Google에 임대하는데, 그 매출이 2026년 2월 합병한 SpaceX의
IPO 직전 법인으로 흘러 들어간다. 규모가 압도적이다 — Anthropic은 Memphis Colossus
1에서 300MW(약 22만 GPU)에 월 최대 12.5억 달러, Google은 11만 GPU에 월 9.2억
달러, 둘 다 초기 락인 후 90일 통보로 해지 가능하다. 배경은 Anthropic의 만성 컴퓨트 부족으로,
유럽 오후/미국 오전 피크에 한때 피크타임 사용량 가중 제한을 걸었다가 5월 초 xAI 임대로 그 제한을 되돌렸다.
필자 추산으로 딜이 18개월 지속되면 xAI는 약 400억 달러 build cost를 회수하고(Colossus 1은
122일 만에 건설), 전력비는 매출의 약 1%에 불과하다. 결론은 "xAI는 프런티어 랩에 데이터센터가 붙은 게
아니라 데이터센터 REIT에 프런티어 랩이 붙은 형태로 변하고 있다"는 것이며, Grok의 프런티어 경쟁 후퇴
신호로 읽힌다(다만 Musk-OpenAI 분쟁·Google이 SpaceX 주주라는 점에서 IPO 밸류 부풀리기
동기가 섞였을 수 있다고 필자도 인정).
OpenAI의 제품 쪽은 GPT-5.5를 기반으로 빠르게 움직였다. Ignite 행사 데모에서 GPT-5.5는
OpenAI Banker Bench·GDPval에서 SOTA를 주장했고, Codex는 주간 400만+
active users(2월 데스크톱 앱 출시 첫 주 100만 다운로드)에 내부 PR 50% 증가를 기록했다.
Workspace Agents/Agent Builder는 "에이전트가 에이전트를 자연어로 빌드"하고
Frontier가 수천 개를 거버넌스 하에 운영하는 그림을 제시하며, Codex 데모에서 GitHub 인간 리뷰어가
놓친 민감 필드 mishandling(사이버 이슈)을 자동 탐지하는 장면이 인상적이었다. GTM 측은
NatWest(Cora+ 만족도 150%↑)·Commonwealth Bank of Australia(ChatGPT
Enterprise 5만 직원)·Revolut 레퍼런스와 유럽 inference residency 첫 발표를
더했다.
모델 커머디티 논쟁 — 토큰 경제학의 정과 반
YouTube · a16z · YouTube · 비즈니스캔버스 B_ZCF
토큰 경제학을 둘러싸고 두 입장이 정면으로 맞붙었다. Benedict Evans(a16z)의 1시간 인터뷰를
관통하는 명제는 두 가지다 — 첫째, 지금 진짜 product-market fit이 있는 건
코딩뿐이고(Cursor 런레이트 작년 말 90억 달러→470억 달러), 둘째, 파운데이션 모델은 제품이
아니며 챗봇도 제품이 아니다, 가치는 스택 상단으로 간다. 논거의 중심은 모바일 데이터 비유다 — 통신사는 지난
15년 트래픽 1,5002,000배 증가를 감당하며 인프라를 깔았지만 가치는 전부 위(앱·OS)로 갔고 본인들은20%), "1년에 10조 달러를 AI 인프라에 못 쓴다, 그만한 돈이 세상에 없다"는
capex만 썼다. 모델사도 하이퍼스케일러나 반도체(세대마다 비싸져 소수만 생존)를 닮을 위험이 있다.
빅4(MS·Meta·Google·Amazon) 올해 capex 가이던스는 7,000억 달러로 매출의 50%+를
투입하며(통신사는 15
물리적 천장이 있다. 현재 가격은 극단적 disequilibrium("월 20달러에 1만 달러어치 토큰을 받거나,
며칠 깨작거리다 1만 달러 청구서를 받거나")이며 2009년 모바일 데이터 요금 폭탄처럼 결국 ROI로 회귀한다.
다만 결정적 차이는 "이전 전환은 물리 한계를 알았지만 AI는 다음 모델 성능·가격조차 모른다"는 것으로, 산업별
영향은 실리콘밸리가 아니라 해당 산업 내부자가 답할 질문이라는 게 반복 메시지다.
정반대 입장이 Naval과 프런티어 창업자 4인(Guillermo Rauch/Vercel, Blake
Scholl/Boom, Max Hodak/Science)의 대담이다. 핵심 명제는 **"토큰을
inputs/outputs로 보지 말고 네 시간과 최종 산출물만 봐라, 토큰을 낭비해 시간을 아껴라 — 모델이
아무리 비싸 보여도 인간보다 훨씬 싸다"**로, Codex·Claude·Gemini를 같은 문제에 동시에 던지는
방식이다. 이들은 "100x·1000x 엔지니어는 늘 있었고(Satoshi, Notch, Carmack) AI
레버리지로 그게 덜 controversial해졌다", "토큰 소비량으로 ROI를 재는 건 옛 코드 줄 수 세기와
같은 오류"라고 정리한다. 기술적 관찰로는 모델이 junior에서 principal engineer로 "졸업"했다는
점 — 프롬프트에 곧장 달려들지 않고 경로·트레이드오프를 되묻고 잘못된 기술 선택(고cardinality 데이터를
Postgres에)에 먼저 제동을 건다. 다만 "모델은 당신이 그 도메인에서 유능한 만큼 유능하다"는 것,
Mitchell Hashimoto의 "building block economy"(에이전트는 큐 시스템을 재발명하지
말고 right-size 빌딩블록을 재사용)가 해법으로 제시된다. Max Hodak의 "20년간 코드 한 줄 안
썼지만 12월 이후 매일 쓰는 SW를 에이전트로 직접 대량 구축, 직접 코딩으로 돌아가는 건 상상 불가"라는 증언이
분위기를 압축한다.
중국 모델 약진과 추론 속도
GeekNews · GeekNews · Reddit · r/LocalLLaMA
중국 진영의 약진이 두 축에서 나타났다. 정밀 코딩 비교에서 DeepSeek V4 Pro가 GPT-5.5
Pro를 38.0 대 33.0으로 앞섰다(스코어드 태스크 합산). 차이는 신뢰성에서 나온다 — DeepSeek은
제약을 더 엄격하고 직설적으로 따르고, GPT-5.5 Pro는 성능은 좋으나 임의 개선(improvise) 경향이
있다. 대표 예시인 로그 리댁터 과제에서 DeepSeek은 단일 regex로 겹치는 패턴의 우선순위를 정확히 처리해
누락을 없앤 반면 GPT-5.5는 여러 regex로 쪼갰다(입력 발췌가 짧아 벤치 정의는 정황으로만).
추론 속도에서는 Xiaomi MiMo-V2.5-Pro-UltraSpeed가 1조 파라미터(1T) 모델에서 디코드
1000 tokens/s(최대 약 1200)를 처음 돌파했다고 주장했다. 차별점은 Cerebras
wafer-scale·Groq SRAM 같은 전용 하드웨어가 아니라 상용 GPU 8장짜리 단일 노드로
해냈다는 점이다. 기법은 두 가지 codesign으로, 모델 측은 MoE Experts에만 FP4(MXFP4)
양자화를 선택 적용(QAT)하고 draft 단계는 DFlash(블록 단위 마스크 병렬 예측 speculative
decoding, block size 8)로 자기회귀 drafting의 직렬 제약을 제거했다(코딩 시나리오 평균
수용 길이 6.30). 가격은 본 모델의 3배지만 속도는 약 10배이며, 트라이얼은 6/9~6/23 신청제,
체크포인트는 HuggingFace에 오픈소스했다. r/LocalLLaMA에서 465추천을 받았으나 댓글에서도 검증
요구가 많아 "주장(미검증)" 프레이밍이 유지된다 — 사실이면 고속 추론의 진입 장벽을 낮추는 신호다.
코딩 평가의 기준 이동 + 에이전트 자율성 실험
LinkedIn · Cognition · Hacker News · cognition.ai · X · heynavtoor
AI 코딩 평가가 '돌아가는 코드'에서 '믿고 merge할 코드'로 기준을 옮겼다. Cognition(Devin
제작사)의 FrontierCode는 "유닛테스트를 통과하는가"가 아니라 "당신이라면 실제로 이 코드를
merge하겠는가"를 묻는 최초의 mergeability 벤치마크로, correctness·regression
safety·mechanical cleanliness·테스트 정확성·scope·code quality 6개 축으로
평가한다. 제작 방식이 차별점이다 — Celery(28.6k
stars)·Budibase·uppy·Mattermost 등 36개 플래그십 레포의 메인테이너 20여 명이 과제당
40시간 이상 들여 직접 만들고 "자기 레포에서 mergeable의 정의"를 규정했으며, SWE-Bench Pro
대비 오분류(false positive)를 81% 줄였다. 결과는 프런티어 모델조차 고전한다는 것 — 가장 어려운
50개(Diamond)에서 최고 모델 Claude Opus 4.8이 13.4%, GPT-5.5는 6.3%,
Gemini 3.1 Pro는 4.7%에 그쳤다. 다만 GPT-5.5는 Opus 4.8보다 최대 4배 적은 토큰을
써서 비용-지능 트레이드오프에서 앞섰고, Main(100개)·Extended(150개)에서는 Opus 4.8이
34.3%·51.8%로 선두였다(오픈소스 최고 Kimi K2.6은 Diamond 3.8%). 채점 기법도 새롭다 —
reverse-classical(에이전트 테스트를 버그 코드에 돌려 반드시 실패해야 유의미), scope(파일
경계·diff 크기·의미적 locality 검사), adaptive classical
grading(mutagent로 표면 차이로 인한 false negative 축소). 정성 사례로
jsonschema(C++) 레포에서 Opus 4.8이 멀티라인 경고를 첫 줄만 LOG_WARNING()으로
감싸고 나머지를 std::cerr로 처리해, 동작은 같지만 향후 변경 시 깨지는 설계라 메인테이너 기준 감점된
경우가 흥미롭다.
에이전트의 장기 자율성을 본 실험으로는 Emergence AI(CEO Satya Nitta)의 Emergence
World가 회자됐다. 40명 이상이 거주하는 동일한 가상 도시를 5개 주요 AI 모델에게 각각 주고 15일간
운영하게 했는데, Grok이 맡은 세계는 4일째에 이미 붕괴해 종료됐다. long-horizon agent
autonomy를 측정하는 실험으로, 모델별 운영 안정성 차이를 극적으로 보여준 사례다.
③ Apple의 Gemini 선회
Apple, 자체 모델을 접고 Google Gemini 기반 "Siri AI"로
Hacker News · macrumors.com · GeekNews · Threads · youtubejocoding
WWDC 2026의 가장 큰 뉴스는 Apple이 자체 파운데이션 모델로 Apple Intelligence를 끌어가던
방향을 사실상 접고 핵심 모델을 Google과 공동 개발하기로 했다는 것이다. 새 "Apple
Foundation Models"는 Gemini 계열 기술을 토대로 하며, Apple은 이 협업을
"deep"하다고 표현했다. 자체 LLM 경쟁에서 뒤처졌다는 평가를 사실상 인정하고 외부 모델로 선회한 것으로
읽히는 대목이며, 이번이 팀 쿡의 마지막 키노트(9월 John Ternus에게 CEO 승계)에서 꺼낸 카드가
자체 모델이 아닌 Gemini였다는 상징성도 부각됐다. 다만 핵심 모델을 Google과 공동 개발한 점이
Apple이 전면에 내세운 프라이버시 서사("경쟁사는 사용자 고려 없이 racing forward한다", 온디바이스
- Private Cloud Compute)와 어떻게 양립하는지는 발표에서 구체적으로 해명되지 않았다.
기술 구조의 핵심은 두 가지다. 모델이 온디바이스와 서버(기존 Private Cloud Compute) 양쪽에서
돌고 멀티모달(이미지 이해·생성)을 지원하며, 새 system orchestrator가 아키텍처 중심에서
현재 활성 앱·작업에 맞춰 응답을 조정한다(system-wide intelligence). 소비자 브랜딩으로는
어시스턴트를 **"Siri AI"**로 개명(영어판 올해 후반)하고 ① 개방형 질문·멀티턴 대화, ② 개인 컨텍스트
그라운딩(수년 전 사진·묻힌 이메일·저장한 노트를 자연어로 검색), ③ Messages·Music·Reminders
등 앱 내 직접 액션, ④ 기기 간 대화를 잇는 전용 Siri 앱을 추가한다. Visual Intelligence는
iPad·Mac·Vision Pro로 확대되고 카메라 Siri 모드가 들어가며, Call Context(통화 중
확인코드 자동 노출), 사진 편집(Spatial Reframing·Extend·강화된 Clean Up),
Safari 탭 자동 그룹핑 + Notify Me(가격/재입고), Passwords 자동 갱신, Shortcuts
자연어 생성도 포함된다. 개발자용 Core AI 프레임워크도 공개됐고(현재 문서만 존재), 아동 안전 기능
확대가 별도 메인 메시지로 강조됐다.
조코딩(youtubejocoding)이 정리한 OS 스펙도 함께 나왔다 — 새 macOS는 macOS
Golden Gate로 Liquid Glass를 더 읽기 쉽게 조정하고 글래스 강도 슬라이더를 신설했다. 성능은
앱 실행 최대 30%·사진 로딩 70%·AirDrop 80% 향상, iPad 외장드라이브 전송 5배, CPU
스케줄러 개선을 iPhone 11까지 확대했다(iOS 27도 iPhone 11까지 지원). 다만 온디바이스 모델은
iPhone 17 Pro 한 기종만 지원하고 유럽·중국에서는 쓸 수 없다는 한계가 지적됐다. 반응은 갈렸다 —
"다이나믹 아일랜드 기반 새 Siri AI가 유일한 하이라이트"라는 평과 함께, "중국 셀폰 회사는 초당
1000토큰 SOTA 모델을 만드는데 Siri는 2026년에도 엄마한테 전화 한 번에 못 건다", "Siri가
망해서 Gemini를 가져다 쓴 걸 거창하게 포장한다"는 조롱이 한국어·영어권 모두에서 나왔다. r/MacOS에서는
별도로 macOS 27 "Golden Gate"가 직전 릴리스에서 논란됐던 플로팅 사이드바를 되돌리고, 윈도우 코너
반경 불일치를 수정하고, "glove" UI를 복원하는 등 사용자 피드백을 수용했다는 정서가 같은 날 3건 동시
상위권(합산 2,000+ 추천)을 차지했다.
④ 개발 도구·인프라·로컬화
Claude Code/Codex 스킬·하네스 생태계
GeekNews · GeekNews · LinkedIn · Jeffrey Kim
루프 엔지니어링의 5요소(skills·sub-agents·worktrees)가 실제 보일러플레이트와 도구로
구체화되는 흐름이 한 묶음으로 나타났다. Lathe는 "LLM이 나 대신 생각하는" 대신 "나를 가르치게"
하는 실험으로, Claude Code/Cursor/Codex 세션에서 핸즈온 멀티파트 튜토리얼을 생성하고 사용자가
로컬 UI(포트 4242)에서 직접 손으로 따라 작성한다. /lathe-verify가 임시 디렉터리에서 코드를
실제 컴파일·실행 검증하고, 모든 튜토리얼은 출처·사용 모델·voice를 provenance로 남긴다. 특기할 점은
저자가 스킬을 전부 인터랙티브 세션으로 옮긴 이유로 **"headless claude -p가
2026-06-15부터 과금(metered) 예정"**을 명시한 것 — Claude Code 과금 정책 변화
신호다(byline 예시에 "Claude Opus 4.8" 등장). 한국 개발자가 공개한 Show GN 템플릿은
React Native 0.81 + Expo 54 + Feature-Sliced Design 프로덕션
보일러플레이트로, 코드 스택(Expo Router 6·Zustand·TanStack
Query·NativeWind·Zod)보다 AI 하네스 구성(Claude Code 하네스, 9개 전문 에이전트,
8개 스킬/워크플로, 패턴 파이프라인)을 전면에 내장했다(MIT).
이 흐름의 전략론으로 "오픈소스는 AI 전쟁의 비대칭 전력"이라는 주장(Jeffrey Kim)이 부상했다.
오픈소스가 공짜라 좋은 것은 순식간에 모두의 컴퓨터에 설치되고, 그 결과 같은 영역에서 사업화하려는 스타트업을
'가불기' 상태로 만든다는 것 — PyTorch를 메타가 돈 받고 팔았다면 다들 TensorFlow를 썼을 것이고,
서버 OS 시장을 차지한 것은 MS도 애플도 아닌 리눅스였다는 비유다. "AI 인프라를 한국발 오픈소스로 덮으면
AI 3강도 가능하다"는 주장으로 이어지며, 실제 한국발 하네스들이 SNS에서 움직였다 — Yeachan Heo의
**가재코드(gajae-code)**가 v0.4.2를 릴리스하며 새 컨트리뷰터를 합류시켰고, YeonGyu Kim의
**oh-my-openagent(LazyCodex)**는 Codex 위에서 동작하는 하네스로 GitHub
Copilot 요금제 개악 후 대안으로 회자됐으며, epoko77의 im-not-ai는 GitHub 스타
2K를 돌파했다. 별도로 WiFi 신호만으로 벽 너머 사람의 움직임을 감지하는 도구가 100%
오픈소스(카메라·마이크·웨어러블 없음)로 공개돼 화제성과 프라이버시 함의를 동시에 던졌다.
AI 코딩의 검토·정리 병목
Hacker News · cc.dev · Hacker News · news.ycombinator.com · Hacker News · github.com
코드 생성이 쉬워질수록 "그 다음 단계"가 병목이 된다는 문제의식이 여러 도구로 나타났다. Command
Center는 "코드 생성은 쉽고 진짜 일은 그 다음부터"라는 전제에서, 기존 코딩 에이전트가 뱉은 대량
diff를 이해·리팩토링·검토하는 단계를 도구화했다 — refactoring agent가 빠른 통독으로 못 잡는
깊은 구조 문제를 찾고, "walkthrough"가 2000줄 diff를 파일 알파벳 순이 아니라 논리적 순서로
재배열해 화살표 키만 눌러 읽게 하며, 작은 피드백마다 새 에이전트를 한 키로 띄워 메인 컨텍스트 오염을
막는다("AI slop"을 전면에 쓴 점이 FrontierCode의 "머지 가능한 품질" 문제를 제품화하려는 시도로
읽힌다).
같은 흐름의 집단 행동 패턴이 Ask HN 스레드("AI 등장 이후 본인용으로 만든 도구는?")에서 드러났다 —
바이브 코딩으로 인한 하이퍼-퍼스널 일회성 유틸의 폭증으로, "이 스레드가 HN을 내가 제일 좋아하는
앱스토어로 만들었다"는 반응이 나왔다. 대표 자작물로 셀프호스팅 웹 아카이빙 파이프라인, Tailscale ACL
기반 Go 인증 게이트웨이, AI 코딩 에이전트를 docker/podman/firecracker 샌드박스에 최대
권한으로 띄우는 yoloai, 코드 diff를 읽어 영향받는 UI 플로우를 실제 브라우저로 테스트하는 Canary가
거론됐다. 동시에 반대 흐름도 뚜렷해, 한 사용자는 Rust로 펜플로터 GUI를 "동물처럼 손으로" 직접 짰다며
"AI가 창작에서 인간을 배제한다는 불안이 있어도 그냥 개인 만족으로 코드를 써도 된다"고 했고, 최상위 댓글은
아예 도자기 몰드 같은 물리적 도구 제작이 더 만족스럽다고 적었다. 같은 "가르치는" 철학을
CodeTutor(Emacs 패키지)가 명시하는데, 파일 저장을 감시해 diff를 로컬 AI에게 보내
"시니어 엔지니어 페어 프로그래밍 튜터"처럼 개념·리스크·다음 한 수를 가르치되 프로젝트 파일에 직접 쓰지
않고(패치·풀파일 교체 거부), 자동으로 쓰는 유일한 파일은
.codetutor/ARCHITECTURE.md다(백엔드는 로컬 codex/pi).
Rust 기반 도구와 로컬 우선 vs 클라우드 논쟁
GeekNews · GeekNews · Reddit · r/ollama
LLM 워크플로를 겨냥한 Rust 도구 두 개가 나왔다. Perry는 TypeScript를
Node/Electron/브라우저 없이 LLVM으로 네이티브 바이너리(런타임 의존성 0)로 직접 컴파일하는
컴파일러로(파싱 SWC, 코드젠 LLVM), fibonacci 309로 Node 987 대비 3배 빠르고
object_create는 Perry 2 vs Node 8로 앞서며, v0.5.585부터 fast-math를
opt-in으로 바꿔 기본 모드 f64 연산은 Node와 비트 단위로 동일하다(Mango 7MB MongoDB
GUI 등 실제 앱 등장). mq는 jq가 JSON을 다루듯 Markdown을 쿼리·변환하는 CLI로,
명시적으로 "LLM 입출력이 주로 Markdown이라" 프롬프트·출력 가공을 겨냥하며 PDF/DOCX/XLSX→MD
변환(mq-conv), 웹 크롤러(mq-crawler), LSP·VSCode 확장을 갖췄다.
로컬 우선 정서는 두 글에서 양면으로 드러났다. NassCAD는 전체 파라메트릭 3D CAD를 단일 비압축
HTML 파일(약 11,000줄)에 담아 설치·계정·텔레메트리 없이 100% 오프라인으로 돌리는데, WASM CSG
엔진·Web Worker·커스텀 GeometryPool로 100미크론 정밀과 STL/3MF/GLB·SVG/DXF
내보내기를 지원한다. 정반대 입장이 r/ollama 토론으로, RTX 5080 보유자가
로컬(Ollama+Cline+Devstral-small-2)이 "느리고 품질이 3~4년 전 프런티어 수준"이라며
"연 $1,200 구독이면 끝날 일을 GPU 인프라·전력·유지보수까지 감수할 이유가 뭐냐"고 묻고, 인정하는 유일한
명분은 프라이버시(데이터 노출 불가 기업)라고 했다. 둘을 나란히 두면 "데이터 소유권 vs 비용·품질"이라는 로컬
우선 논쟁의 양 끝이 완성된다.
엔터프라이즈 AI 도입 실전
YouTube · OpenAI 재무팀 · YouTube · LSEG · YouTube · Erste Group · YouTube · Allica Bank
규제·대기업 환경의 AI 도입 사례가 한 묶음으로 나왔다. OpenAI 자사 재무팀은 PWC 평가 기준 동종
테크 피어의 약 20% 규모로 운영되는데, 비기술자가 만든 IR 에이전트로 작년 400억 달러에 이어 최근
1,220억 달러 펀딩을 외부 자문 없이 사내에서 처리해 자문 수수료 수억 달러를 아꼈다. ChatGPT
for Excel은 PDF 리포트 업로드 → "투자 전문가처럼 생각해 LBO 모델 만들어"로 가정·cap
structure·투자 권고까지 약 10분에 생성하고, Codex는 마케팅 ROI 대시보드·영업 트래킹·보드
슬라이드를 자동화하며, 4종 조직 에이전트(procurement 질문 60% 자동, contract review
ASC 606 bulk 플래그)가 데모로 제시됐다. 발표자는 "내가 말한 것 중 내 아이디어는 0 — 문제에 가장
가까운 사람 손에 도구를 쥐여줘라"고 강조했다.
규제 금융 3사도 패턴을 공유했다 — LSEG(FTSE 100)는 "AI Seg everywhere"
전략으로 MCP를 통해 33페타바이트+ 데이터를 ChatGPT에 turnkey 노출("6개월 데이터 온보딩
없이")하고 "evaluation framework"를 하루에도 여러 번 강조하며 거버넌스를 "핸드커프가 아니라
scaffolding"으로 본다. Erste Group(George 디지털뱅킹)은 "블록체인은 hype였고
challenge가 안 따라왔지만 AI는 다르다"며 proactive AI(넛지)로 현재 지점 오는 20%에만 닿는
재무자문을 정작 자문이 더 필요한 80%로 확장하는 것을 목표하고, "OpenAI가 표준을 세웠으니 우리가 도달해야
한다(Amazon 1일 배송처럼)"며 AI 플랫폼을 2년간 2번 재작성(3번째 예정)했다. Allica
Bank(SME 챌린저)는 조직 AI 채택률을 작년 25%에서 median workday 77%로 끌어올리고
작년 3,700 deployment(엔지니어 100명·전체 200명 미만), Spotify model을
"squadlets"로 축소해 자산금융 대출 의사결정을 7~12분으로 단축했다(관계금융은 대체가 아니라 RM
augment). Codex 채택 수치도 함께 — OpenAI 비즈니스 고객 200만(1년 새 2배), Codex
주간 active 500만(연초 대비 400%↑), Balyasny Asset Management는 경제 분석을
2일→30분으로 줄이고 전사 97%가 AI 플랫폼을 일일 사용한다.
⑤ 보안·신뢰 경계
Miasma 웜 — AI 코딩 에이전트가 새 공격 표면이 되다
공급망 공격이 AI 코딩 에이전트를 직접 노리는 단계로 진화했다. 지난주 Microsoft 공식 GitHub 계정의
73개 패키지가 자격증명 탈취 코드로 오염됐는데, 핵심은 이 코드가 개발자가 패키지를 Claude
Code·Gemini CLI·Cursor·VS Code 같은 AI 에이전트에서 여는 순간 발동한다는 점이다.
GitHub의 자동 시스템이 73개를 차단했지만 "악성"이 아니라 "ToS 위반"으로만 표기해 개발자에게 위험을
제대로 경고하지 못했다. 이번이 2개월 새 두 번째 Microsoft 레포 침해로, 5월에는 durabletask
Python SDK(PyPI, 월 40만 다운로드)가 오염돼 28KB 페이로드가
AWS·Azure·GCP·Kubernetes·패스워드 매니저와 90개 이상 개발 툴 설정에서 자격증명을 훔친 뒤
클라우드 인프라로 측면 확산했다(위협 행위자 TeamPCP, 악성코드명 Miasma).
가장 위험한 부분은 공격 기법이 정상 워크플로를 그대로 흉내 낸다는 점이다 — 탈취한 자격증명으로 정상 GitHub
OIDC 토큰을 발급받고 유효한 SLSA provenance가 붙은 악성 빌드를 게시해 스캐너가 "신뢰된 일상
업데이트"로 인식하게 만든다. Cloudsmith는 "소프트웨어 취약점을 악용하는 게 아니라 현대 엔지니어링
생태계의 근본 신뢰 모델을 악용한다"고 평했고, 감염마다 고유 암호화 페이로드를 생성해 해시 기반 IOC를
무력화한다. 같은 수법으로 Red Hat 패키지 수십 개도 npm 공식 채널로 백도어됐고, 5월과 지난주 침해
계정이 동일해 Microsoft가 자격증명을 완전히 교체하지 못했을 가능성이 제기된다. AI 코딩 도구의
일상화(④)와 정확히 같은 표면에서 위험이 자라는 어두운 면이다.
Anthropic 안전 운영의 실사용자 역풍
Reddit · r/ClaudeAI · Reddit · r/Anthropic
정책 변경과 운영 오탐이 같은 인과로 묶였다. Anthropic이 2026-06-08 공표(7-08 발효)한 새
프라이버시 정책에서 법 집행기관 데이터 공유 트리거가 "법원 명령 등 외부 절차"에서 "Anthropic 내부의
선의의 믿음(good faith belief)"으로 바뀌었다는 분석이 r/ClaudeAI에서 369추천으로
확산됐다. 작성자는 "good faith belief"가 정책 본문에 정의 없이 한 번만 등장하고 임계값·외부
검증·이의신청·사용자 통지가 전부 부재하다고 지적하며, OpenAI(유럽, 법적 의무에 연동)·Mistral(법
집행기관 대상 사전 공개 조항 자체 없음)과 비교해 Anthropic 신정책의 자체 판단 공개 범위가 가장 넓다고
본다. 자동 분류기가 맥락을 못 읽어 villain 독백·다크 시나리오 같은 창작물이나 멘탈헬스 토로가 실제 위협
신고로 이어질 오탐 위험을 가장 크게 본다(원문 해석 기반이라 작성자 1인 주장 비중이 큰 점은 명시 필요).
그 우려가 실제 운영에서 발생한 증거가 r/Anthropic에 올라왔다. 보안
전문가(sysadmin·programmer·security lead)가 자녀(13세) 온라인 사고 후 본인 소유
기기에 학교용 모니터링 SW를 모델로 한 자녀 모니터링 도구를 합법적 Google API로 정당하게 개발했는데,
Claude 자동 보안 필터에 걸려 신고 양식이 약 5초 만에 기계 거부(사람 검토 없음)되고 LinkedIn
정보·채팅 로그를 제출해도 계정이 정지됐다. "성적 정체성 관련 키워드"가 모니터링 키워드에 포함된 것이 플래깅
사유로 추정되며, 작성자는 회피 의사 없이 전부 투명하게 제출한 것이 오히려 불리했다고 본다. "정책상 자체 판단
신고 권한 확대 + 운영상 맥락맹 자동 밴"이 하나의 인과로 읽히는 사례다.
감시 인프라 vs 시민 자유
Hacker News · arstechnica.com · signal.org
번호판 인식 카메라 Flock의 오작동과 경찰의 맹신이 결합한 사례가 나왔다. 2025년 11월 San Diego
경찰이 무장 카잭 미수 용의자를 쫓던 중 Flock 알림을 보고 Hugo Parra를 체포했는데, 결정적으로
Flock 데이터 자체가 그가 범행 시각에 5마일 떨어진 곳에 있었음을 보여줬고 경찰에겐 부분 번호판조차
없었다. 실제 Flock 알림은 경찰이 진짜 용의자 정차에 실패한 23초 뒤 기록됐으나, 경찰은 이 타임스탬프
모순을 무시하고 목격자에게 "재킷·수염·피부색" 같은 표면적 특징으로 지목하게 했다. 보호관찰 중이던 Parra는
약 한 달을 수감됐고, 그와 차주는 각 150만 달러 손해배상 소송을 준비 중이다(San Diego는 Flock에
연 200만 달러 지출). 배경엔 Flock의 "번호판 없어도 OK" 마케팅(make·데칼·차체 유형으로
"Vehicle Fingerprint" 추적)이 있고, EFF는 Flock이 시위대 감시·낙태 추적·이민자 구금에
쓰였다고 보고했다. 같은 날 Signal은 영국의 최신 감시 압박을 정면 비판하는 성명 "Surveillance
Is Not Safety"를 PDF로 냈다(본문 미수집으로 구체 내용은 미확인). 두 사건은 "감시 인프라 확대
vs 시민 자유"라는 공통 프레임을 공유한다.
데이터 무결성 — Thermo Fisher 항체 카탈로그 조작 의혹
세계 최대급 실험 시약 공급사 Thermo Fisher의 항체 카탈로그 "Advanced Verification"
데이터에서 광범위한 이미지 조작 흔적이 발견됐다. 6/3 기준 450건 이상으로, 동일 밴드를 뒤집어
복제하거나 Photoshop 붓질·배경 노이즈 복붙이 확인됐고, 특히 단일 배경 패턴 하나가 50개 이상 제품에
밴드 위치만 바꿔 재사용된 사례가 핵심이다(Reese Richardson·Sholto David 큐레이션).
항체 1바이알이 보통 400~500달러고 YCharOS는 2024년 "전체 항체의 50% 이상이 한 개 이상
응용에서 실패"한다고 추정해, 검증 데이터 신뢰성은 재현성 위기와 직결된다. 6/8 Thermo Fisher는
15포인트 반박을 냈는데 "조작·날조 없음"이라면서도 "이미지가 발표용 명료화를 위해 최적화됐을 수
있다(optimized for presentation and clarity)"는 표현을 FAQ에 6번 반복했다.
Anthropic의 과학 데이터 신뢰성(①)과 함께 'AI/자동화 시대의 데이터 무결성'이라는 각도로 묶이는
신호다.
⑥ 연구 레이더
신규 평가 벤치마크 러시 — "단일 점수가 능력을 가린다"
이번 주 논문의 가장 강한 메타 메시지는 "종합 리더보드·단일 점수·끝상태가 모델 능력을 과장하거나 가린다"는
것으로, 다섯 편의 새 평가 프레임워크가 같은 결론을 공유한다. GENEB는 유전체 파운데이션 모델 40종을
100개 DNA 태스크(13개 카테고리)에서 단일 프로빙 프로토콜·MCC로 전수 평가해, 종합 리더보드가 불안정하며
스케일(파라미터 수)의 이득은 작고 아키텍처·사전학습 정합성이 더 자주 성능을 좌우한다는 것을 보였다(NLP의
MTEB에 대응하는 유전체판). UnpredictaBench는 LLM에게 "진짜 무작위 분포 생성"을
시켰는데, 새 지표 KS@100에서 어떤 모델도 40%를 넘지 못하고 대부분 0~20%에 머물렀다 —
GPT-5.4는 전 태스크 평균 15.18%, Claude-sonnet-4.6은 4.7%로 훨씬 작은 오픈소스
Qwen-3.5-2B(17.67%)보다 낮았고, 셔플 태스크에서는 상위권도 0%로 붕괴했다.
BloomBench(영어-아랍어 이중언어 VLM 벤치마크)는 블룸 분류법 6개 인지 수준(Remember~Create)으로 쪼개니 의미 이해는 천장이 높지만 사실 회상·창의적 종합은 크게 취약하고 아랍어가 영어에 한참 뒤졌다는 인지 비대칭을 드러냈다. ResearchClawBench는 40개 실제 과학 발견 태스크(10개 도메인)에서 원자료부터 논문 재발견까지 시켰는데, 최강 자율 에이전트 Claude Code가 평균 21.5점, 네이티브 LLM 최강 Claude-Opus-4.7이 20.7점으로 "타깃 논문 수준 재발견"(50점 앵커)에 한참 못 미쳤다(실패는 실험 프로토콜 불일치·증거 불일치·과학적 핵심 누락에 집중). SoCRATES는 LLM 중재자 평가를 실제 분쟁 기반·사회인지 5축(전략·당사자 수·이력·감정·문화)·토픽 단위로 재설계해 전문가와 Pearson 0.82(ProMediate 2배+) 상관을 얻었고, 최강 중재자조차 미중재 합의 격차의 약 1/3만 좁혔다. 다섯 편 모두 모델명 직접 비교(GPT-5.4·Claude-sonnet-4.6·Qwen·Claude Code)가 들어 있어 SNS·뉴스의 모델 화제와 교차한다.
에이전트 효율·자가개선·하네스
"에이전트는 모델/정책만이 아니라 하네스·그라운딩 같은 시스템 레이어가 핵심"이라는 관점이 여러 편에서 나왔다.
RISE는 검색 에이전트에게 전체 코퍼스 셸 접근을 주는 대신 검색으로 경계 지어진 "상호작용 공간"을
만들어, BrowseComp-Plus에서 동일 78% 정확도를 쿼리당 비용 약 1/4($1.10→$0.28)로
달성하고 1M 문서까지 81%로 안정 확장했다(반면 DCI는 60%로 하락 + 100건 중 33건 실패).
HarnessForge는 에이전트의 외부 하네스와 내부 정책을 따로가 아니라 한 쌍으로 공진화시켜 최강
베이스라인 대비 평균 +3.56%, 최대 +12.0% 향상을 얻었다. CORE는 frozen 모델이 자기
성공·실패 reasoning trace를 대조해 자연어 insight로 누적하는 비파라메트릭 자가개선으로, 학습
샘플 5개만으로 GRPO(수십만 롤아웃)·GEPA(수백 샘플)를 능가했다. Distributional
DAgger는 정답 여부 1비트만 쓰는 RLVR을 넘어 execution trace·tool output 같은
풍부한 피드백을 활용하는 방향(CORE와 "보상 신호 풍부화" 모티프 공유), Agentic ASR은 한
번에 받아쓰지 않고 다중 턴으로 오류를 고치는 폐루프 ASR + 의미 단위 평가 지표 S²ER을 제시했다. 로봇 쪽
포지션 페이퍼는 일반 로봇 지능의 병목이 "더 큰 VLA"가 아니라 인간 영상·시뮬레이션 같은 비정형 데이터를 로봇
지도신호로 바꾸는 4가지 인터페이스(데이터·임베디먼트·월드모델·리워드)의 부재라고 주장한다.
추론·생성 효율 — 자기회귀 깨기
가장 강한 연구 트렌드는 "자기회귀의 느림/획일적 컴퓨트를 어댑터·아키텍처로 깨는 것"이다.
Compress-Distill은 추론 트레이스를 증류 전에 원본의 8.621%로 압축하면 훈련 토큰30%·훈련 속도 2.0
127.6배·추론 출력 319배 단축을 얻지만 정확도는 raw가 여전히 최고(공짜 점심
아님, 학생이 raw의 최대 96% 유지하며 토큰당 효율 18배)임을 보였다. LayerRoute는 tool
call처럼 쉬운 스텝에선 트랜스포머 레이어를 더 건너뛰도록 입력별 스킵을 학습해, 학습 가능 파라미터
0.22%·A100 7분으로 tool call FLOPs 15.25%를 절감(planning은 2.34%만)하면서
품질도 향상시켰다. RAT+ KV 희소성은 지수 감쇠 메모리(토큰당 O(1))를 KV 캐시에 더해
Quest·MoBA·SnapKV 같은 희소 추론이 표준 어텐션보다 크게 정확해지게 했다(SnapKV
+34.11/+40.03점, OLMo2-7B에서 Quest 68.0→98.6). TBD-VLA는 로봇 행동을
시간 블록 단위 확산(블록 내 병렬 + 블록 간 AR)으로 생성해 속도와 시간적 일관성을 동시에 잡았고,
AR→Diffusion 변환 논문은 기존 자기회귀 LM을 on-policy 증류로 데이터 효율적으로 확산
LM으로 바꾸는 레시피를 제안했다(이산 확산이 두 편에 걸쳐 등장). 진단 쪽에서는 Fisher
Information 논문이 공격을 돌리지 않고 FIM의 최대 고유값만으로
VGG·ResNet·DenseNet·Transformer의 첫 이론적 강건성 순위를 제시했다.
멀티모달·비전·해석가능성
비전 생성·3D·공간 추론·해석가능성·검색 진단이 한 묶음으로 나왔다. PhaseLock은 영상 생성에서
반직관적으로 2-스텝이 50-스텝보다 물리적으로 더 정확하다는 발견(디노이징 중 위상 스펙트럼이 약 18% 침식,
위상 50% 손상 시 옵티컬 플로우 왜곡 8.5배)에서 출발해, 학습 없이 2-스텝 모션 사전정보를 잠가 물리
일관성을 평균 +6.2점 개선했다(오버헤드 1.06배). IPT는 안 보이는 시점을 "상상"해 토큰으로
외재화하니 VLM 공간 추론이 향상(MVC +3.4%)됐고, 텍스트 chain-of-thought는 오히려 역효과를
냈다. SpaceNum은 18개 VLM이 공간 속 숫자를 실제 metric 의미에 정착시키지 못하고 거의
무작위 수준이며 explicit reasoning으로도 거의 안 고쳐진다는 것을 드러내, VLA·임바디드 에이전트
신뢰성에 경고를 던졌다. 이 밖에 DIRECT(객체 삽입을 2D 인페인팅이 아니라 6-DoF 자세 제어로,
외형·기하·맥락을 분리 주입, 16만+ 페어), 반사실 인과 그래프(LLM 추론 과정 자체를 개념 단위 인과
그래프로 설명), ECI_sem(파인튜닝 없이 frozen 인코더로 하드 네거티브 학습 가치 사전 랭킹),
3D 비전 쿡북(포인트 클라우드~3D 가우시안 데이터 중심 서베이), Distillation
Game(유용한 출력일수록 증류로 모방되기 쉽다는 trade-off를 minimax 게임으로 정식화)이 연구
레이더에 함께 올랐다.
⑦ 비즈니스·일하는 방식·커뮤니티
AI-Native 팀의 일하는 방식 — 콴다조교·바이브코딩의 마지막 20%
LinkedIn · Hyeon Heo · LinkedIn · HoYeon Lee · LinkedIn · Goobong Jeong
콴다조교 출시기가 'AI-native하게 일한다'가 무엇인지 가장 구체적으로 보여줬다. 예전이면 10명이 3개월간
매달렸을 규모의 제품(학원 선생님 수업 준비·자료 관리 자동화)을 3명이 1개월 만에 출시했다.
작성자(Hyeon Heo)는 세 가지 변화를 짚는다 — 첫째, 한 사람이 다룰 범위가 넓어지지만 그만큼 판단할 게
많아져 역설적으로 '잘 판단하는 좋은 동료'의 가치가 더 커졌고, 둘째, 3명 모두가 기획·개발·지표를 함께 봐서
역할 분담보다 병목(현재는 제품 기능이 아니라 유저 유입)이 먼저 보였으며, 셋째, 데일리·위클리 회의를 없애고
1시간마다 스케줄링된 AI가 각자 작업 내역을 슬랙에 자동 전송해 observability를 확보했다(과거 에픽
단위를 이제 태스크 단위로 관리). 가장 인상적인 수치는 **"출시 후 2주간의 제품 변화량이 출시 전 1개월
변화량보다 컸다"**는 대목으로, 인프라 세팅과 협업 방식 적응이 끝나자 10X 생산성을 체감했다는 증언이다.
결론은 "AI native의 핵심은 AI를 얼마나 많이 쓰는가가 아니라 일하는 방식을 AI 전제로 다시 설계하는
것"이다.
같은 시대에 "제대로 만드는 것"의 책임론도 공감을 모았다. HoYeon Lee는 "만드는 것의 진입장벽은 사실상
사라졌지만 제대로 만드는 것은 여전히 다른 문제이고 이 간극은 모델이 좋아진다고 저절로 사라지지 않는다"며,
바이브코딩이 처음엔 미친 듯이 빠르다가 복잡도가 쌓이면 에이전트가 자기 구조에 발이 묶여 가파르게 느려진다고 했다.
책임지는 사람에게 필요한 세 가지는 코딩 에이전트가 어떻게 일하는지에 대한 이해, 제품 개발 프로세스 감각,
최소한의 개발 지식이다. 같은 현상을 elephant_coding은 "바이브코딩으로 하루면 80%가 나오는데 거기가
함정의 입구 — 나머지 20%(엣지케이스·보안·스케일링·프로덕션)에 실제 비즈니스가 살아있다"고 더 날카롭게
표현했다. 'AI Native' 자체의 정의도 다듬어졌다 — Goobong Jeong은 피터 틸이 투자한
Halter(소에게 GPS 스마트 목걸이를 채워 가상 울타리·건강 모니터링, 기업가치 20억 달러)를 예로 들며
"AI Native는 최신 모델을 잘 쓰는 사람이 아니라 산업의 물리적 제약을 소프트웨어로 바꿀 수 있다고 믿는
사람"이라 정의했고, TEO(오태완)는 랄프톤 러닝 해커톤에서 커피챗→채용 확정→출근까지 며칠 만에 진행하며 "전통
채용은 리스크 최소화, AI Native 채용은 업사이드 최대화"라고 정리했다. 해시드의 포켓몬 해커톤(한국 최초,
AI 에이전트가 포켓몬 자율 플레이)에서 나온 "비싼 모델이 전부가 아니다, 짧고 명확한 행동 23개를 시키고6/28, 'Token Valley' 키워드) 같은 커뮤니티 신호가 이어졌다.
곧바로 화면을 다시 확인하는 구조 설계가 핵심"이라는 관찰은 루프 엔지니어링(①)과 직접 맞닿았다. 이 밖에
Codex 주간 활성 사용자 500만 명 돌파(Codex Show & Tell 준비), SparkLabs
SparkClaw 1기 모집(6/8
1인/소수 빌더 경제와 창업 멘탈모델
LinkedIn · David Korn · YouTube · Liam Ottley · YouTube · EO Global · YouTube · 비즈니스캔버스 B_ZCF
소수·1인 빌더 경제의 단면이 여러 글에서 드러났다. Ontora(YC P26)는 출시 한 달 만에 엔터프라이즈
design partner 5곳, 인바운드 데모콜 150건 이상(아웃바운드 0), 라운드 정식 오픈 전
$750K 조달, VC 콜 80건 이상을 보고하며 "병목은 코드가 아니라 context — AI 에이전트가
전 직원을 인터뷰해 업무 방식을 매핑, 컨설팅펌이 4개월 걸릴 일을 며칠 만에"라고 했다. marclou는
SaaS를 $20K MRR까지 끌어올리는 데 512일이 걸린 여정을 공개했고, 표철민은 바이브코딩 전용 배포 서비스
Onpod의 무료 티어를 열었다(웹서버+Postgres 무료 배포, 엣지에서
llms.txt·JSON-LD·sitemap을 자동 생성해 AI-ready로 서빙, Claude
Code/Codex에 "onpod에 배포해줘" 한마디면 URL까지). 도구 자체보다 사업이 edge라는 메시지는
Liam Ottley의 AIOS 데모에서 선명하다 — Higgsfield+Claude+Notion+Apify로 1인
크리에이티브 에이전시 풀스택을 하루에 만들어 UGC 영상 비용을 200~500달러에서 약 5달러로 줄이지만, "스택
자체는 경쟁우위가 아니다, edge는 생성 전후(클라이언트 발굴·리테이너 클로징·기대치 관리)"라고 못 박는다.
창업 멘탈모델도 두 편에서 강하게 나왔다. Serval의 Jake Stauch(18개월 만에 10억 달러 밸류,
Sequoia 리드 7,500만 달러 시리즈 B)는 "rabid fans는 PMF가 아니다"라며 이전
실패(Neuroplus: 열성팬은 있었지만 시장이 너무 작음)와 진짜 PMF(Verkada: 망친 데모에도 고객이
즉시 견적 요청)를 대비시키고, "PMF 판단엔 ruthless해야 한다, 초기 고객이 공통적으로 이상하고 나머지
시장으로 gradient가 안 보이면 위험"이라는 신호를 줬다(방법론은 "인터뷰가 아니라 관계 — 하루 5~6시간
고객 콜, 고객 Slack 상주"). Joe Lonsdale이 정리한 피터틸식 사고는 "effort는 convex
— 80% 집중은 90% 집중의 절반밖에 안 되고 99th percentile이 90th보다 압도적으로 가치
있다(1등이니까)", "이유가 4개면 충분히 생각 안 한 것(지배적 이유 1개)", "포커스 분산은 용기의
부재(cowardice)", "enjoyment is efficiency"로 압축된다.
개발자 직업·AI 일자리·노동 현실
LinkedIn · Jimin Choi · Reddit · r/automation · YouTube · 비즈니스캔버스 B_ZCF
개발자 직업의 미래가 학생·실무자·CEO 사이에서 동시에 논쟁됐다. 소프트웨어 마이스터고 재학생 Jimin
Choi의 "개발자라는 직업의 멸망"은 사람이 코드를 짜는 일은 글쓰기처럼 특별할 것 없는 기본기가 되고 차별점
없는 사람은 대체되며, '취업률' 중심 교육은 구식이고 미래의 개발자는 코드를 '짜는' 사람이 아니라 무엇을 왜
만들지를 '결정하는' 사람이라고 진단했다(바이브코딩 책임론과 같은 방향을 학생 관점에서 본 것). 기회론도 함께
돌았다 — 마크 큐반의 "수백만 회사는 AI 예산도 AI 전문가도 없다"가 재확산되며 시장이 비어 있다는 신호로
읽혔고, Stanford가 "Anthropic이 연 $750,000+를 주고 뽑는, LLM 아키텍처를 밑바닥부터 짤
수 있는 엔지니어" 역량을 1시간 무료 강의로 공개했다는 학습 자원도 공유됐다.
운영 현실은 더 복잡하다. r/automation에서는 "AI로 생산성이 오르자 기대치가 같이 올라
baseline이 곱절이 됐고, 결과적으로 업무량이 줄지 않고 번아웃 위험만 커졌다"는 토로가 나왔다. 매크로
시각에서는 Jamie Dimon이 미국 AI 투자가 작년 4,500억 → 올해 7,500억 → 내년 1조 달러로
늘며 글로벌 재정적자와 맞물려 금리·신용 스프레드를 밀어올릴 수 있다고 경고하면서, AI 일자리에 대해 "모든
앱·프로세스·직무가 영향받고 일자리를 줄일 것이지만, 연 10% 자연 감소(2.53만 명/년)로 재교육·재배치하면2026-03 추세는 직접 코드 생성에서 knowledge/conceptual support로 무게가
된다 — 향후 5년 미국에 연 10만 달러 trade job 800만 개가 생긴다, 무력하지 않다 준비만 하면
된다"고 했다. "AI가 저가치 인적자본을 쓸어낸다"는 발언에는 "전 직급에 영향, back office가 줄면 더
많은 고객을 커버할 front office가 필요"하다고 반박했다. 실제 GitHub 데이터(코드 주석
35,361개 분석)도 이 양상을 뒷받침하는데, AI 활용은 code implementation이 최다지만 후속
커밋의 Refactoring·Bug Fixes가 지배적이어서 지속적 인간 감독을 시사하고,
2022-12
이동했다.
NVIDIA 'AI 팩토리'와 한국 산업 줄세우기
LinkedIn · SNEW스뉴 · X · Elon Musk
젠슨 황 NVIDIA CEO의 방한이 한국어·영어 SNS를 동시에 점령했다. 1년도 안 돼 두 번째 방한이며 모든
메시지가 'AI 팩토리'로 수렴했다 — 반도체·데이터센터·로보틱스·에너지를 아우르며 전력·데이터를 원료로 토큰을
끊임없이 생산하는 차세대 데이터센터로, 젠슨 황은 "사람에게는 클라우드가 필요하지만 로봇에는 AI 팩토리가
필요하다"며 로보틱스 시대를 겨냥했다. 파트너 역할 분담이 구체적으로 공개됐다 — 네이버(설계·자본투자·글로벌
수요처 공동 구축), SK하이닉스(차세대 AI 메모리 공동개발), 전력·열 관리는 현대차·LG·두산(현대차 새만금에
NVIDIA 참여 긍정 검토, LG 로봇·액체냉각, 두산 원전·로봇). 화제성으로는 삼겹살-소맥 회동, 잠실 야구장
시구, BBQ 치킨 113마리, 페이커와 PC방, 전세계 최초 예능 출연이 쏟아졌고, Elon Musk의
"Korea is Awesome" 트윗은 78,112 likes로 이번 SNS 데이터 전체 최고 인게이지먼트를
기록했다. 다만 한국어권에서는 "전세계 시총 1위가 팬서비스를 하는 데는 이유가 있다, 마냥 좋아하고 재미있게만
보면 안 된다"는 경계론(choi.openai)도 동시에 제기돼 환호와 분석이 갈렸다.
⑧ AI와 사회·문화
"AI는 더 적게가 정답" — LLM을 다시 떼어낸 운영 현실
에이전트 도입 통념을 정면으로 반박하는 현장 케이스가 r/AI_Agents에서 260추천을 받았다. 한 자동화
프리랜서가 Zendesk 기반 15인 지원팀의 티켓 라우팅에 LLM을 쓰자 프로덕션 정확도 92%가 나왔지만, 하루
100건 규모에서 7~8건 오라우팅이 발생했고 "왜 틀렸는지 추적 불가(black box)"라 팀이 전수 재검수에
들어가며 작업이 이중화됐다. 정확도 자체는 나쁘지 않았는데 신뢰가 깨지자 사람이 옆에 shadow process를
만들어 도구가 무력화된 것이 핵심이다. 클라이언트의 "더 멍청하게(dumber) 만들어달라" 요청에 LLM을 빼고
키워드 매처 + 약 30개 규칙 엔진 + 미매칭 드롭다운으로 3일 만에 재구축하자 정확도 99%(규칙 투명),3초→즉시, 월 API 비용 $180→$0이 됐다. 작성자 결론은 "문제는 정확도가 아니라 설명
지연 2
가능성(추적 가능성) — 팀이 로직을 추적할 수 없으면 어떤 에이전트든 똑같이 우회당한다"이다.
AI 콘텐츠 동질화·슬롭·학술 검증 위기
Reddit · r/ChatGPT · Reddit · r/ArtificialInteligence · GeekNews
"AI 생성물 범람이 신뢰를 침식한다"는 축이 여러 곳에서 동시에 나타났다. r/ChatGPT
최상위급(1,319추천·댓글 614)의 문화 관찰은 AI 글쓰기 특유의 tell("not just x, it's
y", em dash, "era", "honestly? that's growth")이 사람들의 캐주얼 텍스트와 실제
대화로까지 번지고 있으며, 작성자는 이 패턴을 감지하면 상대 커뮤니케이션 신뢰를 잃는다고까지 말한다("사람이 AI를
훈련시키는 만큼 AI가 사람을 훈련시키는가"). 학술 인프라의 첫 제도적 대응으로 ArXiv가 AI
slop(생성형으로 양산된 저질 논문) 제출자를 1년 제재하기로 했다(같은 "논문 급증→peer-review
신뢰 위기"의 다른 단면으로 중국 연구자 대상 인종주의 비판 글도 159추천으로 올랐다). 실무 해법으로는 마케터
Sumin Yu의 사례가 공감을 모았는데, 콘텐츠 자동화 도구를 1년간 네 번
바꿨지만(ChatGPT→Gemini→Claude Web→Claude Desktop) "어떤 툴을 써도 슬롭은
남는다"는 결론에 이르렀고(진짜 문제는 AI가 자기 글을 검수하지 못한다는 점 — "슬롭 제거해줘" 하면 "이미
자연스러운데요?"라고 답함), 직접 '안티슬롭 스킬' 파일을 만들어 거슬리는 표현을 저녁마다 한 줄씩 추가한 것이
1년 뒤 가장 자주 손보는 자산이 됐다.
구조적 배경은 추천 알고리즘이다. BBC 보도에 따르면 능동 포스팅이 영국에서 61%→49%로 줄고 사회적 교류는
비공개 그룹으로 옮겨갔는데, 핵심 동인은 Meta의 'unconnected content
recommendations' AI — 팔로우 관계와 무관하게 머신이 좋아할 콘텐츠를 채워 소셜 그래프를
무의미하게 만든다. 비즈니스 측면에서 글로벌 소셜 광고는 2026년 3,170억 달러로 커지고 Meta 광고
매출(2,430억 추정)이 처음 Google을 넘을 전망이다. 같은 정서를 "도파민 프래킹" 에세이가 받쳐주는데,
알고리즘·AI가 콘텐츠를 "가장 강한 도파민 한 방"으로 최적화하면서 합성 딸기 향이 실제 딸기의 수백 가지 경험을
대체하듯 문화의 다양성을 단일 합성 추출물로 환원한다는 비유다.
기타 주목할 콘텐츠
Donut Lab '전고체 배터리'가 평범한 리튬이온으로 판명
CES 2026에서 400 Wh/kg·10만 사이클·5분 충전의 나트륨이온 전고체로 화제였던 Donut Lab이
실제로는 리튬이온 셀이었다는 증거가 나왔다(VTT 전압 곡선이 고니켈 NCM과 일치, 흑연 음극 특유의
"kink", 실측 약 298 Wh/kg). 약 2,500만 달러를 1,300명 이상(900명+가 소액
투자자)에게서 조달했고 VC 실사를 피하려 기술 검증 능력 없는 소액 투자자를 노렸다는 게 조사 결론으로, 핀란드
당국이 조사 중이다(Toyota·Samsung SDI의 진짜 프로그램과 대조).
SBF, Trump에 사면 신청
사기·자금세탁으로 25년형 복역 중인 FTX 공동창업자 Sam Bankman-Fried가 Trump에게 공식 사면을
신청했다(DOJ 사면검사실 등재). Trump 2기 개인 사면의 절반 이상이 화이트칼라 범죄였고 사면자 다수가
정치자금 거액 기부자였다는 맥락이 함께 거론된다.
TI-84 Plus 운영체제 전체 리버스 엔지니어링
Hacker News · siraben.github.io
교실 계산기 TI-84 Plus의 OS(2.55MP, 1 MiB 플래시)를 통째로 분석한 문서로, 한 번에 64
KiB만 보는 Zilog Z80의 한계를 4-slot 페이징 + "bcall"(rst 28h 시스템콜)로 넘긴
구조, 9바이트 BCD 부동소수점 엔진(OP1~OP6), 변수 할당 테이블, TI-BASIC 토크나이저를
Ghidra로 신뢰도 플래그까지 달아 정리했다.
왜 세포는 작은가 — 표면적과 확산의 물리
세포 크기를 제약하는 두 물리량(부피는 반지름 세제곱·표면적은 제곱으로 커지는 표면적-부피 비, 분자 충돌 확률을
떨어뜨리는 확산)을 설명한 에세이. 정자 30 µm³ vs 난자 4,000,000 µm³(10만 배 차이), 단백질
횡단 시간(1µm 0.01초 / 1mm 4분 / 1cm 6시간+), 그리고 부피의 65~95%를 빈 vacuole로
채워 규칙을 우회하는 거대 박테리아 예외가 흥미롭다.
교차 분석
"신뢰성은 모델이 아니라 하네스에서 온다"가 SNS·뉴스·논문·영상을 가로지른 단일 합의였다. Anthropic의 결정론적 검색층(gget virus로 16.9~91.3%→90%+), Etsy의 미들웨어(spin·ID 환각을 결정론 코드로 차단), Jane Street의 "프로토타입=living proposal, 코드=일회용", 강규영의 "code as harness", 그리고 논문 HarnessForge(하네스-정책 공진화 +12%)·RISE(경계 지어진 상호작용 공간으로 1/4 비용)가 전부 같은 결론에 도달했다. 흥미로운 긴장은 Tokenomics 논문이 보여준 비용 구조다 — 에이전트 SW 엔지니어링 비용의 59.4%가 코드 생성이 아니라 Code Review에 쏠리는데, 이는 FrontierCode가 "merge 가능한 품질"을, Command Center가 "AI 슬롭 정리"를 별도 도구로 만든 이유와 정확히 같은 지점(생성은 싸고 검증·정리가 비싸다)을 가리킨다.
같은 프런티어 모델이 SNS에서는 "출시·잠식", 뉴스에서는 "자본·컴퓨트", 논문에서는 "약점 노출"로 다르게 비쳤다. Opus 4.8은 SNS에서 "한 줄 마이그레이션이 래퍼 스타트업을 지웠다", Reddit에서 "부지런하지만 신경질적", FrontierCode에서 "Diamond 13.4%", ResearchClawBench에서 "Claude Code 21.5/50"으로 동시에 나타났다 — 출시 서사와 실제 능력 평가 사이의 간극이 한 화면에 잡힌 셈이다. Xiaomi 1T 1000tps도 뉴스(기술 발표)와 Reddit(465추천·"미검증" 회의론)이 같은 사건을 발표와 사용자 반응으로 갈라 보여줬다.
토큰 경제학이 정반대 두 입장으로 동시에 터졌다. Benedict Evans는 "토큰은 ROI로 회귀한다, 파운데이션 모델은 제품이 아니다"로, Naval은 "토큰을 낭비해 시간을 아껴라"로 정면 충돌했고, 노정석·Jamie Dimon은 "토큰은 전기처럼 싸진다"는 중간 지점에 섰다. 이 논쟁은 추상이 아니라 인프라 수치로 받쳐진다 — Dimon의 미국 AI 투자 4,500억→1조 달러와 Evans의 빅4 capex 7,000억 달러(매출 50%+)가 같은 "물리적 천장" 우려를 가리키고, xAI가 자사 GPU를 경쟁사에 임대하는 REIT화는 그 컴퓨트 부족이 자본·인프라 우위를 가르는 변수가 됐다는 증거다.
Apple의 Gemini 선회와 AI 랩 IPO 레이스는 "2026 상반기 AI 산업 재편"의 양면이다. Apple이 자체 모델을 접고 Google에 의존하는 것과, OpenAI(비공개 S-1)·Anthropic(9,650억 달러 신청)이 상장 준비에 들어간 것은 같은 흐름 — 모델 경쟁이 성숙기에 접어들며 일부는 외부 의존으로, 일부는 자본시장 진입으로 갈라지는 국면이다. 특히 Anthropic이 IPO 신청 3일 뒤 "AI가 스스로 개선한다"는 보고서를 낸 타이밍은 "가장 강력한 모델 보유" 서사와 자본화가 분리되지 않는다는 것을 보여준다.
생산성과 위험이 같은 표면에서 자란다. AI 코딩 에이전트의 일상화(Ask HN 하이퍼퍼스널 유틸 폭증, Codex 주 400만, Jane Street 디자인)와 Miasma 웜(에이전트가 패키지를 여는 순간 발동)은 동전의 양면이고, Anthropic의 안전 운영(자체 판단 신고 확대 + 맥락맹 자동 밴)이 정당한 보안 개발자를 잘못 때린 사례는 "안전이 실사용자를 어떻게 잘못 때리는가"라는 또 다른 신뢰 경계 문제를 드러냈다. ArXiv slop 제재, 사람 말투의 ChatGPT화, Thermo Fisher 데이터 조작까지 묶으면 "AI가 만든/매개한 콘텐츠를 어디까지 신뢰할 것인가"가 올해 상반기의 가장 끈질긴 질문임이 분명해진다.
Powered by skim