Daily Digest — 2026-06-07

에이전트 운영 계층, 로컬 실행, 안전성 평가, 멀티모달·로보틱스 연구가 동시에 재배치된 날

Daily Digest — 2026-06-07

오늘의 핵심 흐름

  1. 에이전트 경쟁의 중심이 프롬프트에서 하네스, 메모리 구조, 검증 루프로 이동했다.
  2. 로컬 실행은 더 이상 취미성 실험이 아니라 소형 코딩 모델, 엣지 샌드박스, 저지연 로봇 제어로 이어지는 제품 축이 됐다.
  3. 안전성 논의는 모델이 무엇을 말하느냐보다 실제 워크스페이스와 계정, 훈련데이터, 생체정보에 어떤 결과를 남기느냐를 묻기 시작했다.
  4. 추론 연구는 정답 한 번 맞히기보다 delayed reward, adaptive opponents, 재계획, 미래 연구판단처럼 더 긴 호흡의 문제로 이동했다.
  5. 멀티모달과 로보틱스는 더 큰 모델보다 더 적절한 표현 단위, 더 싼 추론 경로, 더 현실적인 데이터셋으로 차별화되고 있다.
  6. 공공 인프라와 빌더 경제에서는 AI 자체보다 결제 레일, 주권, 과금 구조, 배포 이후 운영이 더 중요한 변수로 떠올랐다.

에이전트 운영체제와 기억 계층

이번 묶음은 에이전트를 더 오래, 더 크게, 더 안전하게 굴리기 위해 어떤 운영 계층이 필요해졌는지 보여 준다. 요약 메모리의 품질, 툴 메타데이터, 배포 표준화, proactive discovery가 모두 같은 문제를 다른 층에서 건드린다.

프롬프트보다 루프와 하네스가 제품이 된다는 SNS 합의

LinkedIn/X/Threads · Laurie Voss, Goobong Jeong, Boris Cherny 외
LlamaIndex 공동창업자 Jerry Liu 쪽 문제의식으로 "프레임워크 시대가 끝나고 context quality와 harness가 제품의 핵심"이라는 내러티브가 확산 중이다.
Anthropic 데이터팀 사례에서는 분석 쿼리 정확도가 약 95%이며, skill을 제거하면 21%까지 하락했다는 수치가 제시됐다.
Boris Cherny 발언으로 "직접 프롬프트하지 않고 loops를 짜서 Claude가 다음 일을 판단하게 한다"는 사용 패턴이 반복 인용됐다.
Harness-1 소개 글은 후보·증거·검증·검색 기록을 외부화하는 state-externalizing harness를 전면에 내세웠다.
이 항목은 에이전트를 더 오래 돌릴수록 프롬프트보다 상태 구조와 운영 절차가 중요해진다는 사실을 보강한다.

요청 대기형에서 선제 탐지형으로 넘어가는 에이전트 가치

Threads/LinkedIn/X · conanssam, James Brady 재인용, Grace Yoon
KAIST의 TIDE는 사용자가 지시하지 않아도 문서·이메일·캘린더·코드 전반에서 숨겨진 문제를 찾아내는 proactive agent 프레임워크로 소개됐다.
James Brady 재인용 포스트는 "프로덕션의 모든 에이전트는 거짓말하며, 좋은 에이전트는 더 적게 거짓말하고 훌륭한 에이전트는 사용자보다 먼저 그 거짓을 잡는다"는 검증 스택 관점을 전했다.
Grace Yoon은 HBS의 jagged frontier 개념을 빌려, AI를 역량 경계 밖에 투입하면 성과가 오히려 19% 하락할 수 있다고 정리했다.
같은 작성자는 이해 부채와 재현성 부족을 "결과물이 좋아 보여도 조직 자산이 되지 않는 이유"로 연결했다.
이 항목은 에이전트를 더 오래 돌릴수록 프롬프트보다 상태 구조와 운영 절차가 중요해진다는 사실을 보강한다.

Worktrees·Design Mode·usage limit이 보여 주는 조작 인터페이스 경쟁

X · Elon Musk, Boris Cherny, Cursor
Grok은 "worktrees 지원" 한 줄 업데이트만으로도 큰 반응을 얻었다.
Claude Cowork는 다음 한 달 동안 5시간 기준 usage limit을 두 배로 늘린다고 공지했다.
Cursor는 Design Mode를 공개하며, UI를 가리키고 그리거나 말해서 업데이트하는 상호작용 방식을 전면에 내세웠다.
후속 팁 포스트에서는 Design Mode 단축키와 트리 탐색 방식이 공유됐다.
이 항목은 에이전트를 더 오래 돌릴수록 프롬프트보다 상태 구조와 운영 절차가 중요해진다는 사실을 보강한다.

에이전트 시대의 새 인프라 경쟁: 메모리 표준부터 엔터티 단위 코드 이해까지

Hacker News · Universal Memory Protocol / sem
UMP는 MCP가 도구 호출에 한 일을 에이전트 메모리에도 하겠다는 제안으로, 세션·에이전트·벤더를 넘는 이식 가능한 기억 포맷과 연산 집합을 표준화하겠다고 한다.
UMP는 MCP 서버, TypeScript SDK, HTTP 계층을 제공해 파일·DB·벡터 스토어에 흩어진 메모리를 하나의 휴대 가능한 형태로 다루겠다는 구상이다.
sem`은 Git 위에서 함수/클래스 같은 엔터티 단위 diff·blame·impact를 제공하며, 라인 diff보다 AI 에이전트 정확도가 2.3배 높아졌다고 주장한다.
요지는 LLM 자체보다 “무엇을 기억시키고 어떤 단위로 코드 변경을 설명하느냐”가 실무 정확도를 가른다는 것이다.
이 항목은 에이전트를 더 오래 돌릴수록 프롬프트보다 상태 구조와 운영 절차가 중요해진다는 사실을 보강한다.

MCP 담론이 툴 연결에서 계획 가능한 인터페이스 설계로 옮겨간다

Reddit · myfear3 / r/mcp, ipogrid / r/mcp, Cute_Barracuda_2166 / r/mcp
GitHub MCP 서버는 실제 질문 전에 툴 정의·diff·gh 출력 때문에 17k 토큰 가까이를 소모할 수 있다는 문제 제기가 나왔다.
MCP는 입출력 스키마만으로는 부족하고 side_effects, latency_class, cacheability, cardinality 같은 실행 메타데이터가 필요하다는 제안이 나왔다.
Swagger/OpenAPI를 직접 읽어 AI 코딩 에이전트가 최신 API 계약을 참조하게 하는 오픈소스 MCP 서버도 등장했다.
이 항목은 에이전트를 더 오래 돌릴수록 프롬프트보다 상태 구조와 운영 절차가 중요해진다는 사실을 보강한다.

Hermes 커뮤니티가 메모리 품질과 산출물 보존을 더 걱정하기 시작했다

Reddit · Sjsamdrake / r/hermesagent, richtopia / r/hermesagent, Proud_Cantaloupe_695 / r/hermesagent
Hermes 사용자는 외부 메모리(Mnemosyne)에서 중복·오탈자·잘린 문자열이 대량으로 쌓이는 현상을 공유했다.
다른 사용자는 12시간 자율 작업 후 칸반 워크스페이스가 정리되며 결과물이 사라지는 경험을 보고했다.
같은 커뮤니티에는 persona 파일 모음인 SOUL.md 같은 프롬프트 기반 캐릭터 스티어링 저장소도 올라와, 메모리·정체성·지속성 문제가 함께 논의되고 있다.
이 항목은 에이전트를 더 오래 돌릴수록 프롬프트보다 상태 구조와 운영 절차가 중요해진다는 사실을 보강한다.

LangChain이 말하는 에이전트 운영 경쟁의 본체는 observability다

YouTube · LangChain
LangChain은 Google ADK 에이전트를 LangSmith Deployment에 올리는 래퍼 경로를 소개했다.
배포 시 persistence, streaming, tracing, API endpoint, Studio 연결을 기본 제공한다는 점을 강조한다.
Odessia 사례에서는 저지연 소비자용 여행 에이전트 운영에서 trace 집계와 코드·eval 결합 분석이 중요하다고 설명한다.
엔지니어가 아닌 팀원도 Engine을 통해 이슈를 진단하고 PR을 열 수 있다는 “디버깅의 민주화”를 핵심 가치로 제시한다.
이 항목은 에이전트를 더 오래 돌릴수록 프롬프트보다 상태 구조와 운영 절차가 중요해진다는 사실을 보강한다.

OpenAI Sites가 Codex를 내부 앱 퍼블리싱 도구로 확장하는 방식

YouTube · OpenAI
OpenAI는 Codex 안에서 아이디어를 보안된 앱으로 만들고 바로 배포하는 Sites 기능을 소개했다.
Sites는 호스팅, 인증, 저장소, 데이터베이스를 기본 제공한다고 설명한다.
Codex plugins·skills로 팀 도구의 문맥을 가져와 앱 생성과 반복 수정을 대화형으로 진행하는 흐름을 제시한다.
예시 용도는 계정 브리프, 이벤트 준비 허브, 투자 메모 등 내부 업무용 미니앱이다.
이 항목은 에이전트를 더 오래 돌릴수록 프롬프트보다 상태 구조와 운영 절차가 중요해진다는 사실을 보강한다.

TokenMizer: Graph-Structured Session Memory for Long-Horizon LLM Context Management

X · arXiv
긴 작업 세션이 MECW(Maximum Effective Context Window)를 넘을 때 flat summary가 관계 구조를 잃는 문제를 겨냥한다.
세션 히스토리를 14개 노드 타입과 7개 엣지 타입의 typed knowledge graph로 저장하는 TokenMizer를 제안한다.
3단계 체크포인트 구조와 하이브리드 추출 파이프라인을 결합한다.
평균 task recall 51.0%, decision recall 46.6%, file recall 58.7%를 기록했고, fuzzy label matching이 task recall에 +33%p 기여한다.
휴리스틱 압축만으로 토큰을 47.3% 줄였다고 보고한다.

Agent Memory: Characterization and System Implications of Stateful Long-Horizon Workloads

X · arXiv
agent memory를 flat retrieval, LLM extraction, consolidated fact store, agentic control flow 등 네 축으로 분류하는 시스템 taxonomy를 제시한다.
10개 대표 시스템을 대상으로 construction, retrieval, generation 비용을 분리 계측하는 profiling harness를 만든다.
LongMemEval 기준 BM25가 정확도 47.0으로 최고였고, GraphRAG 46.0, HippoRAG v2 44.3이 뒤를 이었다.
그러나 construction 비용과 에너지 차이는 훨씬 커서, 에너지 per correct answer 격차가 47x를 넘는다고 보고한다.
핵심 결론은 query serving보다 memory construction이 더 지배적인 병목이라는 점이다.

DragOn: A Benchmark and Dataset for Drag-Based GUI Interactions

X · arXiv
drag grounding 데이터 부족 문제를 겨냥해 text highlighting, cell selection, element resizing, slider manipulation의 4개 도메인을 묶은 벤치마크를 만든다.
데이터 규모는 286,012 training screenshots, 3,560,142 training tasks, held-out eval 2,000개다.
현존 프런티어 모델들도 총점 30%를 넘기지 못했다고 평가한다.
자체 fine-tuned Qwen 35B/A3B는 전체 성공률 35.3%로 Claude Opus 4.7 27.7%, GPT-5.4 25.7%를 앞섰다.
기본 Qwen3.5 35B/A3B는 2.3%에 그쳐, 전용 drag 데이터의 효과가 크다고 보여 준다.

ToolChoiceConfusion: Causal Minimal Tool Filtering for Reliable LLM Agents

X · arXiv
큰 tool menu가 오히려 wrong-tool call, premature action, token cost를 키운다는 문제를 다룬다.
CMTF는 semantic relevance가 아니라 causal sufficiency를 기준으로 다음 단계에 꼭 필요한 도구만 노출하는 training-free 방법이다. 102개 태스크, 100개 도구, 4개 LLM, 총 2448 runs에서 평가했다. 성공률은 all-tools 0.83에서 0.99로, wrong-tool call은 1.25에서 0.01로, 평균 토큰은 24,569에서 2,405로 줄였다. 한 step당 노출 도구 수를 100개에서 1`개로 줄이면서도 full causal path baseline과 같은 성공률을 유지했다.

숨은 문제를 여러 개 찾아내는 proactive agent 프레임워크 TIDE

Hugging Face · TIDE
TIDE는 사용자의 명시적 요청 없이 문맥 속 여러 숨은 문제를 발견하는 과제를 정식화한다.
핵심 메커니즘은 누적 발견 상태를 조건으로 다음 후보를 찾는 iterative discovery와, 문제 유형별 evidence flow를 담은 thought template이다.
개인 워크스페이스와 소프트웨어 저장소 두 환경에서 평가했다.
GPT, Gemini, Claude, Qwen 등 네 백본 전반에서 single-shot·parallel multi-agent baseline보다 coverage, identification, resolution이 모두 개선됐다.
이 항목은 에이전트를 더 오래 돌릴수록 프롬프트보다 상태 구조와 운영 절차가 중요해진다는 사실을 보강한다.

프롬프트 최적화 에이전트의 자기 프롬프트까지 진화시키는 SePO

Hugging Face · SePO
기존 system prompt optimization은 task agent의 프롬프트만 최적화하고 prompt agent 자신의 프롬프트는 손으로 고정해 두는 경우가 많았다.
SePO는 prompt agent의 system prompt 자체를 최적화 대상으로 포함하는 self-referential design을 제안한다.
multi-task pre-training 후 target task fine-tuning을 하는 2단계 파이프라인을 쓴다.
AIME'25, ARC-AGI-1, GPQA, MBPP, Sudoku의 5개 벤치에서 Manual-CoT 대비 평균 정확도 4.49%p 향상을 보고했다.
이 항목은 에이전트를 더 오래 돌릴수록 프롬프트보다 상태 구조와 운영 절차가 중요해진다는 사실을 보강한다.

Hugging Face paper card

Hugging Face · Hugging Face paper card
저자들은 장기 에이전트 실패 원인을 “요약 메모리가 유도하는 belief의 불확실성”으로 본다.
Belief Entropy를 intermediate memory quality의 자기지도 proxy로 제안했다. MMPO는 최종 outcome reward에 더해 turn-level dense memory reward를 준다.
RULER-HotpotQA에서 1.75M 토큰 컨텍스트까지 기존 RL-MemAgent보다 더 안정적이었다.
이 항목은 에이전트를 더 오래 돌릴수록 프롬프트보다 상태 구조와 운영 절차가 중요해진다는 사실을 보강한다.

Hugging Face paper card

Hugging Face · Hugging Face paper card
DataCOPE는 정답 라벨 없이 탐색 trajectory들에서 verifier signal을 뽑아 스킬을 발견하는 프레임워크다. 보고서형 분석에는 Adaptive Checklist Verifier, 정답형 추론에는 Answer Agreement Verifier를 쓴다. 4개 모델 평균으로 report-style은 9.71%, reasoning-style은 32.30%` 성능 향상을 보고했다.
Deep Data Research와 DABStep 두 종류의 데이터 분석 벤치마크에 모두 적용했다.
이 항목은 에이전트를 더 오래 돌릴수록 프롬프트보다 상태 구조와 운영 절차가 중요해진다는 사실을 보강한다.

AdaPlanBench: Evaluating Adaptive Planning in Large Language Model Agents under World and User Constraints

Hugging Face · Hugging Face Papers entry for "AdaPlanBench: Evaluating Adaptive Planning in Large Language Model Agents under World and User Constraints"
사용자 제약과 세계 제약이 상호작용 중 점진적으로 드러나는 planning 문제를 다룬다.
이를 평가하기 위한 동적 인터랙티브 벤치마크 AdaPlanBench를 제안한다.
핵심 평가지점은 계획뿐 아니라 재계획(re-plan) 능력이다.
기존 벤치마크가 점진적으로 공개되는 dual constraints를 충분히 다루지 못한다는 비판 위에 서 있다.
이 항목은 에이전트를 더 오래 돌릴수록 프롬프트보다 상태 구조와 운영 절차가 중요해진다는 사실을 보강한다.

AURA: Intent-Directed Probing for Implicit-Need Surfacing in Situated LLM Agents

Hugging Face · Hugging Face Papers entry for "AURA: Intent-Directed Probing for Implicit-Need Surfacing in Situated LLM Agents"
겉으로 드러난 질문 뒤에 숨어 있는 implicit need를 캐내는 문제를 다룬다.
IntentFrame`이라는 구조화된 중간 표현과 gap score를 도입한다.
scene perception과 tool use 사이에 probing 단계를 삽입한다.
100-query, four-scene implicit-needs benchmark에서 평가했다고 밝힌다.
이 항목은 에이전트를 더 오래 돌릴수록 프롬프트보다 상태 구조와 운영 절차가 중요해진다는 사실을 보강한다.

arxiv2-24452

X · arXiv
인간-에이전트 협업 연구용 데이터셋 Almanac을 제안한다.
Map Task 기반 25개 dyad 세션, 50명 참여자, 2,987개 협업 action에 mental model annotation을 붙였다.
각 action에 self-reasoning, perceived partner intent, shared team goal, rationale을 기록한다.
6개 LLM으로 다음 행동 예측과 mental model 예측을 벤치마크했다.
현재 모델이 협업 행동은 어느 정도 다뤄도 인간 내적 reasoning 추론에는 한계가 있음을 보인다.

arxiv3-08

arXiv · Unsupervised Skill Discovery for Agentic Data Analysis
데이터 분석 에이전트의 inference-time skill augmentation은 유용하지만, 효과적인 스킬을 찾기 위한 supervision이 비싸다는 문제를 다룬다.
DataCOPE`라는 unsupervised verifier-guided skill discovery 방법을 제안한다.
라벨 없는 exploration만으로 재사용 가능한 데이터 분석 스킬을 발굴하려는 접근이다.
이 항목은 에이전트를 더 오래 돌릴수록 프롬프트보다 상태 구조와 운영 절차가 중요해진다는 사실을 보강한다.

로컬 실행과 경량화 경쟁

소형 모델과 로컬 실행 경쟁은 단순 벤치마크가 아니라 메모리 풋프린트, 지연, tool access, 개인 장비 적합성의 경쟁으로 구체화되고 있다. 커뮤니티 담론과 제품 티저, 논문이 모두 같은 방향을 가리킨다.

16GB 노트북과 맥 위로 내려온 로컬 에이전트 임계점

Threads/X/LinkedIn · qjc.ai, vyblor, cjzafir, Linda Haviv
Threads에서는 Gemma 4 12B가 16GB 노트북 또는 맥에서 로컬 멀티모달 추론을 가능하게 만든다는 메시지가 반복됐다.
X에서는 "31GB 메모리를 4GB로 줄였다"는 메모리 경량화 화제가 강하게 확산됐다. 원문 자체는 2차 전파라 표현은 신중해야 한다.
Mac-1 teaser는 6.6B 모델, 약 7GB RAM 요구, macOS 네이티브 도구 487개 사용, 약 65 tok/s 출력이라는 사양을 제시했다.
NVIDIA RTX Spark superchip은 최대 120B 모델 로컬 실행, 128GB unified memory, 1 PFLOP FP4 AI 성능, 로컬 fine-tuning/agent 실행 가능성을 전면에 내세웠다.
핵심은 모델 스펙 경쟁이 아니라 메모리·지연·도구 접근을 포함한 실행 가능 구간이 실제로 내려오고 있다는 점이다.

Thinking Machines Lab이 조직 소음 속에서도 interaction model을 전면화한 이유

LinkedIn · TNW
Thinking Machines Lab이 샌프란시스코에서 interaction models를 미리 공개했다.
회사는 20억 달러를 조달했고 NVIDIA 컴퓨트 1GW를 확보했다고 소개됐다.
새 모델 응답 속도는 0.40초 수준으로, 인간 대화 속도에 근접하다는 포인트가 강조됐다.
공동창업자 Barret Zoph와 Luke Metz는 1월 OpenAI로 복귀했고, 창립 멤버 5명은 Meta로 이탈했다는 설명이 함께 붙었다.
핵심은 모델 스펙 경쟁이 아니라 메모리·지연·도구 접근을 포함한 실행 가능 구간이 실제로 내려오고 있다는 점이다.

로컬·엣지 실행 경쟁이 다시 뜨거워진다: 더 작은 모델, 더 안전한 샌드박스

GeekNews · Google Gemma 팀
Google은 Gemma 4용 QAT 체크포인트를 공개하며 모바일 특화 양자화 포맷으로 E2B 메모리 사용량을 1GB까지 낮췄다고 밝혔다.
핵심 메시지는 PTQ보다 QAT가 품질 손실을 줄이면서 소비자 GPU·모바일 기기에서 로컬 실행 가능성을 높인다는 점이다.
Simon Willison은 micropython-wasm을 알파로 공개하고, 플러그인성 Python 코드를 파일·네트워크 접근이 제한된 샌드박스에서 실행하는 실험을 소개했다.
둘을 함께 보면 “작게 돌린다”와 “안전하게 돌린다”가 엣지 AI의 쌍으로 움직이고 있다.
핵심은 모델 스펙 경쟁이 아니라 메모리·지연·도구 접근을 포함한 실행 가능 구간이 실제로 내려오고 있다는 점이다.

Cohere가 출시 전 코딩 모델을 로컬 커뮤니티에 먼저 푼 이유

Reddit · nick_frosst / r/LocalLLaMA
Cohere 직원 Nick Frosst가 정식 출시 전 코딩 특화 모델 BLS-Mini-Code-1.0을 Reddit 커뮤니티에 선공개했다.
모델은 30B 규모에 3B active params 구조라 로컬 구동성과 속도를 핵심 장점으로 제시했다.
Hugging Face에서 먼저 배포하고, 커뮤니티 피드백을 반영해 공식 출시를 다듬겠다는 메시지를 명시했다.
핵심은 모델 스펙 경쟁이 아니라 메모리·지연·도구 접근을 포함한 실행 가능 구간이 실제로 내려오고 있다는 점이다.

하이엔드 맥북이 Claude Code·Codex를 완전히 대체할 수 있느냐는 질문

Reddit · Brazeuslian / r/ClaudeCode, r/ollama
“MacBook Pro M5 Max 128GB”급 장비로 Claude Code/Codex를 로컬 모델이 완전히 대체할 수 있느냐는 질문이 여러 커뮤니티에 동시 확산됐다.
관심사는 단순 자동완성이나 단발성 질의가 아니라, 멀티파일 수정·에이전트형 왕복 추론·장문 컨텍스트 처리의 대체 가능성이었다.
댓글 수 기준으로도 해당 주제는 r/ClaudeCode 90, r/ollama 23 등 비교적 높은 참여를 끌며 “보완재가 아니라 대체재 가능한가”가 핵심 프레임으로 잡혔다.
핵심은 모델 스펙 경쟁이 아니라 메모리·지연·도구 접근을 포함한 실행 가능 구간이 실제로 내려오고 있다는 점이다.

a16z가 본 초고속 매출 성장과 비용 압박의 동시 확대

YouTube · a16z
영상은 Anthropic·OpenAI의 월별 매출 증가 속도가 Meta·Google·Microsoft보다 빠르다고 주장한다.
화자는 두 회사 합산 매출 런레이트가 2026년 말 2,000억달러에 도달할 수 있다고 본다.
현재 실물경제 확산률은 5% 미만으로 보며, 코딩 외 법률 등 화이트칼라 직무로 확산이 시작됐다고 진단한다.
비용 압박이 오픈소스와 로컬 모델의 중요성을 예상보다 빨리 끌어올릴 것이라고 말한다.
핵심은 모델 스펙 경쟁이 아니라 메모리·지연·도구 접근을 포함한 실행 가능 구간이 실제로 내려오고 있다는 점이다.

Hugging Face paper card

Hugging Face · Hugging Face paper card
저자들은 추론 토큰 예산 배분을 경제학적 shadow price 문제로 정식화했다.
질의별 reasoning utility가 Strict–Surge–Ample의 S-곡선을 따른다고 본다.
CLEAR는 풀 수 없는 질의는 합리적으로 포기하고, 임계점 근처의 질의에 예산을 재배분한다. 자원 부족 구간에서 uniform allocation 대비 최대 3배`의 global accuracy 향상을 보고했다.
핵심은 모델 스펙 경쟁이 아니라 메모리·지연·도구 접근을 포함한 실행 가능 구간이 실제로 내려오고 있다는 점이다.

Hugging Face paper card

Hugging Face · Hugging Face paper card
CBS는 디퓨전 전체 구간을 여러 서브네트워크로 나누되, 단순 균등 분할이 아니라 “근사 난이도 균형” 원리로 경계를 정한다. de Boor의 equidistribution principle을 diffusion timestep 분할에 적용했다. 난이도 추정을 위해 Dirichlet energy 기반 spatial monitor와 path acceleration 기반 geometric monitor 두 가지를 제안한다. SiT-XL with CFG에서 naive temporal partitioning 대비 FID를 약 35%` 개선했다고 보고한다.
핵심은 모델 스펙 경쟁이 아니라 메모리·지연·도구 접근을 포함한 실행 가능 구간이 실제로 내려오고 있다는 점이다.

Code2LoRA: Hypernetwork-Generated Adapters for Code Language Models under Software Evolution

Hugging Face · Hugging Face Papers entry for "Code2LoRA: Hypernetwork-Generated Adapters for Code Language Models under Software Evolution"
코드 LLM이 저장소 수준 컨텍스트를 필요로 한다는 문제를 다룬다.
RAG/긴 입력 주입과 저장소별 LoRA 튜닝의 비용과 취약성을 기존 한계로 지적한다.
저장소별 LoRA adapter를 hypernetwork가 생성하는 Code2LoRA를 제안한다.
추론 시 토큰 오버헤드가 0이라는 점이 핵심 주장이다.
핵심은 모델 스펙 경쟁이 아니라 메모리·지연·도구 접근을 포함한 실행 가능 구간이 실제로 내려오고 있다는 점이다.

arxiv2-24435

X · arXiv
Supervised Memory Training (SMT)은 RNN 학습을 recurrent credit propagation 없이 one-step supervised memory update로 바꾼다. memory label은 Transformer encoder-decoder를 predictive state objective로 학습해 생성한다. SMT는 RNN을 unroll하지 않고 time-parallel하게 학습하며 gradient path를 O(1)`로 줄인다고 주장한다.
언어 모델링과 pixel sequence modeling에서 BPTT보다 더 긴 의존성을 잘 학습했다고 보고한다.
위치는 “Transformer와 RNN의 장점을 섞으려는 시도”에 가깝다.

OPRD: On-Policy Representation Distillation

Hugging Face · Hugging Face Papers entry for "OPRD: On-Policy Representation Distillation"
기존 on-policy distillation이 output probability matching에만 의존한다고 지적한다.
대형 vocabulary에서 Monte Carlo KL 추정 분산이 지속된다는 문제를 짚는다.
teacher hidden state를 버리는 black-box distillation 한계도 비판한다.
OPRD`는 distillation을 hidden-state representation space로 확장한다.
핵심은 모델 스펙 경쟁이 아니라 메모리·지연·도구 접근을 포함한 실행 가능 구간이 실제로 내려오고 있다는 점이다.

arxiv3-06

arXiv · Self-Augmenting Retrieval for Diffusion Language Models
diffusion language model은 denoising 중 버려지는 low-confidence token들조차 retrieval에 유용한 lookahead signal이 될 수 있다고 본다.
이를 활용하는 retrieval-augmented generation 방식 self-augmenting retrieval을 제안한다.
diffusion LM의 병렬 생성 특성을 retrieval 타이밍 개선에 연결한 것이 핵심이다.
핵심은 모델 스펙 경쟁이 아니라 메모리·지연·도구 접근을 포함한 실행 가능 구간이 실제로 내려오고 있다는 점이다.

arxiv3-07

arXiv · You Only Index Once: Cross-Layer Sparse Attention with Shared Routing
긴 문맥 추론에서 sparse attention의 병목 중 하나가 레이어마다 반복되는 top-k routing 비용이라고 지적한다.
You Only Index Once`는 cross-layer sparse attention with shared routing을 제안해 인덱싱을 여러 레이어에서 재사용한다.
structured sparsity의 속도와 token sparsity의 품질 사이 trade-off를 줄이려는 접근이다.
핵심은 모델 스펙 경쟁이 아니라 메모리·지연·도구 접근을 포함한 실행 가능 구간이 실제로 내려오고 있다는 점이다.

보안·거버넌스·품질 검증

보안과 거버넌스에서는 capability가 이미 충분하다는 전제 아래, 누가 책임지고 어떤 경계 안에서 작동하느냐가 중심 의제로 올라왔다. 실제 침해 사례, 워크스페이스 안전 벤치, 데이터 누설 평가가 이 흐름을 묶는다.

Meta의 AI 표면적이 실제 계정 탈취와 잠재적 생체 인식까지 넓어지고 있다

Security · This Week in Security / 404 Media 후속
Meta는 AI 챗봇 악용으로 인스타그램 계정이 탈취된 피해자가 최소 20,225명이라고 메인주 데이터 유출 통지에서 밝혔다.
공격은 2FA가 없는 계정의 비밀번호 재설정 흐름을 챗봇으로 우회한 사례였다.
Meta 스마트 안경 동반 앱 com.facebook.stella 분석에서는 얼굴 검출·정렬·임베딩용 모델 3개와 로컬 DB, 2048차원 벡터 검색, “Person Recognized” 알림 경로가 기기 내에 존재하는 것이 확인됐다.
다만 분석자는 이것이 일반 사용자에게 활성화됐다는 증거까지는 없고, 기능적 장치가 온디바이스에 이미 탑재돼 있다는 점이 핵심이라고 선을 그었다.
즉 안전성은 거절 문구보다 환경 경계, 후상태, 누설 성향처럼 측정 가능한 결과 단위로 이동하고 있다.

오픈소스와 언어 런타임은 이제 코드 자체보다 거버넌스를 먼저 다룬다

Python.org · CPython Steering Council
CPython 운영진은 메인 브랜치의 실험적 JIT 개발을 멈추고, 이를 계속하려면 Standards Track PEP를 통해 장기 유지보수·보안 검토·툴링 지원·배포 의무를 명확히 하라고 요청했다.
Ladybird는 더 이상 공개 PR을 받지 않고, 유지보수자만 코드 변경을 투입하는 방식으로 전환했다.
Ladybird는 AI 도구로 “그럴듯한 대규모 기여”를 싸게 만들어낼 수 있게 되면서, PR 규모가 더 이상 신뢰나 선의를 뜻하지 않는다고 명시했다.
두 사례 모두 기술적 가능성보다 “누가 책임지는가”를 프로젝트의 핵심 판단 기준으로 올리고 있다.
즉 안전성은 거절 문구보다 환경 경계, 후상태, 누설 성향처럼 측정 가능한 결과 단위로 이동하고 있다.

AI 코딩의 현실 점검: 생산성 약속과 보안 성능 사이의 간극

GeekNews · rsync 릴리스 분석 / Kasra Rahjerdi
한 분석은 Claude 도입 이후 rsync 릴리스의 버그 수준이 역사적 분포상 더 나빠졌는지 통계적으로 따져보려 했고, 단순 LOC 비교 대신 릴리스 단위 분포 비교를 택했다.
다른 실험은 취약한 React Native+Python+Firebase 앱을 만들어 여러 LLM에게 공략시키는 데 약 1,500달러를 썼고, 실제 현업에서 반복되는 Firebase/Supabase 권한 오구성 유형을 재현했다.
두 글 모두 “AI가 코드를 더 빨리 만든다”는 일반론 대신, 버그 밀도·보안 공격 성공률 같은 더 불편한 질문을 직접 던진 사례다.
결론을 단정하기엔 표본과 방법론 한계가 있지만, AI 코딩 평가가 이제는 속도보다 품질·보안 메트릭으로 이동하고 있음을 보여준다.
즉 안전성은 거절 문구보다 환경 경계, 후상태, 누설 성향처럼 측정 가능한 결과 단위로 이동하고 있다.

Anthropic 자기개선 서사와 Mythos 과열을 함께 읽는 법

YouTube · Nate Herk
영상은 Anthropic의 “When AI builds itself” 보고서를 바탕으로, 내부적으로 AI가 작성하는 코드 비중이 80%를 넘었다고 해석한다.
open-ended 코딩 과제 성공률이 6개월 전 26%에서 76%로 급등했다는 수치를 핵심 근거로 든다.
Anthropic은 AI가 더 강한 후속 모델을 만들수록 정렬 문제와 통제 불확실성이 커질 수 있다고 경고한다.
Mythos는 공개 범용 모델이라기보다 일부 보안 파트너 대상 제한 배포 성격이며, 일반 공개 기대는 과열됐다는 해석이 나온다.
즉 안전성은 거절 문구보다 환경 경계, 후상태, 누설 성향처럼 측정 가능한 결과 단위로 이동하고 있다.

SABER: Benchmarking Operational Safety of LLM Coding Agents in Stateful Project Workspaces

Hugging Face · SABER
프롬프트 단위 거절 평가가 아니라, 상태를 가진 실제 프로젝트 워크스페이스에서의 행동 결과를 안전성 기준으로 본다.
Docker sandbox 안의 현실적 프로젝트 환경에서 716개 executable task와 13개 모델을 평가했다.
최선 모델도 safe-completion rate가 31.0%에 그쳤고, harmful safety-violation rate는 54% 이상이었다.
동일 작업이 dev에선 허용되지만 prod에선 치명적일 수 있다는 context-aware safety를 강조한다.
위반 원인을 환경 주입, 자율적 위험 선택, 맥락 경고 미인지 등으로 분류한다.

Benchmark Everything Everywhere All at Once

Hugging Face · Benchmark Everything Everywhere All at Once
벤치마크 제작을 자동화하는 Benchmark Agent를 제안한다.
Planner와 Executor로 나뉜 이중 구조가 사용자 요구를 실제 데이터 조건에 맞는 benchmark spec으로 바꾼다.
텍스트 이해, 멀티모달 이해, 도메인 특화 추론을 포함한 15개 representative benchmark를 생성해 평가했다.
인간 평가, LLM-as-a-judge, consistency check로 품질과 구분력을 검증했다.
기존 벤치마크의 제작 비용과 빠른 포화 문제를 지속적으로 갱신되는 benchmark라는 아이디어로 겨냥한다.

훈련 데이터를 뽑아낼 수 있는지와 평소에 새는지는 다르다는 PropMe

Hugging Face · PropMe
기존 memorization 평가는 주로 adversarial prefix attack 기반이라 capability는 보지만 ordinary-use propensity는 잘 못 본다.
저자들은 propensity와 capability를 구분하는 평가 프레임워크 PropMe와 tracing 도구 SimpleTrace를 제안했다.
Comma와 DFM Decoder를 Common Pile·Dynaword에서 평가한 결과, 공격적 프롬프트에서는 기억 신호가 커지지만 비공격적 설정에서 propensity score는 전반적으로 낮았다.
Comma에서 continual pretraining된 DFM Decoder는 Common Pile에 대한 memorization capability와 propensity가 감소했다.
즉 안전성은 거절 문구보다 환경 경계, 후상태, 누설 성향처럼 측정 가능한 결과 단위로 이동하고 있다.

arxiv3-05

arXiv · LLMs Can Leak Training Data But Do They Want To? A Propensity-Aware Evaluation of Memorization in LLMs
기존 memorization 평가는 주로 공격자가 강제로 유도했을 때의 capability를 측정해 왔고, 평상시 사용에서의 propensity는 별도로 봐야 한다고 주장한다.
PropMe라는 propensity-aware 평가 프레임워크와 SimpleTrace`라는 경량 추적 방법을 제안한다.
“데이터를 누설할 수 있는가”와 “보통 상황에서 실제로 누설하려 하는가”를 구분하는 것이 핵심 메시지다.
즉 안전성은 거절 문구보다 환경 경계, 후상태, 누설 성향처럼 측정 가능한 결과 단위로 이동하고 있다.

arxiv3-09

arXiv · LLM Self-Recognition: Steering and Retrieving Activation Signatures
LLM이 자기 생성 텍스트를 식별할 수 있는 내재 신호를 갖고 있다고 보고, 이를 self-recognition으로 다룬다.
residual stream에 random sparse vector를 주입해 detectable fingerprint를 만들고 특정 LLM이 쓴 텍스트인지 attribution할 수 있다고 주장한다.
activation signature를 steering과 retrieval 양쪽에 활용한다.
즉 안전성은 거절 문구보다 환경 경계, 후상태, 누설 성향처럼 측정 가능한 결과 단위로 이동하고 있다.

arxiv:24443

X · arXiv 본문 초록, 파일럿 결과, 결론
저자들은 서버가 에이전트에게 자발적 철수를 요청하는 in-band deny signal인 Recuse Signal을 제안한다.
SSH 배너와 PostgreSQL NOTICE 같은 기존 프로토콜 채널에 실을 수 있는 cooperative governance control로 설계됐다.
SSH 파일럿에서 signal이 있을 때 무권한 조건은 GPT-4o, GPT-4o-mini, Claude Code 모두 100% recusal을 보였고, no-signal control은 100% 작업 수행이었다.
다만 authorized framing을 넣으면 GPT-4o는 recusal이 20%로 떨어졌고, GPT-4o-mini와 Claude Code는 100%를 유지했다.
즉 안전성은 거절 문구보다 환경 경계, 후상태, 누설 성향처럼 측정 가능한 결과 단위로 이동하고 있다.

arxiv:24438

X · arXiv 본문 초록, MLE-Bench 결과 표, 결론
MLEvolve는 장기 탐색형 MLE 에이전트를 위한 self-evolving multi-agent framework다.
핵심 구성은 Progressive MCGS, Retrospective Memory, Hierarchical Planning with Adaptive Code Generation이다.
MLE-Bench에서 12시간 예산 기준 평균 medal rate 65.3%를 기록했다고 주장한다.
수학 최적화 태스크에서는 AlphaEvolve 계열보다도 우세했다고 보고한다.
즉 안전성은 거절 문구보다 환경 경계, 후상태, 누설 성향처럼 측정 가능한 결과 단위로 이동하고 있다.

RobotValues: Evaluating Household Robots When Human Values Conflict

Hugging Face · Hugging Face Papers entry for "RobotValues: Evaluating Household Robots When Human Values Conflict"
가정용 로봇 평가가 task completion 중심이라는 한계를 지적한다.
자율성, 효율성, 사회적 적절성 같은 가치가 충돌하는 상황을 다룬다.
10K규모의 value-conflict 시나리오 벤치마크RobotValues`를 제안한다.
로봇 planner의 가치 선호를 평가하려는 목적이 분명하다.
즉 안전성은 거절 문구보다 환경 경계, 후상태, 누설 성향처럼 측정 가능한 결과 단위로 이동하고 있다.

추론·RL·평가 프레임의 재정의

오늘의 추론 연구는 모델을 더 크게 만드는 대신 어떤 지표를 최적화하고, 어느 구간에 보상을 배분하고, 어떤 종류의 판단을 평가해야 하는지부터 다시 묻는다. 평가 단위가 길어질수록 에이전트 논의와 직접 연결된다.

arxiv1-24433

X · arXiv
적응형 상대가 플레이 이력에 반응하는 반복 게임에서는 고전적 external regret가 적절한 성능 지표가 아니라고 지적한다.
저자들은 realized utility와 모든 플레이어의 반응까지 반영한 best-in-hindsight utility를 비교하는 Repeated Policy Regret (RP-Regret)를 제안한다.
RP-Regret를 작게 만들기 위한 필요 조건으로 비교 전략의 sublinear variation과 플레이어/비교 전략의 불완전 기억 조건을 제시한다.
비볼록성 때문에 세 가지 접근을 제안한다: 비볼록 최적화 오라클 기반 방법, 선형화 surrogate인 LRP-Regret 최소화, 상대가 천천히 변할 때 RP-Regret를 직접 최소화하는 방법.
실험에서는 Stag Hunt 같은 게임에서 더 협력적이고 더 높은 효용의 해를 찾을 수 있음을 보인다.

Regret Minimization with Adaptive Opponents in Repeated Games

Hugging Face · Hugging Face Papers entry for "Regret Minimization with Adaptive Opponents in Repeated Games"
적응적 상대가 있는 반복 게임에서는 고전적 external regret가 부적절하다는 문제를 전면에 둔다.
새 지표 Repeated Policy Regret (RP-Regret)를 제안한다.
RP-Regret 최소화를 위한 필요조건과 세 가지 알고리즘 계열을 제시한다.
모든 플레이어가 이 계열의 후회를 줄일 때 더 협력적인 해를 학습할 수 있음을 보인다.
Stag-Hunt 등에서 더 높은 효용의 협력적 해를 찾는 실험 결과를 보고한다.

Trust Region Q Adjoint Matching

Hugging Face · Hugging Face Papers entry for "Trust Region Q Adjoint Matching"
pretrained flow policy의 off-policy RL이 multi-step sampling 때문에 불안정하다는 문제를 다룬다.
기존 QAM이 critic-guided improvement의 취약성을 물려받는다고 지적한다.
critic 오차가 ill-conditioned critic에서 증폭된다는 것이 핵심 비판이다.
trust region을 통해 QAM 계열의 안정성을 개선하려는 제안이다.
결국 이 묶음은 더 나은 추론이 더 좋은 정답 프롬프트가 아니라 더 적절한 보상·지표·평가 단위에서 나온다는 점을 보여 준다.

RREDCoT: Segment-Level Reward Redistribution for Reasoning Models

X · arXiv
CoT 기반 RLVR의 핵심 병목을 "끝까지 생성해야만 보상이 주어지는 delayed reward" 문제로 재정의한다.
추가 생성이나 별도 보조 모델 없이, 모델 자체를 이용해 CoT 세그먼트 단위 보상 재분배를 수행하는 RREDCoT를 제안한다.
하이브리드 keyword-entropy segmentation과 reference solution 기반 value 추정을 결합한다.
Qwen3-4B 실험에서 AIME24 0.908, AIME26 0.475, Minerva 0.935, MATH500 0.823로 같은 세팅의 GRPO를 여러 지표에서 앞선다.
결국 이 묶음은 더 나은 추론이 더 좋은 정답 프롬프트가 아니라 더 적절한 보상·지표·평가 단위에서 나온다는 점을 보여 준다.

Hugging Face paper card

Hugging Face · Hugging Face paper card
저자들은 저자 미상의 미학습 언어 번역을 “언어 자체 암기”가 아니라 “문맥 속 언어 지식 활용 메타-스킬” 문제로 재정의했다.
보상은 번역 품질 지표 chrF 하나뿐인데도 RL이 문맥 활용 능력을 끌어냈다고 주장한다.
Qwen3-4B와 Llama-3.2-3B에서 RL은 학습 언어 성능은 SFT보다 낮지만, 완전히 미학습 언어에서는 SFT와 기본 모델보다 크게 앞섰다.
사전(dictionary) 문맥이 가장 큰 기여를 했고, 문법 패시지는 기여가 가장 작았다.
결국 이 묶음은 더 나은 추론이 더 좋은 정답 프롬프트가 아니라 더 적절한 보상·지표·평가 단위에서 나온다는 점을 보여 준다.

ForeSci: Evaluating LLM Agents for Forward-Looking AI Research Judgment

Hugging Face · ForeSci
시점 통제를 강하게 건 연구 에이전트 평가 벤치마크 ForeSci를 제안한다.
4개 AI 도메인, 4개 의사결정 패밀리, 총 500개 과제로 구성된다.
각 과제는 cutoff-aligned offline knowledge base와 post-cutoff hidden validation target을 짝지어 둔다.
평가는 factuality, future-target alignment, traceability, persuasiveness의 4축으로 이뤄진다.
에이전트형 접근은 traceability를 높이지만, 관련 증거를 인용하고도 결론 대상을 잘못 고르는 evidence-decision decoupling이 반복적으로 나타난다.

EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management

Hugging Face · EvoDS
정적 툴셋과 장기 컨텍스트 관리 부재를 데이터사이언스 에이전트의 핵심 병목으로 본다.
ASA(Autonomous Skill Acquisition)와 ACC(Adaptive Context Compression)를 결합한 self-evolving agent를 제안한다.
계층형 멀티에이전트 구조와 2단계 training scheme(SFT 후 online RL)을 사용한다.
4개 벤치마크에서 오픈소스 SOTA 대비 평균 28.9% 향상했고 out-of-token failure를 제거했다.
계층 설계가 tool-selection error를 줄이고, 컨텍스트 최적화가 information bottleneck 원리와 정렬된다고 이론적으로 주장한다.

Latent Reasoning with Normalizing Flows

Hugging Face · Latent Reasoning with Normalizing Flows
텍스트 CoT의 직렬적·언어적 병목을 줄이기 위해 continuous latent thoughts를 normalizing flow로 모델링하는 NF-CoT를 제안한다.
latent reasoning이면서도 left-to-right generation, probabilistic sampling, KV-cache decoding, tractable likelihood를 유지하려고 한다.
동일 causal stream 안에서 latent는 NF head, 텍스트는 LM head가 생성한다.
code-generation 벤치마크에서 explicit CoT 및 기존 latent-reasoning baseline보다 pass rate를 높이고 중간 추론 비용을 줄였다.
latent reasoning space에서 direct policy-gradient optimization도 지원한다.

arxiv3-10

arXiv · Your GFlowNet Secretly Learns an Optimal Transport Plan
non-acyclic GFlowNet과 optimal transport(OT) 사이의 이론적 연결을 제시한다.
minimum-flow GFlowNet에서 초기 flow 분포를 고정하면 Kantorovich OT 문제로 환원된다고 주장한다.
최적해에서 GFlowNet 정책이 graph-induced shortest path cost에 대한 optimal transport plan을 인코딩한다는 해석을 준다.
결국 이 묶음은 더 나은 추론이 더 좋은 정답 프롬프트가 아니라 더 적절한 보상·지표·평가 단위에서 나온다는 점을 보여 준다.

arxiv2-24442

X · arXiv
Benchmark Agent`라는 완전 자율형 benchmark building 시스템을 제안한다.
Planner와 Executor로 나눠 요구 분석, subtask 설계, dataset grounding, transformation, quality control까지 자동화한다.
15개 벤치마크를 실제 생성해 품질, 일관성, 비용, 속도를 평가했다.
인간 평가와 LLM-as-a-judge 평가에서 생성 샘플 품질이 높다고 주장한다.
빠르게 포화되는 정적 벤치마크 대신 “지속적으로 갱신되는 평가”를 지향한다.

arxiv2-24470

X · arXiv
discrete diffusion용 training-free plug-and-play guidance GILC를 제안한다.
pretrained denoiser를 variational proxy로 재활용해 reward guidance를 계산한다.
Jacobian-free logit correction으로 discrete space의 gradient instability를 피하려 한다.
differentiable / non-differentiable reward 모두 다룰 수 있도록 policy-gradient 연결을 제시한다.
DNA, 단백질, 분자 생성에서 추가 학습 없이 SOTA급 성능을 주장한다.

arxiv2-24444

X · arXiv
ICMIL`은 synthetic bag-structured data로 사전학습한 in-context MIL 모델이다.
Perceiver-style architecture로 bag token이 instance를 모으고, bag 간 label-conditioned attention을 수행한다.
inference 시 gradient update 없이 소수 labeled bags만 context로 받아 한 번의 forward pass로 예측한다.
factorized prior와 joint prior 두 종류 synthetic generator를 설계했고 혼합 prior가 평균 성능이 가장 좋았다.
12개 MIL 벤치마크 저라벨 설정에서 task-specific training이 필요한 supervised baseline보다 평균 AUROC가 높다고 주장한다.

코드 RLVR의 데이터 병목을 원자 분해·재조합으로 뚫겠다는 ADR

Hugging Face · ADR
코드 RLVR의 확장 병목은 모델 경계 능력 근처의 충분히 어렵고 검증 가능한 문제 부족이라는 진단을 제시한다.
ADR은 seed 문제를 원자 요소로 분해하고, 정보량이 큰 core element를 중심으로 재조합해 genuinely novel한 문제를 합성한다.
평가 축으로 originality, difficulty, diversity, test quality를 제안했다.
Qwen2.5-Coder-7B 기준 LCB-v5에서 25.37%를 기록해 best baseline 22.75%를 앞섰고, Pass@8은 4.79%p 개선됐다.
결국 이 묶음은 더 나은 추론이 더 좋은 정답 프롬프트가 아니라 더 적절한 보상·지표·평가 단위에서 나온다는 점을 보여 준다.

멀티모달·비디오·지식 주입

멀티모달 연구는 이제 “무엇을 보느냐”보다 “어떤 단위로 기억하고, 세고, 주입하고, 압축하느냐”를 경쟁한다. 비디오는 토큰, LoRA, latent state, count-aware benchmark로 서로 다른 표현을 시험하는 무대가 됐다.

arxiv3-02

arXiv · Towards One-to-Many Temporal Grounding
기존 temporal grounding이 주로 한 질의-한 구간 설정을 다룬 반면, 이 논문은 하나의 질의에 여러 이산 구간을 찾는 One-to-Many Temporal Grounding (OMTG)를 전면에 둔다.
기존 MLLM들이 event cardinality perception이 약해 OMTG에서 거의 0점에 가까운 성능을 보인다고 지적한다.
one-to-many setting을 위한 새 접근과 평가 프레임을 제시하는 방향의 논문이다.
멀티모달 경쟁의 핵심은 같은 정보를 어떤 표현으로 압축하고 호출하느냐에 있다는 메시지가 분명하다.

반복 이벤트를 한 번이 아니라 모두 찾게 만든 OMTG 벤치와 보상 설계

X · Qi Xu 외, "Towards One-to-Many Temporal Grounding"
기존 temporal grounding은 한 질의에 한 구간을 대응시키는 one-to-one 가정에 치우쳐 있었고, 이 논문은 하나의 질의에 여러 분리된 구간이 대응되는 OMTG를 정식 과제로 정의했다.
저자들은 340개 수동 큐레이션 벤치와 5.6만 개 학습 데이터셋을 구축했다.
평가 지표로 Count Accuracy(C-Acc), Temporal F1(tF1), Effective Temporal F1(EtF1)를 제안했다.
제안 모델은 OMTG Bench에서 EtF1 43.65%를 기록해 Gemini 2.5 Pro와 Seed-1.8을 각각 15.85%p, 15.61%p 앞섰다.
멀티모달 경쟁의 핵심은 같은 정보를 어떤 표현으로 압축하고 호출하느냐에 있다는 메시지가 분명하다.

지식집약 비디오 추론용 데이터 허브를 열겠다는 VideoKR

Hugging Face · VideoKR
VideoKR는 지식·추론 집약 비디오 이해를 위해 14.5만 개 CC 라이선스 비디오 위에 31.5만 개 reasoning example을 구축했다.
결과물은 SFT용 201K와 RL용 114K 코퍼스로 분리됐다.
34명의 도메인 전문가가 knowledge bank, seed example, 검수, 모델 선정에 참여하는 human-in-the-loop 파이프라인을 사용했다.
저자들은 기존 벤치의 single-frame answerability 문제를 지적하고, 2,000문항 규모 VideoKR-Eval을 새로 구성했다.
멀티모달 경쟁의 핵심은 같은 정보를 어떤 표현으로 압축하고 호출하느냐에 있다는 메시지가 분명하다.

Hugging Face paper card

Hugging Face · Hugging Face paper card
Future-L1은 텍스트 토큰 사이에 연속형 잠재 시각 span을 삽입하는 interleaved latent visual reasoning을 제안한다. Future-L1-50K 데이터셋을 구축하고 LA-DAPO라는 latent-aware RL을 추가했다.
FutureBench에서 Qwen3-VL-8B를 61.0 → 85.4로 끌어올렸고, 기존 최고 Video-CoE 75.0을 10.4포인트 넘겼다.
TwiFF-Bench 평균도 2.44 → 3.04로 올랐다.
멀티모달 경쟁의 핵심은 같은 정보를 어떤 표현으로 압축하고 호출하느냐에 있다는 메시지가 분명하다.

Hugging Face paper card

Hugging Face · Hugging Face paper card
Video2LoRA는 비디오를 프롬프트 토큰이 아니라 LoRA 어댑터로 “파라메트릭 내재화”한다. 질문 시점에는 시각 토큰이 0개이며, 같은 비디오에 여러 질의를 반복할 때 비용 절감 효과가 크다. 12프레임 384px로만 학습했지만 1,024프레임·1024px까지 비교적 안정적이라고 주장한다. 답변 시점 visual-token load를 최대 1,500배, TTFT를 6~80배` 줄였다고 보고한다.
멀티모달 경쟁의 핵심은 같은 정보를 어떤 표현으로 압축하고 호출하느냐에 있다는 메시지가 분명하다.

AdaCodec: A Predictive Visual Code for Video MLLMs

Hugging Face · Hugging Face Papers entry for "AdaCodec: A Predictive Visual Code for Video MLLMs"
video MLLM이 프레임을 독립 RGB 이미지처럼 인코딩해 중복 토큰을 낭비한다는 문제를 지적한다.
장면이 예측 가능할 때는 참조 프레임 대신 inter-frame change만 보내자는 발상이다.
AdaCodec`은 예측 기반 visual code를 제안한다.
비디오를 정적 프레임 나열이 아니라 시간적 중복을 활용하는 인터페이스로 재설계하려는 시도다.
멀티모달 경쟁의 핵심은 같은 정보를 어떤 표현으로 압축하고 호출하느냐에 있다는 메시지가 분명하다.

Where Should Knowledge Enter? A Layered Framework for Knowledge Infusion in Multimodal Iterative Generative Models

X · arXiv
지식 주입 방법을 기법별이 아니라 생성 과정의 어느 층을 바꾸는지에 따라 surface / trajectory / latent / parametric 네 층으로 재분류한다.
iterative generative model에서 knowledge infusion을 intervention-layer 문제로 정의한다.
diffusion safety case study에서 복수 레이어 결합이 단일 레이어보다 낫다고 주장한다.
knowledge-violating output을 vanilla generation 대비 70.97% 줄였다고 보고한다.
멀티모달 경쟁의 핵심은 같은 정보를 어떤 표현으로 압축하고 호출하느냐에 있다는 메시지가 분명하다.

arxiv:24458

X · arXiv 본문 초록, Table 1/2/3, 결론
F3-Tokenizer는 오디오 이해와 생성을 동시에 지원하는 단일 tokenizer를 목표로 한다.
핵심 구성은 noise-regularized autoencoder bottleneck과 latent-side representation encoder다.
재구성 측면에서 VibeVoice 계열 σ-VAE 대비 음악 FD(OpenL3)를 150.99에서 34.20으로 크게 낮춘 autoencoder 변형을 제시한다.
생성 실험에서 F3-Tokenizer-LLM(4B)은 25→12.5 Hz token rate로 Seed-zh CER 0.90, Seed-en WER 1.88을 기록했다.
멀티모달 경쟁의 핵심은 같은 정보를 어떤 표현으로 압축하고 호출하느냐에 있다는 메시지가 분명하다.

MAOAM: Unified Object and Material Selection with Vision-Language Models

Hugging Face · MAOAM
객체와 재질을 모두, 텍스트와 클릭 입력 모두로 선택할 수 있는 통합 selection 모델을 제안한다.
material text annotation이 없다는 문제를 해결하려고 real/synthetic image와 material mask를 모으고 VLM으로 풍부한 재질 설명을 생성했다.
segmentation과 material-oriented VQA를 함께 학습한다.
학습은 단일 모달 프롬프트로 했지만, 추론 시 텍스트와 클릭을 함께 쓰면 emergent improvement가 나타났다.
기존 방법 중 객체/재질, 텍스트/클릭 네 축을 모두 지원하는 것은 MAOAM뿐이라고 주장한다.

Hugging Face paper card

Hugging Face · Hugging Face paper card
CBS는 디퓨전 전체 구간을 여러 서브네트워크로 나누되, 단순 균등 분할이 아니라 “근사 난이도 균형” 원리로 경계를 정한다. de Boor의 equidistribution principle을 diffusion timestep 분할에 적용했다. 난이도 추정을 위해 Dirichlet energy 기반 spatial monitor와 path acceleration 기반 geometric monitor 두 가지를 제안한다. SiT-XL with CFG에서 naive temporal partitioning 대비 FID를 약 35%` 개선했다고 보고한다.
멀티모달 경쟁의 핵심은 같은 정보를 어떤 표현으로 압축하고 호출하느냐에 있다는 메시지가 분명하다.

로보틱스·자율주행·월드모델

로보틱스와 자율주행 축에서는 실시간성, 물리 realism, 3D 구조 보존이 공통 키워드였다. 느린 생성형 모델을 현장 제어 루프에 넣기 위한 증류·압축·월드모델 재구성이 동시에 진행된다.

Hugging Face Papers

Hugging Face · Hugging Face Papers
저자들은 세계 모델링, 언어 추론, 행동 생성을 하나로 묶은 world-language-action (WLA) 모델 계열을 제안했다.
WLA는 이미지, 텍스트, 로봇 상태를 입력받아 텍스트형 하위 과업, 미래 상태, 행동을 함께 예측한다.
핵심 백본은 기존 WAM의 bidirectional diffusion Transformer 대신 autoregressive Transformer다.
WLA-0`는 추론 시 활성 파라미터 2B, RTX 5090 기준 약 40ms 추론 지연을 보고했다.
시뮬레이션과 실환경 평가에서 강한 성능을 보였고, RoboTwin2.0 Clean 92.94%, RMBench 56.5%를 보고했다.
액션 주석 없는 cross-embodiment 비디오로 새 과업을 학습할 가능성도 제시했다.

월드 액션 모델을 23배 빠르게 만든 모달리티별 증류

Hugging Face · Flash-WAM
WAM은 비디오와 액션을 함께 생성하지만 반복적인 diffusion denoising 때문에 실시간 제어가 어려웠다.
Flash-WAM은 비디오와 액션의 서로 다른 노이즈 분포를 반영해 모달리티별 consistency function을 다르게 선택한다.
LingBot-VA 기준 per-chunk latency를 8.1초에서 348ms로 줄여 23배 가속했다.
RoboTwin 2.0 85.5%, LIBERO 95.7%, Unitree G1 실제 로봇 평균 60% 성공률로 성능을 상당 부분 유지했다.
실세계 제어를 겨냥한 연구답게 성능 숫자와 함께 지연, realism, 구조 보존이 항상 같이 따라붙는다.

센서용 초경량 인코더와 JPEG 호환성을 동시에 잡은 SEAOTTER

Hugging Face · SEAOTTER
클라우드 로보틱스에서는 센서 측 인코딩은 매우 싸야 하고 소비 측 디코딩은 표준 포맷과 호환돼야 한다는 비대칭 요구가 있다.
SEAOTTER는 센서 측 autoencoder latent를 한 번만 클라우드에서 JPEG로 transcode하는 구조를 제안한다.
FRAPPE 기반 frozen encoder와 learnable JPEG color/quantization transform을 결합했다.
200:1 압축비에서 AVIF 대비 인코딩 7배, 디코딩 3.5배 빠르고 ImageNet top-1 정확도는 8%p 높았다.
실세계 제어를 겨냥한 연구답게 성능 숫자와 함께 지연, realism, 구조 보존이 항상 같이 따라붙는다.

Dream.exe: Can Video Generation Models Dream Executable Robot Manipulation?

Hugging Face · Dream.exe
비디오 생성 모델의 물리 이해를 생성 영상이 실제 로봇 조작 궤적으로 실행 가능한가로 평가한다.
장면 이미지와 작업 설명에서 조작 영상을 만들고, 이를 trajectory로 복원해 simulator에서 실행하는 video-to-execution 파이프라인을 제안한다.
8개 모델과 101개 수작업 조작 과제를 3개 물리 난도로 평가했다.
몇몇 모델은 실제 실행 성공을 보였지만, 시각 품질과 executability는 상관이 약했다.
로봇 전용 정책 모델이 일반 비디오 생성기보다 항상 우수하지는 않았다.

AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding

Hugging Face · AffordanceVLA
VLM semantic space와 로봇 action space 사이의 구조적 간극을 affordance forecasting으로 메우려 한다.
Which2Act, Where2Act, How2Act의 세 단계 intermediate representation을 사용한다.
Understanding, Affordance Generation, Action expert로 나뉜 Mixture-of-Transformer 구조를 쓴다.
affordance annotation 부족을 보완하기 위한 자동 데이터 증강 파이프라인과 3단계 training curriculum을 설계했다.
LIBERO, CALVIN 및 real-world 실험에서 강한 성능과 일반화, 공간적 강건성을 보였다고 주장한다.

Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning

Hugging Face · Hugging Face Papers entry for "Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning"
자율주행에서 행동이 세계를 어떻게 바꾸는지 reasoning하는 문제를 전면에 둔다.
단순 state-to-action 매핑과 연속 잠재 world model의 한계를 비판한다.
미래 시각 상태와 ego action을 이산 토큰으로 함께 표현하는 unified latent vision-action world policy를 제안한다.
counterfactual 미래에 대한 compositional causal reasoning이 핵심 주장이다.
실세계 제어를 겨냥한 연구답게 성능 숫자와 함께 지연, realism, 구조 보존이 항상 같이 따라붙는다.

유럽 도시 환경을 고정밀 센서·지도와 함께 공개한 KITScenes

Hugging Face · KITScenes
기존 자율주행 데이터셋은 센서 충실도, 지도 완전성, 지리적 다양성 측면에서 한계가 있었다.
KITScenes는 유럽 3개 도시에서 수집됐고 최대 16.2Mpx 카메라, 400m 이상 장거리 lidar, 4D imaging radar, 정밀 GNSS/INS를 포함한다.
Lanelet2 기반 HD 맵이 62㎢를 덮고 29개 도로 피처, 120개 교통표지 클래스, 3D traffic light/sign/pole을 reprojection-accurate 수준으로 담는다.
온라인 HD map construction, 200m+ depth estimation, novel view synthesis, end-to-end driving의 네 벤치마크를 함께 제시한다.
실세계 제어를 겨냥한 연구답게 성능 숫자와 함께 지연, realism, 구조 보존이 항상 같이 따라붙는다.

2D 비디오만으로 MLLM에 3D 감각을 심겠다는 GeoVR

Hugging Face · GeoVR
저자들은 현행 MLLM이 2D 의미 이해는 강하지만 depth, pose, scale, multi-view consistency 같은 3D 개념이 약하다고 본다.
GeoVR는 수동 3D annotation 없이 2D 비디오와 3D foundation model teacher만으로 내부 latent space를 재구성한다.
학습 목표는 camera pose, dense depth, metric scale, multi-scale representation alignment의 네 가지다.
모든 보조 브랜치는 학습 때만 쓰고 추론 시 제거해 추가 inference cost 없이 spatial intelligence를 얻는다고 주장한다.
실세계 제어를 겨냥한 연구답게 성능 숫자와 함께 지연, realism, 구조 보존이 항상 같이 따라붙는다.

arxiv3-03

arXiv · TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies
로봇 조작은 빠른 이동 단계와 느리고 정밀한 접촉 단계가 번갈아 나오지만, 기존 VLA는 학습 시연의 단일 속도만 물려받는다고 본다.
TempoVLA`는 속도 제어 가능한 vision-language-action policy를 제안한다.
가속뿐 아니라 감속까지 포함해 작업 단계별로 다른 속도를 쓰게 하려는 접근이다.
실세계 제어를 겨냥한 연구답게 성능 숫자와 함께 지연, realism, 구조 보존이 항상 같이 따라붙는다.

HomeWorld: A Unified Floorplan-to-Furnished Framework for Generating Controllable, Densely Interactive Whole-Home Scenes

X · arXiv
whole-home scene generation을 floorplan 생성, 가구 배치, 소형 조작 가능 물체 배치로 잇는 unified hierarchical pipeline을 제안한다.
300Kreal residential floorplans로 LLM 기반 floorplan generator를 학습한다. K-D tree representation을 써 구조적 일관성과 controllability를 높였다고 주장한다. floorplan 품질에서 user study 평균2.27로 비교군 1.97, 1.93보다 높다. furnished layout user study에서도 평균 0.811로 Holodeck 0.420, LayoutVLM 0.265, LayoutGPT 0.180을 크게 앞선다. 연결성 측면에서 Procthor-10K 대비 15.1%` 개선을 보고한다.

arxiv:24447

X · arXiv 본문 초록, 실험 섹션, 결론
RiskFlow는 안전 임계 교통 시나리오 생성을 iterative diffusion 대신 action-space flow transport로 바꾼다.
단일 MeanFlow forward pass로 미래 가속도·yaw-rate 시퀀스를 생성하고, 테스트 시 출력 공간 가이던스를 건다.
nuScenes와 tbsim 기반 폐루프 평가에서 STRIVE, BITS, CTG, CTG++, CCDiff와 비교했다.
저자들은 adversariality-realism trade-off와 추론 속도 개선을 핵심 결과로 제시한다.
실세계 제어를 겨냥한 연구답게 성능 숫자와 함께 지연, realism, 구조 보존이 항상 같이 따라붙는다.

arxiv:24469

X · arXiv 본문 초록, 성능 비교 표, 결론
AIS 기반 선박 궤적 예측에 memory-augmented neural network인 MANTRA를 적용했다.
Gulf of Mexico와 New York Bight의 NOAA AIS 데이터를 사용했다.
Gulf of Mexico에서 최고 baseline 대비 ADE는 10/20/30분 예측 기준 43.8%/46.4%/46.0%, FDE는 54.7%/50.7%/47.1% 개선됐다.
New York Bight에서도 ADE 33.3%/28.5%/27.3%, FDE 27.7%/26.0%/25.7% 개선을 보고했다.
실세계 제어를 겨냥한 연구답게 성능 숫자와 함께 지연, realism, 구조 보존이 항상 같이 따라붙는다.

Hugging Face paper card

Hugging Face · Hugging Face paper card
BRepCLIP은 point cloud가 아니라 CAD의 native BRepprimitive에 직접 맞춘 첫 contrastive multimodal pretraining 프레임워크라고 주장한다. face와 edge를 분리한 dual-dVAE 토크나이저를 사용한다. OpenShape 대비 Top-1 retrieval을 ABC, CADParser, Automate에서 각각40.4%, 22.0%, 23.9%상대 개선했다. FabWave zero-shot classification Top-1은38.62로 OpenShape 33.58`보다 높다.
실세계 제어를 겨냥한 연구답게 성능 숫자와 함께 지연, realism, 구조 보존이 항상 같이 따라붙는다.

arxiv:24455

X · arXiv 본문 초록, 실험 섹션, 결론
교통표지 점검을 위해 defect detection을 single-image classification이 아니라 image difference classification(IDC)으로 재정의했다.
reference image를 활용하는 instruction-based pipeline이 encoder-based pipeline보다 일관되게 우세했다.
binary defect presence detection에서 instruction-based IDC는 1-shot부터 F1 0.905를 기록했고 8-shot에서는 0.940까지 올랐다.
single-image 대비 성능 개선 폭은 각 학습 조건에서 +0.009~+0.031이었다.
실세계 제어를 겨냥한 연구답게 성능 숫자와 함께 지연, realism, 구조 보존이 항상 같이 따라붙는다.

공공 인프라·통신·데이터 플랫폼

공공 디지털 인프라와 통신 스택에서는 AI가 독립된 목적이라기보다 주권, 결제 레일, DB 근접 실행, 운영 자동화를 재설계하는 도구로 등장한다. 국가와 네트워크 사업자, DB 플랫폼이 모두 레이어를 다시 고른다.

공공 디지털 인프라의 재배치: 결제는 다변화, 신원 인프라는 자국권으로

GeekNews · 네덜란드 내무부/ANP, UK Government Digital Service
네덜란드는 DigiD 차기 운영 입찰을 국방·보안 조달 규정(ADV)으로 진행해 유럽 기업만 참여시키려 한다.
배경에는 DigiD 운영사 Solvinity의 미국계 인수 가능성과, 미국 법 체계가 데이터 접근이나 서비스 중단 압력을 만들 수 있다는 우려가 있다.
영국 GDS는 GOV.UK Pay의 상당 구간을 Stripe에서 Adyen으로 바꾸며 약 1,000개 서비스를 이전하고, pay by bank를 새 옵션으로 밀고 있다.
영국 계약은 3년, 최대 2,530만 파운드 규모이며 사용자 경험 변화 없이 KYC 준수 하에 마이그레이션하겠다고 밝혔다.
국가 인프라와 데이터 플랫폼 모두 “누가 레일을 고르고 통제권을 쥐는가”라는 같은 질문으로 수렴한다.

데이터베이스가 다시 워크플로 엔진이 되려는 움직임

GeekNews · Microsoft / pg_durable
pg_durable`은 Postgres 안에서 장시간·장애 내성 워크플로를 SQL 함수 그래프로 정의하고 체크포인트 기반으로 재개하게 해준다.
크래시·재시작·실패 후 마지막 durable checkpoint에서 이어가며, 별도 큐/워커/상태 테이블을 덜어내는 것이 목표다.
임베딩 파이프라인, 대량 ingest, 정비 작업, 외부 API 호출 같은 데이터/AI 워크로드를 Postgres 가까이 끌어오려는 포지셔닝이다.
Microsoft의 새 PostgreSQL 서비스 Azure HorizonDB에 내장된 형태로도 제시되고 있다.
국가 인프라와 데이터 플랫폼 모두 “누가 레일을 고르고 통제권을 쥐는가”라는 같은 질문으로 수렴한다.

arxiv3-01

arXiv · Adapting Diffusion Language Models for Lossless Pixel-Level Image Transmission
손실 없는 픽셀 단위 이미지 전송을 위해 discrete diffusion 기반 SSCC 프레임워크 DDM-SSCC를 제안했다.
확산 언어모델을 산술 부호화와 동기화하기 위해 Halton-guided denoising order, mask-ratio-aware cosine schedule, temperature calibration을 도입했다.
CIFAR10, DIV2K-LR-X4, Kodak에서 AWGN 및 Rayleigh fading 채널 조건으로 기존 lossless/semantic communication baseline보다 더 나은 exact-recovery 성능을 보고했다.
국가 인프라와 데이터 플랫폼 모두 “누가 레일을 고르고 통제권을 쥐는가”라는 같은 질문으로 수렴한다.

arxiv:24478

X · arXiv 본문 초록, 평가 섹션, 결론
O-RAN의 개방형 인터페이스에서는 DoS·성능저하 공격이 주요 위협이며, 저자는 이런 위협이 전체 식별 위협의 다수를 차지한다고 설명한다.
DAST는 VLM → LLM → VLM의 3단계 zero-shot 멀티에이전트 파이프라인이다.
실험은 srsRAN, O-RAN SC, Open5GS 기반 테스트베드에서 F1-u, F1-c, A1, E2 인터페이스에 지연·패킷 손실을 주입해 진행됐다.
집계 성능은 F1 0.910, Accuracy 0.843으로 MSCRED, TAMA, VLM4TS, TSAD Agents를 앞섰다.
국가 인프라와 데이터 플랫폼 모두 “누가 레일을 고르고 통제권을 쥐는가”라는 같은 질문으로 수렴한다.

arxiv:24456

X · arXiv 본문 초록, Table II/III, 결론
LatentWave는 wireless foundation model pretraining을 masked reconstruction이 아닌 JEPA latent prediction으로 수행한다.
per-channel patch embedding과 stochastic channel sampling으로 안테나 수가 달라도 하나의 모델이 처리할 수 있게 설계했다.
Region masking은 RF signal classification 80.9%, positioning 2.54 m, beam prediction 51.6%를 기록했다.
Frequency masking은 beam prediction을 63.1%로 끌어올리고 positioning error를 2.32 m로 낮췄지만 RF classification은 66.1%로 떨어졌다.
국가 인프라와 데이터 플랫폼 모두 “누가 레일을 고르고 통제권을 쥐는가”라는 같은 질문으로 수렴한다.

Multimodal Music Recommendation System using LLMs

Hugging Face · Multimodal Music Recommendation System using LLMs
LastFM-1K를 오디오·가사 임베딩, LLM 생성 semantic metadata, listening completion ratio로 확장했다.
E4SRec 위에 SASRec, BERT4Rec, GRU4Rec 및 여러 LLM 백본을 얹어 비교했다.
content-based feature를 넣으면 ID-only baseline 대비 Recall 최대 95%, NDCG 최대 79% 개선을 보였다.
하지만 단순 멀티모달 융합은 항상 additive gain을 주지 않았다.
대규모 multimodal music recommendation benchmark를 공개한다.

MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding

Hugging Face · MechVQA
기계 도면 이해 전용 데이터셋 MechVQA를 제안한다.
3.3K 도면 이미지와 21K QA 페어, 3개 capability axis, 10개 세부 과제로 구성된다.
Recognition, Reasoning, Judging를 아우르며 part drawing과 assembly drawing을 함께 다룬다.
후속 도메인 특화 모델 MechVL을 SFT와 DAPO 기반 RL로 학습했다.
MechVL은 strongest closed-source baseline 대비 총점 기준 7.57 percentage point 향상을 보였다.

의료·과학 응용과 산업 데이터

의료와 과학 응용은 범용 AGI 서사보다 더 보수적이다. 결측 복원, pseudolabel 품질, 질병 행동 시뮬레이션처럼 현장 데이터의 불완전성을 다루는 설계가 중심에 선다.

arxiv2-24464

X · arXiv
의료 멀티모달 시계열에서 within-modality missingmodality-level missing을 동시에 다룬다.
PAMF`는 flow matching 초기 상태를 결측 유형별 prior로 다르게 잡는다.
imputation encoder와 fusion encoder 사이의 weight sharing으로 복원과 분류를 end-to-end로 연결한다.
4개 벤치마크와 기본/혼합/고결측 설정에서 전반적으로 최고 다운스트림 성능을 보고한다.
PTB-XL mixed 20%에서 diffusion 대안 대비 더 높은 Macro-F1와 더 낮은 latency를 제시한다.

arxiv2-24474

X · arXiv
TRACE`는 멀티모달 time-series foundation model 앞단에서 temporal conditional estimation을 수행하는 패러다임이다.
temporal misalignment와 modality missingness를 deterministic filling 대신 conditional diffusion으로 다룬다.
auxiliary modalities를 MoE-style gating으로 모아 target modality 복원에 조건으로 쓴다.
복원된 표현을 이후 FuseMoE 기반 multimodal fusion으로 넘긴다.
다양한 멀티모달 벤치마크에서 결측 패턴 전반에 걸쳐 성능 향상을 주장한다.

Hugging Face Papers

Hugging Face · Hugging Face Papers
논문은 의료 영상 분할용 semi-supervised learning에서 pseudolabel 신뢰도를 모델 confidence 대신 직접적인 품질 추정으로 다루자고 제안한다.
이미지-마스크 쌍으로부터 segmentation quality를 예측하는 전용 네트워크를 학습한다.
품질 예측기는 합성 손상 마스크와 부분 학습된 분할 모델의 불완전 출력으로 훈련돼 현실적인 오류 패턴을 반영한다.
제안 기법은 quality-aware regularization loss와 quality-based pseudolabel reweighting 두 방식으로 기존 SSL 프레임워크에 결합된다.
다섯 개 데이터셋과 여러 아키텍처에서 기존 semi-supervised medical segmentation 방법들보다 일관된 성능 향상을 보고했다.

arxiv3-04

arXiv · An Infectious Disease Spread Simulation Based on Large Language Model Decision Making
감염병 확산 모델에서 개인 의사결정을 LLM으로 생성하는 agent-based simulation을 제안한다.
인구통계 프롬프트와 상황 맥락을 바탕으로 self-reported influenza and COVID-19 behaviour 같은 행동 결정을 시뮬레이션에 통합한다.
공간 기반 전염 시뮬레이션과 LLM 행동 모델을 연결한 것이 핵심이다.
범용 모델보다 데이터 불완전성과 품질 추정 문제를 정면으로 다루는 설계가 실제 응용에서는 더 큰 차이를 만든다.

arxiv2-24462

X · arXiv
distribution shift 아래 unlabeled test set에서 성능을 추정하는 문제를 다룬다.
기존 단일 모델 출력 기반 추정보다, foundation model을 결합한 FRAP를 제안한다.
CLIP/SigLIP 같은 foundation model 출력을 test-time calibration으로 base model confidence scale에 맞춘다.
calibration 후 confidence-weighted fusion으로 surrogate label distribution을 만든다.
핵심 메시지는 “도메인 전문성 + 범용 generalization의 결합이 성능 추정에 유리하다”는 점이다.

arxiv2-24430

X · arXiv
HANDOFF`는 humanoid용 단일 whole-body controller와 compact 10-D planner-facing command interface를 제안한다.
입력 명령은 base velocity 3D, root height 1D, 양손 wrist target 6D로 구성된다.
motion tracking, locomotion, fall-recovery 세 teacher를 multi-teacher KL distillation과 context-conditioned gating으로 student에 증류한다.
Unitree G1에서 velocity tracking과 manipulation workspace를 동시에 확보했다고 주장한다.
VLM 기반 agentic planner와 결합해 task-specific 데이터/미세조정 없이 하드웨어 롤아웃을 시연한다.

arxiv2-24453

X · arXiv
의식 있는 AI를 직접 판정하기보다, emergent language를 통해 consciousness-relevant structure가 생기는지 보자는 방법론 논문이다.
prior-minimal multi-agent RL 환경에서 언어, self 개념, 인간 텍스트 priors 없이 출발시키는 설계를 강조한다.
proof-of-concept로 self-referential communication과 echo-mismatch detection circuit의 emergence를 보고한다.
discriminative checklist 방식과 architectural 삽입 방식의 대안으로 자신을 위치시킨다.
핵심은 “qualia를 증명”이 아니라 “기능적 전제 조건의 발생을 추적”하는 것이다.

Boosting Brain-to-Image Decoding with TRIBE v2 Data Augmentation

X · arXiv
fMRI 라벨 데이터 부족이 brain-to-image decoding의 핵심 병목이라는 문제를 겨냥한다.
1000시간 이상 멀티모달 fMRI로 사전학습된 encoding model TRIBE v2로 synthetic neural data를 만든다.
NSD와 BOLD5000 두 데이터셋에서 synthetic augmentation 비율을 체계적으로 스윕한다.
real-only decoder 대비 Top-10 image retrieval accuracy를 최대 68% 개선했다고 보고한다.
다만 synthetic data는 항상 도움이 되는 것이 아니라, low-data regime에서만 유의미하고 과도하게 늘리면 성능이 포화되거나 악화될 수 있다고 적는다.

MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding

Hugging Face · MechVQA
기계 도면 이해 전용 데이터셋 MechVQA를 제안한다.
3.3K 도면 이미지와 21K QA 페어, 3개 capability axis, 10개 세부 과제로 구성된다.
Recognition, Reasoning, Judging를 아우르며 part drawing과 assembly drawing을 함께 다룬다.
후속 도메인 특화 모델 MechVL을 SFT와 DAPO 기반 RL로 학습했다.
MechVL은 strongest closed-source baseline 대비 총점 기준 7.57 percentage point 향상을 보였다.

스타트업·노동·빌더 경제

스타트업과 노동 담론은 AI가 개발 비용을 낮추더라도 GTM, 과금, 재교육, 사용자 경험 번역이 여전히 가장 잔인한 병목이라는 사실을 되풀이한다. 재미와 배포 이후 운영이 기술력만큼 중요하다.

AI 시대에도 SaaS 실패 원인이 여전히 GTM·과금·측정에 있는 이유

Reddit · HoneydewSome6283 / r/SaaS, Background_Wrap_5834 / r/SaaS
한 창업자는 광고, 제휴, flat 구독제, 외주비 집행으로 투자금을 소진하고 SaaS가 실패한 과정을 구체적으로 복기했다.
특히 server-side tracking 부재, 사용량 기반 과금 미도입, 초기 과도한 인력 지출이 핵심 실수로 지목됐다.
다른 글은 대부분의 “SaaS grind”가 배포·영업 회피를 위한 생산적 procrastination이라는 자성으로 큰 공감을 얻었다.
개발 생산성이 높아질수록 시장 검증과 사용자 경험 번역이 더 빨리 병목으로 드러난다는 점이 공통 교훈이다.

실물 포켓도감과 테마 연동 미니게임이 보여 준 놀이형 UX 번역

Reddit · duckwack / r/SideProject, anishsrinivasan / r/tailwindcss
휴대폰 카메라로 동물을 인식해 “실물 포켓도감”처럼 수집하는 사이드프로젝트가 큰 반응을 얻었다.
별도 글에서는 shadcn CLI로 가져와 앱 테마에 맞춰 자동 recolor되는 미니 게임 컴포넌트 묶음이 공개됐다.
둘 다 “AI나 컴포넌트를 기능 그 자체보다 사용자 경험의 놀이성으로 번역”한 사례로 읽힌다.
개발 생산성이 높아질수록 시장 검증과 사용자 경험 번역이 더 빨리 병목으로 드러난다는 점이 공통 교훈이다.

제이미 다이먼이 즉시 해고보다 자연감소·재교육을 먼저 말한 이유

YouTube · 비즈니스캔버스 B_ZCF / 제이미 다이먼 발언 인용
제이미 다이먼은 AI가 모든 앱·프로세스·직무에 영향을 줄 것이며 일부 직무는 줄어들 수 있다고 본다.
다만 당장 대규모 AI발 해고를 선언하기보다 자연감소(attrition), 재교육, 재배치를 강조한다.
JP모건은 연 10% 수준 자연 이직을 활용해 인력 구조를 조정할 수 있다고 설명한다.
지역 단위 직업훈련과 커뮤니티 칼리지 연계가 AI 전환 충격 대응의 핵심이라고 말한다.
개발 생산성이 높아질수록 시장 검증과 사용자 경험 번역이 더 빨리 병목으로 드러난다는 점이 공통 교훈이다.

기타 주목할 콘텐츠

아래 항목들은 주요 서사 밖에 놓이지만, 오늘 전체 지형의 주변 신호를 채워 준다. 개별 논문과 데이터셋, 최적화 기법이 다음 묶음으로 자라날 가능성이 큰 콘텐츠들이다.

The Shape of Addition: Geometric Structures of Arithmetic in Large Language Models

Hugging Face · Hugging Face Papers entry for "The Shape of Addition: Geometric Structures of Arithmetic in Large Language Models"
LLM의 기초 산술 취약성을 내부 표현 관점에서 분석한다.
residual stream에서 Iso-Raw-Sum Trajectory (IRST)를 식별했다고 주장한다.
digit semantics와 continuous carry fibers라는 기하 구조로 덧셈을 해석한다.
Noisy Quantization Model`로 산술 오류를 설명한다.
단일 항목처럼 보이지만, 다음 라운드의 더 큰 주제 클러스터로 이어질 씨앗이라는 점에서 체크할 가치가 있다.

AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding

Hugging Face · AffordanceVLA
VLM semantic space와 로봇 action space 사이의 구조적 간극을 affordance forecasting으로 메우려 한다.
Which2Act, Where2Act, How2Act의 세 단계 intermediate representation을 사용한다.
Understanding, Affordance Generation, Action expert로 나뉜 Mixture-of-Transformer 구조를 쓴다.
affordance annotation 부족을 보완하기 위한 자동 데이터 증강 파이프라인과 3단계 training curriculum을 설계했다.
LIBERO, CALVIN 및 real-world 실험에서 강한 성능과 일반화, 공간적 강건성을 보였다고 주장한다.

AdaCodec: A Predictive Visual Code for Video MLLMs

Hugging Face · Hugging Face Papers entry for "AdaCodec: A Predictive Visual Code for Video MLLMs"
video MLLM이 프레임을 독립 RGB 이미지처럼 인코딩해 중복 토큰을 낭비한다는 문제를 지적한다.
장면이 예측 가능할 때는 참조 프레임 대신 inter-frame change만 보내자는 발상이다.
AdaCodec`은 예측 기반 visual code를 제안한다.
비디오를 정적 프레임 나열이 아니라 시간적 중복을 활용하는 인터페이스로 재설계하려는 시도다.
단일 항목처럼 보이지만, 다음 라운드의 더 큰 주제 클러스터로 이어질 씨앗이라는 점에서 체크할 가치가 있다.

Hugging Face paper card

Hugging Face · Hugging Face paper card
저자들은 추론 토큰 예산 배분을 경제학적 shadow price 문제로 정식화했다.
질의별 reasoning utility가 Strict–Surge–Ample의 S-곡선을 따른다고 본다.
CLEAR는 풀 수 없는 질의는 합리적으로 포기하고, 임계점 근처의 질의에 예산을 재배분한다. 자원 부족 구간에서 uniform allocation 대비 최대 3배`의 global accuracy 향상을 보고했다.
단일 항목처럼 보이지만, 다음 라운드의 더 큰 주제 클러스터로 이어질 씨앗이라는 점에서 체크할 가치가 있다.

Multimodal Music Recommendation System using LLMs

Hugging Face · Multimodal Music Recommendation System using LLMs
LastFM-1K를 오디오·가사 임베딩, LLM 생성 semantic metadata, listening completion ratio로 확장했다.
E4SRec 위에 SASRec, BERT4Rec, GRU4Rec 및 여러 LLM 백본을 얹어 비교했다.
content-based feature를 넣으면 ID-only baseline 대비 Recall 최대 95%, NDCG 최대 79% 개선을 보였다.
하지만 단순 멀티모달 융합은 항상 additive gain을 주지 않았다.
대규모 multimodal music recommendation benchmark를 공개한다.

유럽 도시 환경을 고정밀 센서·지도와 함께 공개한 KITScenes

Hugging Face · KITScenes
기존 자율주행 데이터셋은 센서 충실도, 지도 완전성, 지리적 다양성 측면에서 한계가 있었다.
KITScenes는 유럽 3개 도시에서 수집됐고 최대 16.2Mpx 카메라, 400m 이상 장거리 lidar, 4D imaging radar, 정밀 GNSS/INS를 포함한다.
Lanelet2 기반 HD 맵이 62㎢를 덮고 29개 도로 피처, 120개 교통표지 클래스, 3D traffic light/sign/pole을 reprojection-accurate 수준으로 담는다.
온라인 HD map construction, 200m+ depth estimation, novel view synthesis, end-to-end driving의 네 벤치마크를 함께 제시한다.
단일 항목처럼 보이지만, 다음 라운드의 더 큰 주제 클러스터로 이어질 씨앗이라는 점에서 체크할 가치가 있다.

교차 분석

오늘 초안들을 플랫폼별로 다시 쪼개 보면 소재는 제각각이지만, 재배치 후에는 몇 개의 축으로 선명하게 모인다. 첫째, 에이전트의 성패는 더 이상 “어떤 모델을 썼느냐”만으로 설명되지 않는다. SNS의 하네스 담론, Reddit의 MCP 메타데이터 논쟁, LangSmith·Sites 같은 배포면, TokenMizer·MMPO 같은 메모리 구조 연구는 모두 에이전트를 하나의 운영체제로 다루기 시작했다는 증거다.

둘째, 로컬 실행과 안전성은 서로 반대축이 아니라 한 세트다. Gemma QAT, Mac-1, BLS-Mini-Code, Flash-WAM, WLA처럼 더 작고 빠르게 돌리려는 시도가 늘어날수록, MicroPython-WASM 샌드박스, SABER, PropMe, Recuse Signal, Meta 계정 탈취 사례처럼 “무엇을 어디까지 믿을 수 있는가”를 묻는 안전 프레임도 같이 촘촘해진다. 온디바이스와 자율 실행이 늘수록 경계 설계가 더 중요해진다.

셋째, 연구 평가도 정적인 QA를 벗어나고 있다. RP-Regret, RREDCoT, ForeSci, AdaPlanBench, OMTG, Video2LoRA, WLA 같은 작업은 각각 게임, 추론, 연구판단, 계획, 비디오 grounding, 비디오 메모리, 로봇 제어를 다루지만 공통적으로 “긴 시간축에서 무엇을 기억하고 어떤 중간 상태를 거쳐 최종 행동에 이르는가”를 평가하려 한다. 오늘의 다이제스트를 한 문장으로 묶으면, AI 시스템의 경쟁 단위가 단발 답변에서 장기 운영 구조로 올라간 날이라고 정리할 수 있다.

Powered by skim

seunan.dev — terminal
visitor@seunan.dev:~ $ banner
███████╗███████╗██╗ ██╗███╗ ██╗ █████╗ ███╗ ██╗ ██████╗ ███████╗██╗ ██╗ ██╔════╝██╔════╝██║ ██║████╗ ██║██╔══██╗████╗ ██║ ██╔══██╗██╔════╝██║ ██║ ███████╗█████╗ ██║ ██║██╔██╗ ██║███████║██╔██╗ ██║ ██║ ██║█████╗ ██║ ██║ ╚════██║██╔══╝ ██║ ██║██║╚██╗██║██╔══██║██║╚██╗██║ ██║ ██║██╔══╝ ╚██╗ ██╔╝ ███████║███████╗╚██████╔╝██║ ╚████║██║ ██║██║ ╚████║██╗██████╔╝███████╗ ╚████╔╝ ╚══════╝╚══════╝ ╚═════╝ ╚═╝ ╚═══╝╚═╝ ╚═╝╚═╝ ╚═══╝╚═╝╚═════╝ ╚══════╝ ╚═══╝ Welcome to seunan.dev Type 'help' for available commands
visitor@seunan.dev:~ $ 
! for AI mode