Thursday, March 26, 2026

VibeVoice & 음성 기술 혁신, 저커버그 AI 보좌관

AI Dub - 2026.03.26

AI Dub

2026.03.26 — OpenAI Sora 종료, 립싱크 MCP, AI 공급망 비상

더빙 · 비디오 · 음성

립싱크 · TTS · ASR · 영상생성 · 화자분리

OpenAI Sora 공식 종료 — 앱, API, ChatGPT 내 비디오 전부 종료. "GPU를 태워서 만든 건 영상이 아니라 적자였다." 비디오 생성 시장의 판이 바뀐다. 분석↗

Sync Labs — Claude Code용 립싱크 MCP 서버 — Claude Code에서 직접 립싱크 영상 생성, 에셋 관리, 렌더링 추적. 더빙 파이프라인에 코딩 에이전트가 통합되는 첫 사례. 원문↗

daVinci-MagiHuman 15B — Seedance 2.0 대항 오픈소스 비디오 모델. 단일 스트림 15B Transformer. 클로즈드 Seedance에 대한 오픈소스 대안. 원문↗

WanGP — 완전 로컬 비디오 생성 에이전트 — 로컬 LLM 에이전트 내장. 프롬프트→영상 생성이 클라우드 없이 완전 로컬에서 작동. 원문↗

"TTS 업계가 잘못된 것을 측정해왔다" — "읽기(reading) 벤치마크만 존재. 음성 에이전트는 대화(talking)에서 성패가 갈린다." 원문↗

SelfTTS 논문 + 150분→98초 전사 — 화자 간 스타일 전이 새 논문. 별도로, @tom_doerr가 150분 오디오 98초 전사 도구 공유. SelfTTS↗ 전사↗

보안 경보

AI 개발 생태계 공급망 공격

LiteLLM 공급망 공격 — Karpathy 직접 경고(22M views). v1.82.7~1.82.8에 SSH키, 클라우드 크레덴셜, K8s 시크릿 탈취 멀웨어. 월 9,500만 다운로드. CrewAI, DSPy, Airflow 의존. HackerNews↗

LM Studio 멀웨어 의심 [r/LocalLLaMA 1,242↑] — v0.4.7 Windows Defender 트로이 목마 탐지. 오탐 가능성 있으나 GlassWorm 캠페인과 동시 발생. Reddit↗

GlassWorm 캠페인 — GitHub Python 레포 400개+, Open VSX 확장 72개 감염. AI 개발자 도구 집중 타겟. Bleeping↗

Claude · Karpathy

특별 섹션 — 고정

Claude Dispatch 가이드 — 폰 하나로 AI 48시간 가동 — @lucas_flatwhite(39K views): iPhone에서 Claude에 지시, 맥에서 실행 완료. Remote SSH/Dispatch/tmux 비교까지 포함된 종합 가이드. 원문↗

Claude Computer Use 후속 — 글로벌 테크 매체 일제 보도 — CNBC, MacRumors, Engadget. "absolutely wild" (9to5Google). Pro/Max 구독자 대상 프리뷰. CNBC↗

"24년 프롬프트, 25년 컨텍스트, 26년 하네스" — 에이전트 안전망(harness) 설계가 2026년 핵심 역량. Auto Mode에서 allowedTools로 세밀한 권한 설정. 원문↗

오픈소스 · 인프라

Reddit + HuggingFace + GitHub

Gemini 3.1 Flash-Lite 실시간 웹사이트 생성 — Google DeepMind(383K views). 클릭할 때마다 페이지를 실시간 생성. 바이브 코딩의 극단. 원문↗

Qwen3.5-27B(dense)가 35B/122B MoE를 이기다 — 스크린샷→UI 복제 태스크에서 MoE보다 dense가 우수. @stevibe(89K views). 원문↗

FlashAttention-4 [206↑] — Blackwell에서 1,605 TFLOPs/s. cuDNN 1.3배, Triton 2.7배 빠름. PyTorch FlexAttention 통합. Together↗

GigaChat-3.1-Ultra-702B 오픈웨이트 [217↑] — 러시아 Sber의 대형 오픈 모델 + Lightning MoE 10B 동시 공개. Reddit↗

HuggingFace hf-mount — 어떤 모델/데이터셋이든 로컬 파일시스템으로 마운트. "로컬 AI는 무료, 빠르고, 안전" — @ClementDelangue(155K views). 원문↗

TAKEAWAY

1. Sora 사망, 오픈소스 비디오 부상 — OpenAI가 비디오를 포기한 날, daVinci-MagiHuman(15B 오픈소스)과 WanGP(완전 로컬)가 등장. 비디오 생성의 무게중심이 클라우드→로컬로 이동.

2. AI 개발 도구가 전쟁터다 — LiteLLM(9,500만 DL), LM Studio, GitHub 400+ 레포, VSX 72개. 더빙 파이프라인 포함 모든 AI 의존성 보안 감사 필요.

3. 립싱크가 에이전트 도구가 되었다 — Sync Labs MCP로 Claude Code에서 립싱크 직접 생성. 더빙 도구가 "독립 앱"에서 "에이전트의 도구"로 전환.

▼ 상세 분석 보기 ▼

각 뉴스의 배경 · 맥락 · 의미 · 전망

Sources: Twitter bookmarks (4,729) · Search (97) · Reddit (30) · WebSearch · HuggingFace · GitHub

DEEP DIVE

각 사안의 배경 · 맥락 · 의미 · 전망

더빙 · 비디오 · 음성

OpenAI Sora 종료 — 비디오 생성의 판이 바뀐다

OpenAI가 Sora 앱, API, ChatGPT 내 비디오 기능을 전면 종료했다. @gimhyeo02389130의 분석(137K views): "GPU를 태워서 만든 건 영상이 아니라 적자." Sora가 보여준 건 '비디오 생성은 가능하다'였지만, 증명하지 못한 건 '수익화가 가능하다'였다. 이 빈자리에 오픈소스가 들어온다. daVinci-MagiHuman(15B)은 Seedance 2.0에 대항하는 단일 스트림 Transformer 오픈소스 모델이고, WanGP는 로컬 LLM 에이전트가 내장된 완전 로컬 비디오 생성 도구다. 더빙 산업 관점에서 이것은 기회다: 비디오 원본 생성부터 더빙까지의 전체 파이프라인이 오픈소스/로컬로 가능해지는 시대가 열리고 있다.

Sync Labs 립싱크 MCP — 더빙이 에이전트 도구가 되다

Sync Labs가 MCP 서버를 출시하면서 Claude Code와 OpenAI Codex에서 직접 립싱크 영상을 생성/관리할 수 있게 되었다. 이것은 단순 API 연동이 아니라 더빙 핵심 단계가 AI 코딩 에이전트의 도구로 편입된 것이다. "이 영상의 한국어 더빙본에 립싱크 적용해줘"라고 Claude Code에 말하면 에이전트가 처리한다. lipsync-2 모델은 제로샷 립싱크 선두로, spatiotemporal transformer 기반 4K 지원. HeyGen/D-ID도 API 퍼스트로 전환 중이어서, 더빙 도구가 "독립 앱"에서 "에이전트의 도구"로 바뀌는 구조적 전환이 가속화된다.

TTS 벤치마크의 근본적 결함 — Reading vs Talking

@rohanpaul_ai(23K views)와 @hasantoxr의 지적: 현재 TTS 벤치마크는 "읽기" 품질만 측정한다. MOS, WER, PESQ 전부 깨끗한 낭독 기준. 하지만 더빙 성우는 읽지 않고 연기하고, 음성 에이전트는 대화한다. 감정 전환, 호흡, 주저함, 억양의 미세 변화 — 이것을 측정하는 표준 벤치마크가 없다. 이 갭이 소형 모델의 기회다. 대형 모델이 깨끗한 읽기에 최적화된 반면, 특화 모델이 자연스러운 연기/대화에 더 나을 수 있다. 더빙 품질 평가 시 reading MOS와 talking MOS를 분리해야 한다.

보안 경보

LiteLLM + GlassWorm — AI 인프라를 노린 조직적 공격

TeamPCP는 먼저 Aqua Security의 Trivy 스캐너와 Checkmarx GitHub Action을 장악한 뒤, LiteLLM CI/CD 파이프라인의 PyPI 퍼블리시 토큰을 탈취하여 악성 버전을 게시했다. 3시간 만에 격리되었지만, SSH키, AWS/GCP/Azure 크레덴셜, K8s 시크릿, 암호화폐 지갑까지 탈취되었다. 동시에 GlassWorm이 GitHub 400+ 레포, VSX 72개를 감염시켰고, LM Studio도 트로이 목마 의심이 제기되었다(r/LocalLLaMA 1,242↑). Karpathy가 직접 경고(22M views)한 것은 사태의 심각성을 보여준다. CrewAI, DSPy, Airflow 등 주요 프레임워크가 LiteLLM에 의존하므로, 모든 AI 파이프라인의 의존성 보안 감사가 긴급하다.

Claude · Karpathy

Claude Dispatch — 폰 하나로 AI 48시간 가동

@lucas_flatwhite의 가이드(39K views)는 iPhone에서 Claude에 지시하고 맥에서 실행을 완료하는 Dispatch 기능의 실전 가이드다. SSH 터널, tmux 세션, Remote-SSH 등 대안과 비교하면서 Dispatch의 장점(앱 전환 없이 폰에서 바로 지시, 맥으로 결과 전달)을 설명한다. 이것은 Computer Use(3/23)의 연장선으로, AI 에이전트가 "자리에 앉아서 쓰는 도구"에서 "어디서든 지시하는 인프라"로 진화하고 있음을 보여준다. "24년 프롬프트, 25년 컨텍스트, 26년 하네스" — 에이전트를 안전하게 원격 운용하는 하네스 설계가 핵심 역량이 되고 있다.

오픈소스 · 인프라

Gemini 실시간 웹사이트 생성 + Qwen3.5 Dense가 MoE를 이기다

Google DeepMind의 Gemini 3.1 Flash-Lite 데모(383K views)는 브라우저에서 클릭할 때마다 페이지를 실시간 생성한다. 바이브 코딩의 극단적 형태로, "코드를 생성"하는 게 아니라 "경험을 생성"하는 패러다임이다. 한편 @stevibe(89K views)는 Qwen3.5-27B(dense)가 35B/122B MoE를 스크린샷→UI 복제에서 이기는 결과를 공개했다. MoE가 반드시 낫지 않다는 것은 더빙/영상 도구에서도 시사점이 있다: 특정 태스크에서는 작지만 밀도 높은(dense) 모델이 더 효과적일 수 있다.

FlashAttention-4 — 추론 비용의 판을 바꾸는 커널

Blackwell B200에서 1,605 TFLOPs/s(71% 활용률). cuDNN 대비 1.3배, Triton 대비 2.7배. 핵심은 warp-specialized 5단계 비동기 파이프라인. PyTorch FlexAttention에 통합되어 바로 사용 가능. 더빙 파이프라인에서 ASR+LLM+TTS 로컬 실행 시, FlashAttention-4는 추론 지연과 비용을 직접 줄여주는 인프라 업그레이드다.

AI Dub · 2026.03.26 · [email protected]

수신을 원하지 않으시면 여기를 클릭해 주세요

𝕏 Twitter LinkedIn Threads

← All newsletters