Friday, March 27, 2026

Voxtral TTS — ElevenLabs 능가 주장, 오픈웨이트 4B

AI Dub - 2026.03.27

AI Dub

2026.03.27 — TTS 평가가 틀렸다, 립싱크가 에이전트 도구가 되다

더빙 · 음성 · TTS

음성인식 · 화자분리 · 립싱크 · 번역AI · 음성복제

Lightning v3.1 — "TTS 업계가 잘못된 걸 측정해왔다" — Smallest AI. MOS 3.89로 OpenAI/ElevenLabs 초과. 44.1kHz, 100ms 미만 TTFA, 50+언어, 10초 음성복제. 핵심: "읽기(reading) 벤치마크만 있고, 대화(talking) 벤치마크는 없다." 블로그↗

Sync Labs 립싱크 MCP 서버 — Claude Code/Codex에서 직접 립싱크 영상 생성, 에셋 관리, 렌더링 추적. spatiotemporal transformer 기반 lipsync-2 모델, 4K 지원. 원문↗

Covo-Audio 7B 풀듀플렉스 (Tencent) — Qwen2.5-7B + Whisper 기반 end-to-end LALM. 별도 ASR/TTS 파이프라인 없이 동시 양방향 음성 대화. barge-in, 백채널링 지원. 논문↗

GPT-SoVITS v4 — 48kHz 네이티브, shortcut-CFM-DiT 아키텍처, 7,000시간 데이터. v3의 금속성 아티팩트 완전 해결. 1분 음성 few-shot 클로닝. GitHub↗

PrismAudio 518M V2A 오픈소스 — ICLR 2026 수락. 영상→오디오 생성. 4개 지각 차원 SOTA. 더빙 후처리(환경음, 효과음) 자동화 가능. 원문↗

OmniCodec — 초저 프레임레이트 오디오 코덱 — semantic-acoustic 분리. TTS/ASR 공통 기반 기술로 파이프라인 전체의 효율을 높이는 인프라급 연구. 원문↗

Lab Notes

dubbing.news 자체 실험 결과

CosyVoice3 vs GPT-SoVITS v3 비교 실측 — CosyVoice3 우세
동일 화자, 동일 대본으로 양쪽 모델을 테스트한 결과 CosyVoice3가 자연스러움, 감정 전달, 다국어 안정성 모든 면에서 우세했습니다. CosyVoice3는 100만 시간 데이터 + 1.5B 파라미터의 힘으로 in-the-wild 음성에서도 안정적인 출력을 보인 반면, GPT-SoVITS v3는 깨끗한 레퍼런스에서는 우수하지만 잡음이 섞인 레퍼런스에서 품질이 급감했습니다. (참고: GPT-SoVITS v4가 이 문제를 해결했다고 하여 재평가 예정)

MuseTalk 1.5 립싱크 성공 — 5배우 × 5언어
MuseTalk 1.5로 한국어, 영어, 일본어, 중국어, 스페인어 5개 언어에서 5명의 다른 배우 영상에 립싱크를 적용했습니다. 30fps 이상 실시간 처리, 정면/15° 측면까지 안정적. 30° 이상 측면에서는 입 모양 왜곡이 발생하여 Dubly.AI 2.0/Panjaya Real Face와의 비교가 필요합니다.

DNSMOS 5/5 PASS 자동 검증 파이프라인
더빙 결과물의 품질을 자동으로 검증하는 DNSMOS 기반 파이프라인을 구축했습니다. 5개 항목(SIG, BAK, OVRL, P.808, 화자 유사도) 전부 PASS 기준을 충족하는 결과물만 배포. 수동 청취 검수 대비 90% 이상 시간 절감. CV3-Eval + RVCBench 메트릭도 추후 통합 예정.

보안 경보

AI 개발 생태계 공급망 공격 — 3건 동시 발생

LiteLLM 공급망 공격 — Karpathy 직접 경고(22M views). v1.82.7~1.82.8에 SSH키, 클라우드 크레덴셜 탈취. 월 9,500만 다운로드. CrewAI/DSPy/Airflow 의존. HackerNews↗

LM Studio 멀웨어 의심 [r/LocalLLaMA 1,242↑] — v0.4.7 Defender 탐지. GlassWorm 캠페인과 동시 발생. Reddit↗

GlassWorm — GitHub 400+ 레포, VSX 72개 감염. AI 개발자 도구 집중 타겟. Bleeping↗

Claude · Karpathy

특별 섹션 — 고정

Claude Dispatch — 폰으로 AI 48시간 가동 — iPhone에서 지시→맥에서 실행 완료. SSH/tmux 비교 포함 종합 가이드. 원문↗

Claude Computer Use — macOS 직접 조작 — 파일·브라우저·개발도구 직접 제어. 전 세계 테크 매체 일제 보도 "absolutely wild." CNBC↗

"24년 프롬프트 → 25년 컨텍스트 → 26년 하네스" — 에이전트 안전망 설계가 핵심 역량. Auto Mode allowedTools로 세밀한 권한 제어. 원문↗

오픈소스 · 시장

Reddit + HuggingFace + Google News

OpenAI Sora 공식 종료 — 앱, API, ChatGPT 비디오 전부 종료. "GPU로 만든 건 영상이 아니라 적자." daVinci-MagiHuman 15B(오픈소스), WanGP(완전 로컬)가 대안으로 부상. 분석↗

Gemini 3.1 Flash-Lite 실시간 웹생성 — 클릭마다 페이지를 실시간 생성. 바이브 코딩의 극단. 데모↗

WebMCP — 브라우저를 AI가 직접 제어 — Google의 새 함수로 브라우저 전체를 AI가 조작. "이건 미친 짓이다" (154K views). 원문↗

HuggingFace hf-mount — 어떤 모델/데이터셋이든 로컬 파일시스템으로 마운트. "로컬 AI는 무료, 빠르고, 안전." 원문↗

TAKEAWAY

1. TTS 평가의 패러다임이 바뀐다 — Reading MOS만으로는 더빙/에이전트 품질을 측정할 수 없다. Lightning v3.1이 "대화" 최적화로 MOS 3.89를 달성하며 새 기준을 제시.

2. 더빙 파이프라인이 에이전트 안으로 들어간다 — Sync Labs MCP로 Claude Code에서 립싱크, Covo-Audio로 ASR/TTS 파이프라인 해체. "독립 앱"에서 "에이전트 도구"로의 전환.

3. AI 보안이 더 이상 선택이 아니다 — LiteLLM(9,500만 DL) + LM Studio + GlassWorm. 더빙 파이프라인 포함 모든 AI 의존성 보안 감사 필수.

▼ 상세 분석 보기 ▼

각 뉴스의 배경 · 맥락 · 의미 · 전망

Sources: Twitter bookmarks (4,729) · Search (97) · Reddit (30) · WebSearch · HuggingFace · Lab experiments

DEEP DIVE

각 사안의 배경 · 맥락 · 의미 · 전망

더빙 · 음성 · TTS

Lightning v3.1 — TTS 업계 전체가 잘못된 걸 측정해왔다

3명의 인플루언서(@rohanpaul_ai 23K, @heyshrutimishra 15K, @hasantoxr 3.6K)가 동시에 같은 지적을 했다. 현재 모든 TTS 벤치마크는 "얼마나 깨끗하게 읽는가"를 측정한다. MOS, WER, PESQ — 전부 낭독 품질 기준이다. 하지만 실제 더빙에서 성우는 읽지 않고 연기하고, 음성 에이전트는 대화한다. 감정 전환, 호흡, 주저함, 억양의 미세 변화. 이것을 측정하는 표준 벤치마크가 존재하지 않는다. Smallest AI의 Lightning v3.1은 이 문제를 정면으로 겨냥한다. 네이티브 44.1kHz, TTFA 100ms 미만, 50+언어, 10초 음성복제에서 MOS 3.89로 OpenAI/ElevenLabs를 넘었다고 주장한다. 핵심은 "reading"이 아닌 "talking" 최적화다. 더빙 품질 평가에서 reading MOS와 talking MOS를 분리해야 하는 시점이 왔다. 우리 DNSMOS 파이프라인에도 대화 품질 메트릭을 추가하는 것을 검토할 필요가 있다.

Sync Labs MCP — 더빙이 에이전트의 도구가 된다

Sync Labs가 MCP(Model Context Protocol) 서버를 출시하면서 Claude Code와 OpenAI Codex에서 직접 립싱크 영상을 생성하고 관리할 수 있게 되었다. 이것은 API 연동을 넘어 더빙 핵심 단계가 AI 코딩 에이전트의 "도구"로 편입된 것이다. "이 영상 한국어 더빙본에 립싱크 적용해줘"라고 Claude Code에 말하면 에이전트가 처리한다. lipsync-2 모델은 제로샷 립싱크 선두로 spatiotemporal transformer 기반 4K 지원. HeyGen/D-ID도 API 퍼스트로 전환 중이어서, 더빙 도구 전체가 "독립 앱"에서 "에이전트의 도구"로 바뀌는 구조적 전환이다. 우리 MuseTalk 1.5 파이프라인도 MCP 래핑을 검토할 시점이다.

Covo-Audio 7B — ASR/TTS 파이프라인이 사라진다

Tencent의 Covo-Audio는 Qwen2.5-7B + Whisper를 결합한 end-to-end 대형 오디오 언어 모델이다. 풀듀플렉스 변종은 별도 ASR→LLM→TTS 파이프라인 없이 동시 양방향 음성 대화를 단일 모델로 처리한다. barge-in(끼어들기), 백채널링, 턴테이킹을 네이티브로 지원. 이것은 2월 ASR 대폭발 이후 예측한 "ASR 카테고리 자체가 Audio-Native Agent로 재정의"되는 방향과 정확히 일치한다. 오픈소스로 공개되어 있어 우리 파이프라인에 통합 테스트가 가능하다. 더빙에서도 ASR→번역→TTS의 3단계 파이프라인을 단일 모델로 통합하는 미래가 보인다.

Lab Notes

CosyVoice3 vs GPT-SoVITS v3 — 왜 CosyVoice3가 이겼나

CosyVoice3는 Alibaba FunAudioLLM이 100만 시간 데이터(이전 1만 시간의 100배)와 1.5B 파라미터로 학습한 모델이다. 9개 언어 + 18개 중국어 방언을 지원하며, 핵심 혁신은 감정인식/언어식별/화자분석을 멀티태스크로 학습한 새로운 speech tokenizer다. 실측에서 GPT-SoVITS v3 대비 잡음이 섞인 레퍼런스에서 품질 차이가 가장 크게 나타났다. CosyVoice3의 100만 시간 in-the-wild 데이터가 노이즈 로버스트니스에서 결정적 차이를 만든 것. GPT-SoVITS v4가 이 문제를 48kHz + shortcut-CFM-DiT로 해결했다고 하여 재평가를 진행할 예정이다. 참고: RVCBench(2026-01)에서도 크로스링구얼/장문 생성에서 음색 보존이 취약한 것이 공통 과제로 확인되었다.

MuseTalk 1.5 — 5배우 × 5언어, 그리고 한계

한국어/영어/일본어/중국어/스페인어 5개 언어에서 5명의 배우 영상에 30fps+ 실시간 립싱크를 적용했다. 정면~15° 측면까지 안정적이나, 30° 이상 측면에서 입 모양 왜곡이 발생한다. Dubly.AI 2.0은 측면 앵글/얼굴 가림까지 "네이티브 구분 불가"를 달성했고, Panjaya Real Face는 다각도 얼굴 기하학 학습으로 이 문제를 해결했다. Sync Labs MCP가 Claude Code에서 직접 사용 가능해진 만큼, 우리 MuseTalk 파이프라인도 MCP 래핑 + Sync Labs과의 A/B 테스트가 다음 단계다.

DNSMOS 5/5 PASS — 품질 검증 자동화의 의미

더빙 결과물의 SIG(신호), BAK(배경잡음), OVRL(전체품질), P.808, 화자 유사도 5개 항목을 자동 검증하는 파이프라인이다. 수동 청취 검수 대비 90%+ 시간 절감을 달성했다. 다만 Lightning v3.1이 지적한 "reading vs talking" 문제는 이 파이프라인에도 적용된다 — DNSMOS는 기본적으로 깨끗한 음성 품질을 측정하는 메트릭이지, 연기 자연스러움을 측정하지 않는다. CV3-Eval(FunAudioLLM)의 실환경 참조 기반 평가와 RVCBench의 감정별 성능 메트릭을 통합하여 2단계 검증 파이프라인으로 확장하는 것이 다음 목표다.

보안 · 오픈소스

AI 개발 도구 공급망 공격 — 더빙 파이프라인도 대상

TeamPCP가 Trivy + Checkmarx를 경유해 LiteLLM CI/CD를 장악, 악성 버전을 배포한 이번 사건은 AI 파이프라인의 공급망 보안이 얼마나 취약한지를 보여준다. LiteLLM은 CrewAI, DSPy, Airflow, Dagster 등 주요 프레임워크의 의존성이다. 동시에 GlassWorm이 GitHub 400+ 레포와 VSX 72개를 감염시키고, LM Studio도 의심을 받았다. 더빙 파이프라인에서 사용하는 모든 AI 패키지(twikit, tts/asr 모델, 오디오 처리 라이브러리)의 버전 고정과 해시 검증이 즉시 필요하다. pip install --require-hashes와 lockfile 사용을 권장한다.

Sora 종료 — 비디오 생성의 무게중심 이동

OpenAI가 Sora를 전면 종료한 것은 "비디오 생성 AI의 수익화가 아직 불가능하다"는 시장의 판결이다. 대신 오픈소스 진영에서 daVinci-MagiHuman(15B 단일 스트림 Transformer, Seedance 2.0 대항)과 WanGP(로컬 LLM 에이전트 내장 비디오 생성)가 부상하고 있다. 더빙 산업에서 이것은 기회다. 비디오 원본 생성부터 더빙까지 전체가 오픈소스/로컬로 가능해지는 시대가 열리고 있으며, 비용 구조가 근본적으로 바뀐다.

AI Dub · 2026.03.27 · [email protected]

수신을 원하지 않으시면 여기를 클릭해 주세요

𝕏 Twitter LinkedIn Threads

← All newsletters