Monday, April 13, 2026

중국 모델위의 실리콘밸리, 한국어 ASR의 Whisper 왕좌 교체, 그리고 에이전트를 만드는 에이전트

AI Dub - 2026.04.13

AI Dub

2026.04.13 — 중국 모델위의 실리콘밸리, 한국어 ASR의 Whisper 왕좌 교체, 그리고 에이전트를 만드는 에이전트

기술 · 더빙 · 음성

AI 더빙 시장 성장, ElevenLabs vs 초경량 오픈소스, TTS 10종 비교, 한국어 ASR 지각변동, Voice AI 시장 폭발

3Play Media, 유튜브 크리에이터 전용 AI 더빙 솔루션 출시 — AI 더빙 시장이 커지고 있다 — @3PlayMedia(4월 9일): 채널 분석으로 언어 우선순위 추천, 보이스 캐스팅, 문화 적응, 유튜브 직접 배포까지 원스톱 제공. AI 보이스 클론 또는 원어민 합성 음성 선택 가능, 모든 결과물에 휴먼 리뷰 포함. NAB Show 2026(4/18-22)에서 라이브 시연 예정. @3PlayMedia↗

더빙 SaaS 관점: AI 더빙 시장이 커지고 있다. 3Play Media처럼 크리에이터 전용 원스톱 솔루션이 나오는 건 수요가 실재한다는 증거다. 다만 품질이 성우 더빙 대비 아직 불안정한 경우가 있고, 가격 경쟁도 치열해지고 있어 차별화 포인트를 잡아야 한다.

ElevenLabs, 온프레미스·온디바이스 배포 시작 — 오픈소스 진영은 초경량으로 간다 — @sumanyu(4월 12일): ElevenLabs가 Klarna, Revolut에 쓰이던 음성 에이전트 스택을 고객 자체 서버·엣지 디바이스에서 구동 가능하게 했다. 온프레미스는 Confidential Computing + GPU, 온디바이스는 ARM 칩 최적화. 'ElevenLabs for Government'도 함께 출시. @sumanyu↗

반대편에서는 초경량화가 진행 중이다. tiny-tts(@alphacep, 4월 9일)는 파라미터 160만 개, 3.4MB ONNX 파일 하나로 영어 TTS를 실현했다 — 스마트워치에도 올릴 수 있는 크기다. Pocket-TTS(@tom_doerr, 4월 11일, Kyutai Labs)는 GPU 없이 CPU만으로 보이스 클로닝까지 지원한다. ElevenLabs는 보안·규제 시장을 노리고 온프레미스로 방어선을 전환하고, 오픈소스는 극한의 경량화로 진입장벽을 없앤다. TTS 시장의 양극화가 가속되고 있다. @alphacep↗ @tom_doerr↗

2026 TTS 모델 10개 정면 비교 — Trelis Research — @TrelisResearch(4월 10일): Gemini, GPT-4o, ElevenLabs, Kokoro, Orpheus, Piper, Voxtral, Chatterbox 등 10개를 까다로운 테스트로 비교. 결론: 상용(Gemini, GPT-4o, ElevenLabs)이 MOS 4.2-4.3으로 아직 선두. 오픈소스 최강은 Kokoro. Chatterbox는 CER 0.86이지만 리얼한 소리. @TrelisResearch↗

쉽게 말하면: 유료 TTS가 아직 약간 앞서지만, 무료 Kokoro가 상당히 따라잡았다. 기술 텍스트(약어, 기호, 고유명사)에서의 실패 패턴까지 분석한 실전형 비교다. 어떤 모델이 어떤 용도에 강한지 판단하는 데 유용하다.

한국어 ASR에서 Whisper를 처음으로 꺾은 모델 등장 — RaonSpeech-9B — @jeon_haesung(4월 11일): 한국어 ASR 벤치마크에서 RaonSpeech/Raon-Speech-9B가 Whisper를 처음으로 이겼다. FunAudioLLM의 SenseVoice-Small도 크기 대비 놀라운 성능. @jeon_haesung↗

더빙 SaaS 관점: 2022년 이후 한국어 ASR의 절대 왕좌였던 Whisper를 넘은 모델이 나왔다. 한국어 자막·더빙 파이프라인의 ASR 품질이 올라간다. SenseVoice-Small은 온디바이스 한국어 ASR의 가능성을 열었다. 한국어 특화 서비스를 만드는 팀에게 직접적으로 중요한 소식.

Voice AI 에이전트, 프로덕션에서 40-60% 컨테인먼트율 달성 — 매출 전년비 49% 성장 — @johniosifov(4월 12일): 사람 상담원 없이 AI만으로 해결되는 비율이 40-60%에 도달했다. 8초 내에 사람인지 기계인지 판단한다는 연구 결과도 나왔다. 음성 품질이 'nice-to-have'에서 'must-have'로 격상됐다. 금융 도메인에서는 EBITDA 같은 전문 용어 인식이 핵심. @johniosifov↗

더빙 SaaS 관점: Voice AI 시장 고성장은 TTS/음성 클로닝 기술 수요를 직접 견인한다. 다국어 Voice Agent는 더빙 기술과 직결. '8초 안에 사람 vs AI를 판단한다'는 건 음성 품질이 곧 비즈니스 성패라는 뜻이다.

Avatar V: 15초 녹화로 어디든 나타나는 나 — 캐릭터 일관성 문제 해결 선언 — @joshua_xu_(4월 8일, 1,075 좋아요, 227K 조회): 15초 자기 모습을 녹화하면, 어떤 사진이든 본인처럼 보이고, 움직이고, 말하는 비디오로 변환. 버릇·특징까지 재현. @joshua_xu_↗

더빙 SaaS 관점: 캐릭터 일관성(identity consistency)은 AI 비디오의 최대 난제였다. 이것이 해결되면, 원본 출연자의 외모를 유지하면서 다국어 립싱크를 적용하는 것이 현실이 된다. 출연자 없이도 다국어 비디오를 제작할 수 있는 핵심 기술.

좁혀지는 격차

GLM-5.1 오픈웨이트 · 실리콘밸리의 중국 오픈소스 의존 · GemOpus-4 · Supergemma4-26b

GLM-5.1 오픈웨이트: SWE-Bench Pro에서 Claude, GPT-5, Gemini를 전부 넘었다 — @TheAhmadOsman(4월 7일): Zhipu의 GLM-5.1이 SWE-Bench Pro 58.4로 Opus 4.6(57.3), GPT-5.4(57.7), Gemini 3.1 Pro(54.2)를 모두 돌파. Unsloth가 2-bit 양자화해서 Mac 256GB에서 로컬 실행 가능. '8시간 연속 자율 코딩' 테스트 문서화. @TheAhmadOsman↗

쉽게 말하면: 중국 오픈소스 모델이 코딩 벤치마크에서 Claude, GPT-5, Gemini를 다 이겼다. 맥에서 로컬로도 돌린다. 2026년 오픈소스 AI의 이정표.

실리콘밸리가 조용히 중국 오픈소스 AI 위에서 돌아가고 있다 — @petergyang(4월 9일, 952 좋아요, 151K 조회): Cursor의 Composer 2는 Moonshot Kimi K2.5 기반, Cognition의 SWE-1.6은 Zhipu GLM 기반 포스트 트레이닝, Shopify는 Alibaba Qwen으로 전환해 연 $5M 절약. 미국 기업들이 속으로는 중국 오픈소스 모델을 쓰면서 공개적으로 인정하지 않는 구조. @petergyang↗

쉽게 말하면: 15만 뷰를 넘긴 이유는 업계의 민감한 포인트를 건드렸기 때문이다. 더빙 업계도 마찬가지 — 중국 오픈소스 TTS가 성능에서 앞서고 있지만, '중국산'이라는 이유로 채택을 꺼리는 곳이 있을 것이다. 기술과 브랜드의 괴리.

GemOpus-4: Gemma 4에 Claude Opus 4.6 추론을 증류 — 맥북에서 90-120tok/s — @leftcurvedev_(4월 9일): MacBook Air M3/M4에서 90-120tok/s, iPhone에서 45-60tok/s. 16.8GB Q4_K_M. 원본 Gemma보다 추론이 더 강력하다는 평가. 오픈소스와 프론티어의 격차가 '디스틸레이션'으로 빠르게 좁혀지고 있다. @leftcurvedev_↗

쉽게 말하면: 구글 오픈모델에 클로드 최강 모델의 '생각하는 능력'을 주입. 노트북에서 돌아가면서도 추론이 강해졌다. 프론티어 모델의 능력이 오픈소스에 빠르게 흘러들어가고 있다.

Supergemma4-26b: 무검열 + 120% 빠른 출력 + 한국어 강화 — @songjunkr(4월 12일, 120 좋아요, 9K 조회): 한국 개발자가 Gemma 4를 개조. 0/100 완벽 무검열(abliterated), 원본 대비 120% 속도, 강화된 코딩·다국어 스킬, 비전 서포트. @songjunkr↗

쉽게 말하면: 검열 없이, 더 빠르게, 한국어도 더 잘하게 만든 Gemma 4 개조판. 다양한 콘텐츠의 번역·대본 작업에서 거부 없이 처리 가능하다. 한국 시장 특화 AI의 좋은 사례.

무게 중심

VisionCaptioner · KV 캐시 10배 압축 · Claude Code 108만뷰 · 듀오링고 CEO · 에이전트 자기진화

VisionCaptioner: Gemma 4 지원 추가 — 로컬 이미지·비디오 캡셔닝 도구 — @brekelj(4월 12일): 오픈소스 도구 VisionCaptioner가 Qwen-VL에 이어 Gemma 4 모델 지원을 추가. 로컬 Vision-Language 모델로 이미지·비디오 캡션을 배치 생성. 클라우드 API 불필요, 전부 로컬 실행. AI 학습 데이터셋 구축, 오디오 디스크립션 생성에 활용 가능. @brekelj↗

더빙 SaaS 관점: 비디오 캡셔닝은 더빙 전처리(장면 설명, 오디오 디스크립션)에 직접 활용 가능하다. 로컬 실행이라 보안 민감한 콘텐츠 처리에도 적합. 더빙 파이프라인의 '눈'이 되는 도구.

RotorQuant: KV 캐시 10배 압축, 디코딩 28% 가속 — VRAM 혁명 — @wildmindai(4월 9일): AI가 대화를 기억하는 데 쓰는 메모리를 10분의 1로 줄였다. 풀 어텐션과 동일 품질. 128K 컨텍스트를 소비자 GPU에서 실현하는 핵심 기술. @wildmindai↗

쉽게 말하면: KV 캐시는 AI가 긴 맥락을 유지할 때 메모리를 가장 많이 먹는 부분이다. 이걸 1/10로 줄이면 같은 GPU로 훨씬 긴 대본을 처리할 수 있다. 로컬 더빙 파이프라인에서 긴 영상 스크립트를 한 번에 처리하는 데 핵심.

Claude Code: 웹사이트 → 모바일앱 → 앱스토어까지 무인 자동화 (108만 뷰) — @chddaniel(4월 8일, 5,669 좋아요, 1,080K 조회): Opus 4.6이 웹사이트를 스캔하고, 모바일 앱으로 빌드하고, 앱스토어 제출까지 준비하고, 앱을 자체 유지보수. 16세 비개발자가 항공 트래킹 앱으로 일 매출 $1,000-5,000. @chddaniel↗

쉽게 말하면: 클로드한테 웹사이트 주소만 주면 앱을 만들어서 앱스토어에 올린다. 108만 뷰는 이 가능성이 대중에게까지 전해졌다는 증거다. 코딩을 모르는 사람도 AI와 함께 제품을 만들어 돈을 버는 시대.

듀오링고 CEO: '다음 대박 제품은 2명이 6개월이면 만든다' — @AIBopyo(4월 11일): Luis von Ahn 인터뷰 핵심 — 코딩을 모르는 직원이 AI로 사내 최고 인기 코스를 만들었다. 향후 대박 제품은 2명과 6개월이면 충분하다고. @AIBopyo↗

더빙 SaaS 관점: 교육 앱의 대명사이자 AI 적극 활용 기업의 CEO가 구체적 사례를 들었다. 소규모 팀으로도 AI 더빙 서비스를 처음부터 끝까지 만들 수 있다. '대기업 인력이 필요하다'는 관성을 깨는 발언.

Claude Code 플러그인 생태계 폭발: 마켓플레이스 + 커뮤니티 컬렉션 총정리 — @lucas_flatwhite(4월 11일, 388 좋아요, 31K 조회): 공식 Anthropic 마켓플레이스 + 커뮤니티 컬렉션 정리. frontend-design, superpowers, context7, security-guidance 등. VS Code 확장 마켓플레이스와 유사한 구조로 성장 중. 카파시 스타일 가이드라인(@sharbel, 3,741 스타)도 플러그인으로 구현됨 — 설정 파일 하나로 AI 코딩 품질을 영구적으로 개선. @lucas_flatwhite↗ @sharbel↗

Hermes Agent Self-Evolution: AI 에이전트가 자기 프롬프트를 스스로 진화 — @KKaWSB(4월 12일, 974 좋아요, 48K 조회): Nous Research가 GEPA(ICLR 2026 Oral) 엔진 오픈소스화. 강화학습 대비 35배 적은 데이터, 20포인트 높은 성능. 프롬프트 엔지니어링이 프롬프트 스스로에 의해 대체되고 있다. @KKaWSB↗

쉽게 말하면: AI 에이전트가 자기 설정을 스스로 개선해서 점점 더 잘하게 된다. 사람이 프롬프트를 짜주지 않아도 에이전트가 알아서 진화한다. 에이전트가 에이전트를 만드는 시대의 시작.

TAKEAWAY

1. 실리콘밸리가 중국 오픈소스 위에서 돌아가고 있다 — Cursor는 Kimi, Cognition은 GLM, Shopify는 Qwen으로 전환해 연 $5M 절약. GLM-5.1은 코딩 벤치에서 Claude·GPT-5·Gemini를 다 넘었다. 미국 기업들이 속으로는 중국 오픈소스를 쓰면서 인정하지 않는 구조가 있다. 더빙 업계도 같은 선택의 순간이 온다 — 중국 오픈소스 TTS가 성능에서 앞서기 시작했는데, 기술과 브랜드의 괴리를 어떻게 판단할 것인가.

2. 에이전트가 에이전트를 만드는 시대 — Hermes가 자기 프롬프트를 스스로 진화시키고(강화학습 대비 35배 효율), Claude Code가 웹사이트→앱스토어까지 무인 자동화하고(108만 뷰), 듀오링고 CEO가 '2명이면 대박 제품을 만든다'고 증언한다. Claude Code 플러그인 생태계가 VS Code처럼 폭발적으로 성장하면서 AI 코딩 도구가 '확장 가능한 플랫폼'으로 진화하고 있다.

3. 크리에이터 경제에 AI 더빙이 슬며시 스며들고 있다 — 3Play Media가 유튜브 크리에이터 전용 AI 더빙을 출시했다. YouTube 데이터가 흥미롭다 — 같은 영상의 오리지널 버전과 AI 더빙 버전을 비교하면 시청 비율이 6:4다. 원어 시청자 6, AI 더빙으로 새로 유입된 해외 시청자 4. AI 더빙이 기존 관객을 뺏는 게 아니라 없던 해외 관객을 데려오고 있다는 뜻이다. AI 더빙 영상은 다국어 검색 노출이 늘어 SEO에서도 유리하지만, 품질과 가격 경쟁력 모두 챙겨야 살아남는다.

▼ 상세 분석 보기 ▼

각 뉴스의 배경 · 맥락 · 의미 · 전망

Sources: @3PlayMedia · @sumanyu · @alphacep · @tom_doerr · @TrelisResearch · @jeon_haesung · @johniosifov · @joshua_xu_ · @TheAhmadOsman · @petergyang · @leftcurvedev_ · @songjunkr · @brekelj · @wildmindai · @chddaniel · @AIBopyo · @lucas_flatwhite · @sharbel · @KKaWSB

DEEP DIVE

각 사안의 배경 · 맥락 · 의미 · 전망

좁혀지는 격차

실리콘밸리의 불편한 비밀 — 중국 오픈소스가 이미 기반이다

@petergyang의 트윗(15만 뷰)이 건드린 포인트는 간단하다: 미국 AI 스타트업들이 속으로는 중국 오픈소스 모델을 쓰면서 공개적으로 인정하지 않는다. Cursor의 Composer 2는 Moonshot Kimi K2.5 기반, Cognition의 SWE-1.6은 Zhipu GLM 기반 포스트 트레이닝, Shopify는 Qwen으로 전환해 연 $5M을 절약한다.

같은 주에 GLM-5.1이 SWE-Bench Pro에서 Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro를 모두 넘었다. GemOpus-4는 Gemma 4에 Claude의 추론 능력을 증류해서 맥북에서 90-120tok/s를 실현했고, Supergemma4-26b는 한국 개발자가 Gemma 4를 무검열·고속·한국어 강화로 개조했다.

이 흐름이 말하는 건 명확하다. 프론티어 모델의 능력이 오픈소스로 빠르게 흘러들어가고 있고, 그 오픈소스의 상당 부분이 중국에서 나오고 있다. 더빙 업계도 같은 선택의 순간이 온다 — 중국 오픈소스 TTS가 성능에서 ElevenLabs를 이기기 시작했는데, 기술적 우위와 브랜드 리스크를 어떻게 저울질할 것인가. 다만 데이터 주권과 규제 리스크도 함께 고려해야 한다.

기술 · 더빙 · 음성

TTS 시장 다양화 — ElevenLabs는 온프레미스로, 오픈소스는 3.4MB로

이번 주 TTS 시장에서 두 가지 정반대 움직임이 동시에 나타났다.

한쪽에서는 ElevenLabs가 온프레미스·온디바이스 배포를 시작했다. Klarna, Revolut 같은 대형 고객에게 쓰이던 동일 스택을 고객 서버에서 구동 가능하게 하고, Confidential Computing + GPU 인프라를 갖추고, 'Government' 에디션까지 출시했다. 오픈소스 공세에 대한 방어 전략이면서, 보안·규제 시장이라는 높은 울타리 안에서 생존하겠다는 선언이다.

오픈소스 진영에서는 극한의 경량화가 진행 중이다. tiny-tts는 파라미터 160만 개, 3.4MB 파일 하나로 영어 TTS를 실현했다 — 스마트워치에도 올릴 수 있다. Pocket-TTS(Kyutai Labs)는 GPU 없이 CPU만으로 보이스 클로닝까지 지원한다. Trelis Research의 10개 모델 비교에서 오픈소스 Kokoro가 상용 모델에 상당히 근접했고, Voxtral은 인간 평가에서 ElevenLabs Flash v2.5를 68.4%로 이겼다.

더빙 업계에 시사하는 바: TTS는 더 이상 '어떤 모델이 가장 좋은가'의 문제가 아니다. 보안이 중요한 방송국은 ElevenLabs 온프레미스를, 비용이 중요한 소규모 스튜디오는 CPU에서 도는 Pocket-TTS를, 품질 비교가 필요한 팀은 Trelis 벤치마크를 참고하면 된다. 경쟁력은 모델 선택이 아니라 파이프라인 통합과 품질 관리에서 나온다.

무게 중심

에이전트가 에이전트를 만든다 — 프로덕션 단계의 자율 AI

Claude Code가 웹사이트에서 앱스토어까지 무인 자동화하는 영상이 108만 뷰를 찍었다. 16세 비개발자가 일매출 100만원을 낸다. 듀오링고 CEO가 '코딩 모르는 직원이 AI로 사내 최고 인기 코스를 만들었다'고 말한다.

이건 코딩 자동화를 넘어서는 이야기다. Hermes Agent Self-Evolution(ICLR 2026 Oral)은 에이전트가 자기 프롬프트를 스스로 진화시킨다 — 강화학습 대비 35배 적은 데이터로 20포인트 성능 향상. 사람이 프롬프트를 짜주는 시대에서 에이전트가 스스로 최적화하는 시대로 전환되고 있다.

Claude Code 플러그인 생태계는 VS Code 확장 마켓플레이스처럼 폭발적으로 성장 중이다. 카파시 스타일 가이드라인이 플러그인으로 구현되고, autoskills가 프로젝트를 스캔해 스킬을 자동 설치한다. AI 코딩 도구가 '도구'에서 '확장 가능한 플랫폼'으로 진화하고 있다.

더빙 업계에 대입하면: 더빙 QA 에이전트가 검수할 때마다 자기 규칙을 개선하고(Hermes), VisionCaptioner로 영상 캡션을 자동 생성해 더빙 전처리를 자동화하고, RotorQuant으로 KV 캐시를 10배 압축해 로컬에서 긴 대본을 한 번에 처리한다. '2명이면 된다'는 듀오링고 CEO의 말이 더빙 서비스에도 그대로 적용되는 시점이다.

AI Dub · 2026.04.13 · [email protected]

수신을 원하지 않으시면 여기를 클릭해 주세요

𝕏 Twitter LinkedIn Threads

← All newsletters