AI Dub
2026.04.08 — 밀라 요보비치가 GitHub에 나타났다, DeepSeek V4가 조용히 왔다, 카파시가 RAG의 종말을 선언했다
|
|
TOP STORIES
1. 밀라 요보비치가 GitHub에 나타났다 — 제5원소의 리루가 AI 메모리 툴을 만들었다. 빌더의 시대.
2. DeepSeek V4 그레이스케일 테스트 시작 — V3 이후 16개월, Fast·Expert·Vision 3단 모드.
3. Karpathy "RAG는 망가졌다" — LLM Wiki 48시간 만에 5,000 스타. RAG의 종말이 시작됐다.
4. Gemma 4가 13GB로 줄었다 — M1 MacBook에서 20-40 tok/s. 노트북 더빙의 시대.
5. VoxCPM 2 — 텍스트에서 감정까지. 중국발 TTS가 "연기"를 시작했다.
|
|
빌더의 시대
요보비치 GitHub · Graphify 48시간 · 새로운 직군의 부상
|
|
밀라 요보비치가 GitHub에 나타났다 — "제5원소"의 리루가 AI 툴을 만들었다 — @move78th(4월 7일): "밀라 요보비치의 깃헙?! 제5원소, 레지던트 이블 등 영화에서만 보던 여배우가 깃헙 계정이 있다고요? 에이전틱 메모리 툴인 MemPalace라는 걸 만들었다는데." 할리우드 A급 배우가 직접 코드를 쓰고 AI 도구를 만들어 GitHub에 공개했다. MemPalace는 AI 에이전트를 위한 지속적 메모리 시스템이다. 고대 그리스의 "기억의 궁전" 기법을 AI 메모리 아키텍처에 적용한 것으로, Claude·GPT·Cursor 등에 MCP 서버로 연결해 세션이 끝나도 기억이 유지되게 한다. 16,000개 이상의 GitHub 스타를 받았다. 벤치마크 과장 논란도 있었지만(Hacker News에서 비판), 본인들이 "우리가 틀렸다. 고치겠다"고 README에 직접 인정했다. 핵심은 이것이다 — "코드를 모르던 사람들이 코드를 만드는 시대가 됐다."
@move78th↗
쉽게 말하면: 영화 "제5원소"에서 외계인 전사 리루를 연기한 밀라 요보비치가, 이번엔 GitHub에서 AI 도구를 만들었다. "코딩을 전문으로 하지 않는 사람도 AI 도구를 만들 수 있다"는 시대의 상징적 장면이다. 비판보다 중요한 건, 이런 일이 가능해졌다는 사실 자체다.
"디자이너도 엔지니어도 아닌 새로운 직군이 생기고 있다" — @GeniusReturnMan(4월 6일, 182 좋아요, 19K 조회): "AI 네이티브 기업들 사이에서 경계가 빠르게 허물어지고 있다. 채용 공고가 달라지고, 팀 구성이 달라지고, 실제로 일하는 방식이 달라지고 있다." 기획-디자인-개발의 전통적 분업이 무너지고, AI를 도구로 써서 혼자 전체를 만드는 '빌더'가 부상. 요보비치가 그 극단적 사례다 — 배우가 AI 툴을 만들 수 있다면, 더빙 PD가 더빙 파이프라인을 직접 만들지 못할 이유가 없다.
@GeniusReturnMan↗
Graphify — 48시간 만에 카파시의 아이디어가 도구가 됐다 — @socialwithaayan(4월 6일, 3,417 좋아요, 182K 조회): "48 hours after Karpathy posted his LLM Knowledge Bases workflow, this showed up on GitHub. Graphify. One command. Any folder. Full knowledge graph." 카파시의 아이디어 → 48시간 → 완성된 도구 → 3,400개 좋아요. 빌더 시대의 속도를 보여주는 사례.
@socialwithaayan↗
|
|
|
좁혀지는 격차
DeepSeek V4 · Gemma 4 극한 압축 · RAG의 종말
|
|
DeepSeek V4, 조용히 그레이스케일 테스트 시작 — @intheworldofai(4월 7일, 242 좋아요, 40K 조회): "DeepSeek V4 appears to be rolling out in limited gray-scale testing. Fast mode (default, unlimited for daily use), Expert mode, Vision mode." V3가 2024년 12월 출시 이후 약 16개월, 차기 모델이 조용히 모습을 드러냈다. Fast는 무제한 무료, Expert는 고품질 추론, Vision은 멀티모달. The Information에 따르면 V4는 엔비디아 칩 없이 화웨이 Ascend 칩으로만 운영될 예정 — 중국 AI 반도체 자립의 이정표.
@intheworldofai↗
쉽게 말하면: AI 업계를 뒤흔든 중국 스타트업 DeepSeek이 차기 모델 V4를 소규모로 테스트하고 있다. 더 중요한 건 — 미국 엔비디아 칩 없이, 중국 화웨이 칩만으로 돌린다는 것이다. AI 반도체 패권 경쟁의 새 장이 열리고 있다.
Gemma 4가 13GB로 줄었다 — M1 MacBook에서 20-40 tok/s — @whyarethis(4월 7일, 633 좋아요, 53K 조회): "Gemma 4 26B running at 13GB on my Macbook M1, full context window. REAP model optimized through coherence physics. Dead heads pruned and replaced by SVD rotations." 출시 5일 만에 26B 모델이 13GB로 줄었다. 불필요한 부분을 물리적으로 잘라내는 REAP + SVD 기법. Apache 2.0의 복리 효과 — 열린 라이선스가 혁신 속도를 가속한다.
@whyarethis↗
더빙 SaaS 관점: 52GB(bf16) 모델이 13GB로 줄어들면, M1 MacBook에서도 더빙 파이프라인의 LLM 교정 단계를 로컬로 돌릴 수 있다. GPU 서버 없이 노트북 하나로 더빙 작업이 가능해지는 시대. "크기를 줄이되 품질은 유지"가 이번 주의 키워드다.
Karpathy "RAG는 망가졌다" — LLM Wiki로 대체하라 — @heynavtoor(4월 6일, 2,735 좋아요, 275K 조회): "Andrej Karpathy thinks RAG is broken. He published the replacement 2 days ago. 5,000 stars in 48 hours. LLM Wiki — a pattern where your AI doesn't retrieve information from scratch every time. It builds and maintains a persistent knowledge base." @meta_alchemist(646 좋아요): "Works better than 99.9% of AI memory systems." RAG는 매번 문서를 검색한다. LLM Wiki는 AI가 한 번 읽고 지식 그래프로 정리해둔다. 사람이 공부하듯이.
@heynavtoor↗
@meta_alchemist↗
쉽게 말하면: 지금 대부분의 AI는 질문받으면 매번 문서더미를 뒤진다. 카파시가 제안한 방식은 — AI가 미리 모든 문서를 읽고 정리해서 "두뇌"에 넣어둔다. 사람이 공부하듯이. 48시간 만에 5,000명의 개발자가 "이게 맞다"고 손들었다.
|
|
|
기술 · 더빙 · 음성
VoxCPM 2 감정 합성 · Google Eloquent 오프라인 · SubStudio 자막 · PersonaPlex 후속
|
|
VoxCPM 2 — 텍스트에서 감정까지 합성하는 오픈소스 TTS — @OpenBMB(4월 6일, 198 좋아요, 269K 조회): "VoxCPM 2 is live! Stands shoulder to shoulder with Qwen3-TTS, while bringing everything into a single unified model." @viipin8(70 좋아요): "From text to voice to emotion. This is where AI starts to feel real." 제로샷 음성 복제 + 장문 합성 + 감정 — 단일 모델로 통합.
@OpenBMB↗
더빙 SaaS 관점: "슬픈 대사를 슬프게, 화난 대사를 화나게" 읽는 건 인간 성우의 핵심 역량이다. VoxCPM 2가 "텍스트 → 음성 → 감정"을 단일 모델로 처리한다는 건, AI 더빙이 "기계적 읽기"에서 "연기"로 넘어가는 첫 걸음이다.
Google AI Edge Eloquent — 오프라인 AI 받아쓰기, 유료 앱 대체 — @outsource_(4월 6일, 521 좋아요, 50K 조회): "GOOGLE QUIETLY LAUNCHED OFFLINE AI DICTATION APP. STOP PAYING FOR WISPRFLOW. Gemma-powered, turns your messy 'um... ah... wait' speech into clean, polished text." 인터넷 없이 더듬거림을 깨끗한 텍스트로 변환. 유료 앱(WisperFlow, SuperWhisper)을 무료로 대체.
@outsource_↗
SubStudio — 모든 영상에 AI 자막, 무료 오픈소스 — @nutlope(4월 6일, 508 좋아요, 33K 조회): "Generate subtitles for any video in seconds with AI. 100% free & open source! Powered by Whisper + FFmpeg." 별도 설치 없이 웹에서 즉시 자막 생성.
@nutlope↗
NVIDIA PersonaPlex — "Gemini Live보다 자연스럽고 18배 빠르다" — @LinusEkenstam(4월 6일, 242 좋아요, 24K 조회): "PersonaPlex 7B listens AND speaks simultaneously. Beat Gemini Live on dialog naturalness. 18x faster." 오픈소스 풀-듀플렉스 음성 모델에 대한 커뮤니티 반응이 커지고 있다.
@LinusEkenstam↗
|
|
|
TAKEAWAY
1. "빌더의 시대"가 더 이상 메타포가 아니다 — 밀라 요보비치가 GitHub에 AI 도구를 올렸다. 카파시의 아이디어가 48시간 만에 도구(Graphify)가 됐다. 디자이너도 엔지니어도 아닌 '빌더'라는 직군이 생기고 있다. AI가 코딩의 진입 장벽을 없앴고, 이제 아이디어와 실행력만 있으면 누구든 만들 수 있다. 더빙 업계도 마찬가지 — 대형 스튜디오의 파이프라인이 아니라, 빌더 한 명이 오픈소스를 조합해서 더빙 서비스를 만드는 시대가 왔다.
2. DeepSeek V4 + 화웨이 = 미중 AI 분리 가속 — V4가 엔비디아 칩 없이 화웨이 Ascend으로만 운영된다면, 중국 AI가 미국 반도체 의존에서 완전히 벗어나는 첫 사례가 된다. 오픈소스 진영(Qwen, Gemma, Llama, DeepSeek)의 경쟁 구도에 하드웨어 분리까지 더해지면, AI 생태계가 미국과 중국으로 양분될 수 있다.
3. RAG의 종말이 시작됐다 — 카파시가 "RAG는 망가졌다"고 선언하고, 48시간 만에 대안(Graphify)까지 나왔다. 5,000 스타, 275K 조회. LLM Wiki 패턴 — AI가 매번 검색하는 대신, 미리 공부해서 정리해둔다 — 은 단순하지만 강력하다. 더빙 프로젝트의 용어 사전, 화자 프로필, 스타일 가이드를 이 방식으로 관리하면 번역·교정 품질이 구조적으로 올라간다.
4. TTS에서 "감정"이 새로운 전장이다 — VoxCPM 2가 감정 합성을 단일 모델로 구현했다. TADA의 환각 제거 + VoxCPM의 감정 합성 — 두 혁신이 만나면 "인간 성우와 구분 못 하는" AI 더빙이 가시권에 들어온다.
|
|
|
|
|
Sources: @move78th · @GeniusReturnMan · @socialwithaayan · @intheworldofai · @whyarethis · @heynavtoor · @meta_alchemist · @OpenBMB · @viipin8 · @outsource_ · @nutlope · @LinusEkenstam
|
|
DEEP DIVE
각 사안의 배경 · 맥락 · 의미 · 전망
|
|
|
빌더의 시대
|
밀라 요보비치의 GitHub — 왜 이게 중요한가
밀라 요보비치는 "제5원소", "레지던트 이블" 시리즈의 주연 배우다. 그녀가 GitHub에 MemPalace라는 AI 에이전틱 메모리 툴을 올렸다. 커밋 수가 적다고 비판하는 사람들도 있다. 하지만 핵심은 코드의 양이 아니다. "코딩을 전문으로 하지 않는 사람이 AI 도구를 만들어 GitHub에 올릴 수 있게 된 시대"라는 사실 자체가 중요하다. @GeniusReturnMan이 분석한 '빌더'의 부상과 정확히 연결된다. 기획-디자인-개발의 경계가 무너지고, AI를 도구로 써서 혼자 전체를 만드는 사람들이 늘고 있다. 요보비치가 Claude Code나 Cursor를 써서 만들었을 가능성이 높다. 도구가 진입 장벽을 없앤 것이다. 더빙 업계에서도 같은 일이 일어날 수 있다. 더빙 PD가 직접 AI 파이프라인을 만들고, 성우가 자신의 목소리 클론 모델을 관리하고, 번역가가 LLM 교정 프롬프트를 튜닝하는 — 그런 시대가 이미 기술적으로는 가능하다.
|
|
좁혀지는 격차
|
DeepSeek V4 + 화웨이 — AI 반도체 패권의 분수령
DeepSeek V3는 2024년 12월 26일에 출시됐다. MoE 아키텍처로 학습 비용을 극적으로 낮추면서 GPT-4 수준의 성능을 달성해 업계를 뒤흔들었다. 약 16개월이 지난 지금, V4가 조용히 그레이스케일 테스트를 시작했다. Fast(무제한 무료)/Expert/Vision 3단 모드는 Kimi의 티어 시스템과 유사한 비즈니스 모델이다. 하지만 기술적으로 더 주목할 점은 The Information 보도 — V4가 엔비디아 칩 없이 화웨이 Ascend 칩으로만 운영될 예정이라는 것이다. 미국의 대중국 반도체 수출 규제에도 불구하고, 중국이 자체 AI 칩으로 프론티어 모델을 돌릴 수 있게 됐다면, AI 산업의 미중 분리가 하드웨어 수준에서 현실화되는 것이다. 더빙 산업 관점에서: 오픈소스 LLM 선택지가 미국(Gemma, Llama)과 중국(Qwen, DeepSeek)으로 양분되면, 각 생태계의 강점이 달라질 수 있다. 아시아 언어 최적화는 중국 모델이, 유럽어 최적화는 미국 모델이 앞설 가능성.
|
RAG의 종말? — 카파시 효과와 LLM Wiki 혁명
RAG(Retrieval-Augmented Generation)는 2023년부터 LLM 활용의 표준이었다. 질문이 들어오면 벡터 DB에서 관련 문서를 검색하고, LLM 컨텍스트에 넣어서 답을 생성한다. 문제: 매번 검색, 매번 관련성 판단, 매번 처음부터 이해. 카파시가 제안한 LLM Wiki는 3단계다. 원본 데이터(논문, GitHub, 웹 아티클) → raw/ 폴더 → LLM이 "컴파일·인터링크"하며 마크다운 위키로 정리 → 이후 질문에 즉답. @ralralbral(한국어 분석): "기존 RAG는 세션 종료하면 대화 맥락이 보존되지 않지만, 이 방식은 AI가 문서를 직접 읽고 옵시디언 마크다운 형태로 지식망을 구축한다." VentureBeat의 Carl Franzen은 이를 "중소 규모 데이터셋에서 RAG보다 단순하면서 더 효율적"이라 평가했다. 더빙 프로젝트 적용: 용어 사전, 화자별 말투, 번역 스타일 가이드를 위키로 구축 → AI가 "이미 아는 상태"에서 번역·교정 → 프로젝트 간 지식 이전도 가능.
|
|
기술 · 더빙 · 음성
|
VoxCPM 2와 감정 합성 — 더빙 AI가 "연기"를 시작하다
AI 더빙의 품질을 결정하는 세 가지 축. 첫째, 정확도 — 대사를 정확히 읽는가. Hume AI TADA가 환각 0건으로 해결했다. 둘째, 자연스러움 — 기계적이지 않은가. Voxtral, CosyVoice3가 경쟁 중이다. 셋째, 감정 — 장면에 맞는 톤과 뉘앙스를 재현하는가. VoxCPM 2가 이 세 번째 축에 도전하고 있다. Tsinghua 산하 OpenBMB 팀이 V1(제로샷 음성 복제) → V1.5(장문 합성) → V2(감정 통합)로 빠르게 진화시켰다. "텍스트 → 음성 → 감정"을 단일 모델로 처리한다는 건, 별도의 감정 분석 단계 없이 대사의 감정이 자동으로 음성에 입혀진다는 뜻이다. TTS 오픈소스 경쟁이 주 단위로 격화되고 있다: Mistral Voxtral(ElevenLabs 능가) → VoxCPM 2(감정 합성) → 다음은? 더빙에서 "감정까지 합성"이 현실화되면, 인간 성우의 역할이 "연기 디렉션"으로 전환될 수 있다.
|
13GB의 의미 — "노트북 더빙"의 시대가 오고 있다
일주일 전 Gemma 4를 로컬에서 돌리려면 최소 24GB VRAM이 필요했다. 이제 13GB면 된다. 압축 기법이 양자화(숫자 정밀도 줄이기)를 넘어 REAP(불필요한 전문가 제거) + SVD 회전(가중치 행렬 분해)으로 진화했다. 동시에 TurboQuant(KV 캐시 5배 압축, pip 한 줄)가 추론 시 메모리도 줄이고 있다. 모델 크기 + 추론 메모리 양쪽에서 동시에 압축이 진행되는 것이다. 실질적 의미: bf16 기준 52GB짜리 26B 모델이 13GB로 줄어서 MacBook에서 20-40 tok/s로 돌아간다면, H100 서버 없이도 더빙 파이프라인의 LLM 교정 단계를 돌릴 수 있다. 배경음 분리(SAM Audio), ASR(Whisper/Qwen3-ASR), 화자분리(Pyannote)도 각각 경량 버전이 나오고 있다. "노트북 한 대로 전체 더빙 파이프라인을 돌리는 시대"가 기술적으로는 가시권에 들어왔다.
|
|
AI Dub · 2026.04.08 · editor@dubbing.news
수신을 원하지 않으시면 여기를 클릭해 주세요
|
|