AI Dub
2026.03.31 — AI 해고의 불편한 진실, Qwen3.5-Omni 113언어
|
|
TOP STORIES
1. AI 해고의 불편한 진실 — Block 4천·Dell 1.1만·Meta 2.5만, CFO 설문 "비공식 해고는 공식의 9배"
2. Qwen3.5-Omni — 113언어 ASR + 36언어 TTS, 네이티브 옴니모달 단일 모델
3. LongCat-AudioDiT — 파형 잠재공간 SOTA 디퓨전 TTS, "좋은 VAE ≠ 좋은 TTS"
|
|
더빙 · 비디오 · 음성
Qwen3.5-Omni · LongCat-AudioDiT · VibeVoice
|
|
Qwen3.5-Omni — 네이티브 옴니모달의 현재 — 텍스트·이미지·오디오·비디오 단일 모델. 113개 언어/방언 ASR + 36개 언어 TTS. 1억 시간+ audio-visual 데이터 학습. 215개 서브태스크 SOTA. Audio-Visual Vibe Coding(카메라에 대고 설명→웹사이트/게임 즉시 생성). 시맨틱 인터럽션, 자동 웹검색, 함수 호출 네이티브 지원. 스크립트 수준 비디오 캡셔닝(타임스탬프+장면 컷+화자 매핑).
공식↗
[상세 ↓]
LongCat-AudioDiT — "좋은 재구성 ≠ 좋은 합성" — 미투안. Wav-VAE + 디퓨전. 보이스 클로닝 SIM 0.818(Seed-ZH). 1B/3.5B. APG로 CFG 대체. 핵심 발견: VAE가 너무 좋으면 잠재 공간이 복잡해져 디퓨전이 오히려 학습 어려움. 파형 잠재공간에서 직접 동작해 누적 오류 제거.
원문↗
[상세 ↓]
VibeVoice — 너무 위험해서 내렸다가 재공개 — MS. 10초 오디오→보이스 클론, 90분 멀티스피커, 200ms TTFA, 50+ 언어, MIT. ElevenLabs $99/월 vs VibeVoice $0. 28.5K 스타.
원문↗
|
|
|
Claude · 에이전트
Boris Cherny 15 기능 · Computer Use · 접바둑 · MS 임베딩
|
|
Claude Code 숨겨진 15기능 — Boris Cherny 직접 공개 — 핵심 3개: (1) /loop+/schedule — 최대 1주 자동실행. "5분마다 코드리뷰+리베이스+PR 머지" 무인 가동 (2) Hooks — SessionStart에 컨텍스트 로딩, PermissionRequest를 WhatsApp으로 라우팅. 코드로 에이전트 제어 (3) /batch — 수천 개 worktree 에이전트에 작업 분산. + Computer Use 탑재로 사람이 할 수 있는 거의 모든 것을 수행.
원문↗
AI는 접바둑이다, 대리 대국이 아니다 — @jojoldu(135♥): 주니어 개발자가 좋아하는 강의자의 교수법을 AI 지시사항에 통째로 넣어 코드 리뷰를 받는다. "세상이 정한 난이도를 개인이 AI로 조절할 수 있게 됐다." 대신 두어주는 대리가 아니라, 실력 차이만큼 돌을 깔아주는 접바둑.
원문↗
MS 다국어 임베딩 모델 서프라이즈 드랍 — @victormustar(269♥): 세부 스펙 미공개이나 커뮤니티 반응 즉각적.
원문↗
|
|
|
사색 · 분석
AI 해고 · 인지적 암흑의 숲
|
|
AI 해고 = AI 알리바이? — @supernovajunn: 2026년 테크 해고 59,000명+, 연말 264,730명 예상. Block(4,000명): 진짜 이유는 암호화폐 투자 실패→"AI 전환" 포장. Meta(25,000명): 메타버스 836억 달러 손실→Reality Labs 정리. Fortune CFO 설문: 비공식 AI 해고가 공식의 9배. Block에서는 AI 툴을 가장 잘 쓰던 사람도 잘렸다. 잘린 건 직무가 아니라 인건비.
원문↗
Fortune↗
[상세 ↓]
인지적 암흑의 숲 — @GeekNewsHada: 류츠신의 '암흑의 숲' 논리가 오픈 웹에 적용. 아이디어 공개가 생존에 불리해지는 구조. 과거 인터넷은 공유가 성공을 높였지만, 2026년은 플랫폼 집중화+AI 실행으로 반전.
원문↗
|
|
|
TAKEAWAY
1. AI를 잘 써도 살아남는 게 아니다 — Block에서 AI 툴 최고 사용자도 해고. Fortune CFO 설문: 비공식 AI 해고는 공식의 9배. 잘리는 건 직무가 아니라 인건비. AI가 대체할 수 없는 판단을 가진 사람이 남는다.
2. 파이프라인의 종말이 가속된다 — Qwen3.5-Omni가 ASR+이해+TTS를 단일 모델로 통합. 113언어 인식, 36언어 합성, 1억 시간 학습. 더빙 파이프라인의 각 단계를 별도 모델로 조립하는 시대가 끝나고 있다.
3. TTS의 최적화 방향이 재정의된다 — LongCat-AudioDiT(SIM 0.818)가 "좋은 재구성 ≠ 좋은 합성"을 실증. VAE를 올리면 TTS가 오히려 떨어진다. 파형 잠재공간에서 직접 동작하는 것이 답.
|
|
|
|
|
Sources: Twitter bookmarks · Monitor search · Reddit · HuggingFace · Fortune
|
|
DEEP DIVE
각 사안의 배경 · 맥락 · 의미 · 전망
|
|
|
더빙 · 음성
|
Qwen3.5-Omni — 더빙 파이프라인이 단일 모델로 수렴한다
@Ali_TongyiLab(1,264♥). 113개 언어/방언 ASR, 36개 언어 TTS, 1억 시간+ audio-visual 데이터. 더빙 관점에서 가장 의미 있는 기능은 스크립트 수준 비디오 캡셔닝 — 영상에서 타임스탬프, 장면 컷, 화자 매핑을 자동 생성하면 더빙 전처리가 자동화된다. 3/27의 Google 동시통역 이어폰(Gemini end-to-end S2S), 어제의 Voxtral TTS, 지난주의 Cohere Transcribe까지 더하면 2026년 3월은 음성 AI 역사에서 "모든 것이 동시에 풀린 달"이 된다. Plus/Flash/Light 3개 사이즈, 256K 컨텍스트. ElevenLabs, GPT-Audio, Minimax를 다국어 음성 안정성에서 이기고, Gemini 3.1 Pro와 범용 오디오 이해/추론에서 동등 이상.
|
LongCat-AudioDiT — "좋은 재구성이 좋은 합성은 아니다"
미투안 LongCat 팀. 기존 TTS의 암묵적 가정 "VAE 재구성 ↑ → 합성 ↑"을 정면 부정. VAE가 너무 좋으면 잠재 공간이 과도하게 복잡해져 디퓨전 모델의 학습이 오히려 어려워진다. 해법: 파형 잠재공간에서 직접 동작하여 중간 변환의 누적 오류 제거. APG 알고리즘으로 CFG 대체해 자연스러움 개선. SIM 0.818(Seed-ZH)은 오픈소스 기준 최고이며 클로즈드소스와도 경쟁 수준. Audio Turing Test 데이터셋도 함께 공개. 1B/3.5B 두 사이즈로 로컬 배포 현실적.
|
|
|
사색 · 분석
|
AI 해고의 불편한 진실 — 기술 교체인가, 비용 핑계인가
@supernovajunn 분석 + Fortune/CNN/CNBC 종합. 2026년 테크 해고 59,000명+, 연말 264,730명 예상. Block(4,000명): 암호화폐 투자 실패 → "크립토에서 AI로" 재포지셔닝 → AI 해고 포장 → 주주 안심. Meta(25,000명): 메타버스 836억 달러 손실, Reality Labs에서 700명. 그런데 Fortune CFO 설문이 진짜를 보여준다: 비공식 AI 해고가 공식의 9배. 공식적으로 AI를 이유로 명시하는 건 전체의 20%뿐(RationalFX). 진짜 AI 대체도 존재한다 — 콜센터, 초급 코딩, 콘텐츠 번역·요약. 하지만 "AI 때문"이라는 말을 2026년에는 아무도 의심하지 않는다. 그게 사실이든 아니든. Block에서는 AI 툴을 가장 잘 쓰던 사람도 잘렸다. 잘린 건 직무가 아니라 인건비. 살아남는 건 AI가 대체할 수 없는 판단을 가진 사람이다. 그게 뭔지는 아직 아무도 정확히 모른다. 그게 지금 이 시대의 진짜 불안이다.
|
|
AI Dub · 2026.03.31 · editor@dubbing.news
|