뒤로가기back

故김현식 목소리 되살린 가우디오랩, "생성 AI로 메타버스에 '소리' 불어넣는다"

2023.03.05ㆍ by Gaudio Lab

(2023-03-05)

 

故김현식 목소리 되살린 가우디오랩, "생성 AI로 메타버스에 '소리' 불어넣는다"

 
최근 뜨겁게 달아오른 생성AI와 함께 가우디오랩도 소리생성 AI의 선두주자로서 주목받고 있습니다. 화면만 보면 자동으로 소리를 생성해주는 소리생성 AI 프로젝트를 이데일리와의 인터뷰를 통해 소개했습니다.
 
세계 최고 수준의 음원분리 기술과 양질의 소리 데이터를 압도적으로 많이 보유하고 있는 만큼, 가우디오랩의 AI 기술이 세상의 모든 소리를 만들어내는 미래를 곧 현실로 가져올 예정입니다.
 
 
 
 
미디어 속 가우디오랩
167
레트로 열풍, 과거를 현실로 소환하는 가우디오랩의 AI기술

(2023-02-14) 레트로 열풍, 과거를 현실로 소환하는 가우디오랩의 AI기술     레트로(Retro)는 회상, 회고, 추억, 회구 등을 뜻하는 Retrospect에서 옮겨온 단어죠. 불안한 미래와 서늘한 현실사이에서 과거의 영광을 그리워하는듯, 과거로 회구하는 레트로 콘텐츠가 연일 흥행을 이어가고 있다. 과거를 현실로 소환해 역행 콘텐츠를 제공하는 한국 스타트업들의 마법같은 AI 기술을 주목해봅니다.   가수 故 김현식이 등장한 ‘히든싱어7’, ‘놀면 뭐하니 - 놀뭐복원소' 속 돌아가신 아버지의 목소리, 최근 ‘젊은 최민식'으로 주목받은 ‘카지노’까지. 음원 분리기술, 디에이징 기술, 음성 합성기술, 디지털 휴먼 복원기술, 딥페이크 등 다양한 기술이 현실에서 과거를 재현해내고 있습니다.   최근 시즌1을 마치고 2월 15일 시즌2의 공개를 앞두고 있는 디즈니+ 오리지널 시리즈 '카지노'(극본, 연출 강윤성)는 오디오 AI 음원분리 기술과 음성 디에이징 기술 등을 활용해 하나의 시기가 아닌 인물의 일대기 전체에 걸쳐 높은 퀄리티의 사운드를 창조해낼 수 있다는 점에서 ‘과거 소환의 끝판왕' 격으로 불립니다.   이 과정에 어떤 회사들이 함께했는지 알아보겠습니다.      좋은 재료에서 좋은 요리가 나온다, 가우디오랩의 AI 음원분리기술   맛있는 비빔밥은 신선한 재료에서 탄생합니다. 가우디오랩의 AI 음원분리 기술은 먹기 좋게 비벼진 비빔밥에서 (비비기 전) 상태인 신선하고 아삭한 당근을 추출해 내는 것과 유사합니다. 여러 목소리와 잡음이 담긴 비빔밥에서 주인공의 목소리 단 한 줄기만을 깨끗이 발라 건져내는 것이죠. ‘카지노'의 주인공 최민식 배우가 연기한 최무식의 30대를 이물감 없이 전달하기 위해, 영화 사운드 팀은 가우디오랩의 AI 음원분리 기술을 활용해 최민식 배우의 30대 시절 목소리를 새롭게 생성해냈습니다. 주인공의 30년 전 목소리를 구현하기 위한 핵심 요소는 ‘분리'에 있습니다. <야망의 세월>에서 ‘꾸숑'을 연기하던 30대 최민식 배우의 목소리를 음원분리 기술을 통해 신선하게 뽑아내는데 성공했습니다. 신선하지 않은 재료에서 맛있는 요리가 탄생할 수 없는 것처럼, 이 과정의 완성도(분리도)에 따라 이후 음성 합성 혹은 디에이징 기술을 거쳤을 때의 최종 산출물이 달라질 수밖에 없기 때문이죠.   가우디오랩의 AI 음원분리 기술은 ‘카지노' 이전 ‘히든싱어7’에서도 사용된 바 있스니다. 해당 프로그램은 원조 가수와 도전자가 한 소절씩 나눠 노래를 부르는 포맷으로, 반주 음악과 목소리가 따로 된 곡들만 활용이 가능합니다. 그러나 1980년대 이전에 활동한 가수들의 경우 반주 위에 목소리를 한꺼번에 녹음하기 때문에 퀄리티 있는 음원의 확보가 어려웠던 문제가 있습니다. 이 문제를 가우디오랩의 AI 음원분리 기술을 활용, 반주 음악 위의 목소리 만을 깨끗이 분리해내면서 프로그램 진행이 가능해졌습니다. 실시간 음원분리까지 가능하기 때문에 화상통화에서의 소음제거 등에도 활용할 수 있는 실용도 높은 기술입니다.   훌륭한 요리사, 수퍼톤의 디에이징 기술   AI 음원분리기술로 확보한 재료를 활용해 수퍼톤이 AI 보이스 디에이징(De-Aging) 을 담당했습니다. 촬영이 완료된 현장 녹음본을 ‘AI 보이스 디에이징’을 통해 30대의 최민식 배우 목소리로 변환했습니다. 다양한 연령대의 깨끗한 목소리를 학습하면 자연스럽게 목소리의 종류 및 연령대를 변화시킬 수 있는 수퍼톤의 AI 오디오 기술이죠. 이 기술을 통해 촬영당시 연기력을 유지한채 ‘젊은 시절의 최민식 배우 목소리'를 구현해내는데 성공했습니다.   수퍼톤은 음악을 기반으로 영화, 애니메이션, 메타버스 등 다양한 콘텐츠로 AI 기술 적용 영역을 확장하고 있으며, 나이와 성별, 언어, 국경 등 경계를 허물어 콘텐츠 제작의 패러다임을 바꾸고 있기도 합니다.      각 요리를 멋지게 구성하는 디자이너, 사운드 스튜디오 웨이브랩   카지노의 사운드 믹싱작업은 국내를 대표하는 사운드 스튜디오 중 하나인 웨이브랩이 담당했습니다. 공조2(감독 이석훈), 버닝(감독 이창동), 그것만이 내세상(감독 최성현), 국제시장(감독 윤제균) 등 사운드가 좋기로 유명한 국내 수작들의 뒤에는 웨이브랩이 있었습니다. 웨이브랩은 상기 언급한 유수작들의 사운드 믹싱을 담당해 온 전통 강자로, 이번 카지노 작업을 통해 AI 사운드 소스를 사운드 장인의 손으로 가공, 최고의 사운드를 만들어내며 사운드 업계의 주목을 받았습니다.     위와 같은 기술들이 합쳐져 과거 콘텐츠들을 현실에서 생생하게 풀어낼 수 있습니다. 레트로 열풍을 단단히 뒷받침하는 한국 스타트업들의 기술력으로 완성도 높은 ‘과거 소환'이 가능해지고 있습니다. 이와 같은 신규 콘텐츠가 시장에 점점 더 많이 등장하는 만큼 앞으로도 콘텐츠 제작 및 재제작, 새로운 방송 프로그램 포맷의 출시 등 스트리밍 업계 전반과 OTT, 방송국, 스튜디오 등 다양한 분야에서 과거를 소환하는 콘텐츠들을 더 많이 만나볼 수 있을 것으로 기대됩니다. 그 선두에 선 가우디오랩을 항상 주목해주세요!       

2023.02.14
169
가우디오랩, '생성 AI 대표'로 국제적 AI 챌린지 참가

(2023-03-09)   가우디오랩, '생성 AI 대표'로 국제적 AI 챌린지 참가   가우디오랩이 소리생성 AI(Genertive Sound AI)대표로 국제적 AI 챌린지인 Dcase에 참가합니다. ‘음향 장면과 이벤트 인식/분류’ 와 관련해 전 세계의 기술 경진이 펼쳐지는 Dcase(Detection and Classification of Acoustic Scenes and Events의 약자) Challenge는 음향 장면 및 이벤트의 감지와 분류를 다루는 국제적인 데이터 챌린지로 2013년부터 진행되어 왔으며 올해 9회 차를 맞이했습니다.   가우디오랩은 이번 Dcase에 새롭게 등장한 Foley Sound Synthesis 과제를 주관합니다. 가우디오랩을 포함해 뉴욕대, 카네기멜론대, 도시사대, 동경대, 리츠메이칸대 등이 이 과정에 참여합니다. 가우디오랩은 Generative Sound AI 분야의 선구자로서 유수의 연구진들과 함께 본 Task를 리드할 예정입니다.   일반적으로 폴리 사운드는 라디오나 영화 등에서 2행되는 서사의 맥락을 잘 전달하기 위해 더하는 소리(발자국 소리, 바람 소리, 주변음 등) 등의 음향 효과를 말합니다. 가우디오랩이 주관하는 Foley Sound Synthesis 과제는 AI와 데이터를 활용해 각종 사운드 범주의 소리를 새롭게 생성해내는 과정에 관한 것입니다. 본 과제는 지정 범주 내에 속하는 사운드를 AI 모델을 통해 생성함으로서, 포스트 프로덕션 단계에서 폴리 사운드 합성에 소요되는 시간 및 비용 효율화를 돕습니다.   이 기술을 통해 제각기 다른 메타버스 플랫폼 및 복잡한 가상 환경 혹은 게임 분야 등에도 정교한 사운드를 입힐 수 있게 되며, 앞으로 이 같은 사운드 생성에 대한 니즈는 점점 더 높아질 것으로 예상됩니다. 또한 데이터 세트 합성 및 증강 과정에 활용이 가능해 고품질 폴리 사운드 합성으로 이어질 수도 있다는 것이 업계의 설명이기도 합니다.    가우디오랩이 선도하는 사운드 생성AI 기술에 많은 관심 부탁드립니다!    

2023.03.09