가우디오 스튜디오 – 내 최애곡의 새로운 면모
가우디오 스튜디오 – 내 최애곡의 새로운 면모
안녕하세요, 가우디오랩에서 오디오 및 AI 응용을 연구하고있는 필립입니다!
지난 9월 가우디오 스튜디오는 영국 유력매체 MusicRadar가 선정한 ‘최고의 음원분리 소프트웨어’로 1위로 선정되었습니다. Serato Sample, Acon Digital, DeepRemix, FL Studio 등 높은 인기를 자랑하는 소프트웨어와의 경쟁에서 이긴 것이죠. 여기서 더 놀라운 사실은 가우디오 스튜디오가 이 가운데 유일한 무료 소프트웨어라는 점입니다. 가우디오 스튜디오의 첫 해외 보도가 이렇게 호평을 받아 매우 기쁜 마음으로 스튜디오 서비스를 정식으로 소개해보고자 합니다.
가우디오 스튜디오는 최첨단 오디오 AI 모델로 구동되는 웹 기반 AI 음원 분리 서비스입니다. 현재는 베타 버전으로 아래와 같이 두 가지 기능을 제공하고 있으며, 누구나 쉽고 재미있게 사용할 수 있으면서도 우수한 성능을 자랑합니다.
-
악기 분리 – 원하는 음악에서 보컬과 악기를 트랙별로 분리할 수 있는 스템 분리 도구
-
노래방 – 보컬 분리 및 가사 동기화 기능을 갖춘 즉석 노래방 제작 도구
오디오 스템 분리
그럼 ‘스템 분리‘란 무엇일까요? 먼저 ‘음원 분리‘를 설명하면 좋을 것 같은데요. 음원 분리란 일반적으로 원본 오디오에서 원하는 사운드를 제거하거나 추출하는 과정을 의미합니다. 여기서 한 단계 더 나아간 작업이 ‘스템 분리‘라고 볼 수 있습니다. 스템 분리는 믹스에서 ‘스템‘이라고 불리는 각 트랙 별 사운드를 분리하는 것을 말합니다. 현대 음악 산업에서는 각 스템의 특징과 편재성을 고려하여, ‘보컬‘, ‘베이스‘, ‘드럼‘, ‘그 외‘, 이렇게 네 가지 요소를 분리하는 것을 ‘스템 분리’라고 흔히들 정의하고 있습니다.
과거에는 스템 분리가 수작업으로 이루어지는 경우가 많아 주로 단순한 오디오 시나리오에서만 제한적으로 사용되었습니다. 그러나 최근에는 인공지능의 발전으로 인해 복잡한 트랙에서도 스템 분리가 가능해졌습니다. 이제는 충분한 학습 데이터가 주어진다면 딥러닝 모델을 훈련시켜 다양한 악기의 복잡한 패턴을 자동으로 인식하고 분리할 수 있습니다.
그러나 성능이 우수한 스템 분리 모델을 설계하는 것은 쉽지 않습니다. 현재 많은 AI 기반 프로그램들은 여전히 허상과 왜곡이 섞인 결과물을 내놓고 있기도 합니다. 특히 음색과 음량이 서로 마스킹되는 음원 믹스의 경우 이런 문제가 더욱 두드러지게 나타납니다. 이러한 상황에서 스템을 분리하는 것은 AI에게는 물론, (이런 작업이 익숙지 않은) 사람에게도 매우 난이도 높은 작업입니다.
GSEP 및 악기 분리
가우디오 스튜디오의 악기 분리 기능은 세상에서 가장 안정적으로 음원을 분리해주는 서비스 중 하나로, 매일 사용자들에 의해 검증되고 있습니다. 현재 버전에서는 앞서 언급한 4개의 스템에 전자 기타와 피아노를 포함하여 최대 6개의 악기로 음원을 분리할 수 있습니다. 선택되지 않은 다른 스템은 자동으로 기타 악기로 묶이게 됩니다. 사용자가 특정 악기를 선택하면 해당 악기에 대한 분리 요청이 대기열에 등록되며, 이후 처리된 결과를 재생하거나 다운로드할 수 있습니다.
이 기술의 핵심이 바로 가우디오랩의 AI 분리 모델인 GSEP(Gaudio source SEPeration)입니다. 2021년 출시 이후, GSEP은 경쟁사들을 압도하며 최고의 성능을 자랑하고 있습니다. (심지어 스스로의 기록을 경신해나가고 있기도 합니다)GSEP은 음질, 분리도, 경량성 등 주요 요소들에서 높은 품질을 유지하기 위해 저희 연구팀이 심혈을 기울여 개발했는데요, 그 결과 독립 사운드 스튜디오의 녹음과 거의 구분할 수 없을 정도로 깨끗하고 자연스러운 분리 결과를 제공합니다. 다른 AI 음원 분리 솔루션에서 발생하는 과도한 억제(음의 뭉개짐)로 인한 음질 저하, 음량 불일치(변동)와 같은 문제도 거의 발생하지 않습니다. 물론 여러분들이 직접 확인하시거나 실제 사용자들의 비교 자료를 통해 이를 확인해하실 수도 있고요.
(여기까지는 당연히 좋게 들리시죠?) 하지만 여기서 끝이 아닙니다. 2021년, 외부 평가에서 보컬 10dB, 반주 16dB의 SDR(Signal-to-Distortion Ratio)을 기록하는 등 객관적인 수치로도 여타 스템 분리 모델을 크게 능가하는 점수를 기록하기도 했습니다.참고로 SDR은 음원 분리에서 사용되는 중요한 지표로, 결과물이 왜곡된 정도를 측정합니다. 참고로 SDR이 10dB 증가할 때마다 왜곡은 약 10배 감소합니다. 이 평가 결과는 GSEP의 뛰어난 성능을 보여줄 뿐만 아니라 GSEP이 심지어 Meta의 최신 버전 Demucs보다도 훨씬 높은 점수를 기록했다는 것을 나타내기도 하죠!
이런 GSEP의 탁월한 품질 뒤에는 전세계 최고의 음향공학석박사 인력으로 밀도가 짱짱한 가우디오랩 연구진의 진정한 열정과 오디오에 대한 깊은 이해가 있습니다. 가우디오랩 AI 연구팀은 Audio 연구팀과 밀접하게 일하며 강력한 시너지를 만들고 있습니다. 최고 품질과 더불어 안정적인 음원 분리를 위해 사람의 청취 심리를 고려하고, 끊임없이 양질의 데이터베이스를 추가하며 모델 아키텍처를 함께 고도화시키고 있습니다. 이렇듯 GSEP은 개발자들의 지속된 학습으로 높은 SDR은 물론, 최고 수준의 음질을 만들어 내고 있습니다.
GTS와 Noraebang
깔끔하게 사람의 목소리와 배경음악을 GSEP의 기능은 자연스럽게 노래방 반주 트랙 생성기에 대한 아이디어로 이어졌습니다. 이 아이디어는 가우디오랩의 전매특허 AI 가사 싱크 솔루션(가사 동기화 솔루션) GTS와 접목되어 가우디오 스튜디오의 노래방 기능으로 구현되었습니다. 원하는 음악을 가사 파일과 함께 업로드하기만 하면 나머지는 AI 엔진이 알아서 해줍니다. 바로 나만의 노래방 음원이 생기는 것이죠. 게다가 노래방의 웹 인터페이스는 정확한 타이밍에 맞춰 가사를 단어 단위로 표시해주고요!
앞서 말씀드린 GTS는 Gaudio Text-Synchronization을 줄여 만들어진 이름입니다. 흔히 이용하시는 ‘실시간 가사보기’가 바로 GTS 덕분에 가능한데요, 노래의 해당 구간에 맞는 가사 텍스트를 AI가 자동으로 싱크합니다. 복잡한 음원 구조 내에서 보컬을 식별하는 작업은 GSEP의 음원 분리 기능으로, 노래 가사의 음성 정보와 텍스트 간의 상관관계를 파악하고 타임 스탬프를 생성하는 나머지 문제는 GTS가 해결합니다.
GTS는 다양한 리듬의 스타일, 박자 및 보컬의 뉘앙스에 알맞게 대응하도록 설계된 적응형 AI 모델입니다. 이런 적응성은 특정 언어의 소리가 아닌, 국제음성기호(IPA)에 대응되는 표음(phonemes)을 학습하여 가능합니다. 간단히 말해, GTS가 새로운 언어를 학습하기 위해서는 국제음성기호로 발음 체계가 표기된 어학 사전만 있으면 됩니다. 그리고 대부분의 일반 언어에 대해서는 이런 데이터가 잘 문서화되어 있습니다.
일반적으로 긴 텍스트와 오디오 시퀀스는 처리하는데 높은 연산 비용과 시간이 필요합니다. 하지만 GTS는 노래의 장르나 아티스트에 관계없이 매우 일관된 결과를 만들면서도 속도와 품질을 포기하지 않습니다. GTS의 모델은 문장 수준에서 먼저 동기화를 예측을 하고 이후에 단어 수준에서 재귀적으로 처리를 하는 방법으로 전체 노래를 동기화하는 데 곡의 길이와 구조에 관계없이 5초 미만의 추론 시간과 약 99%의 정확도를 보입니다.
Gaudio Studio 베타 사용하기
Gaudio Studio를 사용하면 누구나 악기 분리 및 노래방 기능을 사용해 좋아하는 노래의 트랙을 원하는 대로 쉽게 분리하고 공유할 수 있습니다. 게다가 노래방 버전도 바로 만들 수 있습니다. 아, 좋아하는 음악이 악기로만 구성되어 있더라도 걱정하지 않으셔도 됩니다. GSEP은 다양한 악기 유형마다 개별적으로 훈련되어 있기 때문에 원하시는 대로 분리해드리거든요!
가우디오 스튜디오는 누구나 언제든 어디서든 쉽게 서비스를 이용할 수 있도록 설계되었습니다. 무손실 포맷부터 압축 포맷(flac, wav, mp3, m4a 포함)까지 다양한 오디오 입력 형식을 지원하며, URL 링크만 간단히 입력하여 간편하게 분리할 수도 있습니다. 가우디오 스튜디오는 PC는 물론 모바일 기기를 통해서도 접속할 수 있기 때문에 뮤지션들 뿐만 아니라 취미로 가볍게 즐기고 싶은 분들도 손쉽게 이용할 수 있습니다.
가우디오랩의 GSEP과 GTS는 각 세계 최고의 기술, 세계 최초의 상용화 솔루션으로 평가받고 있습니다. 다만 아직 Beta 버전으로 제공하고 있는데요, 그만큼 발전될 여지가 많습니다.더 빠른 속도, 더 좋은 음질…, 이용자 분들이 원하시는 방향으로 계속해서 개선하는 작업을 진행하는 이유이기도 합니다. 추후 업데이트될 Gaudio Studio에서는 추가된 스템, 향상된 성능, 그리고 (아직은 비밀인) 다양한 기능들을 기대하셔도 좋다는 이야기를 자신있게 드리고 싶습니다!
직접 경험해 보세요.
가우디오랩에은 가우디오 스튜디오에 대한 여러분의 이야기를 기다리고 있습니다! 음원 채보를 위한 악기 분리, 세션 연습을 위한 맞춤형 반주 제작, 심지어 새로운 작품에서의 오마주를 위한 샘플을 추출하는 작업까지 다양하게 사용될 수 있거든요. 가끔 상상도 못 했던 활용 사례를 접하면 매우 놀라기도 합니다.
그렇다면 여러분은 가우디오 스튜디오의 AI 음원 분리 기술을 어떻게 이용하실 건가요?
한번 직접 사용해 보고 저희에게도 살포시 알려주시길 기다리고 있겠습니다!