가우디오의 차세대 노래 반주기 Gaudio Sing을 소개합니다

가우디오랩의 차세대 노래 반주기, Gaudio Sing

2024.07.22ㆍ by Jin Yoon

글로벌 오디오테크 기업이 노래방 반주기를 만든다고?

가우디오랩이 생성형 AI 'Fall-E'로 전 세계의 주목을 받은 후, 이번에는 차세대 노래방 반주기인 Gaudio Sing의 공식 출시를 앞두고 있습니다.

"노래방?"

이라며 의아해하는 분들도 많겠지만, 사실 Gaudio Sing의 시작은 여러분도 한번쯤 생각 해보셨을 법한 단순한 아이디어에서 비롯되었습니다. - 좋아하는 가수의 곡을 들으며 듀엣을 부르거나 원곡 반주에 맞춰 노래를 부르고 싶다는 생각 말이죠.

가우디오랩의 핵심 AI 기술인 GSEP(Gaudio source SEParation)은 실시간 보컬 제거가 가능합니다. GTS(Gaudio Text Sync)는 국내외 유명 음악 스트리밍 서비스에서 애용되는 AI 동기 가사 생성 기술이죠. 이 두 가지 기술이 결합하면, 마치 마법처럼 원곡 반주에 맞춰 노래를 부를 수 있는 노래방 기능이 탄생하게 됩니다.

또한, Reverb와 Echo 같은 사운드 필터, 음 높낮이 및 속도 조절을 위한 드럼/비트 분리 기술, 상세 채점 기능 등 다양한 기능에 가우디오의 신호처리 기술과 AI기술이 적용되어 있습니다. 단순해 보이는 노래방 반주기가 사실은 수많은 오디오 기술이 적용된 종합 예술 작품이라고 할 수 있습니다.

Gaudio Sing은 가우디오랩의 혁신적인 오디오 기술이 집약된 결과물이며, 사용자에게 최상의 오디오 경험을 제공하겠다는 가우디오랩의 미션과도 완벽하게 부합합니다.

"혁신적 기술로 재탄생하는 노래방 ‘공간’의 새로운 가치"

현재, 전통적인 노래방이라는 공간은 다양한 노래방 및 가라오케 앱등 소프트웨어 들에 의해 도전을 받고 있습니다. 이러한 소프트웨어들은 스마트폰에서부터 스마트 TV까지 다양한 플랫폼에서 이용할 수 있지만, 여전히 널리 사용되고 있지는 않죠. 사용자에게 편안하게 노래를 부를 수 있는 '공간'은 매우 중요한 요소이지만, 기존의 앱들은 새로운 사용자 경험을 제공하지 않을 뿐만 아니라, 편안한 노래 부를 수 있는 환경의 중요성도 간과하고 있는 것으로 보입니다.

Gaudio Sing은 노래방 이라는 공간의 중요성과 그곳에서의 경험을 혁신하는데 먼저 주목하고 싶습니다. 노래방 이라는 공간 안에서 탁월한 소리 경험을 제공하는 것이 가장 중요하다고 생각합니다. 우리는 단순히 새로운 노래방 소프트웨어를 출시하는 것이 아니라, 기존 노래방의 경험을 가우디오의 기술로 먼저 혁신하고자 합니다.

노래방 안에서 스마트폰을 통해 노래를 선택하고 개인 맞춤형 플레이리스트를 자동으로 생성하는 기능을 제공하거나 전국적으로 사용자의 노래 실력을 평가할 수 있는 다양한 재미 요소를 추가하여 사용자들은 다른 사람들과 경쟁과 협업을 할 수도 있습니다. 하드웨어 반주기 없이 소프트웨어로만 구현되어 있어 다가올 증강 현실(AR) 시대에 대비할 수도 있고, 더욱 몰입감 있는 노래방 경험을 제공할 수도 있습니다.

기존의 노래방을 가족, 친구, 그리고 개인이 안심하고 즐길 수 있는 문화공간으로 새롭게 태어나게 만드는 것이 우리의 목표입니다. 이러한 경험은 모바일이나 스마트 TV로는 느낄 수 없는, 물리적인 공간에서만 가능한 특별한 것입니다.

노래방의 종주국, 일본에서 혁신을 시작하다.

우리의 노래방 문화는 종주국인 일본의 가라오케 문화에서 왔지만, 한국에서는 다르게 발전되었습니다. 일본의 인기 가라오케 시설에서는 이른 아침부터 긴 줄이 늘어서는 모습을 자주 볼 수 있는데, 이는 밤에만 운영되는 국내의 일반 노래방과는 확연히 차별화된 모습입니다. 일본의 가라오케는 단순한 노래방이 아니라 "멀티방"의 성격을 띄며, 함께 모여 노래를 부르는 장소뿐 아니라 홀로 악기 연습을 하거나 좋아하는 아이돌 공연을 보거나, 카페 대신 만날 친구를 기다리는 장소로 활용되기도 합니다.

이제는 원곡 반주로 즐기는 새로운 노래경험 이외에도 가우디오의 또 다른 핵심 기술인 GSA(Gaudio Spatial Audio: 공간음향)을 적용하여 공연장에 온 듯한 최적의 음향 효과로 컨텐츠를 즐기거나, 보컬뿐 아니라 각종 악기 역시 분리할 수 있는 GSEP의 기능을 활용하여 원곡에 맞춰 기타 솔로를 가라오케 룸에서 연습할 수도 있습니다.

코로나19 팬데믹으로 인해 일본의 가라오케 시장은 큰 타격을 입었지만, 여전히 4조 원 규모를 유지하고 있습니다. 최근에는 코로나 이전 수준으로 빠르게 회복 중이죠. 일본의 가라오케 시장은 하드웨어 제조업체 두 곳이 시장을 독점하고 있으며, 10개 이상의 가라오케 체인 사업자들이 이 하드웨어를 이용해 가라오케 방을 운영하는 구조입니다. 이 폐쇄적인 구조 때문에 일본의 가라오케 산업은 디지털화가 더디게 진행되고 있습니다. 시장 규모, 가라오케 문화에 대한 긍정적인 이미지, 독점 구조로 인해 낙후된 가라오케 룸 내에서의 사용자 경험은 우리에게 기회로 여겨졌고, 다행히 일본 가라오케 산업의 핵심 플레이어로 활약하고 있는 일본 파트너사와의 만남은 일본이 우리가 그리는 G Sing의 모습을 구현하기에 최적의 장소임을 확인시켜 주었습니다.

일본에서 가라오케는 단순한 오락을 넘어 사회적 유대감을 형성하는 중요한 문화 요소로 자리잡고 있습니다. 사람들은 가라오케를 통해 스트레스를 해소하고, 친구나 가족과 함께 즐거운 시간을 보냅니다. 가우디오랩은 이러한 가라오케의 긍정적인 이미지를 바탕으로 혁신적인 기술을 접목시켜 일본 내에서 새로운 시장을 개척하려 합니다. 일본 시장에서의 성공은 다른 나라로의 확장에도 긍정적인 영향을 미칠 것입니다.

마치며: 음악은 만국공통어

음악은 언어와 문화를 초월하여 사람들을 하나로 묶는 강력한 힘을 지니고 있습니다. '음악은 만국공통어'라는 표현이 생길 정도로, 음악은 전 세계 어디서나 사람들에게 사랑받고 있습니다.

이러한 음악 문화의 중심에는 '노래방'이 있습니다.

우리는 이 보편적인 즐거움을 새로운 방식으로 경험할 수 있는 Gaudio Sing이 종주국인 일본 뿐 아니라 우리나라에도 긍정적인 변화를 가져올 것이라 기대하고 있습니다.

AI Text Sync (GTS)GSEP MusicSeparation

오디오 AI 회사인데 디자인이 중요해?

안녕하세요! 가우디오랩 디자이너 Anne입니다:) GAUDIO STUDIO가 개편되었습니다. 최근 가우디오랩에서 AI 음원 분리 사이트인 가우디오 스튜디오가 새로운 모습으로 런칭되었습니다. 가우디오 스튜디오는 원하는 음악에서 보컬과 악기 (베이스, 드럼, 전자 기타, 피아노, 그 외)를 트랙별로 분리하는 서비스입니다. 가우디오랩에서 개발한 음원분리 기술 GSEP을 탑재하여 다른 음원 분리 서비스들에 비해 뛰어난 성능을 보이고 있죠. 저는 가우디오 스튜디오 베타 버전을 개선하여 정식 서비스로 런칭하는 프로젝트에서 UIUX 리뉴얼을 담당했습니다. 이번 포스팅에서는 개선된 서비스를 출시하기까지 "오디오 AI 회사의 디자이너가 어떤 고민을 했는지"에 대해 다뤄보겠습니다. 오디오 AI 회사인데 디자인이 중요할까? 처음 가우디오랩에 입사할 때 ‘여긴 오디오 AI 회사니까 디자인보다 기술 직군 중심의 문화가 강할 것 같다’고 생각했습니다. 하지만 시간이 지나면서 저의 선입견이 사라졌습니다. 오히려 오디오 AI 회사라서 디자인이 중요하다는 걸 알게 됐어요. 보이지 않는 "소리"를 시각화해야 하기 때문에, 그리고 일반인들에게 생소할 수 있는 AI 서비스를 모두가 쉽게 사용할 수 있도록 만들어야 하기 때문입니다. NEW 가우디오 스튜디오 디자인 목표 NEW 가우디오 스튜디오의 UIUX를 담당하면서 설정했던 목표는 "음원 분리 과정에서 사용자들이 길을 잃지 않도록 친절한 디자인을 제공하는 것"이었습니다. 한눈에 감탄사가 나올 만큼 멋진 웹사이트를 막상 이용하려고 보니 헤맸던 적 있으신가요? '메뉴는 어디에 있지? 다음에는 무엇을 클릭해야 하지? 이 버튼을 누르면 어디로 가는 거지?'와 같은 질문을 끊임없이 던지면서요. 가우디오 스튜디오는 사용자들이 단순히 정보를 찾기 위해서가 아닌 서비스를 이용하기 위해 찾아오는 곳인 만큼, 디자인이 좋은 길잡이 역할을 해야 한다고 생각했습니다. 사용자들이 들어오자마자 질문도 망설임도 없이 다음 액션을 취할 수 있도록 말이죠. 기술만 좋으면 되지, 디자인이 그렇게 중요해? 위와 같은 목적을 달성하기 위해 머리를 쥐어뜯는 저를 보고 친구가 던진 질문입니다. 저는 망설임 없이 "응, 중요해!"라고 외쳤지만, 왜인지 정확히 설명할 수 없었어요. 결국 사용자들이 원하는 건 저렴하고 좋은 기술뿐일지도 모른다는 생각이 머리 한 구석에 있었기 때문입니다. 그럴 때마다 서비스 오픈 이후에 제가 달성하고 싶은 바를 계속 떠올렸어요. 음원 분리를 위해 타 사이트를 이용하던 사용자들에게는 더 편리한 사용성으로 우리 서비스를 어필하고, 기존의 가우디오 스튜디오 베타 버전 사용자들에게는 한층 업그레이드된 경험을 선물하고, 음원 분리가 처음인 사용자들에게는 어려움 없이 바로 적응할 수 있는 디자인을 제공하자! 라고 말이죠. 디자이너가 초심을 잃으면 PO (Product Owner)는 머리카락을 잃어 아쉽게도 처음부터 제가 원하는 바를 이룰 수 있었던 것은 아니었습니다. 서비스 오픈 후에 음원을 분리하는 과정이 헷갈린다는 피드백을 받았거든요. 부끄럽지만 저의 시행착오를 공유해 볼게요. 처음에 디자인한 화면입니다. 사용자가 음원을 올린 후 분리하고 싶은 악기를 선택하는 단계인데요.이렇게 아무것도 선택 안 한 화면에서 보컬 버튼을 누르면 음원이 보컬과 보컬이 제거된 음원으로 분리되어 두 개의 트랙이 제공됩니다. '더 쉽게, 더 편하게'를 지향하자던 초심을 잃고 깔끔한 화면을 만들고 싶어서 이런저런 설명을 생략했더니, 서비스 출시 이후에 "MR 파일을 만들고 싶은데 어떻게 해야 할지 모르겠다"는 피드백을 왕창 받았습니다. 데이터를 살펴보니, 보컬만 선택하면 되는데, 보컬을 제거해야 한다는 생각에 보컬이 아닌 나머지 악기들을 전부 선택하는 이용자들이 많았던 것이죠. 사용자들의 불만이 늘어나고, PO의 머리카락이 빠지고, 저의 죄책감이 쌓여가고... 긴급회의를 통해 디자인을 개선하자는 결론이 나왔습니다. 그럼 이제 개선된 화면들을 보여드릴게요. 더 쉽게, 더 편하게! 가장 큰 변화는 바로 프리뷰 화면을 추가한 것인데요. 아무것도 선택하지 않았을 때부터 총 분리되는 트랙의 수와 가이드를 제공하고, 보컬을 누르면 분리된 트랙의 수가 2로 표시되면서 보컬과 MR (backing track)이 제공된다는 점을 미리 보여주었습니다. 크레딧을 구매하거나 음원 분리를 요청하기 전에 사용자가 얻을 결과를 명확히 보여준 것이죠. 오디오 AI 회사라서 디자인이 중요해 악기 선택 화면을 개선한 후, 저에게 "기술만 좋으면 되지, UIUX가 그렇게 중요해?"라고 물었던 친구에게 제일 먼저 바뀐 화면을 보여주었습니다. 이 친구 역시 처음 오픈했을 때는 "이거 어떻게 쓰는 거야?"라고 물으며 제 가슴에 비수를 꽂았는데, 다행히 개선된 디자인을 보더니 훨씬 이해하기 쉽다고 하더라고요. 이쯤 되면 오디오 AI 회사라서 디자인이 중요하다고 말해도 되겠죠? (된다고 말해줘요..) 마치며... 지금 이 포스트를 작성하는 시점에서 개선된 악기 분리 화면은 아직 배포 전인데요. 이에 대한 실제 사용자들의 반응이 궁금하시죠? 저도 너무나 궁금하답니다! 기회가 된다면 그래서 어떻게 되었는지, 후기와 또 다른 가우디오랩만의 디자인 이야기로 돌아올게요. 이상으로 가우디오랩 디자이너 Anne이 들려주는 오디오 AI 회사의 디자인 이야기를 마치겠습니다. 아! 울 애기 https://studio.gaudiolab.io/ 많이 이용해 주세요 :)

2024.06.28

ICML 2024 탐방기: AI 및 오디오 연구의 최신 동향

들어가며 안녕하세요, 다시 돌아온 카야입니다!저는 가우디오랩에서 오디오 AI를 연구하고 있다보니 학회에 참석할 일이 종종 있는데요. 얼마 전에도 ICASSP 2024 & Gaudio Night 현장 스케치를 전달 드렸었죠. 이번에는 오스트리아 비엔나에서 열린 ICML 학회에 참석하기 위해 출장을 다녀온 이야기를 풀어보려 합니다. 인공지능(AI) 연구의 중심인 ICML(International Conference on Machine Learning) 2024은 가우디오랩이 매년 참석하는 학회이기도 해요. 이 학회는 매년 전 세계의 연구자와 기업들이 모여 최신 연구 성과를 공유하는 자리로, 저 같은 연구자에게는 늘 가슴 설레는 순간이죠. ICLR, NeurIPS와 함께 세계 3대 인공지능 학회 중 하나이기도 합니다. 현장 분위기를 중점으로 전달했던 저번 포스트와는 달리 이번에는 새로운 아이디어와 영감으로 가득 찬 ICML 2024에서 느끼고 배운 점들을 생생하게 전해드리려 합니다! 오스트리아 빈에서 개최된 2024 ICML 현장. Wien~ 2024 ICML 톺아보기 Spotlighted 논문 먼저 이번 학회에서 눈여겨 보고 온 연구들 중 몇가지를 짧게 소개드릴까 하는데요. 첫 번째로 눈길을 끈 것은 "Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution"입니다. 이 연구는 이산적 데이터를 다루는 새로운 접근 방식을 제안했으며, SEDD라는 방법론을 통해 자연어 처리 분야에서 기존의 SOTA 모델(GPT-2 등)보다 뛰어난 성능을 발휘했습니다. 특히, 이 연구는 디퓨전 모델의 활용성을 크게 확장시켜, AI 연구에서 큰 반향을 일으켰습니다. Lou, Aaron, Chenlin Meng, and Stefano Ermon. "Discrete Diffusion Language Modeling by Estimating the Ratios of the Data Distribution." 다음으로 흥미로웠던 연구는 "Debating with More Persuasive LLMs Leads to More Truthful Answers"라는 제목의 논문입니다. 상상 속에서나 가능할 것 같았던 AI 모델 간의 토론(debating)을 통해 모델의 정확도를 높일 수 있다는 놀라운 발견을 실험적으로 증명한 연구였죠. ChatGPT와 같은 언어 모델이 잘못된 정보를 제공하는 문제를 해결하는 데 중요한 기여를 할 수 있을 것으로 기대됩니다. Khan, Akbir, et al. "Debating with More Persuasive LLMs Leads to More Truthful Answers." “Position” 논문의 등장 올해 ICML에서 새롭게 등장한 논문 유형이 있었는데요, 바로 “Position” 이라는 멋있는✨ 접두사가 붙은 논문들입니다. 이 논문들은 새로운 모델이나 아이디어를 제안하기보다는 현재 학계의 통념에 대한 깊은 고찰과 의문을 제기하는 데 중점을 둡니다. 제가 특히 흥미를 느꼈던 주제는 "Position: Measure Dataset Diversity, Don't Just Claim It"이라는 제목의 논문이었습니다. 이 연구는 데이터셋의 다양성을 측정할 때 단순히 '다양하다'고 주장하는 것만으로는 부족하다고 지적하며, 무려 135개의 이미지 및 텍스트 데이터셋을 분석한 결과를 통해 데이터셋의 다양성에 대한 새로운 시각을 제공했습니다. AI 연구자로서 데이터셋의 공정성과 포괄성에 대해 더욱 깊이 고려해야 할 점을 일깨워 준 중요한 논문이었습니다. Audio 연구의 트렌드 이번 ICML에서는 오디오 AI 연구에서도 많은 흥미로운 논문들이 발표되었습니다. 오디오 AI 연구의 최근 트렌드는 더욱 정교한 생성 모델에 집중하고 있으며, 이 트렌드는 음악 생성부터 범용 오디오(음성 및 효과음 등) 합성까지 다양한 영역에서 뚜렷하게 나타나고 있습니다. 가장 인상 깊었던 연구 중 하나는 "DITTO: Diffusion Inference-Time T-Optimization for Music Generation"이라는 논문이었는데요. 이 논문은 음악 생성에서 생성될 음악의 강도(intensity), 멜로디(melody) 및 구조(musical structure)를 정밀하게 제어할 수 있는 기술을 제안했습니다. 음악 AI가 앞으로 얼마나 더 정교해질지 정말 기대되지 않나요? Novack, Zachary, et al. "Ditto: Diffusion inference-time t-optimization for music generation." 뿐만 아니라, 비디오로부터 오디오를 생성하는 Video-to-Audio Generation도 매우 핫한 주제로 떠오르고 있습니다. OpenAI에서 공개한 비디오 생성 AI “Sora”, 다들 보신 적 있으시죠? 이렇게 높은 퀄리티의 비디오 생성이 가능해지면서, 비디오에 어울리는 오디오를 생성하는 작업이 중요한 연구 주제로 떠오르고 있는 것인데요. Google에서는 비디오와 오디오를 동시에 생성하는 모델을 "VideoPoet"이라는 이름으로 제안했고, Adobe에서는 비디오의 액션에 싱크를 맞춘 효과음을 생성하는 "Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity" 연구를 발표했습니다. 이런 연구들을 보면 가우디오랩의 효과음 생성 모델 FALL-E가 생각나지 않을 수 없는데요. Microsoft의 CEO 사티야 나델라가 CES때 직접 관심을 보인 기술이기도 하죠. 저희 가우디오랩에서도 역시 이미 몇달 전, FALL-E로 Sora 비디오에 맞추어 효과음을 생성한 결과를 공개한 적이 있었어요! 위 연구들을 보며 가우디오랩이 이런 학계의 트렌드를 발 빠르게 캐치하고 있구나😎 하는 뿌듯한 마음과 함께 팀의 연구 방향에 대한 확신이 더해질 수 있었습니다. 마치며 이렇게 ICML 2024에서 본 AI 연구의 다양한 트렌드와 흥미로운 연구들을 짧게 소개해드렸는데요.실제로는 궁금한 연구가 너무 많아 큰 학회장을 열심히 뛰어다니며 바쁜 일정을 소화했더랍니다. 🏃‍♀️ 종이 상자 안에 거대 언어 모델(LLM)에 대한 여러가지 질문 쪽지를 준비해놓고, 쪽지를 뽑은 연구자들끼리 알아서 불 튀기게 토론하도록 한 포스터 발표 방식이 신선하고 재밌었어요. 일종의 자동 사냥 같은… 이렇게 이번 ICML 2024에서 AI 연구의 다양한 트렌드와 흥미로운 연구들을 직접 보고 들으면서 많은 영감을 받고 한국으로 돌아왔습니다. 이번 학회에서 얻은 지식과 영감을 바탕으로 더 똑똑한 AI 모델을 개발하기 위해 다시 열심히 달려봐야겠죠?ㅎㅎ 다음 학회에서는 가우디오랩 리서치 팀의 연구를 Spotlighted 논문으로 소개하게 되는 날이 오길 바라며💪 ICML 2024 후기는 여기서 마무리 하겠습니다. 😁!

2024.08.30