사운드 생성 AI 올림픽 DCASE 2023, 역시 가우디오랩이 주도했습니다.DCASE 소개
DCASE, 세계 유수의 기관이 참여하는 음향 분야의 국제적인 데이터 챌린지
가우디오랩이 세계 최초의 AI 사운드 생성 챌린지인 DCASE(Detection and Classification of Acoustic Scenes and Events의 약자) Challenge의 폴리 사운드 합성(Foley Sound Synthesis) 분야를 리드함은 물론, 가벼운 마음으로 출전했음에도 2위를 차지했습니다.
2013년에 시작되어 올해 9회 차를 맞이한 DCASE는 사운드 AI 분야에서 ‘올림픽’에 견줄 수 있을 정도의 권위를 가진 대회입니다. 생성 AI 시대를 맞이하여 사운드 생성 종목이 처음 추가된 이번 대회에는 가우디오랩 외에도 구글, 소니, 노키아, 히타치 등 세계적인 기업들 뿐만 아니라, 서울대학교, 카이스트, 카네기 멜론 대학교, 도쿄대 등 세계 명문 대학에서 두루 참가하며 사운드 AI 분야의 첨단을 다투는 장이 되었습니다. 전체 7개 프로젝트에 123팀이 지원하여 총 428개의 결과물이 제출되었다고 하니 그 치열한 경쟁이 느껴지시나요?
세계 최초의 AI 사운드 생성 챌린지: Foley Sound Synthesis Challenge
특히 생성 AI에 해당하는 ‘폴리 사운드 합성’ 과제는 올해 처음 등장해 더욱 뜨거운 관심을 받았습니다. 구체적으로는 AI 기술과 데이터를 활용해 특정 범주(자동차, 재채기 등)의 소리를 생성하는 것을 겨루는 과제였는데요. 사실 가우디오랩은 해당 분야의 오랜 경험을 바탕으로 과제를 리드하는 주관사이기도 하면서, 가벼운 마음으로 참가해 2위를 거머쥐는 쾌거까지 이루었습니다. 특히 상용화 관점에서 가장 중요한 조건으로 볼 수 있는 ‘소리의 다양성’ 평가에서는 타 도전자들을 압도하는 점수를 받기도 했습니다.
[그림 1] DCASE 2023 Foley Sound Synthesis 과제 개요와 주관사 명단(Organizers)
수상 소감
이름만 들어도 알 법한 대기업과 세계의 명문 대학들 사이에서 한국의 작은 스타트업인 가우디오랩이 대회를 주관하고 포디움에까지 우뚝 설 수 있었던 배경이 궁금하실텐데요. 여기에는 일찍이 생성 AI 연구 개발을 시작한 가우디오랩의 선견지명은 물론, 보이지 않는 곳에서 묵묵히 길을 걸어온 AI 연구원들의 노력이 있었습니다. 이제 자랑은 충분히 한 것 같으니 영광의 주인공들에게 소감을 들어보겠습니다.
[그림 2] DCASE 순위 발표 화면, ‘Chon_Gaudio’가 가우디오랩이 제출한 결과물입니다.
DCASE는 가우디오에게 어떤 의미인가요?
Ben Chon : 가우디오랩은 ChatGPT가 화제가 되기 한참 전인 2021년부터 세상 모든 소리를 만들어내겠다는 담대한 목표를 가지고 사운드 생성 AI 를 연구 개발하고 있었습니다 ([그림 4] 참조). 오랜 연구 끝에 2022년 6월에는 이번 DCASE 챌린지와 같은 개념의 Category-to-Sound 생성에 성공하였고, 이후에는 실험실을 벗어난 상용화 수준에 도달하기 위해 보다 도전적인 목표인 (임의의) Text-to-Sound 와 (임의의) Image-to-Sound 연구에 전념하며 이미 큰 진전을 보이고 있습니다. 최종적으로는 Video-to-Sound 생성 모델을 통해 어떠한 형태의 입력이더라도 그에 꼭 맞는 소리를 생성하여 소리가 필요한 어디에나(Where sound is) - 즉, 영화, 게임과 같은 기존 미디어 뿐만 아니라 메타버스와 같은 차세대 미디어에서도 - 필수적으로 필요한 솔루션이 될 것을 기대하고 있습니다.
[그림 3] Sound AI의 진화 단계, 가우디오는 3단계를 넘고 있습니다.
세상의 모든 소리를 AI가 생성해내는 것을 목표로 하는 가우디오랩의 AI에 비교하면, DCASE에서 요구하는 Category-to-Sound 모델은 몇 개의 카테고리만으로 생성 범주를 한정하고 있기 때문에, 가우디오랩의 기술이 활약하기에는 너무 작은 운동장이기도 했습니다.
이번 대회에는 30개가 넘는 기술이 제출되었는데요. 그동안 가우디오랩 홀로 이 분야를 개척하고 있는 것은 아닌가 하는 외로움도 있었는데, 대회 주관을 통해 이 분야 연구를 활성화하고, 그 안에서 우리 기술의 세계적 위상도 확인할 수 있어 뜻깊었습니다. 상용화를 위해 앞서가고 있는 만큼 다른 참가자들의 연구 성과들도 잘 참고하여 앞으로 이 시장을 지속적으로 리드해 나가고자 합니다.
[그림 4] 가우디오의 소리 생성 AI 프로젝트인 SSG(Sound Studio Gaudio)의 킥오프 회의 당시 자료 표지, 전설의 시작이네요
DCASE를 준비하며 가장 어려웠던 점은 무엇인가요?
Keunwoo Choi : 가우디오랩이 이 분야를 주관하는 주관사였던 만큼, 국제적인 대회의 Organizer와 가우디오랩의 Research Director 역할 사이에서 끊임없는 줄타기를 해야 했던 것이 가장 어려웠습니다. Foley Sound Synthesis는 DCASE에서는 처음으로 출제된 과제였기 때문에 오거나이저로서 좋은 선례를 남길 수 있도록 공정하고 학술적으로 의미 있는 대회를 만들기 위해 노력했습니다. 동시에 가우디오랩의 리서치 디렉터로서는 제한된 연산 자원을 공유하면서 팀 전체의 연구 계획을 수립/실행해야 했는데, 이 일이 마치 어려운 퍼즐 게임처럼 느껴졌습니다. 인적, 물적 자원을 효과적으로 할당하기 위해 표를 그려가며 사람과 GPU의 업무량을 최적화하기도 했죠. 그래도 대회를 잘 마무리한 지금은 모두 좋은 경험이 된 것 같습니다.
Rio Oh : 모든 과정이 쉽지 않았지만 특히 LM(language model) 기반 모델을 같이 학습하는 과정에서 많이 애를 먹었습니다. 들이는 노력에 비해 결과가 잘 나오지 않아 힘들었던 기억이 있네요.
DCASE를 준비하며 가장 기억에 남는 순간은 언제였나요?
Manuel Kang : AI가 처음으로 사실적인 동물 울음소리를 만들어 냈던 순간(2022년 6월!)이 가장 기억에 남습니다. 아무 소리도 나지 않던 초기 모델이 점점 발전해서 여기까지 왔다는 것이 매우 뿌듯하게 느껴졌던 순간이었습니다.
Monica Lee : 맞아요. 처음으로 제대로된 동물 소리가 났을 때가 저도 잊혀지지 않아요. 그렇게 생성된 강아지 소리를 집에서 틀어보니 집에서 키우는 강아지 사빈(Sabine)이가 와서 짖으면서 어리둥절해하더라구요. 강아지 튜링 테스트는 무난히 통과한 것 같네요~ (ㅎㅎ)
Rio Oh : 준비 과정에서 생성 모델에 여러 업데이트가 있었는데요, 오작동 하지 않고 의도한대로 작동해주었을 때마다 기분이 좋았습니다. 그 중에서도 백그라운드 노이즈나 녹음 환경등을 원하는대로 컨트롤 할 수 있게 되었을 때가 가장 기억에 남습니다.
Devin Moon : 프롬프트 엔지니어링을 거치며 섬세한 뉘앙스를 잘 반영한 소리를 만들어낼 수 있게 최적화를 수행한 경험도 재미있었습니다. 잔향이 있는 공간에서 삐걱대는 나무 바닥 위를 빠르게 뛰어가는 소리를 만들었는데, 실제와 구분하기 힘들 정도의 소리가 생성되었던 순간이 아직도 기억에 남습니다.
가우디오랩의 생성 AI가 특별한 점이 있다면 무엇인가요?
Ben Chon : 가장 중요한 포인트는 가우디오랩 AI가 과제의 범위였던 Catergory-to-Sound를 뛰어넘어, Text-to-Sound, 그리고 Image-to-Sound 까지 포함하는, 사실상 세상의 모든 소리를 만들어낼 수 있는 모델이라는 점입니다. 쉽게 말해, 보다 다양한 소리를 만들어낼 수 있는 모델이지만 대회에서의 경쟁을 위해 핸디캡(일부 범주의 소리만 한정하는)이 적용되었다고 볼 수도 있을 것 같네요. 마라톤도 뛸 수 있는 선수가 100미터 경기에 출전한 것이랄까요? 실제로 현재의 가우디오랩 AI는 각종 동물의 울음소리 뿐만 아니라, 수백 종의 동물들이 서식하는 아프리카 초원의 앰비언스까지 여러분이 상상하실 수 있는 거의 모든 소리를 생성할 수 있습니다. 또한, 잡음 없는 단일 객체의 소리도 깔끔하게 뽑아낼 수 있기 때문에 실제 영화, 게임과 같은 콘텐츠 제작 과정에 바로 활용될 수 있도록 소리를 제공하는 것도 장점이라고 할 수 있습니다.
Keunwoo Choi : 이렇게 성능 좋고 다재다능한 모델을 개발하기 위해 초기부터 AI 개발에서 가장 중요하다고 할 수 있는 데이터 수집에 누구보다도 많은 공을 들였습니다. 세상에 존재하는 온갖 데이터를 힘껏 긁어 모으고, 부족한 정보는 ChatGPT와 같은 AI의 도움을 받아 채워 넣으며 최상의 데이터를 최대한으로 모으고자 노력했습니다. 이러한 데이터 확보 노력 중 하나로 국내 정상급 영화 사운드 스튜디오 '웨이브랩'을 인수해 초고품질의 데이터를 수급하기도 했습니다. 또한, 음악이나 음성에 특화된 AI 모델과 구조를 벗어나 다양한 소리(오디오 신호)를 구현하는데 적합한 형태로 생성 모델이 구현된 것도 가우디오랩 AI의 특징이라고 할 수 있을 것 같습니다.
팀원들을 대신해 수상 소감 한 말씀 부탁드립니다.
Ben Chon: 가우디오랩은 DCASE 과제의 범위 안에서만 머무르지 않고 나아가 더욱 포괄적인 의미에서 모든 소리를 만들 수 있는 Text-to-Sound 모델을 개발하였습니다. 여기서 생성된 소리가, 일부 한정된 범위 내에서만 소리를 생성하도록 세팅된 DCASE에서도 인정받았다는 것은, 가우디오랩의 AI 개발 역량이 얼마나 성숙했는지를 보여주는 좋은 예시라고 생각합니다. 그만큼 ‘만능’에 가까워졌다는 이야기니까요.
또한, DCASE에서 다루지 않은 다른 카테고리의 소리들도 세계 최고 수준의 품질임을 간접적으로 증명하였으니, 저희도 앞으로의 연구에 더욱 자신감을 가지고 임할 수 있는 계기가 될 것으로 생각합니다. 저희 팀원들이지만 정말 대단한 일을 해냈다고 생각합니다. 가우디오랩 연구원 분들 모두 고생하셨습니다!
Keunwoo Choi : 허허벌판 같던 생성형 오디오 AI 분야를 미리 점찍고 연구개발을 지속해온 결실을 이제야 얻기 시작한것 같아 매우 기쁩니다. DCASE에서 생성형 오디오 챌린지는 처음이라 문제 정의가 간단한 편이었는데, 저희의 시스템은 이미 그보다 훨씬 복잡한 텍스트 프롬프트에도 잘 작동합니다. 무한한 가능성을 가진 이 기술을 더 발전시키고 제품화해서 오디오 업계에 평지풍파를 일으켰으면 합니다.
앞으로의 포부, 혹은 비전을 알려주세요.
Ben Chon : 가우디오랩 생성 AI가 빛을 발하기 위해서는 학계에서의 영향력 뿐만 아니라, 실제 산업에서의 적용 케이스를 확보하는 것이 중요하다고 생각합니다. DCASE를 거치면서 가우디오랩 생성 AI는 Text-to-Sound를 넘어 Image-to-Sound에 대응할 수 있을 만큼 발전하였고, 이제는 Video-to-Sound 로의 영역 확장까지 계획중입니다. 기술이 발전하는 놀라운 속도에 발맞춰 이제는 실제 산업 분야에의 적용을 염두에 두고 사람들의 삶에 실질적인 영향을 줄 수 있는 기술로 발전할 차례라고 생각합니다. 실제로 이러한 노력들이 이미 결실을 맺어 영화 제작이나 메타버스와 같은 미래 산업 분야의 기업들과 이미 활발한 논의가 진행중이기도 합니다. 가우디오랩이 전세계 사운드의 중심이 되는 미래를 위해 기술 발전과 사업화에서 모두 성과를 낼 수 있도록 힘써보고 싶습니다. 앞으로도 가우디오랩 AI 기술에 많은 관심 부탁드리겠습니다!
마무리
누구도 가지 않은 길에 앞장서며, 스텔스 모드로 묵묵히 쌓아가던 가우디오랩 연구원들의 노력을, 이제 글로벌 무대에 당당히 선보일 수 있게 되었다는 소식을 전해드릴 수 있게 되어 정말 기쁩니다. “세상의 모든 소리는 가우디오랩으로부터”를 실현하는 그 날까지, 가우디오랩 AI 기술에 앞으로도 많은 관심과 응원 부탁드립니다.
2023.06.12