ICML 2024 탐방기: AI 및 오디오 연구의 최신 동향과 주요 발표

2024.08.30 ・ by Kaya Chung

들어가며

안녕하세요, 다시 돌아온 카야입니다!
저는 가우디오랩에서 오디오 AI를 연구하고 있다보니 학회에 참석할 일이 종종 있는데요. 얼마 전에도 ICASSP 2024 & Gaudio Night 현장 스케치를 전달 드렸었죠.

이번에는 오스트리아 비엔나에서 열린 ICML 학회에 참석하기 위해 출장을 다녀온 이야기를 풀어보려 합니다.

인공지능(AI) 연구의 중심인 ICML(International Conference on Machine Learning) 2024은 가우디오랩이 매년 참석하는 학회이기도 해요. 이 학회는 매년 전 세계의 연구자와 기업들이 모여 최신 연구 성과를 공유하는 자리로, 저 같은 연구자에게는 늘 가슴 설레는 순간이죠. ICLR, NeurIPS와 함께 세계 3대 인공지능 학회 중 하나이기도 합니다.

현장 분위기를 중점으로 전달했던 저번 포스트와는 달리 이번에는 새로운 아이디어와 영감으로 가득 찬 ICML 2024에서 느끼고 배운 점들을 생생하게 전해드리려 합니다!

오스트리아 빈에서 개최된 2024 ICML 현장. Wien~

오스트리아 빈에서 개최된 2024 ICML 현장. Wien~

2024 ICML 톺아보기

Spotlighted 논문

먼저 이번 학회에서 눈여겨 보고 온 연구들 중 몇가지를 짧게 소개드릴까 하는데요. 첫 번째로 눈길을 끈 것은 "Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution"입니다. 이 연구는 이산적 데이터를 다루는 새로운 접근 방식을 제안했으며, SEDD라는 방법론을 통해 자연어 처리 분야에서 기존의 SOTA 모델(GPT-2 등)보다 뛰어난 성능을 발휘했습니다. 특히, 이 연구는 디퓨전 모델의 활용성을 크게 확장시켜, AI 연구에서 큰 반향을 일으켰습니다.

Lou, Aaron, Chenlin Meng, and Stefano Ermon. "Discrete Diffusion Language Modeling by Estimating the Ratios of the Data Distribution."

다음으로 흥미로웠던 연구는 "Debating with More Persuasive LLMs Leads to More Truthful Answers"라는 제목의 논문입니다. 상상 속에서나 가능할 것 같았던 AI 모델 간의 토론(debating)을 통해 모델의 정확도를 높일 수 있다는 놀라운 발견을 실험적으로 증명한 연구였죠. ChatGPT와 같은 언어 모델이 잘못된 정보를 제공하는 문제를 해결하는 데 중요한 기여를 할 수 있을 것으로 기대됩니다.

Khan, Akbir, et al. "Debating with More Persuasive LLMs Leads to More Truthful Answers."

“Position” 논문의 등장

올해 ICML에서 새롭게 등장한 논문 유형이 있었는데요, 바로 “Position” 이라는 멋있는✨ 접두사가 붙은 논문들입니다. 이 논문들은 새로운 모델이나 아이디어를 제안하기보다는 현재 학계의 통념에 대한 깊은 고찰과 의문을 제기하는 데 중점을 둡니다.

제가 특히 흥미를 느꼈던 주제는 "Position: Measure Dataset Diversity, Don't Just Claim It"이라는 제목의 논문이었습니다. 이 연구는 데이터셋의 다양성을 측정할 때 단순히 '다양하다'고 주장하는 것만으로는 부족하다고 지적하며, 무려 135개의 이미지 및 텍스트 데이터셋을 분석한 결과를 통해 데이터셋의 다양성에 대한 새로운 시각을 제공했습니다. AI 연구자로서 데이터셋의 공정성과 포괄성에 대해 더욱 깊이 고려해야 할 점을 일깨워 준 중요한 논문이었습니다.

Audio 연구의 트렌드

이번 ICML에서는 오디오 AI 연구에서도 많은 흥미로운 논문들이 발표되었습니다.

오디오 AI 연구의 최근 트렌드는 더욱 정교한 생성 모델에 집중하고 있으며, 이 트렌드는 음악 생성부터 범용 오디오(음성 및 효과음 등) 합성까지 다양한 영역에서 뚜렷하게 나타나고 있습니다.

가장 인상 깊었던 연구 중 하나는 "DITTO: Diffusion Inference-Time T-Optimization for Music Generation"이라는 논문이었는데요. 이 논문은 음악 생성에서 생성될 음악의 강도(intensity), 멜로디(melody) 및 구조(musical structure)를 정밀하게 제어할 수 있는 기술을 제안했습니다. 음악 AI가 앞으로 얼마나 더 정교해질지 정말 기대되지 않나요?

Novack, Zachary, et al. "Ditto: Diffusion inference-time t-optimization for music generation."

뿐만 아니라, 비디오로부터 오디오를 생성하는 Video-to-Audio Generation도 매우 핫한 주제로 떠오르고 있습니다. OpenAI에서 공개한 비디오 생성 AI “Sora”, 다들 보신 적 있으시죠? 이렇게 높은 퀄리티의 비디오 생성이 가능해지면서, 비디오에 어울리는 오디오를 생성하는 작업이 중요한 연구 주제로 떠오르고 있는 것인데요. Google에서는 비디오와 오디오를 동시에 생성하는 모델을 "VideoPoet"이라는 이름으로 제안했고, Adobe에서는 비디오의 액션에 싱크를 맞춘 효과음을 생성하는 "Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity" 연구를 발표했습니다.

이런 연구들을 보면 가우디오랩의 효과음 생성 모델 FALL-E가 생각나지 않을 수 없는데요. Microsoft의 CEO 사티야 나델라가 CES때 직접 관심을 보인 기술이기도 하죠. 저희 가우디오랩에서도 역시 이미 몇달 전, FALL-E로 Sora 비디오에 맞추어 효과음을 생성한 결과를 공개한 적이 있었어요! 위 연구들을 보며 가우디오랩이 이런 학계의 트렌드를 발 빠르게 캐치하고 있구나😎 하는 뿌듯한 마음과 함께 팀의 연구 방향에 대한 확신이 더해질 수 있었습니다.

마치며

이렇게 ICML 2024에서 본 AI 연구의 다양한 트렌드와 흥미로운 연구들을 짧게 소개해드렸는데요.
실제로는 궁금한 연구가 너무 많아 큰 학회장을 열심히 뛰어다니며 바쁜 일정을 소화했더랍니다. 🏃‍♀️

종이 상자 안에 거대 언어 모델(LLM)에 대한 여러가지 질문 쪽지를 준비해놓고, 쪽지를 뽑은 연구자들끼리 알아서 불 튀기게 토론하도록 한 포스터 발표 방식이 신선하고 재밌었어요. 일종의 자동 사냥 같은…

이렇게 이번 ICML 2024에서 AI 연구의 다양한 트렌드와 흥미로운 연구들을 직접 보고 들으면서 많은 영감을 받고 한국으로 돌아왔습니다. 이번 학회에서 얻은 지식과 영감을 바탕으로 더 똑똑한 AI 모델을 개발하기 위해 다시 열심히 달려봐야겠죠?ㅎㅎ

다음 학회에서는 가우디오랩 리서치 팀의 연구를 Spotlighted 논문으로 소개하게 되는 날이 오길 바라며💪 ICML 2024 후기는 여기서 마무리 하겠습니다. 😁!

Generative AIFALL-EDeveloper

가우디오의 차세대 노래 반주기 Gaudio Sing을 소개합니다

글로벌 오디오테크 기업이 노래방 반주기를 만든다고? 가우디오랩이 생성형 AI 'Fall-E'로 전 세계의 주목을 받은 후, 이번에는 차세대 노래방 반주기인 Gaudio Sing의 공식 출시를 앞두고 있습니다. "노래방?" 이라며 의아해하는 분들도 많겠지만, 사실 Gaudio Sing의 시작은 여러분도 한번쯤 생각 해보셨을 법한 단순한 아이디어에서 비롯되었습니다. - 좋아하는 가수의 곡을 들으며 듀엣을 부르거나 원곡 반주에 맞춰 노래를 부르고 싶다는 생각 말이죠. 가우디오랩의 핵심 AI 기술인 GSEP(Gaudio source SEParation)은 실시간 보컬 제거가 가능합니다. GTS(Gaudio Text Sync)는 국내외 유명 음악 스트리밍 서비스에서 애용되는 AI 동기 가사 생성 기술이죠. 이 두 가지 기술이 결합하면, 마치 마법처럼 원곡 반주에 맞춰 노래를 부를 수 있는 노래방 기능이 탄생하게 됩니다. 또한, Reverb와 Echo 같은 사운드 필터, 음 높낮이 및 속도 조절을 위한 드럼/비트 분리 기술, 상세 채점 기능 등 다양한 기능에 가우디오의 신호처리 기술과 AI기술이 적용되어 있습니다. 단순해 보이는 노래방 반주기가 사실은 수많은 오디오 기술이 적용된 종합 예술 작품이라고 할 수 있습니다. Gaudio Sing은 가우디오랩의 혁신적인 오디오 기술이 집약된 결과물이며, 사용자에게 최상의 오디오 경험을 제공하겠다는 가우디오랩의 미션과도 완벽하게 부합합니다. "혁신적 기술로 재탄생하는 노래방 ‘공간’의 새로운 가치" 현재, 전통적인 노래방이라는 공간은 다양한 노래방 및 가라오케 앱등 소프트웨어 들에 의해 도전을 받고 있습니다. 이러한 소프트웨어들은 스마트폰에서부터 스마트 TV까지 다양한 플랫폼에서 이용할 수 있지만, 여전히 널리 사용되고 있지는 않죠. 사용자에게 편안하게 노래를 부를 수 있는 '공간'은 매우 중요한 요소이지만, 기존의 앱들은 새로운 사용자 경험을 제공하지 않을 뿐만 아니라, 편안한 노래 부를 수 있는 환경의 중요성도 간과하고 있는 것으로 보입니다. Gaudio Sing은 노래방 이라는 공간의 중요성과 그곳에서의 경험을 혁신하는데 먼저 주목하고 싶습니다. 노래방 이라는 공간 안에서 탁월한 소리 경험을 제공하는 것이 가장 중요하다고 생각합니다. 우리는 단순히 새로운 노래방 소프트웨어를 출시하는 것이 아니라, 기존 노래방의 경험을 가우디오의 기술로 먼저 혁신하고자 합니다. 노래방 안에서 스마트폰을 통해 노래를 선택하고 개인 맞춤형 플레이리스트를 자동으로 생성하는 기능을 제공하거나 전국적으로 사용자의 노래 실력을 평가할 수 있는 다양한 재미 요소를 추가하여 사용자들은 다른 사람들과 경쟁과 협업을 할 수도 있습니다. 하드웨어 반주기 없이 소프트웨어로만 구현되어 있어 다가올 증강 현실(AR) 시대에 대비할 수도 있고, 더욱 몰입감 있는 노래방 경험을 제공할 수도 있습니다. 기존의 노래방을 가족, 친구, 그리고 개인이 안심하고 즐길 수 있는 문화공간으로 새롭게 태어나게 만드는 것이 우리의 목표입니다. 이러한 경험은 모바일이나 스마트 TV로는 느낄 수 없는, 물리적인 공간에서만 가능한 특별한 것입니다. 노래방의 종주국, 일본에서 혁신을 시작하다. 우리의 노래방 문화는 종주국인 일본의 가라오케 문화에서 왔지만, 한국에서는 다르게 발전되었습니다. 일본의 인기 가라오케 시설에서는 이른 아침부터 긴 줄이 늘어서는 모습을 자주 볼 수 있는데, 이는 밤에만 운영되는 국내의 일반 노래방과는 확연히 차별화된 모습입니다. 일본의 가라오케는 단순한 노래방이 아니라 "멀티방"의 성격을 띄며, 함께 모여 노래를 부르는 장소뿐 아니라 홀로 악기 연습을 하거나 좋아하는 아이돌 공연을 보거나, 카페 대신 만날 친구를 기다리는 장소로 활용되기도 합니다. 이제는 원곡 반주로 즐기는 새로운 노래경험 이외에도 가우디오의 또 다른 핵심 기술인 GSA(Gaudio Spatial Audio: 공간음향)을 적용하여 공연장에 온 듯한 최적의 음향 효과로 컨텐츠를 즐기거나, 보컬뿐 아니라 각종 악기 역시 분리할 수 있는 GSEP의 기능을 활용하여 원곡에 맞춰 기타 솔로를 가라오케 룸에서 연습할 수도 있습니다. 코로나19 팬데믹으로 인해 일본의 가라오케 시장은 큰 타격을 입었지만, 여전히 4조 원 규모를 유지하고 있습니다. 최근에는 코로나 이전 수준으로 빠르게 회복 중이죠. 일본의 가라오케 시장은 하드웨어 제조업체 두 곳이 시장을 독점하고 있으며, 10개 이상의 가라오케 체인 사업자들이 이 하드웨어를 이용해 가라오케 방을 운영하는 구조입니다. 이 폐쇄적인 구조 때문에 일본의 가라오케 산업은 디지털화가 더디게 진행되고 있습니다. 시장 규모, 가라오케 문화에 대한 긍정적인 이미지, 독점 구조로 인해 낙후된 가라오케 룸 내에서의 사용자 경험은 우리에게 기회로 여겨졌고, 다행히 일본 가라오케 산업의 핵심 플레이어로 활약하고 있는 일본 파트너사와의 만남은 일본이 우리가 그리는 G Sing의 모습을 구현하기에 최적의 장소임을 확인시켜 주었습니다. 일본에서 가라오케는 단순한 오락을 넘어 사회적 유대감을 형성하는 중요한 문화 요소로 자리잡고 있습니다. 사람들은 가라오케를 통해 스트레스를 해소하고, 친구나 가족과 함께 즐거운 시간을 보냅니다. 가우디오랩은 이러한 가라오케의 긍정적인 이미지를 바탕으로 혁신적인 기술을 접목시켜 일본 내에서 새로운 시장을 개척하려 합니다. 일본 시장에서의 성공은 다른 나라로의 확장에도 긍정적인 영향을 미칠 것입니다. 마치며: 음악은 만국공통어 음악은 언어와 문화를 초월하여 사람들을 하나로 묶는 강력한 힘을 지니고 있습니다. '음악은 만국공통어'라는 표현이 생길 정도로, 음악은 전 세계 어디서나 사람들에게 사랑받고 있습니다. 이러한 음악 문화의 중심에는 '노래방'이 있습니다. 우리는 이 보편적인 즐거움을 새로운 방식으로 경험할 수 있는 Gaudio Sing이 종주국인 일본 뿐 아니라 우리나라에도 긍정적인 변화를 가져올 것이라 기대하고 있습니다.

2024.07.22

엄빠 어디가? - 자녀들과 함께 일터로 떠나는 아주 특별한 소풍

그동안 육아로 바빴던 가우딘과 방학을 맞이한 아이들을 위해 “엄빠! 어디가?” 행사를 준비하게 되었어요. 이번 행사는 부모님과 아이들이 함께 즐길 수 있는 다양한 프로그램을 통해 가족들이 소중한 시간을 보낼 수 있도록 마련되었답니다. 무엇보다도, 부모님이 일하는 곳을 자녀들이 직접 체험하며 가족 간의 유대감을 더욱 끈끈하게 다지고, 부모님의 일에 대해 자부심을 느낄 수 있는 기회를 주고싶었어요. 처음에는 부모님 손을 꼭 잡고 수줍게 등장한 아이들이, 시간이 지날수록 눈을 반짝이며 적극적으로 참여하는 모습을 보였답니다. 어떤 활동들이 아이들에게 이렇게 즐거운 기억을 남겨주었는지 궁금하시죠? 그럼 함께 그 현장으로 가보실까요! 우리 아빠네 회사로 소풍가요! 이번 행사의 테마는 ‘엄마 아빠 회사로 소풍 가기🧺’였어요. 피크닉 의자와 체크무늬 돗자리, 맛있는 음식이 준비된 라운지 공간에서 시작된 하루는 아이들에게 새로운 세상을 보여주는 첫걸음이었죠. 가우디오랩의 라운지 공간, 우도는 평소에는 직원들의 휴식 공간이지만, 이번에는 가족들이 편안하게 쉴 수 있도록 소풍 장소로 꾸며졌답니다. 아이들은 엄마 아빠가 일하는 곳을 탐험하며, 부모님의 일터가 어떤 모습인지 직접 보고 느낄 수 있었어요. <일등으로 도착한 Jayden의 자녀 신영이> 회사 곳곳에서 미션 수행하기 아이들이 도착하자마자 미션 수행이 시작되었어요. 진행요원들의 안내에 따라 회사 곳곳을 탐험하며, 여러 가지 미션을 해결해 나가는 활동이었죠. 우리 부모님이 하루 대부분의 시간을 보내고 있는 이 공간을 아이들에게 보여주고 또 들려주고 싶어 회사 곳곳을 탐방하는 미션 활동을 기획하게 되었습니다. 가우디오랩 오피스는 삼성동의 작은 제주로, 제주의 다양한 지명을 본뜬 공간으로 꾸며져 있어요. 회사 전체가 소리와 관련된 연구와 개발을 위한 공간으로, 아이들에게는 새로운 세상을 탐험하는 듯한 경험을 주었죠. 또한, 좋은 소리를 만들기 위한 회사답게 전체 오피스 면적의 절반이 소리를 즐기기 위한 공간으로 구성되어있습니다. 비자림에서 엔지니어처럼 가우디오랩의 오디오 기술을 체험해보고, 엄마 아빠 책상에 앉아 사진도 찍었어요. 고사리 손으로 키보드를 두드리며 부모님의 하루를 엿보기도 하고, 간식을 먹으며 부모님의 다짐을 구경하기도 했죠. 과연 새해다짐을 잘 지키고 있는지 자녀들을 통해 확인을 해보았는데, “잘 지키지 않고 있어요”하는 솔직한 아이들의 대답도 종종 듣곤 하였답니다 ㅎㅎ 미션을 모두 완료한 아이들에게는 가족 티셔츠와 귀여운 스티커가 선물로 주어졌고, 오라의 대형 미디어월 앞에서 온 가족이 함께 사진을 찍으며 미션을 마무리했답니다. <비자림에서 가우디오랩의 공간 음향 기술을 직접 체험하는 아이들> <엄마 아빠 자리에서 무슨 일 하는지 설명듣는 아이들> <포토존에서 Johnny네 가족사진 찍기> 헤니 사장님의 회사 소개 (특별 미션: 아이들의 집중력을 지켜라!) 회사 행사에서 빠질 수 없는 식순이 있죠! 바로바로 사장님의 인사말! 이날 가우디오랩을 이끌고 있는 CEO 헤니에게도 회사를 지루하지 않게 소개 해야하는 특별한 임무가 주어졌습니다. 평소에는 지루할 수도 있는 설명이었지만, 이날 헤니 사장님은 아이들이 흥미를 잃지 않으면서도, 부모님이 얼마나 멋진 일을 하고 있는지 잘 설명해 주었어요. 사전에 접수받은 아이들의 최애곡으로 가우디오랩의 음원 분리 기술들을 시연한 덕분에 아이들의 눈이 반짝였답니다. 부모님들도 그런 아이들의 모습을 보며 뿌듯해하는 시간이었죠.😃 입욕제 만들기 시간 엄마, 아빠가 가장 자주 이용하는 공간이자 주요 고객사와의 미팅 장소인 ‘애월’ 회의실을 아이들에게 어떻게 특별한 경험으로 남길 수 있을까 고민했어요. 다양한 나이대의 아이들이 모두 즐길 수 있는 활동을 찾은 끝에, 입욕제 만들기를 선택하게 되었죠. 외부 강사를 초청해 아이들이 직접 입욕제를 만들며 창의력을 발휘하는 시간이었어요. 아이들은 입욕제를 만들며 몰입하고, 자신이 만든 것을 부모님께 자랑하는 모습이 정말 사랑스러웠어요.🥰 아이들이 열심히 입욕제를 만드는 동안, 부모님들에게는 잠시 여유로운 시간이 주어졌답니다. <즐거운 입욕제 만들기> 행사의 끝은 단체 사진 아이들에게 나눠준 티셔츠는 가우딘 가족들이 함께 입고 단체 사진을 찍기 위해 준비된 것이었어요. 가족 모두가 단체티를 입고 함께 찍은 사진은 이번 행사를 완벽하게 마무리하는 순간이었죠. 참가자 모두가 웃으며 기념사진을 찍고, 이날의 소중한 순간을 마음에 담았답니다. 아이들에게는 부모님과 함께 보낸 시간이 큰 추억으로 남았겠죠? 부모님들 역시 아이들과 함께 일터에서의 하루를 공유할 수 있었던 특별한 시간이 되었을 거예요. 이번 행사는 단순한 가족 소풍을 넘어, 부모님의 일터에 대한 이해와 자부심을 자녀들에게 심어주는 귀중한 시간이었답니다. 가우디오랩은 앞으로도 이렇게 가족과 함께하는 특별한 시간을 계속 만들어 갈 예정이에요. 행사에 참여해 주신 모든 분들께 감사드리며, 다음 행사에서도 또 만날 수 있기를 기대합니다! 🥳 관련 기사: https://www.econovill.com/news/articleView.html?idxno=663840

2024.09.30