뒤로가기back

오디오 AI 연구자들의 축제, ICASSP 2024 & Gaudio Night 현장 스케치

2024.05.17 by Kaya Chung

안녕하세요, 가우디오랩에서 오디오 AI를 연구하고 있는 카야입니다.

 

지난 4월 14일부터 19일까지 삼성 코엑스(COEX) 컨벤션센터에서 음성 및 오디오 신호처리 학회 ICASSP 2024이 개최되었습니다. 올해 49회를 맞이하며 처음으로 대한민국에서 개최된 이 행사는 음성 및 오디오 신호처리 분야에서 최고 권위를 자랑하고 있는데요. 가우디오랩에서는 오디오 AI 연구자들이 어렵게 모인 자리를 기회 삼아 네트워킹 파티를 마련하기도 했습니다.

 

이번 포스트에서 ICASSP 현장, 그리고 Gaudio Night 에 대해 생생하게 전달해 드리고자 합니다!

 

코엑스 ICASSP

느슨해진 학회 씬에 긴장감을 줘- 이 몸 등장

 

 

 

세계 최대 규모의 음성/오디오 분야 학회, ICASSP

 

International Conference on Acoustics, Speech, and Signal Processing(줄여서 ICASSP, 아이캐습 또는 아이카습 이라고 읽어요)은 IEEE Signal Processing Society(국제전기전자협회 신호처리학회)에서 주최하는 국제 학술대회입니다. 전 세계 관련 분야 연구자들이 한자리에 모여 최신 연구 결과를 공유하고 토론하는 자리인데요. 발표된 논문들은 해당 분야의 연구 트렌드를 이끌어간다고 해도 과언이 아닐 정도로 학계에 미치는 영향력이 지대합니다. 그만큼 연구자로서 ICASSP에 참석하여 최신 연구 동향을 파악하고 교류하는 것은 아주 중요한 기회이죠.

 

6일간 진행된 컨퍼런스에서는 음성 인식, 음성 합성, 음원 분리, 3D 오디오 등 다양한 주제의 구두 발표 세션들과 포스터 세션, 튜토리얼 등의 프로그램들이 진행되었습니다. 코로나19 팬데믹 이후 오랜만에 대면으로 열린 행사인 만큼, 현장에는 수많은 연구자로 북적였습니다. 서로 반갑게 인사를 나누고 연구 이야기로 꽃을 피우는 모습이 인상적이었어요. 🤭

 

ICASSP 현장 사진

전 세계에서 약 4,000명의 과학자들이 모였다고 해요!

 

 

 

저희 가우디오랩 AI 연구 팀원들도 진행 중인 연구에 도움이 될 만한 발표들은 물론, 개인적 호기심을 자극하는 재미있는 아이디어들이 담긴 논문들을 발 빠르게 캐치했습니다. 특히, 관심 있는 연구의 저자들과 즉석 토론은 도파민🫧 그 자체였어요.

 

ICASSP 연구 발표

흥미로운 연구가 정말 많았답니다.

 

 

 

이번 학회에서는 제가 소리 생성 AI FALL-E에 관한 논문을 포스터로 발표하기도 했는데요, 제 연구에 관심을 보인 분들과 심도 있는 피드백을 주고받으며 새삼 깨닫게 된 점이 하나 있어요. 바로 관련 연구자들과의 교류 경험이 곧 연구자로서의 성장 경험치 2배 이벤트라는 것이에요.

 

왜냐하면,

  • 서로의 연구 소개를 통해 얻게 된 지식과 인사이트가 더 나은 연구 성과로 이어질 수 있기도 하고,

  • 비슷한 연구를 하고 있는 다른 연구자들과 시행착오를 공유하며 삽질을 덜 할 수 있게 되기도 하죠.

  • 같은 주제에 대한 고민을 주고받으며 새로운 아이디어를 얻는 것은 물론,

  • 더 나아가 이것이 협업의 기회로 이어지기도 합니다.

 

앞으로도 가우디오랩에서 열심히 연구한 성과들을 학회를 통해 꾸준히 발표하고 교류해야겠다고 다짐, 또 다짐해봅니다 💪🤓

 

ICASSP FALL-E 발표

많은 분들이 관심가지고 질문을 해주셔서 꽤 바빴어요. 설명을 입으로 했는지 코로 했는지 모르겠네요.

 

 

 

음성/오디오 AI 연구자들의 네트워킹 자리, 'Gaudio Night'

 

제가 이렇게 몸소 느꼈던 네트워킹의 중요성을 가우디오랩은 이미 다 알고 있었답니다😎

 

가우디오랩에서는 이번 학회 기간 도중 학회에 참여한 각계의 오디오 AI 연구자들을 가우디오랩 오피스로 초대하여 네트워크를 쌓을 수 있는 Meet-up 자리를 마련했습니다. 업계와 학계를 아우르는 교류와 협력을 도모하여, 오디오 AI 연구의 발전에 기여하고자 하는 취지에서 'Gaudio Night'이라는 이름으로 행사를 추진하였습니다.

 

ICASSP Gaudio Night

행사 초반이라 아직은 조용한 모습… 하지만…

 

 

 

Gaudio Night 현장에는 약 40여명의 연구자들이 함께 해주셨는데요. 오디오 AI와 관련된 다양한 세부 분야의 연구자분들과 서로의 연구에 대한 이야기는 물론, 함께 맛있는 음식과 와인도 곁들이며 즐거운 시간을 보냈습니다. 사실 오디오 AI에 관한 연구 규모가 다른 분야에 비해 아직은 작다 보니, 이런 교류의 장이 국내에는 아직 많지 않은 것 같아요. 그만큼 귀하고 귀한 관련 연구자들이 한자리에 모였다는 것만으로도 마음이 웅장해지더랍니다… 😌 뿐만 아니라 잠재적인 파트너사 발굴과 미래 가우딘 채용에도 도움이 되는 시간이었어요.

 

이렇게 뜻깊은 자리였던 만큼 앞으로도 Gaudio Night 같은 이벤트를 주기적으로 개최한다면, 언젠가 오디오 AI 커뮤니티에 가우디오랩이 없어서는 안 될 중요한 거점으로 거듭나게 되지 않을까요?

 

이번 이벤트가 그 시작점이 되기를 바라며, 앞으로도 오디오 AI 의 발전을 위해 가우디오랩이 선도적인 역할을 해나가겠습니다. 함께 성장하고 싶으신 분들, 언제든지 문을 두드려 주세요!

 

가우디오랩은 활짝 열려있습니다~ -최후의 12인-

 

 

 

가우디오랩의 발걸음은 계속됩니다 👣

 

ICASSP 2024 참가와 'Gaudio Night' 개최를 통해 저도 가우디오랩도 한 단계 더 성장할 수 있었던 것 같습니다. 덕분에 최신 연구 트렌드를 학습하고, 우수한 연구자들과 교류하며, 업계 리더로서의 입지를 다질 수 있었어요.

 

가우디오랩은 여기서 멈추지 않고 계속해서 나아가려 합니다. 우리의 비전은 오디오 기술을 통해 최고의 소리 경험을 만들어내는 것이니까요! 미래를 향한 가우디오랩의 행보에 많은 관심 부탁드립니다

 

그럼 이상으로, 카야였습니다. 감사합니다.

pre-image
회고 인터뷰 | 가우디오랩의 첫 B2C 앱, Just Voice Lite

  🎙️ Interviewer’s note 안녕하세요! 가우디오랩의 마케팅 인턴 해리입니다 🙂 B2B 솔루션만 개발하던 가우디오랩이 첫 B2C 앱 Just Voice Lite를 출시했습니다. 인터뷰를 통해 앱 개발팀의 비하인드 스토리를 마케팅팀이 조명했어요.   가우디오랩의 첫 B2C 서비스를 기획하게 된 PO 하워드, 입사 8년 차 베테랑 개발자 조이, 오디오 SDK와 앱 개발을 동시에 맡고 있는 잭, 팀의 든든한 앱 개발자 스티븐과 인터뷰했습니다.       Just Voice Lite 개발에 참여한 사람들     제품을 일반 유저 타깃으로넓힐 수 있다면 스케일업이 가능할 것 같았어요.     Q. B2B 오디오 솔루션을 개발하던 가우디오랩에서 B2C 서비스 개발을 시작한 계기가 무엇인가요?   하워드(PO) : 회사 말을 안 들은 거예요. 🙂 입사하자마자 B2C를 제안했어요. 나무에서 감이 떨어지길 기다리는 것처럼, B2B는 고객을 기다려야 하잖아요? 제품을 일반 유저 타깃으로 넓힐 수 있다면 스케일업이 가능할 것 같았어요.     Q. 첫 B2C 앱으로 달성하고자 했던 목표는 무엇이었나요?   하워드(PO) : ‘이걸로 돈을 되게 많이 벌 수 있을 거다!’까지는 확신이 안 서서, '일단 무료로 가볍게 가보자' 정도긴 했어요.    조이(Dev) : Just Voice Lite는 매출을 위한 앱이라기보다 가우디오랩의 기술을 알리기 위한 앱에 가까웠어요. 우리의 기술을 B2C 제품으로 알려서 B2B 고객을 유치하자는 목적이 있었죠.   잭(Dev) : 저는 가우디오랩의 공간음향, EQ, Loudness Normalization과 같은 여러 SDK도 지금 앱에 넣을 수 있을 거라고 생각해요. 앱을 키워나간다면 가능해지겠죠.     Q. B2B 서비스와 비교했을 때, B2C 서비스 개발에서 더 고려해야 할 사항이 있었나요?   하워드(PO) : 기업에 SDK(Software Development Kit)를 판매할 때는 사용하기 조금 어렵더라도 사용 설명서를 통해 설명할 수 있어요. 그런데 설득해야 할 대상이 일반 유저라면 얘기가 달라지죠. 조금이라도 허들이 있거나 불편하면 바로 지워버리잖아요. 한 번 더 클릭해야 하거나, 사용 환경을 바꿔야 하는 순간 사람들은 안 쓰게 되거든요.   조이(Dev) : 가상 드라이버를 써야 하는 형상이기도 해서, 어떻게 하면 유저가 걸림돌 없이 원활하게 제품의 핵심 기능을 사용할 수 있을지 많이 고민했죠.       (좌) 기존에 개발했던 앱 (우) 이번에 출시한 앱     같은 기술이라도 쓰는 사람에 따라 다르게 사용될 수 있는 거죠.     Q. 기존 앱과는 개발 의도가 많이 달라졌는데요?   하워드(PO) : 기존 노이즈 제거 앱과 다른 페인 포인트를 해결하는 앱을 만들고 싶었어요. 그래서 화상회의를 자주 하는 직장인에서 아티스트를 좋아하는 팬으로 메인 타깃을 변경했죠. 소음을 제거하는 앱이 아닌 목소리를 부스팅 하는 앱으로 형상을 조금 바꿔서 콘텐츠 스트리밍 시장을 노려보자고 제안했어요. 콘서트 직캠을 볼 때 주변 잡음을 제거하고 아티스트에 집중할 수 있게 목소리를 키워주거나, 영화를 볼 때 잘 안 들리는 배우의 목소리를 또렷하게 해주는 거죠.   조이(Dev) : 같은 기술이라도 쓰는 사람에 따라 다르게 사용될 수 있는 거죠. 하워드가 이걸 잘 발견했고요.   잭(Dev) : 저는 이 관점이 좋았어요. 원래 Just Voice Lite에 있는 GSEP(Gaudio Source Separation)이 ‘Denoise(노이즈 감소)' 잖아요. 그런데 지금 애플리케이션 형상을 보면 ‘Speech Enhancement(음성 향상)’거든요. 마치 다른 기술로 보이게 만들어낸 것 같아서 인상적이었어요.   조이(Dev) : 맞아요. 그런 부분을 하워드가 잘 살려준 것 같아요. 일반 유저에게 오디오 기반의 기술을 설명해도 필요성을 잘 못 느낄 텐데, 유연하게 B2C를 겨냥해서 ‘아티스트의 목소리가 더 잘 들려요’라고 제품을 타깃팅했죠.   하워드(PO) : 블로그에도 적었던 건데, 예를 들어 지금 구글 미트에 참석한 조이가 기타를 치면서 노래하는 상황에 Denoise를 해버리면 기타 소리가 들리지 않아요. 아티스트 팬들이 콘텐츠를 시청할 때는 목소리뿐만 아니라 배경음악도 중요하거든요. 그래서 Speech Enhance를 하는 게 맞지 않을까?' 이런 생각을 가졌던 거죠.     Q. Just Voice Lite에는 어떤 기술들이 들어가 있을까요?   잭(Dev) : Just Voice Lite에 노이즈를 제거하는 GSEP이라는 AI 기술이 들어갔어요. 이게 SDK화 돼 있는데, 청취 평가에서 가장 효과가 좋다고 평가받은 노이즈 제거 기술이죠. 그리고 이 노이즈 분리 알고리즘이 실시간으로 돌아가요. 이 기술이 Mac OS 앱에 올라왔을 때, 매끄러운 경험을 줄 수 있는 사용성을 만들기 위해 공을 많이 들였어요.   데스크탑에서 나오는 모든 소리를 하드웨어로 듣잖아요? 이걸 클릭 한 번이면 앱과 연결할 수 있거든요. 또 데스크탑에서 블루투스를 사용했을 때 영상 싱크가 잘 맞도록 조이가 작업을 해주셔서, 원활하게 콘텐츠를 시청할 수 있어요. 정리하면 알고리즘 원천 기술, SDK 성능 그리고 어플리케이션의 심리스한 경험을 위한 여러 가지 노하우들이 Just Voice Lite의 강점인 것 같아요.         드디어 앱 심사가 통과되고, 헤니가 출시 버튼을 누르는 순간     처음 앱을 출시하는 회사는 Apple이 심사를 굉장히 빡세게 해요.     Q. App Store 심사를 통과하는 데 시간이 좀 걸렸잖아요?   조이(Dev) : 처음 앱을 출시하는 회사는 Apple이 심사를 굉장히 빡세게 해요. 업계에서 다 그러더라고요. 다른 회사 친구들한테 물어보니, 첫 번째 앱인데 10번이면 양호한 거라고 얘기를 하더라고요. 다른 데는 한 30번도 리젝 맞는다고... (웃음)   해리(Marketer) : 심사 답변이 오기까지는 보통 얼마나 걸리나요?   하워드(PO) : 모바일 쪽 심사는 다르겠지만, 데스크탑 쪽 심사는 하루 안에 다 처리됐던 것 같아요.   스티븐(Dev) : 미국이랑 시차 때문에 저희는 심사 올려놓고, 자고 일어나면 리젝 당해 있고 그랬죠. 🙂      Q. 어떤 사유들로 앱 등록이 거절됐나요?   스티븐(Dev) : 첫 번째로 받았던 리젝은 드라이버 설치를 유저에게 강제하면 안 된다는 사유였어요.   조이(Dev) : 드라이버 설치를 강요하지 말라는 가이드를 ‘메인 페이지 뷰에 드라이버 설치를 노출하면 안 된다’라는 문구로 줬어요. 이 문구에 대한 해석도 팀원마다 다 달라서… 계속 심사를 넣으면서 테스트했는데, 하워드가 리뷰어에게 댓글로 잘 설명해서 다행히 드라이버 설치를 메인에 노출할 수 있었죠. 말발로 풀었어요. 🙂    하워드(PO) : 철저히 을의 입장에서… 저희가 심사단의 마음을 거스르면 안 돼요.   스티븐(Dev) : 그다음부터는 하나씩 다른 꼬투리를 잡았거든요. ‘유저 매뉴얼 설명이 부족해’, ‘마케팅 정보도 추가로 적어줬으면 좋겠어’, ‘내보내기 기능은 15분 이내로 완료가 돼야 해’. 또 ‘내가 고치라고 한 거 왜 안 고쳤어?’라고 하면서 리젝을 줄 때도 있고… 하워드가 리뷰어한테 잘 설명하면서 넘어갔죠. 리뷰어랑 소통하는 프로세스들이 여러 번 왔다 갔다 했어요.     Q. 앱 심사를 통과했을 때 기분이 어떠셨나요?   스티븐(Dev) : ‘이번에도 리젝 먹으면 어떡하지’ 하면서 회의하고 있다가, 회의 도중에 딱 통과가 됐거든요.   하워드(PO) : 갑자기 통과되니까 기분 좋아서 소리 질렀죠.   스티븐(Dev) : ‘회의 얼른 끝내자고’ 막 그랬어요.   하워드(PO) : 일부러 그러는 것 같아요. 나중에 기분 좋으라고. 🙂  원래 처음에 안 된다고 했다가 나중에 해주면 되게 고마워 보이잖아요.     Q. 앱 등록 과정에서 받은 피드백이 실제로 도움이 됐나요?   하워드(PO) : 저는 좋은 과정이었다고 봐요. Apple 입장에서 보면 스토어에 이상한 앱들이 생태계를 파괴할 수도 있기 때문에 필터링하는 거고. 저희 입장에서도 덕분에 파일 처리 기능도 들어가고 QA도 했으니까 나쁘지 않았다고 보기는 해요.       🎙️ SDK 이야기를 들어보기 위해 PO 완도 인터뷰했어요! 완(PO) : 안녕하세요 저는 완이고요. 올해부터 SDK 제품군의 Product Owner 역할을 맡게 되었어요. Just Voice SDK는 올해 초에 출시가 된 따끈따끈한 제품이자, SDK 스쿼드에서 올해 주력 제품으로 밀고 있는 제품입니다.     어떤 SDK 제품이나 인테그레이션이 쉽다고 하는데 실제로 고객들이랑 작업을 해보니까 얘는 정말 쉽더라고요.     Q. Just Voice Lite SDK를 간단히 소개해 주세요.   완(PO) : AI 기반이지만 서버가 아니라 폰이나 랩탑 같은 단말에서 온디바이스로 돌릴 수 있는 특징이 하나 있고요. 또 시간이 오래 걸리지 않고, 실시간으로 처리할 수 있어요. 저희 연구 책임자께서 항상 ‘눈 깜빡일 새보다 더 빠르다’라고 강조해서 표현하시는데요. 수치적으로는 100분의 3초인데, 실제로 들어보시면 전혀 느끼지 못할 정도의 빠르기라고 이해하시면 될 것 같아요. 이 두 가지 특징을 가진, 다양한 소음이 있는 어떤 환경에서든 잡음은 빼고 목소리만 또렷하게 들려주는 솔루션입니다.     Q. Just Voice Lite SDK가 도움을 줄 수 있는 시나리오가 있을까요?   완(PO) : 통화랑 화상 회의 같은 경우가 가장 기본적으로 생각할 수 있는 시나리오고, 시끄러운 산업 현장의 무전 솔루션을 제공하는 회사에서 잘 쓰이고 있는 서비스 사례도 있고요. 또 콜센터에서 상담원분들이 전화 받으실 때, 고객들이 시끄러운 환경에서 전화하는 일이 많잖아요? 그런 시나리오에도 저희 Just Voice를 쓰시면 목소리만 또렷하게 들으실 수 있습니다.     Q. Just Voice Lite SDK의 가장 큰 장점은 무엇인가요?   완(PO) : 사실 어떤 SDK 제품이나 다 인테그레이션이 매우 쉽다고 하는데, 저희가 실제로 올해 고객들이랑 작업을 해보니까 얘는 정말 쉽더라고요. 가이드 문서도 저희가 잘 준비를 해놔서, 한 30분이면 붙여보실 수 있을 것 같아요. 저희 홈페이지에 trial 버전을 올려놨으니까, 다운받으셔서 직접 가지고 계신 환경, 앱이나 기기에 바로 적용해 보시면 될 것 같습니다.   Just Voice Lite SDK는 모든 랩탑과 폰에 들어갈 수 있어요. 랩탑이나 핸드폰에서 동작하는 어플리케이션에 적용할 수도 있고요. 최근에 무선 이어폰같이 스마트폰보다 훨씬 더 성능이 떨어지는 저사양의 단말에서도 돌아갈 수 있는 버전을 준비해서, 이제는 '대부분의 기기에서 돌릴 수 있다'라고 할 수 있습니다. 또 저희가 오디오 쪽으로는 많은 전문가들을 보유하고 있어서, 전문가분들이 상황에 맞게 필요하신 부분을 빠르게 잘 컨설팅해 드리고 있습니다. 🙂          앱스토어에 등록된 Just Voice Lite!     Q. 마지막으로 가우디오랩의 첫 B2C 앱을 개발한 소감을 말해주세요.   하워드(PO) : 좋은 시도였다고 봐요. 실제로 B2B 단에서 앱으로 데모도 많이 하고 그랬어요. ‘Denoise 이렇게 한번 써보세요’ 하면서. 그래서 그거 자체로도 의미가 있다고 보기는 하고, B2C 고객들도 더 생기겠죠. 많이 홍보해 주세요. 🙂    조이(Dev) : 좋은 시도이긴 했지만, 저는 Just Voice Lite가 '이거 재밌겠다’ 하면서 설치하는 앱은 아니라고 생각해요. 제가 만들고 싶은 건 남녀노소 구분 없이 쓸 수 있는 제품이거든요. 그런 아이디어가 있으면, 다음 작품은 재밌는 거 만들고 싶어요.   잭(Dev) : 하워드가 Just Voice에 여러 가지 사운드 효과를 넣는 생각을 갖고 계시잖아요. 그게 조이가 말한 재밌어질 포인트 중에 하나라고 생각해요. 언제가 될지 모르겠지만 그런 날이 빨리 왔으면 좋겠네요.   스티븐(Dev) : 일단 가우디오랩 B2C로 첫 앱 하나 뚫어봐서, 노하우가 한 번은 쌓인 거고. 다음번에 할 때는 이번보다는 시행착오가 줄어들지 않을까 생각해요.       🎙️ 끝으로… 인터뷰를 통해 첫 B2C 앱을 개발하며 겪었던 난관과 이를 극복하는 과정을 다시금 엿볼 수 있었습니다. 저에게는 앱 개발 과정의 시작부터 끝까지 간접적으로 경험할 수 있는 소중한 자리였어요. 인터뷰에 응해 주신 앱 팀에게 진심으로 감사드립니다 🙂   이번 B2C 앱 개발 경험을 발판 삼아, 가우디오랩은 다양한 B2C 서비스를 차차 론칭할 예정입니다. Just Voice Lite, 그리고 앞으로 론칭될 새로운 서비스도 많은 관심 부탁드립니다!

2024.04.30
after-image
[FALL-E 체험기] MS 나델라 CEO가 감탄한 AI 생성 효과음, 어디까지 진화했을까

들어가며   가우디오랩의 FALL-E는 이미지, 텍스트, 동영상 등 input에 맞게 자동으로 소리를 만들어주는 오디오 생성 AI 기술입니다.     소리는 크게 1) 음성, 2) 음악, 3) 효과음으로 나눌 수 있습니다. FALL-E는 그 중에서도 3) 효과음을 염두에 두고 만들어진 기술이에요.   우리 주변에서는 목소리나 음악을 만들거나 변조하는 AI를 쉽게 찾아볼 수 있는 반면, 그 외의 모든 소리(효과음)를 만드는 AI는 찾아보기 어렵습니다.   키보드 타이핑 소리, 발걸음 소리, 나무에 바람이 스치는 소리..., 우리 주변에 이렇게도 많은 소리가 있는데 말이죠! 이제 그 역할을 FALL-E가 해내려고 합니다.    최근 가우디오랩은 FALL-E를 직접 사용해볼 수 있는 데모 페이지를 오픈했습니다. 누구나 간단히 프롬프트를 입력하면 원하는 소리를 만들어낼 수 있습니다.     아래 화면처럼 말이죠.      Text to Audio 생성 화면         Image to Audio 생성화면       이 데모 페이지를 경험한 AI타임즈 장세민 기자님의 체험기를 공유드리고자 합니다. 이번 체험기를 통해 가우디오랩이 불러올 미래를 함께 상상해보시기를 권해드려요.   그럼 이하 전문으로 확인하시죠!     - [체험기] 나델라가 감탄한 AI 생성 효과음,어디까지 진화했을까 2024-05-26       음성 인공지능(AI) 전문 가우디오랩(대표 오현오)이 소리(효과음) 생성 AI를 사용해 볼 수 있는 클로즈드 데모(Closed Demo) 사이트를 공개했다고 최근 밝혔다.   가우디오랩의 대표 솔루션 '폴리(FALL-E)'는 지난 1월 미국 라스베이거스 CES 현장에서부터 글로벌 업계의 주목을 받은 바 있다. 사티아 나델라 MS CEO가 부스를 찾아 "이제 진짜 AI가 생성한 소리냐"라고 놀랐던 그 제품이다.   폴리는 텍스트를 넘어 이미지도 입력할 수 있는 '멀티모달 AI'로, 해외 기업보다 앞선 기술을 갖췄다. 최근에는 프론트엔드 개발까지 완료, 클로즈드 데모 공개를 통해 한정된 사용자를 대상으로 테스트 중이다.    AI타임스도 테스트에 참여, 클로즈드 데모 사이트에 접속해 몇가지 기준에 따라 소리를 만들어 보기로 했다.   먼저 폴리의 기본 기능을 테스트하기 위해 텍스트를 입력해 봤다. 현재는 영어 프롬프트만 지원한다.   첫번째 프롬프트는 '흙길에서 속도를 내는 오래된 트럭(An old pickup truck accelerating on a dirt road)'이다. 생성된 사운드는 바퀴가 굴러가는 느낌을 잘 구현했다. 조금 더 거친 소리를 살리는 것도 방법일 듯하다.   두번째는 '번잡하고 덜컹거리는 도심의 열차(Ambience of the interior of a crowded, rattling urban train)'다. 이건 실제 소리라고 해도 과언이 아닐 정도로 리얼했다.    다음은 '비명을 지르는 악마 같은 외계 생명체(A demonic alien creature roaring and screaming)'로, 소리를 재생하자마자 소름이 돋을 정도였다. 미스터리, 스릴러, 호러 등의 장르에서 유용한 기술이라는 생각이 들었다.   '거칠게 닫히는 문(a door closed violently)' '비가 온 뒤 진흙을 밟는 소리(stepping on mud after rainning)' '유령 소리(ghost sound)' '살인자가 누군가를 추격하며 하하하- 웃는 소리(HAHAHA- sound of murderer chasing someone)' 등을 차례로 생성해 봤다. 모두 기대 이상의 결과가 나왔다.   단 하나 아쉬운 점은 대사나 목소리를 구현할 수는 없었다는 점이다. '두려움에 가득 차 "누구세요?"라고 묻는 소리("Who is that?" voice with fear)'의 경우는 결과물이 나오지 않았다.   가우디오랩 관계자는 "폴리는 음성(목소리)이나 음악을 대상으로 개발되지는 않았다"라며 "음성, 음악, 효과음 중 효과음에 집중해서 만들어진 것"이라고 설명했다. 이어 "재채기나 기침소리와 같은 비언어적 소리는 포함하지만, 언어적인 것들은 다른 많은 기술, 즉 TTS(텍스트 음성 변환) 등을 통해서 만들어야 한다"라고 전했다.   그래도 놀라운 것은 단순히 소리를 만들어내는 것을 넘어, '하나의 스토리'를 상상할 수 있을 만큼 퀄리티 있는 효과음을 도출한다는 것이다.    특히 누구나 쉽게 사용할 수 있는 것이 장점으로 보였다. 이미지 생성 AI처럼 아주 상세하거나 특정한 표현 없이도, 일상적인 단어 몇개로 그럴듯한 소리를 만들어 낼 수 있었다.    그렇다면 '아주 미묘한 차이'까지도 소리로 표현할 수 있을까.   이를 확인하기 위해 나이와 감정, 사물의 질감, 소리의 거리, 규모 등 프롬프트마다 약간의 차별점을 부여해 봤다. 먼저 '어린아이의 울음소리'를 통해 나이 차를 어떻게 표현하는지 테스트했다.   첫번째로 '시험을 망치고 울고 있는 아이(A child is crying after ruining the test)'를 입력했다. 하지만 생각한 결과물은 아니었다. 학교 시험을 치르기에는 지나치게 어린 느낌이었다. 이에 구체적인 연령 설정을 추가했다.    '시험을 망친 뒤 울고 있는 13살의 남자아이(A 13-year-old boy student is crying after ruining the test)'를 입력하자 일전보다 훨씬 성숙한 목소리를 생성해 줬다. 텍스트만으로 나이 조절이 가능했다.   사물의 질감의 경우 초콜릿과 꿀을 비교했다. 공통적인 수식어는 '끈적거리는(sticky)'이다. 강철과 꿀을 비교하라면 확실하게 다른 소리를 만들겠지만, 비슷한 점도를 다른 소리로 표현하기란 쉽지 않을 듯 보였다.   그러나 결과를 확인하고 놀랄 수밖에 없었다. 폴리는 재료 간의 차이를 정확히 잡아냈다.   감정은 '개가 짖는 소리(bark)'를 이용했다. 한쪽은 분노와 경계심을 가지고 짖는 소리, 나머지 한쪽은 산책을 가고 싶어 칭얼거리며 짖는 강아지다. 이번에도 명확한 차이가 드러났다. 감정 표현에도 무리가 없었다.    마지막으로 거리와 규모를 가늠하기 위해 '좀비의 으르렁거리는 소리(growl)'를 이용했다. 즉 '가까이에서 좀비 하나가 으르렁거리는 소리' '먼 거리에서 좀비 여럿이 으르렁거리는 소리' '가까이에서 좀비 여럿이 으르렁거리는 소리' 등으로 구분했다.   규모의 경우 하나로 설정했을 때 훨씬 섬세한 사운드 표현이 나타났다. 흥미로운 것은 거리의 차이였다. 똑같은 좀비 집단이더라도 멀리 있는 경우 '벽 하나가 가로막고 있는 듯' 희미한 소리로 표현됐다.    마지막은 가장 궁금했던 '이미지 입력'이었다. 이는 가우디오랩의 차별점이자, 최종 목표를 위한 시작점이기도 하다. 영상 자체를 입력해 사운드를 생성할 수 있다면, 영화 작업에 획기적인 시간 단축을 가져올 수 있기 때문이다.     하지만 기술적으로 어렵기도 하다. 텍스트의 경우 입력자의 의도가 명확하게 드러나지만, 이미지는 AI가 분석하는 부분이 훨씬 많아지기 때문이다. 즉 앞서 테스트한 감정이나 거리, 규모, 질감, 연령 등을 전부 AI가 다시 분석하고 계산해야 한다.    테스트 결과 가장 흥미로웠던 것은 AI가 소리를 하나만 내놓지 않았다는 점이었다.   폴리는 사진에 포함된 여러 개체와 상황을 반영해 최대 3가지 소리를 따로 제시하고, 마지막으로 '통합본'을 제시하는 등 모두 4가지 소리를 들려 줬다.    예를 들면 두 사람이 싸우는 장면에서는 ▲옷이 부스럭거리는 소리 ▲바닥에 부딪히는 소리 ▲창문이 깨지는 소리 등이 생성됐다.    이미지 입력에는 '생성 이미지'와 '영화 공식 스틸 컷' 두가지를 사용했다.   라스코AI를 이용해 생성한 만화 그림체의 사진을 입력하자, 폴리는 모든 개체를 정확히 인식하지는 못했다. 소녀와 개가 놀고 있는 장면에서 강아지가 짖는 소리는 생성했지만, 소녀의 웃음소리는 나오지 않았다. 아무래도 그림은 명확하지 않은 부분이 있다는 점 때문인듯 싶었다.   그래서 이번에는 실사를 입력했다. '존 윅' '트랜스포머' '터미네이터' '분노의 질주' 등 다소 강렬한 영화 이미지를 사용했다.   이번에는 모든 개체를 인식했지만, 실제 영화 속 효과음만큼 강렬한 소리는 나오지는 않았다. 아무래도 스틸 컷 하나로 영상 전체의 강렬함을 전달하기는 어려웄을 듯 싶었다. 영화의 맥락을 인식했다면, 더 강한 효과음을 생성했을 수도 있겠다는 생각이 들었다.   이 외에도 유니콘을 타고 있는 모습, 소가 일하고 있는 모습 등 '소리를 명확히 유추할 수 없는 이미지'를 이용했을 때도 그럴듯한 결과물을 내놓았다.    영상을 확인하면 알 수 있듯, 이번 테스트에서는 전반적으로 기대 이상의 결과를 확인했다. 나델라 CEO가 이번 버전을 확인한다면, 더 놀랄 것이 틀림없을 것 같았다.   가우디오랩은 누구나 원하는 사운드를 쉽게 만들 수 있도록 노력하고 있다고 밝혔디. 관계자는 "기업 비전에 맞게 비전문가도 소리 생성AI를 체험해 볼 수 있다는 점에서 이번 테스트는 큰 의미가 있다"라고 전했다.    이제까지 남들보다 앞선 높은 퀄리티의 기술을 개발해온 만큼, 앞으로 멀티모달 영역이 영상까지 확대된다면 "앞으로 모든 영화와 영상에는 가우디오랩의 기술이 들어갈 것"이라는 말이 현실이 될 수도 있겠다는 생각이 들었다.   장세민 기자 semim99@aitimes.com   출처 : AI타임스(AI타임스 )

2024.05.30