[FALL-E 체험기] MS 나델라 CEO가 감탄한 AI 생성 효과음, 어디까지 진화했을까

뒤로가기back

[FALL-E 체험기] MS 나델라 CEO가 감탄한 AI 생성 효과음, 어디까지 진화했을까

2024.05.30 ・ by Dewey Yoon

들어가며

가우디오랩의 FALL-E는 이미지, 텍스트, 동영상 등 input에 맞게 자동으로 소리를 만들어주는 오디오 생성 AI 기술입니다.

소리는 크게 1) 음성, 2) 음악, 3) 효과음으로 나눌 수 있습니다. FALL-E는 그 중에서도 3) 효과음을 염두에 두고 만들어진 기술이에요.

우리 주변에서는 목소리나 음악을 만들거나 변조하는 AI를 쉽게 찾아볼 수 있는 반면, 그 외의 모든 소리(효과음)를 만드는 AI는 찾아보기 어렵습니다.

키보드 타이핑 소리, 발걸음 소리, 나무에 바람이 스치는 소리..., 우리 주변에 이렇게도 많은 소리가 있는데 말이죠! 이제 그 역할을 FALL-E가 해내려고 합니다.

최근 가우디오랩은 FALL-E를 직접 사용해볼 수 있는 데모 페이지를 오픈했습니다. 누구나 간단히 프롬프트를 입력하면 원하는 소리를 만들어낼 수 있습니다.

아래 화면처럼 말이죠.

Text to Audio 생성 화면

Image to Audio 생성화면

이 데모 페이지를 경험한 AI타임즈 장세민 기자님의 체험기를 공유드리고자 합니다.

이번 체험기를 통해 가우디오랩이 불러올 미래를 함께 상상해보시기를 권해드려요.

그럼 이하 전문으로 확인하시죠!

[체험기] 나델라가 감탄한 AI 생성 효과음,어디까지 진화했을까

2024-05-26

음성 인공지능(AI) 전문 가우디오랩(대표 오현오)이 소리(효과음) 생성 AI를 사용해 볼 수 있는 클로즈드 데모(Closed Demo) 사이트를 공개했다고 최근 밝혔다.

가우디오랩의 대표 솔루션 '폴리(FALL-E)'는 지난 1월 미국 라스베이거스 CES 현장에서부터 글로벌 업계의 주목을 받은 바 있다. 사티아 나델라 MS CEO가 부스를 찾아 "이제 진짜 AI가 생성한 소리냐"라고 놀랐던 그 제품이다.

폴리는 텍스트를 넘어 이미지도 입력할 수 있는 '멀티모달 AI'로, 해외 기업보다 앞선 기술을 갖췄다. 최근에는 프론트엔드 개발까지 완료, 클로즈드 데모 공개를 통해 한정된 사용자를 대상으로 테스트 중이다.

AI타임스도 테스트에 참여, 클로즈드 데모 사이트에 접속해 몇가지 기준에 따라 소리를 만들어 보기로 했다.

먼저 폴리의 기본 기능을 테스트하기 위해 텍스트를 입력해 봤다. 현재는 영어 프롬프트만 지원한다.

첫번째 프롬프트는 '흙길에서 속도를 내는 오래된 트럭(An old pickup truck accelerating on a dirt road)'이다. 생성된 사운드는 바퀴가 굴러가는 느낌을 잘 구현했다. 조금 더 거친 소리를 살리는 것도 방법일 듯하다.

두번째는 '번잡하고 덜컹거리는 도심의 열차(Ambience of the interior of a crowded, rattling urban train)'다. 이건 실제 소리라고 해도 과언이 아닐 정도로 리얼했다.

다음은 '비명을 지르는 악마 같은 외계 생명체(A demonic alien creature roaring and screaming)'로, 소리를 재생하자마자 소름이 돋을 정도였다. 미스터리, 스릴러, 호러 등의 장르에서 유용한 기술이라는 생각이 들었다.

'거칠게 닫히는 문(a door closed violently)' '비가 온 뒤 진흙을 밟는 소리(stepping on mud after rainning)' '유령 소리(ghost sound)' '살인자가 누군가를 추격하며 하하하- 웃는 소리(HAHAHA- sound of murderer chasing someone)' 등을 차례로 생성해 봤다. 모두 기대 이상의 결과가 나왔다.

단 하나 아쉬운 점은 대사나 목소리를 구현할 수는 없었다는 점이다. '두려움에 가득 차 "누구세요?"라고 묻는 소리("Who is that?" voice with fear)'의 경우는 결과물이 나오지 않았다.

가우디오랩 관계자는 "폴리는 음성(목소리)이나 음악을 대상으로 개발되지는 않았다"라며 "음성, 음악, 효과음 중 효과음에 집중해서 만들어진 것"이라고 설명했다. 이어 "재채기나 기침소리와 같은 비언어적 소리는 포함하지만, 언어적인 것들은 다른 많은 기술, 즉 TTS(텍스트 음성 변환) 등을 통해서 만들어야 한다"라고 전했다.

그래도 놀라운 것은 단순히 소리를 만들어내는 것을 넘어, '하나의 스토리'를 상상할 수 있을 만큼 퀄리티 있는 효과음을 도출한다는 것이다.

특히 누구나 쉽게 사용할 수 있는 것이 장점으로 보였다. 이미지 생성 AI처럼 아주 상세하거나 특정한 표현 없이도, 일상적인 단어 몇개로 그럴듯한 소리를 만들어 낼 수 있었다.

그렇다면 '아주 미묘한 차이'까지도 소리로 표현할 수 있을까.

이를 확인하기 위해 나이와 감정, 사물의 질감, 소리의 거리, 규모 등 프롬프트마다 약간의 차별점을 부여해 봤다. 먼저 '어린아이의 울음소리'를 통해 나이 차를 어떻게 표현하는지 테스트했다.

첫번째로 '시험을 망치고 울고 있는 아이(A child is crying after ruining the test)'를 입력했다. 하지만 생각한 결과물은 아니었다. 학교 시험을 치르기에는 지나치게 어린 느낌이었다. 이에 구체적인 연령 설정을 추가했다.

'시험을 망친 뒤 울고 있는 13살의 남자아이(A 13-year-old boy student is crying after ruining the test)'를 입력하자 일전보다 훨씬 성숙한 목소리를 생성해 줬다. 텍스트만으로 나이 조절이 가능했다.

사물의 질감의 경우 초콜릿과 꿀을 비교했다. 공통적인 수식어는 '끈적거리는(sticky)'이다. 강철과 꿀을 비교하라면 확실하게 다른 소리를 만들겠지만, 비슷한 점도를 다른 소리로 표현하기란 쉽지 않을 듯 보였다.

그러나 결과를 확인하고 놀랄 수밖에 없었다. 폴리는 재료 간의 차이를 정확히 잡아냈다.

감정은 '개가 짖는 소리(bark)'를 이용했다. 한쪽은 분노와 경계심을 가지고 짖는 소리, 나머지 한쪽은 산책을 가고 싶어 칭얼거리며 짖는 강아지다. 이번에도 명확한 차이가 드러났다. 감정 표현에도 무리가 없었다.

마지막으로 거리와 규모를 가늠하기 위해 '좀비의 으르렁거리는 소리(growl)'를 이용했다. 즉 '가까이에서 좀비 하나가 으르렁거리는 소리' '먼 거리에서 좀비 여럿이 으르렁거리는 소리' '가까이에서 좀비 여럿이 으르렁거리는 소리' 등으로 구분했다.

규모의 경우 하나로 설정했을 때 훨씬 섬세한 사운드 표현이 나타났다. 흥미로운 것은 거리의 차이였다. 똑같은 좀비 집단이더라도 멀리 있는 경우 '벽 하나가 가로막고 있는 듯' 희미한 소리로 표현됐다.

마지막은 가장 궁금했던 '이미지 입력'이었다. 이는 가우디오랩의 차별점이자, 최종 목표를 위한 시작점이기도 하다. 영상 자체를 입력해 사운드를 생성할 수 있다면, 영화 작업에 획기적인 시간 단축을 가져올 수 있기 때문이다.

하지만 기술적으로 어렵기도 하다. 텍스트의 경우 입력자의 의도가 명확하게 드러나지만, 이미지는 AI가 분석하는 부분이 훨씬 많아지기 때문이다. 즉 앞서 테스트한 감정이나 거리, 규모, 질감, 연령 등을 전부 AI가 다시 분석하고 계산해야 한다.

테스트 결과 가장 흥미로웠던 것은 AI가 소리를 하나만 내놓지 않았다는 점이었다.

폴리는 사진에 포함된 여러 개체와 상황을 반영해 최대 3가지 소리를 따로 제시하고, 마지막으로 '통합본'을 제시하는 등 모두 4가지 소리를 들려 줬다.

예를 들면 두 사람이 싸우는 장면에서는 ▲옷이 부스럭거리는 소리 ▲바닥에 부딪히는 소리 ▲창문이 깨지는 소리 등이 생성됐다.

이미지 입력에는 '생성 이미지'와 '영화 공식 스틸 컷' 두가지를 사용했다.

라스코AI를 이용해 생성한 만화 그림체의 사진을 입력하자, 폴리는 모든 개체를 정확히 인식하지는 못했다. 소녀와 개가 놀고 있는 장면에서 강아지가 짖는 소리는 생성했지만, 소녀의 웃음소리는 나오지 않았다. 아무래도 그림은 명확하지 않은 부분이 있다는 점 때문인듯 싶었다.

그래서 이번에는 실사를 입력했다. '존 윅' '트랜스포머' '터미네이터' '분노의 질주' 등 다소 강렬한 영화 이미지를 사용했다.

이번에는 모든 개체를 인식했지만, 실제 영화 속 효과음만큼 강렬한 소리는 나오지는 않았다. 아무래도 스틸 컷 하나로 영상 전체의 강렬함을 전달하기는 어려웄을 듯 싶었다. 영화의 맥락을 인식했다면, 더 강한 효과음을 생성했을 수도 있겠다는 생각이 들었다.

이 외에도 유니콘을 타고 있는 모습, 소가 일하고 있는 모습 등 '소리를 명확히 유추할 수 없는 이미지'를 이용했을 때도 그럴듯한 결과물을 내놓았다.

영상을 확인하면 알 수 있듯, 이번 테스트에서는 전반적으로 기대 이상의 결과를 확인했다. 나델라 CEO가 이번 버전을 확인한다면, 더 놀랄 것이 틀림없을 것 같았다.

가우디오랩은 누구나 원하는 사운드를 쉽게 만들 수 있도록 노력하고 있다고 밝혔디. 관계자는 "기업 비전에 맞게 비전문가도 소리 생성AI를 체험해 볼 수 있다는 점에서 이번 테스트는 큰 의미가 있다"라고 전했다.

이제까지 남들보다 앞선 높은 퀄리티의 기술을 개발해온 만큼, 앞으로 멀티모달 영역이 영상까지 확대된다면 "앞으로 모든 영화와 영상에는 가우디오랩의 기술이 들어갈 것"이라는 말이 현실이 될 수도 있겠다는 생각이 들었다.

장세민 기자 semim99@aitimes.com

출처 : AI타임스(AI타임스 )

FALL-EGenerative AI

오디오 AI 연구자들의 축제, ICASSP 2024 & Gaudio Night 현장 스케치

안녕하세요, 가우디오랩에서 오디오 AI를 연구하고 있는 카야입니다. 지난 4월 14일부터 19일까지 삼성 코엑스(COEX) 컨벤션센터에서 음성 및 오디오 신호처리 학회 ICASSP 2024이 개최되었습니다. 올해 49회를 맞이하며 처음으로 대한민국에서 개최된 이 행사는 음성 및 오디오 신호처리 분야에서 최고 권위를 자랑하고 있는데요. 가우디오랩에서는 오디오 AI 연구자들이 어렵게 모인 자리를 기회 삼아 네트워킹 파티를 마련하기도 했습니다. 이번 포스트에서 ICASSP 현장, 그리고 Gaudio Night ✨ 에 대해 생생하게 전달해 드리고자 합니다! 느슨해진 학회 씬에 긴장감을 줘- 이 몸 등장 세계 최대 규모의 음성/오디오 분야 학회, ICASSP International Conference on Acoustics, Speech, and Signal Processing(줄여서 ICASSP, 아이캐습 또는 아이카습 이라고 읽어요)은 IEEE Signal Processing Society(국제전기전자협회 신호처리학회)에서 주최하는 국제 학술대회입니다. 전 세계 관련 분야 연구자들이 한자리에 모여 최신 연구 결과를 공유하고 토론하는 자리인데요. 발표된 논문들은 해당 분야의 연구 트렌드를 이끌어간다고 해도 과언이 아닐 정도로 학계에 미치는 영향력이 지대합니다. 그만큼 연구자로서 ICASSP에 참석하여 최신 연구 동향을 파악하고 교류하는 것은 아주 중요한 기회이죠. 6일간 진행된 컨퍼런스에서는 음성 인식, 음성 합성, 음원 분리, 3D 오디오 등 다양한 주제의 구두 발표 세션들과 포스터 세션, 튜토리얼 등의 프로그램들이 진행되었습니다. 코로나19 팬데믹 이후 오랜만에 대면으로 열린 행사인 만큼, 현장에는 수많은 연구자로 북적였습니다. 서로 반갑게 인사를 나누고 연구 이야기로 꽃을 피우는 모습이 인상적이었어요. 🤭 전 세계에서 약 4,000명의 과학자들이 모였다고 해요! 저희 가우디오랩 AI 연구 팀원들도 진행 중인 연구에 도움이 될 만한 발표들은 물론, 개인적 호기심을 자극하는 재미있는 아이디어들이 담긴 논문들을 발 빠르게 캐치했습니다. 특히, 관심 있는 연구의 저자들과 즉석 토론은 도파민🫧 그 자체였어요. 흥미로운 연구가 정말 많았답니다. 이번 학회에서는 제가 소리 생성 AI FALL-E에 관한 논문을 포스터로 발표하기도 했는데요, 제 연구에 관심을 보인 분들과 심도 있는 피드백을 주고받으며 새삼 깨닫게 된 점이 하나 있어요. 바로 관련 연구자들과의 교류 경험이 곧 연구자로서의 성장 경험치 2배 이벤트라는 것이에요. 왜냐하면, 서로의 연구 소개를 통해 얻게 된 지식과 인사이트가 더 나은 연구 성과로 이어질 수 있기도 하고, 비슷한 연구를 하고 있는 다른 연구자들과 시행착오를 공유하며 삽질을 덜 할 수 있게 되기도 하죠. 같은 주제에 대한 고민을 주고받으며 새로운 아이디어를 얻는 것은 물론, 더 나아가 이것이 협업의 기회로 이어지기도 합니다. 앞으로도 가우디오랩에서 열심히 연구한 성과들을 학회를 통해 꾸준히 발표하고 교류해야겠다고 다짐, 또 다짐해봅니다 💪🤓 많은 분들이 관심가지고 질문을 해주셔서 꽤 바빴어요. 설명을 입으로 했는지 코로 했는지 모르겠네요. 음성/오디오 AI 연구자들의 네트워킹 자리, 'Gaudio Night' 제가 이렇게 몸소 느꼈던 네트워킹의 중요성을 가우디오랩은 이미 다 알고 있었답니다😎 가우디오랩에서는 이번 학회 기간 도중 학회에 참여한 각계의 오디오 AI 연구자들을 가우디오랩 오피스로 초대하여 네트워크를 쌓을 수 있는 Meet-up 자리를 마련했습니다. 업계와 학계를 아우르는 교류와 협력을 도모하여, 오디오 AI 연구의 발전에 기여하고자 하는 취지에서 'Gaudio Night'이라는 이름으로 행사를 추진하였습니다. 행사 초반이라 아직은 조용한 모습… 하지만… Gaudio Night 현장에는 약 40여명의 연구자들이 함께 해주셨는데요. 오디오 AI와 관련된 다양한 세부 분야의 연구자분들과 서로의 연구에 대한 이야기는 물론, 함께 맛있는 음식과 와인도 곁들이며 즐거운 시간을 보냈습니다. 사실 오디오 AI에 관한 연구 규모가 다른 분야에 비해 아직은 작다 보니, 이런 교류의 장이 국내에는 아직 많지 않은 것 같아요. 그만큼 귀하고 귀한 관련 연구자들이 한자리에 모였다는 것만으로도 마음이 웅장해지더랍니다… 😌 뿐만 아니라 잠재적인 파트너사 발굴과 미래 가우딘 채용에도 도움이 되는 시간이었어요. 이렇게 뜻깊은 자리였던 만큼 앞으로도 Gaudio Night 같은 이벤트를 주기적으로 개최한다면, 언젠가 오디오 AI 커뮤니티에 가우디오랩이 없어서는 안 될 중요한 거점으로 거듭나게 되지 않을까요? 이번 이벤트가 그 시작점이 되기를 바라며, 앞으로도 오디오 AI 의 발전을 위해 가우디오랩이 선도적인 역할을 해나가겠습니다. 함께 성장하고 싶으신 분들, 언제든지 문을 두드려 주세요! 가우디오랩은 활짝 열려있습니다~ -최후의 12인- 가우디오랩의 발걸음은 계속됩니다 👣 ICASSP 2024 참가와 'Gaudio Night' 개최를 통해 저도 가우디오랩도 한 단계 더 성장할 수 있었던 것 같습니다. 덕분에 최신 연구 트렌드를 학습하고, 우수한 연구자들과 교류하며, 업계 리더로서의 입지를 다질 수 있었어요. 가우디오랩은 여기서 멈추지 않고 계속해서 나아가려 합니다. 우리의 비전은 오디오 기술을 통해 최고의 소리 경험을 만들어내는 것이니까요! 미래를 향한 가우디오랩의 행보에 많은 관심 부탁드립니다✨ 그럼 이상으로, 카야였습니다. 감사합니다.

2024.05.17

회고 인터뷰 | 소음 잡는 녹음 앱 Just Voice Recorder, 이렇게 만들었습니다

지난 5월 20일, 가우디오랩에서 개발한 AI 소음 제거 녹음 앱 ‘Just Voice Recorder’가 앱스토어에 공개되었습니다. 녹음기 앱에서는 흔하지 않던 ‘AI 소음 제거’ 기능을 탑재했기 때문일까요? 사전 예약부터 많은 기대를 받으며 성공적인 앱스토어 데뷔를 마칠 수 있었습니다. 오늘은 Just Voice Recorder 앱의 PO인 Jin과의 인터뷰를 통해 Just Voice Recorder 앱을 더욱 잘 사용할 수 있는 꿀팁부터 앱 개발 과정의 비하인드 스토리까지 유저 여러분에게 공개하려고 합니다. Q. 자기소개부터 시작할까요? 안녕하세요, 가우디오랩 Service and App (이하 SNA) 팀에서 PO를 맡고 있는 Jin입니다. 여러 업계를 거치며 8년 정도 PO/PM 경험을 쌓고 가우디오랩에 합류하게 되었습니다. Q. 가우디오랩에 합류한 후 첫 모바일 앱을 출시하게 된 소감은 어떠신가요? 물론 매우 뿌듯합니다. 그동안 고생했던 시간이 생각나면서 감회가 새롭네요. 기쁜 마음이 큰 만큼 아쉬움도 많은 것이 사실입니다. 아무래도 여러 가지 제약이 있다 보니 니즈를 완벽히 반영하지 못한 것 같아 아쉬움이 있어요. 이 아쉬움은 계속된 업데이트로 해결하고자 합니다. Q. 오늘의 주인공, Just Voice Recorder는 어떤 앱인가요? Just Voice Recorder는 가우디오랩의 강력한 소음 제거 AI 기술을 탑재한 녹음 앱입니다. 목소리를 제외한 배경 소음을 제거해 주기 때문에 소음이 함께 녹음되는 환경에서도 목소리를 깨끗하게 들을 수 있습니다. 또한 Just Voice Recorder에 활용된 소음 제거 AI는 서버로 녹음 데이터가 전송되지 않고 온디바이스 환경에서 구동되기 때문에, 보안이 중요하거나 개인적인 녹음에도 마음 편히 활용하실 수 있다는 장점이 있습니다. Q. Just Voice Recorder는 어떤 분들이 활용하시면 좋을까요? 녹음이 필요한 상황이다? 무조건 Just Voice Recorder를 떠올리시면 돼요. 일단 장소와 시간에 상관없이 녹음하신 후 Just Voice Recorder를 통해 소음이나 음량 등의 문제를 처리하시면 됩니다. 조금 더 세부적으로 말씀드리자면 강의 녹음을 많이 하는 학생, 혹은 직업 특성상 녹음을 많이 하는 크리에이터나 기자 등에게 추천해 드리고 싶어요. 학생이라면 강의실에서 발생하는 키보드 소음, 에어컨 소리 등을 제거하여 뒷자리에서 녹음한 내용도 뚜렷이 담으실 수 있을 거예요. 크리에이터라면 전문 장비 없이도 언제 어디서나 선명한 목소리를 담으실 수 있습니다. Q. Just Voice Recorder는 어떻게 시작되었나요? 아이디어가 나온 순간부터 만들기로 결심한 순간까지의 스토리가 궁금합니다 *GSEP-HQ 기술을 적용한 모바일 앱을 만들어보자’가 아이디어의 시작이었습니다. GSEP-HQ 기술은 음원에서 악기나 보컬을 분리하기 위해 만들어진 기술이고 현재도 많은 유저들의 사랑을 받고 있는 가우디오 스튜디오에서 사용되고 있는 기술입니다. 하지만 가우디오 스튜디오는 웹 서비스이기 때문에 서버에서 구동할 수밖에 없는 한계가 있죠. 그래서 요즘 핫한 기술 트렌드인 on-device AI에 맞게 모바일 앱에서 구현해 보고자 했습니다. 이에 맞춰 유저가 느낄 수 있는 가치가 가장 명확하고, 가장 쉽게 만들 수 있다고 생각했던 (사실 하나도 쉽지 않았지만) 녹음기 앱을 개발하기로 했습니다. *GSEP: 가우디오랩에서 개발한 음원 분리 기술로, 실시간 처리가 가능한 GSEP-LD와 더 높은 품질의 음원 분리가 가능한 GSEP-HQ가 있다. GSEP-LD는 Just Voice Lite를 통해 체험해볼 수 있다. (GSEP 자세히 보기) Q. Just Voice Recorder가 제공하는 가장 큰 가치는 무엇인가요? Just Voice Recorder는 유저가 실제 경험하는 문제를 해결하는 것을 가장 큰 목표로 가지고 있습니다. 세상에 녹음할 수 있는 앱은 많고, 클로바 노트처럼 다양한 편의 제공하는 앱도 많습니다. 하지만 녹음 시 발생하는 소음의 문제, 더 나아가 ‘잘 들리지 않는’ 문제를 해결해 주는 앱은 많지 않다고 봤습니다. 이렇게 충족되지 않은 유저의 니즈를 해결하기에 가우디오랩의 GSEP-HQ 기술이 적합하다고 생각했고요. 가지고 있는 기술로 유저의 문제를 해결할 수 있는, 기술과 문제의 핏이 좋은 분야라고 생각했습니다. Q. Just Voice Recorder의 가장 중요한 기능을 하나만 꼽는다면? 강력한 음원 분리 기술에 기반한 노이즈 제거 기능이라고 생각합니다. 사실 아이폰 기본 녹음 앱에도 노이즈를 감소시켜 주는 기능이 있긴 합니다. 기본 앱으로 녹음된 음성을 재생할 때 소음을 줄일 수 있어요. 하지만 소음 제거만 놓고 봤을 때는 Just Voice Recorder가 더 낫다고 자신합니다. 정말 지저분한 잡음이 신기하게 없어지거든요. 물론 아직 가야 할 길은 많이 남아있습니다. 주변 소음이 목소리보다 크거나 녹음된 음성이 작으면 잘 분리가 되지 않거든요. 처리하는 데 걸리는 시간도 상당하고요. 하지만 지금 순간에도 연구 개발을 진행하고 있기 때문에 빠른 시일 안에 개선할 수 있을 것이라고 기대하고 있습니다. Q. 앞서 앱 개발 과정에서 많은 우여곡절이 있었다고 언급해 주셨습니다.가장 기억에 남는 에피소드를 하나 공유해 주신다면요? 소음 제거에 사용되는 AI 모델을 결정하는 과정이 가장 기억에 남습니다. 처음 앱 개발을 시작했을 때는 GSEP-HQ를 모바일 환경에서 사용할 수 있는 준비가 되어있지 않았습니다. 대안으로 이미 개발된 Just Voice SDK를 이용해 앱 개발을 진행하고, GSEP-HQ가 준비되는 대로 갈아 끼우는 방법을 선택했습니다. 하지만 간과했던 문제가 있었는데요, Just Voice SDK에서는 CPU 환경에서 실시간 처리가 가능한 반면, GSEP-HQ는 GPU를 활용해야 한다는 점이었습니다. 또한 Just Voice SDK에 비해 처리 시간이 길어져 실시간 처리를 포기해야 한다는 것도 문제였습니다. 이 과정의 의사 결정이 길어지면서 양쪽을 다 대응하며 개발해야 하는 상황에 부닥치게 되었는데요, 의사결정을 조금 더 빠르게 했더라면 좀 더 효율적인 개발이 되지 않았을까 하는 회고를 팀 내에서 함께 하기도 했습니다. Q. 이번에 안드로이드 버전 없이 iOS 버전만 출시되었습니다. 어떤 배경이 있나요? 사실 사전 예약 참가자가 60% 이상 안드로이드 유저였습니다. 그만큼 큰 유저 풀을 포기해야 했기 때문에 저희로서도 큰 결단을 내려야 했던 사안이었습니다. 기본적으로 Just Voice Recorder는 Flutter 기반으로 구축되어 있기 때문에 안드로이드와 iOS 모두 지원할 수 있도록 개발되었습니다. 하지만 앞서 말씀드린 GSEP-HQ 모델을 적용하는 과정에서 안드로이드에서만 유독 UI가 버벅대는 문제가 발견되었습니다. GPU 점유율이 높아서 발생하는 문제였죠. 안드로이드와 iOS의 구조적 차이로 발생하는 문제이기에 원하는 만큼 모델을 최적화하기에는 상당한 시간이 소요될 것으로 판단되어 iOS 버전을 먼저 출시하기로 했습니다. Q. Just Voice Recorder 앱의 다음 스텝은 무엇인가요? 추가하고 싶은 기능이라면 아주 많이 있습니다. 초반 기획에 포함되었던 내보내기 (Export) 시에 배경 소음의 음량을 조절하는 기능이라든지, 유저 가치가 큰 STT(Sound to Text) 기능, 녹음 파일 편집 기능 등을 고려하고 있습니다. 플랫폼 확장도 고려하고 있어서 다음 스텝으로 아이패드와 애플워치용 앱도 고민 중입니다. 하지만 기능을 추가하는 것보다는 앱의 기본에 충실하는 것에 우선순위를 두어야 한다고 생각하고, 그중에서도 최고 수준의 소음 제거와 안정적인 앱 구동을 가장 크게 염두에 두고 있습니다. 첫 번째로 개선하고자 하는 부분은 소음이 제거될 때까지 앱을 켠 채 예상보다 오랜 시간을 기다려야 한다는 문제입니다.입니다. 실시간 처리가 가능한 Just Voice SDK를 활용한다면 해결할 수 있는 문제지만, Just Voice Recorder의 가치는 최고 수준의 소음 제거에 있다고 생각했기 때문에 속도를 포기하고 성능을 택한 것이죠. 지금은 유저의 반응을 모니터링하면서 속도와 성능의 sweet spot을 찾기 위해, 그리고 이에 맞춰 모델을 개선하여 속도를 끌어올리기 위해 노력하고 있습니다. 다음 문제는 목소리가 작은 경우에 분리 성능이 떨어질 수 있다는 점입니다. 이것은 악기 분리를 위해 개발된 GSEP-HQ 엔진의 태생적인 한계이기도 합니다. 이러한 한계를 극복하기 위해 R&D팀과 지속적으로 소통하며 문제 해결을 위한 계획을 세우고 있고, 최대한 빠른 시일 내에 Just Voice Recorder에 적용되어 어떤 크기의 목소리라도 깔끔하게 분리해 낼 수 있는 앱이 될 수 있도록 박차를 가하겠습니다. Q. 앱을 출시하고 약 1개월 정도의 시간이 지났습니다.지금까지를 간략하게 회고해 본다면 어떻게 정리하실 수 있을까요? 여러 가우딘들이 발 벗고 나 서주신 덕분에 수많은 어려움에도 불구하고 마무리할 수 있었던 프로젝트였다고 생각합니다. 이 자리를 빌려서 도움을 주신 가우딘들에게 감사하다는 말씀드리고 싶습니다. Just Voice Recorder를 개발하면서 가장 많이 고민한 부분은 ‘과연 이 앱이 유저가 실제로 경험하고 있는 문제를 해결하고 있는가’ 하는 물음이었습니다. 아직도 확신을 가지기는 어려운 물음이기도 하고요. 그래도 앱을 유저 앞에 선보인 이상, 차근차근 유저 반응을 살피고 데이터를 분석해보며 답을 찾아나갈 수 밖에 없다고 생각합니다. 그리고 가우디오랩의 기술을 모바일 환경에서도, 그리고 B2C 환경에서도 충분히 활용할 수 있다는 가능성을 확인해 봤다는 것도 큰 성과라고 생각합니다. 🎙️ 마무리하며 Mac에서 사용 가능한 Just Voice Lite에 이어 iPhone용 앱인 Just Voice Recorder까지, 가우디오랩은 소리가 있는 어디라도 혁신적인 소리 경험을 제공하기 위해 꾸준히 도전의 영역을 넓혀나가고 있습니다. PO인 Jin의 솔직한 인터뷰를 통해 Just Voice 앱의 개발 비하인드부터 한계점까지 자세히 알아볼 수 있었는데요, 계속 발전해 나가는 Just Voice Recorder 앱이 궁금해지지 않으셨나요? 그렇다면 아래 링크를 통해 바로 앱스토어로 이동해서 다운로드해 보세요. 새로운 녹음의 세계가 여러분을 기다리고 있습니다. >> https://apps.apple.com/kr/app/just-voice-recorder/id6479693805

2024.06.14