gaudio

뒤로가기back

회고 인터뷰 | 소음 잡는 녹음 앱 Just Voice Recorder, 이렇게 만들었습니다

2024.06.14 by Luke Bae

 

지난 5월 20일, 가우디오랩에서 개발한 AI 소음 제거 녹음 앱 ‘Just Voice Recorder’가 앱스토어에 공개되었습니다. 녹음기 앱에서는 흔하지 않던 ‘AI 소음 제거’ 기능을 탑재했기 때문일까요? 사전 예약부터 많은 기대를 받으며 성공적인 앱스토어 데뷔를 마칠 수 있었습니다.

 

오늘은 Just Voice Recorder 앱의 PO인 Jin과의 인터뷰를 통해 Just Voice Recorder 앱을 더욱 잘 사용할 수 있는 꿀팁부터 앱 개발 과정의 비하인드 스토리까지 유저 여러분에게 공개하려고 합니다.

 

 

Q. 자기소개부터 시작할까요?

 

PO of Just Voice Recorder

 

안녕하세요, 가우디오랩 Service and App (이하 SNA) 팀에서 PO를 맡고 있는 Jin입니다. 여러 업계를 거치며 8년 정도 PO/PM 경험을 쌓고 가우디오랩에 합류하게 되었습니다. 

 

 

Q. 가우디오랩에 합류한 후 첫 모바일 앱을 출시하게 된 소감은 어떠신가요?

 

물론 매우 뿌듯합니다. 그동안 고생했던 시간이 생각나면서 감회가 새롭네요. 기쁜 마음이 큰 만큼 아쉬움도 많은 것이 사실입니다. 아무래도 여러 가지 제약이 있다 보니 니즈를 완벽히 반영하지 못한 것 같아 아쉬움이 있어요. 이 아쉬움은 계속된 업데이트로 해결하고자 합니다.

 

 

Q. 오늘의 주인공, Just Voice Recorder는 어떤 앱인가요?

 

Just Voice Recorder는 가우디오랩의 강력한 소음 제거 AI 기술을 탑재한 녹음 앱입니다. 목소리를 제외한 배경 소음을 제거해 주기 때문에 소음이 함께 녹음되는 환경에서도 목소리를 깨끗하게 들을 수 있습니다. 또한 Just Voice Recorder에 활용된 소음 제거 AI는 서버로 녹음 데이터가 전송되지 않고 온디바이스 환경에서 구동되기 때문에, 보안이 중요하거나 개인적인 녹음에도 마음 편히 활용하실 수 있다는 장점이 있습니다.

 

 

 

 

Q. Just Voice Recorder는 어떤 분들이 활용하시면 좋을까요?

 

녹음이 필요한 상황이다? 무조건 Just Voice Recorder를 떠올리시면 돼요. 일단 장소와 시간에 상관없이 녹음하신 후 Just Voice Recorder를 통해 소음이나 음량 등의 문제를 처리하시면 됩니다.

 

조금 더 세부적으로 말씀드리자면 강의 녹음을 많이 하는 학생, 혹은 직업 특성상 녹음을 많이 하는 크리에이터나 기자 등에게 추천해 드리고 싶어요. 학생이라면 강의실에서 발생하는 키보드 소음, 에어컨 소리 등을 제거하여 뒷자리에서 녹음한 내용도 뚜렷이 담으실 수 있을 거예요. 크리에이터라면 전문 장비 없이도 언제 어디서나 선명한 목소리를 담으실 수 있습니다.

 

 

Q. Just Voice Recorder는 어떻게 시작되었나요?
아이디어가 나온 순간부터 만들기로 결심한 순간까지의 스토리가 궁금합니다

 

*GSEP-HQ 기술을 적용한 모바일 앱을 만들어보자’가 아이디어의 시작이었습니다. GSEP-HQ 기술은 음원에서 악기나 보컬을 분리하기 위해 만들어진 기술이고 현재도 많은 유저들의 사랑을 받고 있는 가우디오 스튜디오에서 사용되고 있는 기술입니다. 하지만 가우디오 스튜디오는 웹 서비스이기 때문에 서버에서 구동할 수밖에 없는 한계가 있죠. 그래서 요즘 핫한 기술 트렌드인 on-device AI에 맞게 모바일 앱에서 구현해 보고자 했습니다. 이에 맞춰 유저가 느낄 수 있는 가치가 가장 명확하고, 가장 쉽게 만들 수 있다고 생각했던 (사실 하나도 쉽지 않았지만) 녹음기 앱을 개발하기로 했습니다. 

 

*GSEP: 가우디오랩에서 개발한 음원 분리 기술로, 실시간 처리가 가능한 GSEP-LD와 더 높은 품질의 음원 분리가 가능한 GSEP-HQ가 있다. GSEP-LD는 Just Voice Lite를 통해 체험해볼 수 있다. (GSEP 자세히 보기)

 

 

Q. Just Voice Recorder가 제공하는 가장 큰 가치는 무엇인가요? 

 

Just Voice Recorder는 유저가 실제 경험하는 문제를 해결하는 것을 가장 큰 목표로 가지고 있습니다. 세상에 녹음할 수 있는 앱은 많고, 클로바 노트처럼 다양한 편의 제공하는 앱도 많습니다. 하지만 녹음 시 발생하는 소음의 문제, 더 나아가 ‘잘 들리지 않는’ 문제를 해결해 주는 앱은 많지 않다고 봤습니다. 이렇게 충족되지 않은 유저의 니즈를 해결하기에 가우디오랩의 GSEP-HQ 기술이 적합하다고 생각했고요. 가지고 있는 기술로 유저의 문제를 해결할 수 있는, 기술과 문제의 핏이 좋은 분야라고 생각했습니다.

 

 

Q. Just Voice Recorder의 가장 중요한 기능을 하나만 꼽는다면?

 

강력한 음원 분리 기술에 기반한 노이즈 제거 기능이라고 생각합니다. 사실 아이폰 기본 녹음 앱에도 노이즈를 감소시켜 주는 기능이 있긴 합니다. 기본 앱으로 녹음된 음성을 재생할 때 소음을 줄일 수 있어요. 하지만 소음 제거만 놓고 봤을 때는 Just Voice Recorder가 더 낫다고 자신합니다. 정말 지저분한 잡음이 신기하게 없어지거든요. 

 

물론 아직 가야 할 길은 많이 남아있습니다. 주변 소음이 목소리보다 크거나 녹음된 음성이 작으면 잘 분리가 되지 않거든요. 처리하는 데 걸리는 시간도 상당하고요. 하지만 지금 순간에도 연구 개발을 진행하고 있기 때문에 빠른 시일 안에 개선할 수 있을 것이라고 기대하고 있습니다.

 

 

Q. 앞서 앱 개발 과정에서 많은 우여곡절이 있었다고 언급해 주셨습니다.
가장 기억에 남는 에피소드를 하나 공유해 주신다면요?

 

소음 제거에 사용되는 AI 모델을 결정하는 과정이 가장 기억에 남습니다. 처음 앱 개발을 시작했을 때는 GSEP-HQ를 모바일 환경에서 사용할 수 있는 준비가 되어있지 않았습니다. 대안으로 이미 개발된 Just Voice SDK를 이용해 앱 개발을 진행하고, GSEP-HQ가 준비되는 대로 갈아 끼우는 방법을 선택했습니다.

 

하지만 간과했던 문제가 있었는데요, Just Voice SDK에서는 CPU 환경에서 실시간 처리가 가능한 반면, GSEP-HQ는 GPU를 활용해야 한다는 점이었습니다. 또한 Just Voice SDK에 비해 처리 시간이 길어져 실시간 처리를 포기해야 한다는 것도 문제였습니다. 이 과정의 의사 결정이 길어지면서 양쪽을 다 대응하며 개발해야 하는 상황에 부닥치게 되었는데요, 의사결정을 조금 더 빠르게 했더라면 좀 더 효율적인 개발이 되지 않았을까 하는 회고를 팀 내에서 함께 하기도 했습니다.

 

 

Q. 이번에 안드로이드 버전 없이 iOS 버전만 출시되었습니다. 어떤 배경이 있나요?

 

사실 사전 예약 참가자가 60% 이상 안드로이드 유저였습니다. 그만큼 큰 유저 풀을 포기해야 했기 때문에 저희로서도 큰 결단을 내려야 했던 사안이었습니다. 기본적으로 Just Voice Recorder는 Flutter 기반으로 구축되어 있기 때문에 안드로이드와 iOS 모두 지원할 수 있도록 개발되었습니다. 하지만 앞서 말씀드린 GSEP-HQ 모델을 적용하는 과정에서 안드로이드에서만 유독 UI가 버벅대는 문제가 발견되었습니다. GPU 점유율이 높아서 발생하는 문제였죠. 안드로이드와 iOS의 구조적 차이로 발생하는 문제이기에 원하는 만큼 모델을 최적화하기에는 상당한 시간이 소요될 것으로 판단되어 iOS 버전을 먼저 출시하기로 했습니다. 

 

 

Just Voice Recorder

 

Q. Just Voice Recorder 앱의 다음 스텝은 무엇인가요?

 

추가하고 싶은 기능이라면 아주 많이 있습니다. 초반 기획에 포함되었던 내보내기 (Export) 시에 배경 소음의 음량을 조절하는 기능이라든지, 유저 가치가 큰 STT(Sound to Text) 기능, 녹음 파일 편집 기능 등을 고려하고 있습니다. 플랫폼 확장도 고려하고 있어서 다음 스텝으로 아이패드와 애플워치용 앱도 고민 중입니다.

 

하지만 기능을 추가하는 것보다는 앱의 기본에 충실하는 것에 우선순위를 두어야 한다고 생각하고, 그중에서도 최고 수준의 소음 제거와 안정적인 앱 구동을 가장 크게 염두에 두고 있습니다.

 

첫 번째로 개선하고자 하는 부분은 소음이 제거될 때까지 앱을 켠 채 예상보다 오랜 시간을 기다려야 한다는 문제입니다.입니다. 실시간 처리가 가능한 Just Voice SDK를 활용한다면 해결할 수 있는 문제지만, Just Voice Recorder의 가치는 최고 수준의 소음 제거에 있다고 생각했기 때문에 속도를 포기하고 성능을 택한 것이죠. 지금은 유저의 반응을 모니터링하면서 속도와 성능의 sweet spot을 찾기 위해, 그리고 이에 맞춰 모델을 개선하여 속도를 끌어올리기 위해 노력하고 있습니다.

 

다음 문제는 목소리가 작은 경우에 분리 성능이 떨어질 수 있다는 점입니다. 이것은 악기 분리를 위해 개발된 GSEP-HQ 엔진의 태생적인 한계이기도 합니다. 이러한 한계를 극복하기 위해 R&D팀과 지속적으로 소통하며 문제 해결을 위한 계획을 세우고 있고, 최대한 빠른 시일 내에 Just Voice Recorder에 적용되어 어떤 크기의 목소리라도 깔끔하게 분리해 낼 수 있는 앱이 될 수 있도록 박차를 가하겠습니다. 

 

 

Q. 앱을 출시하고 약 1개월 정도의 시간이 지났습니다.
지금까지를 간략하게 회고해 본다면 어떻게 정리하실 수 있을까요?

 

PO of Just Voice Recorder

 

여러 가우딘들이 발 벗고 나 서주신 덕분에 수많은 어려움에도 불구하고 마무리할 수 있었던 프로젝트였다고 생각합니다. 이 자리를 빌려서 도움을 주신 가우딘들에게 감사하다는 말씀드리고 싶습니다. 

 

Just Voice Recorder를 개발하면서 가장 많이 고민한 부분은 ‘과연 이 앱이 유저가 실제로 경험하고 있는 문제를 해결하고 있는가’ 하는 물음이었습니다. 아직도 확신을 가지기는 어려운 물음이기도 하고요. 그래도 앱을 유저 앞에 선보인 이상, 차근차근 유저 반응을 살피고 데이터를 분석해보며 답을 찾아나갈 수 밖에 없다고 생각합니다.

 

그리고 가우디오랩의 기술을 모바일 환경에서도, 그리고 B2C 환경에서도 충분히 활용할 수 있다는 가능성을 확인해 봤다는 것도 큰 성과라고 생각합니다.

 

 

🎙️ 마무리하며

Mac에서 사용 가능한 Just Voice Lite에 이어 iPhone용 앱인 Just Voice Recorder까지, 가우디오랩은 소리가 있는 어디라도 혁신적인 소리 경험을 제공하기 위해 꾸준히 도전의 영역을 넓혀나가고 있습니다. 

 

PO인 Jin의 솔직한 인터뷰를 통해 Just Voice 앱의 개발 비하인드부터 한계점까지 자세히 알아볼 수 있었는데요, 계속 발전해 나가는 Just Voice Recorder 앱이 궁금해지지 않으셨나요?

 

그렇다면 아래 링크를 통해 바로 앱스토어로 이동해서 다운로드해 보세요. 새로운 녹음의 세계가 여러분을 기다리고 있습니다. >> https://apps.apple.com/kr/app/just-voice-recorder/id6479693805

pre-image
[FALL-E 체험기] MS 나델라 CEO가 감탄한 AI 생성 효과음, 어디까지 진화했을까

들어가며   가우디오랩의 FALL-E는 이미지, 텍스트, 동영상 등 input에 맞게 자동으로 소리를 만들어주는 오디오 생성 AI 기술입니다.     소리는 크게 1) 음성, 2) 음악, 3) 효과음으로 나눌 수 있습니다. FALL-E는 그 중에서도 3) 효과음을 염두에 두고 만들어진 기술이에요.   우리 주변에서는 목소리나 음악을 만들거나 변조하는 AI를 쉽게 찾아볼 수 있는 반면, 그 외의 모든 소리(효과음)를 만드는 AI는 찾아보기 어렵습니다.   키보드 타이핑 소리, 발걸음 소리, 나무에 바람이 스치는 소리..., 우리 주변에 이렇게도 많은 소리가 있는데 말이죠! 이제 그 역할을 FALL-E가 해내려고 합니다.    최근 가우디오랩은 FALL-E를 직접 사용해볼 수 있는 데모 페이지를 오픈했습니다. 누구나 간단히 프롬프트를 입력하면 원하는 소리를 만들어낼 수 있습니다.     아래 화면처럼 말이죠.      Text to Audio 생성 화면         Image to Audio 생성화면       이 데모 페이지를 경험한 AI타임즈 장세민 기자님의 체험기를 공유드리고자 합니다. 이번 체험기를 통해 가우디오랩이 불러올 미래를 함께 상상해보시기를 권해드려요.   그럼 이하 전문으로 확인하시죠!     - [체험기] 나델라가 감탄한 AI 생성 효과음,어디까지 진화했을까 2024-05-26       음성 인공지능(AI) 전문 가우디오랩(대표 오현오)이 소리(효과음) 생성 AI를 사용해 볼 수 있는 클로즈드 데모(Closed Demo) 사이트를 공개했다고 최근 밝혔다.   가우디오랩의 대표 솔루션 '폴리(FALL-E)'는 지난 1월 미국 라스베이거스 CES 현장에서부터 글로벌 업계의 주목을 받은 바 있다. 사티아 나델라 MS CEO가 부스를 찾아 "이제 진짜 AI가 생성한 소리냐"라고 놀랐던 그 제품이다.   폴리는 텍스트를 넘어 이미지도 입력할 수 있는 '멀티모달 AI'로, 해외 기업보다 앞선 기술을 갖췄다. 최근에는 프론트엔드 개발까지 완료, 클로즈드 데모 공개를 통해 한정된 사용자를 대상으로 테스트 중이다.    AI타임스도 테스트에 참여, 클로즈드 데모 사이트에 접속해 몇가지 기준에 따라 소리를 만들어 보기로 했다.   먼저 폴리의 기본 기능을 테스트하기 위해 텍스트를 입력해 봤다. 현재는 영어 프롬프트만 지원한다.   첫번째 프롬프트는 '흙길에서 속도를 내는 오래된 트럭(An old pickup truck accelerating on a dirt road)'이다. 생성된 사운드는 바퀴가 굴러가는 느낌을 잘 구현했다. 조금 더 거친 소리를 살리는 것도 방법일 듯하다.   두번째는 '번잡하고 덜컹거리는 도심의 열차(Ambience of the interior of a crowded, rattling urban train)'다. 이건 실제 소리라고 해도 과언이 아닐 정도로 리얼했다.    다음은 '비명을 지르는 악마 같은 외계 생명체(A demonic alien creature roaring and screaming)'로, 소리를 재생하자마자 소름이 돋을 정도였다. 미스터리, 스릴러, 호러 등의 장르에서 유용한 기술이라는 생각이 들었다.   '거칠게 닫히는 문(a door closed violently)' '비가 온 뒤 진흙을 밟는 소리(stepping on mud after rainning)' '유령 소리(ghost sound)' '살인자가 누군가를 추격하며 하하하- 웃는 소리(HAHAHA- sound of murderer chasing someone)' 등을 차례로 생성해 봤다. 모두 기대 이상의 결과가 나왔다.   단 하나 아쉬운 점은 대사나 목소리를 구현할 수는 없었다는 점이다. '두려움에 가득 차 "누구세요?"라고 묻는 소리("Who is that?" voice with fear)'의 경우는 결과물이 나오지 않았다.   가우디오랩 관계자는 "폴리는 음성(목소리)이나 음악을 대상으로 개발되지는 않았다"라며 "음성, 음악, 효과음 중 효과음에 집중해서 만들어진 것"이라고 설명했다. 이어 "재채기나 기침소리와 같은 비언어적 소리는 포함하지만, 언어적인 것들은 다른 많은 기술, 즉 TTS(텍스트 음성 변환) 등을 통해서 만들어야 한다"라고 전했다.   그래도 놀라운 것은 단순히 소리를 만들어내는 것을 넘어, '하나의 스토리'를 상상할 수 있을 만큼 퀄리티 있는 효과음을 도출한다는 것이다.    특히 누구나 쉽게 사용할 수 있는 것이 장점으로 보였다. 이미지 생성 AI처럼 아주 상세하거나 특정한 표현 없이도, 일상적인 단어 몇개로 그럴듯한 소리를 만들어 낼 수 있었다.    그렇다면 '아주 미묘한 차이'까지도 소리로 표현할 수 있을까.   이를 확인하기 위해 나이와 감정, 사물의 질감, 소리의 거리, 규모 등 프롬프트마다 약간의 차별점을 부여해 봤다. 먼저 '어린아이의 울음소리'를 통해 나이 차를 어떻게 표현하는지 테스트했다.   첫번째로 '시험을 망치고 울고 있는 아이(A child is crying after ruining the test)'를 입력했다. 하지만 생각한 결과물은 아니었다. 학교 시험을 치르기에는 지나치게 어린 느낌이었다. 이에 구체적인 연령 설정을 추가했다.    '시험을 망친 뒤 울고 있는 13살의 남자아이(A 13-year-old boy student is crying after ruining the test)'를 입력하자 일전보다 훨씬 성숙한 목소리를 생성해 줬다. 텍스트만으로 나이 조절이 가능했다.   사물의 질감의 경우 초콜릿과 꿀을 비교했다. 공통적인 수식어는 '끈적거리는(sticky)'이다. 강철과 꿀을 비교하라면 확실하게 다른 소리를 만들겠지만, 비슷한 점도를 다른 소리로 표현하기란 쉽지 않을 듯 보였다.   그러나 결과를 확인하고 놀랄 수밖에 없었다. 폴리는 재료 간의 차이를 정확히 잡아냈다.   감정은 '개가 짖는 소리(bark)'를 이용했다. 한쪽은 분노와 경계심을 가지고 짖는 소리, 나머지 한쪽은 산책을 가고 싶어 칭얼거리며 짖는 강아지다. 이번에도 명확한 차이가 드러났다. 감정 표현에도 무리가 없었다.    마지막으로 거리와 규모를 가늠하기 위해 '좀비의 으르렁거리는 소리(growl)'를 이용했다. 즉 '가까이에서 좀비 하나가 으르렁거리는 소리' '먼 거리에서 좀비 여럿이 으르렁거리는 소리' '가까이에서 좀비 여럿이 으르렁거리는 소리' 등으로 구분했다.   규모의 경우 하나로 설정했을 때 훨씬 섬세한 사운드 표현이 나타났다. 흥미로운 것은 거리의 차이였다. 똑같은 좀비 집단이더라도 멀리 있는 경우 '벽 하나가 가로막고 있는 듯' 희미한 소리로 표현됐다.    마지막은 가장 궁금했던 '이미지 입력'이었다. 이는 가우디오랩의 차별점이자, 최종 목표를 위한 시작점이기도 하다. 영상 자체를 입력해 사운드를 생성할 수 있다면, 영화 작업에 획기적인 시간 단축을 가져올 수 있기 때문이다.     하지만 기술적으로 어렵기도 하다. 텍스트의 경우 입력자의 의도가 명확하게 드러나지만, 이미지는 AI가 분석하는 부분이 훨씬 많아지기 때문이다. 즉 앞서 테스트한 감정이나 거리, 규모, 질감, 연령 등을 전부 AI가 다시 분석하고 계산해야 한다.    테스트 결과 가장 흥미로웠던 것은 AI가 소리를 하나만 내놓지 않았다는 점이었다.   폴리는 사진에 포함된 여러 개체와 상황을 반영해 최대 3가지 소리를 따로 제시하고, 마지막으로 '통합본'을 제시하는 등 모두 4가지 소리를 들려 줬다.    예를 들면 두 사람이 싸우는 장면에서는 ▲옷이 부스럭거리는 소리 ▲바닥에 부딪히는 소리 ▲창문이 깨지는 소리 등이 생성됐다.    이미지 입력에는 '생성 이미지'와 '영화 공식 스틸 컷' 두가지를 사용했다.   라스코AI를 이용해 생성한 만화 그림체의 사진을 입력하자, 폴리는 모든 개체를 정확히 인식하지는 못했다. 소녀와 개가 놀고 있는 장면에서 강아지가 짖는 소리는 생성했지만, 소녀의 웃음소리는 나오지 않았다. 아무래도 그림은 명확하지 않은 부분이 있다는 점 때문인듯 싶었다.   그래서 이번에는 실사를 입력했다. '존 윅' '트랜스포머' '터미네이터' '분노의 질주' 등 다소 강렬한 영화 이미지를 사용했다.   이번에는 모든 개체를 인식했지만, 실제 영화 속 효과음만큼 강렬한 소리는 나오지는 않았다. 아무래도 스틸 컷 하나로 영상 전체의 강렬함을 전달하기는 어려웄을 듯 싶었다. 영화의 맥락을 인식했다면, 더 강한 효과음을 생성했을 수도 있겠다는 생각이 들었다.   이 외에도 유니콘을 타고 있는 모습, 소가 일하고 있는 모습 등 '소리를 명확히 유추할 수 없는 이미지'를 이용했을 때도 그럴듯한 결과물을 내놓았다.    영상을 확인하면 알 수 있듯, 이번 테스트에서는 전반적으로 기대 이상의 결과를 확인했다. 나델라 CEO가 이번 버전을 확인한다면, 더 놀랄 것이 틀림없을 것 같았다.   가우디오랩은 누구나 원하는 사운드를 쉽게 만들 수 있도록 노력하고 있다고 밝혔디. 관계자는 "기업 비전에 맞게 비전문가도 소리 생성AI를 체험해 볼 수 있다는 점에서 이번 테스트는 큰 의미가 있다"라고 전했다.    이제까지 남들보다 앞선 높은 퀄리티의 기술을 개발해온 만큼, 앞으로 멀티모달 영역이 영상까지 확대된다면 "앞으로 모든 영화와 영상에는 가우디오랩의 기술이 들어갈 것"이라는 말이 현실이 될 수도 있겠다는 생각이 들었다.   장세민 기자 semim99@aitimes.com   출처 : AI타임스(AI타임스 )

2024.05.30
after-image
오디오 AI 회사인데 디자인이 중요해?

  안녕하세요! 가우디오랩 디자이너 Anne입니다:)     GAUDIO STUDIO가 개편되었습니다.   최근 가우디오랩에서 AI 음원 분리 사이트인 가우디오 스튜디오가 새로운 모습으로 런칭되었습니다. 가우디오 스튜디오는 원하는 음악에서 보컬과 악기 (베이스, 드럼, 전자 기타, 피아노, 그 외)를 트랙별로 분리하는 서비스입니다. 가우디오랩에서 개발한 음원분리 기술 GSEP을 탑재하여 다른 음원 분리 서비스들에 비해 뛰어난 성능을 보이고 있죠.           저는 가우디오 스튜디오 베타 버전을 개선하여 정식 서비스로 런칭하는 프로젝트에서 UIUX 리뉴얼을 담당했습니다. 이번 포스팅에서는 개선된 서비스를 출시하기까지 "오디오 AI 회사의 디자이너가 어떤 고민을 했는지"에 대해 다뤄보겠습니다.       오디오 AI 회사인데 디자인이 중요할까?   처음 가우디오랩에 입사할 때 ‘여긴 오디오 AI 회사니까 디자인보다 기술 직군 중심의 문화가 강할 것 같다’고 생각했습니다. 하지만 시간이 지나면서 저의 선입견이 사라졌습니다. 오히려 오디오 AI 회사라서 디자인이 중요하다는 걸 알게 됐어요.   보이지 않는 "소리"를 시각화해야 하기 때문에, 그리고 일반인들에게 생소할 수 있는 AI 서비스를 모두가 쉽게 사용할 수 있도록 만들어야 하기 때문입니다.       NEW 가우디오 스튜디오 디자인 목표   NEW 가우디오 스튜디오의 UIUX를 담당하면서 설정했던 목표는 "음원 분리 과정에서 사용자들이 길을 잃지 않도록 친절한 디자인을 제공하는 것"이었습니다.    한눈에 감탄사가 나올 만큼 멋진 웹사이트를 막상 이용하려고 보니 헤맸던 적 있으신가요? '메뉴는 어디에 있지? 다음에는 무엇을 클릭해야 하지? 이 버튼을 누르면 어디로 가는 거지?'와 같은 질문을 끊임없이 던지면서요.    가우디오 스튜디오는 사용자들이 단순히 정보를 찾기 위해서가 아닌 서비스를 이용하기 위해 찾아오는 곳인 만큼, 디자인이 좋은 길잡이 역할을 해야 한다고 생각했습니다. 사용자들이 들어오자마자 질문도 망설임도 없이 다음 액션을 취할 수 있도록 말이죠.       기술만 좋으면 되지, 디자인이 그렇게 중요해?   위와 같은 목적을 달성하기 위해 머리를 쥐어뜯는 저를 보고 친구가 던진 질문입니다. 저는 망설임 없이 "응, 중요해!"라고 외쳤지만, 왜인지 정확히 설명할 수 없었어요. 결국 사용자들이 원하는 건 저렴하고 좋은 기술뿐일지도 모른다는 생각이 머리 한 구석에 있었기 때문입니다.   그럴 때마다 서비스 오픈 이후에 제가 달성하고 싶은 바를 계속 떠올렸어요.   음원 분리를 위해 타 사이트를 이용하던 사용자들에게는 더 편리한 사용성으로 우리 서비스를 어필하고, 기존의 가우디오 스튜디오 베타 버전 사용자들에게는 한층 업그레이드된 경험을 선물하고, 음원 분리가 처음인 사용자들에게는 어려움 없이 바로 적응할 수 있는 디자인을 제공하자! 라고 말이죠.       디자이너가 초심을 잃으면 PO (Product Owner)는 머리카락을 잃어   아쉽게도 처음부터 제가 원하는 바를 이룰 수 있었던 것은 아니었습니다. 서비스 오픈 후에 음원을 분리하는 과정이 헷갈린다는 피드백을 받았거든요. 부끄럽지만 저의 시행착오를 공유해 볼게요.     처음에 디자인한 화면입니다. 사용자가 음원을 올린 후 분리하고 싶은 악기를 선택하는 단계인데요.이렇게 아무것도 선택 안 한 화면에서 보컬 버튼을 누르면         음원이 보컬과 보컬이 제거된 음원으로 분리되어 두 개의 트랙이 제공됩니다.       '더 쉽게, 더 편하게'를 지향하자던 초심을 잃고 깔끔한 화면을 만들고 싶어서 이런저런 설명을 생략했더니, 서비스 출시 이후에 "MR 파일을 만들고 싶은데 어떻게 해야 할지 모르겠다"는 피드백을 왕창 받았습니다.    데이터를 살펴보니, 보컬만 선택하면 되는데, 보컬을 제거해야 한다는 생각에 보컬이 아닌 나머지 악기들을 전부 선택하는 이용자들이 많았던 것이죠.   사용자들의 불만이 늘어나고, PO의 머리카락이 빠지고, 저의 죄책감이 쌓여가고... 긴급회의를 통해 디자인을 개선하자는 결론이 나왔습니다. 그럼 이제 개선된 화면들을 보여드릴게요.       더 쉽게, 더 편하게!   가장 큰 변화는 바로 프리뷰 화면을 추가한 것인데요. 아무것도 선택하지 않았을 때부터 총 분리되는 트랙의 수와 가이드를 제공하고,       보컬을 누르면 분리된 트랙의 수가 2로 표시되면서 보컬과 MR (backing track)이 제공된다는 점을 미리 보여주었습니다. 크레딧을 구매하거나 음원 분리를 요청하기 전에 사용자가 얻을 결과를 명확히 보여준 것이죠.         오디오 AI 회사라서 디자인이 중요해   악기 선택 화면을 개선한 후, 저에게 "기술만 좋으면 되지, UIUX가 그렇게 중요해?"라고 물었던 친구에게 제일 먼저 바뀐 화면을 보여주었습니다. 이 친구 역시 처음 오픈했을 때는 "이거 어떻게 쓰는 거야?"라고 물으며 제 가슴에 비수를 꽂았는데, 다행히 개선된 디자인을 보더니 훨씬 이해하기 쉽다고 하더라고요.    이쯤 되면 오디오 AI 회사라서 디자인이 중요하다고 말해도 되겠죠? (된다고 말해줘요..)         마치며...   지금 이 포스트를 작성하는 시점에서 개선된 악기 분리 화면은 아직 배포 전인데요. 이에 대한 실제 사용자들의 반응이 궁금하시죠? 저도 너무나 궁금하답니다!   기회가 된다면 그래서 어떻게 되었는지, 후기와 또 다른 가우디오랩만의 디자인 이야기로 돌아올게요. 이상으로 가우디오랩 디자이너 Anne이 들려주는 오디오 AI 회사의 디자인 이야기를 마치겠습니다.   아! 울 애기 https://studio.gaudiolab.io/  많이 이용해 주세요 :)  

2024.06.28