제 점수는요… MUSHRA 청음평가를 소개합니다.

2024.04.11 ・ by Ted Lee

안녕하세요. 가우디오랩의 시작부터 함께해오며 다양한 잡일들을 처리하고 있는 테드입니다.

최근, 저희가 개발한 기술의 성능을 파악하기 위해 청음평가를 실시하게 되었습니다. 이 청음평가를 이해하기 쉽게 설명한 글이 있다면 도움이 될 것 같아, 이렇게 끄적여보게 되었습니다.

병원을 가게 되거나 의학드라마를 보다 보면 때때로 이런 질문을 받게 됩니다. “통증이 전혀 없는 걸 0점, 상상할 수 있는 가장 심한 통증을 10점이라고 했을 때 지금 통증은 어느 정도 몇 점인가요?” 이 글을 작성하며 알게 되었는데, 이러한 질문을 NRS (Numeric Rating Scale)이라고 합니다. 통증이라는 경험은 주관적이기 때문에 NRS를 통해 단순하고 이해하기 쉽게 수치화해서 효과적으로 통증 관리와 치료를 할 수 있게 돕는다고 합니다. 갑자기 오디오 관련 블로그에서 의학용어라니 어색하기도 하네요 🙂

소리를 점수화할 수 있을까? - MUSHRA 청음평가

그렇다면 소리는 어떨까요?
두 개의 소리가 있을 때, 어떤 소리가 더 나은 소리인지 어떻게 평가할 수 있을까요?

오디오 분야에서도 사람이 직접 듣지 않고 소리를 객관적으로 평가할 수 있는 기술을 개발하기 위해 다양한 시도들을 하고 있지만, 아쉽게도 아직 완성되지 않았습니다. 즉, 기계가 소리를 분석해서 “이 소리는 80점입니다 휴먼 🤖”. 할 수 있는 기술은 아직 나오지 않았다는 거지요.

대신 과거부터 소리를 듣고 평가하는 방법론들이 많이 활용되고 있는데, 예를 들어 MUSHRA (Multiple Stimuli with Hidden Reference and Anchor), ABX, MOS (Mean Opinion Score) 등이 있습니다. 오늘은 다양한 평가 방법 중 고품질 오디오들의 미묘한 차이를 평가하는데 특화된 MUSHRA 평가 방법에 대해서 소개해보려고 합니다.

MUSHRA는 고품질 오디오 기술/시스템을 평가하기 위해 주로 사용되는 방법입니다. 국제 표준화 기구인 ITU(국제전기통신연합)에 의해 표준화되었으며, 특히 오디오 샘플 간의 미묘한 차이를 평가하는 데 유용합니다. MUSHRA 평가의 기본 원칙은 여러 개의 테스트 샘플을 동시에 제공하고, 참가자에게 이들을 비교하며 0부터 100까지의 척도를 사용하여 평가하도록 요청하는 것입니다. 여기서 제공되는 샘플에는 다음과 같은 것이 포함됩니다.

MUSHRA Test

Hidden Reference: 원본 오디오 트랙의 고품질 버전으로, 참가자들이 다른 샘플을 평가할 최고 기준점으로 사용됩니다. 참가자들은 이 샘플이 참조임을 알지 못합니다.
Anchor: 일반적으로 낮은 품질의 오디오 샘플로, 평가의 낮은 기준점 역할을 합니다. 이를 통해 참가자들이 평가 범위를 좀 더 명확하게 인식할 수 있게 돕습니다.
Test Samples: 평가 대상이 되는 여러 오디오 시스템을 통해 생성된 샘플입니다.

Hidden Reference를 정답, 즉 100점으로 두고 Anchor를 약 20점에 해당하는 낮은 기준점으로 두고 Test Samples들을 0~100점 척도에서 평가하게 합니다.

NRS와 비교해 보면 Hidden Reference가 상상할 수 있는 가장 심한 통증이고, Anchor는 통증이 전혀 없는 것이겠죠. NRS와 다르게 Anchor를 0점으로 두지 않는 이유는 Test Samples가 Anchor보다 낮은 성능을 가질 수 있기 때문입니다. NRS와 비교했을 때 또 다른 특징은 가장 심한 통증은 사람마다 다를 수 있는 반면, Hidden Reference는 누구에게나 동일한 소리이므로 더 객관적이라고 볼 수도 있겠죠.

나아가 MUSHRA에서는 Post screening rule이 있어 평가자가 무작위로 평가하지 않았는지, 주어진 지시사항을 잘 이해했는지, 성능을 충분히 구분할 수 있는 역량을 가지고 있는지를 확인하는 절차도 있습니다. 생각보다 체계적이죠?

MUSHRA 청음 평가를 직접 진행해봤습니다.

아직 충분히 이해하기 어려우실 수 있을 것 같아 올 1월에 가우디오랩에서 진행되었던 Just Voice SDK의 주관적 성능 평가를 예를 들어 설명을 드려볼게요.

1) MUSHRA 평가 설계

Just Voice SDK는 Mobile, PC, Embedded에 탑재되어 실시간으로 소음을 제거할 수 있는 기능을 제공합니다. 당시 Just Voice SDK와 경쟁 기술이자 Discord에 탑재된 소음 제거 기술인 Krisp와 두 가지 성능을 비교하고자 했는데 첫 번째는 소음을 얼마나 잘 제거하는가, 두 번째는 음성이 얼마나 명료 한가입니다. 두 성능 모두 MUSHRA 방법으로 테스트를 진행하였습니다.

Hidden Reference는 화상회의와 같은 일반적인 상황을 가정하여 조용한 스튜디오에서 다양한 스마트폰을 가지고 녹음했습니다. Test Samples는 Hidden Reference에 SNR 5dB로 노이즈를 섞은 신호를 입력으로 Just Voice SDK로 소음 제거 처리를 한 신호와 Krisp SDK로 소음 제거 처리된 신호와 비교하였습니다.

흥미로운 것은 Anchor인데요. 두 가지 성능은 다른 평가 항목이기 때문에 서로 다른 Anchor로 설정되어야 합니다. 첫 번째 평가 성능인 소음 제거에 대한 Anchor는 소음이 제거되기 전인 SNR 5dB로 노이즈를 섞은 신호로 설정하였고, 두 번째 평가 성능인 음성 명료도 대한 Anchor는 Hidden reference를 낮은 주파수 대역만 남도록 3.5kHz Low-pass filtering 한 신호로 설정했습니다. - 이는 음성 품질 평가에 주로 사용하는 방법입니다.

2) MUSHRA 평가 진행 방법

평가는 WebMushra라는 도구를 사용해서 진행했습니다. WebMushra는 아래와 같은 UI를 가지고 있습니다. Reference는 Hidden Reference가 재생되고, Cond. 1~4는 Hidden Reference, Anchor, Test Samples (Just Voice SDK, Krisp)가 무작위로 재생됩니다. 평가자는 Cond. 1~4를 비교하며 들으면서 Hidden reference를 찾아 100점을 주고, Anchor를 찾아 20점 언저리의 낮은 점수를 주고, 남은 두 Cond. 에 대하여 Reference와 Anchor 대비 상대적인 점수를 주면 됩니다.

WebMushra test page

이렇게 여러 Test Item을 가지고 평가를 진행하면 아래 이미지와 같이 평가자 별로 각 Cond. 에 대한 점수가 csv 파일로 기록됩니다.

Mushra test result csv

결과는 어땠을까요?

1) MUSHRA 평가 결과 해석 방법

모든 평가자들이 평가를 완료하면 Post-screening rule을 적용하여 부적합한 결과들을 제외한 후 각 Cond. 별로 평균과 95% 신뢰구간을 그려서 비교하게 됩니다. 신뢰 구간이 95%라는 것은, 평가자들이 95%의 확률로 특정 구간 안에서 점수를 주게 된다는 의미로 이해하면 됩니다.

아래는 실제로 저희가 진행한 실험의 소음 제거 성능에 대한 결과입니다. 회색 마커는 평균, 파란색 마커와 주황색 마커는 각각 95% 신뢰 구간의 최대, 최소로 보시면 됩니다. 이 신뢰 구간이 서로 겹치지 않아야 통계적으로 유의미한 성능 차이가 있다고 얘기할 수 있겠죠? (=구분할 수 있다는 거죠.) 그리고 평가자들의 수가 많을수록 이 신뢰 구간은 좁아집니다.

2) 소음 제거도 평가 결과

이 실험은 66명이나 참가한 규모가 큰 실험이었기 때문에 신뢰 구간이 상당히 좁게 나타났습니다. Benchmark (Krsip)와 Just Voice를 비교해 보면 신뢰구간이 겹치지 않고 12.5점 차이가 발생하고 있습니다. 이 정도의 차이라면 명확하게 두 기술의 성능 차이를 구분할 수 있는 수준이죠.

Just Voice MUSHRA noise reduction test

청음 평가 결과를 자세히 분석할 때 Test item 별로 결과를 살펴보는데, 아래와 같이 그려서 확인합니다. Just Voice는 16개 중 7개의 Test item에서 Benchmark보다 95% 유의 수준에서 통계적으로 소음 제거 성능이 훌륭한 걸 확인할 수 있지요. (초록색)

흥미로운 점은 3개의 Test item (14p-03_office, 15p-02_hallway, s20p-04_office)에서 Just Voice보다 Hidden Reference의 평균이 낮은 결과가 나왔습니다 (파란색 및 주황색). 실제 환경에 가깝게 테스트하기 위해 스마트폰으로 녹음한 Reference에도 노이즈가 포함되었는데, Just Voice가 Reference보다 음성 왜곡 없이 더 소음을 잘 제거하다 보니 이러한 결과가 나온 것으로 분석되었습니다. 사실상 Reference와 구분이 어려운 수준인 것이죠.

심지어 14p-03_office에서는 Just Voice와 95% 통계 유의가 있게 레퍼런스보다 더 좋은 결과가 나왔습니다. (주황색). Just Voice를 레퍼런스로 판단한 거죠 👍

Just Voice MUSHRA noise reduction test result

3) 음성 명료도 평가 결과

음성 명료도 실험 결과도 궁금하신 분들이 계실 것 같아 아래처럼 첨부해 봅니다. 위와 같은 방법으로 결과를 직접 해석해 보세요. 😉

Just Voice MUSHRA voice clarity test

Just Voice MUSHRA voice clarity test result

마치며

오늘은 고품질 오디오/시스템의 성능을 비교하는 주관적 음질 평가 방법인 MUSHRA에 대해서 알아보았습니다. 주관적인 음질을 어떻게 평가하느냐는 상당히 많은 고민과 노력이 필요합니다. 정답, 즉 Hidden reference를 무엇으로 설정해야 하는지, Anchor를 무엇으로 설정해야 하는지 고민해야 하고, 실험 자체가 잘 진행되도록 열심히 챙겨야 합니다.

개인적으로는 얼른 AI 기술이 발달하여 “이 소리는 95점입니다 휴먼 🤖” 할 수 있는 날이 조만간 오면 좋겠네요.

혹시 MUSHRA 방법론에 대하여 더 알고 싶으시거나, 다른 주관적 음질 평가 방법인 ABX, MOS가 궁금하시다면, 문의를 남겨주세요. 이와 관련된 글을 작성해 보겠습니다 🙂

SeparationJust Voice

사운드 엔지니어가 소개하는 How to use GAUDIO STUDIO ? - 음원분리 꿀팁 🐝

안녕하세요, 가우디오랩 사운드엔지니어 브라이트입니다! 요즘 많은 분야에서 AI를 활용하여 생산성을 높이고 있죠. 여러분들도 한 번쯤은 AI 툴을 접해본 적이 있을 것 같은데요. 혹시 오디오 AI 회사의 사운드 엔지니어는 AI를 어떻게 활용하고 있을지 궁금하지 않으신가요? 저는 어릴 적, MR 제작과 믹싱 연습을 위해 힘들게 구글링을 하던 기억이 있습니다. 겨우 찾아낸 방법으로 직접 MR을 분리해내거나, 학습 자료로 공개된 멀티 트랙을 다운 받아 믹싱 연습을 했던 때가 기억이 새록새록 나네요. 지금은 간단한 제작 과정도 과거에는 일일이 수작업을 요구하다 보니, 이렇게 어렵게 완성한 작업물도 퀄리티가 영 불만족스러웠던 경우가 많았답니다.😭 그런데 이제는 AI의 시대가 도래하면서 이런 수고로움은 다 옛 일이 되었어요! 특히 AI로 음원을 분리해 주는 기술이 상용화되면서 오디오 산업에도 많은 작업들이 참 간편해졌습니다. 사운드엔지니어로서, 오로지 창작에만 몰두할 수 있는 좋은 시대가 온 게 아닐까라고 생각해요. 오늘은 그중에서도 제가 가장 많이 사용하는 GAUDIO STUDIO의 여러 꿀팁들을 소개해드리려 합니다. 여러 AI 음원 분리 서비스 중 최고의 성능을 자랑하고 있어 정말 다양하게 사용하고 있는데요, 천천히 따라오시다 보면 여러분들도 수준급의 사운드 엔지니어가 되어있지 않을까요 😎 🍯 꿀팁 1 - MR 만들기 1단계 - 보컬 분리하기 GAUDIO STUDIO에서 보컬과 음악을 어떻게 분리하나요? 정말 자주 들어오는 질문 중 하나인데요. 장기자랑 / 축가 / 이벤트 등을 위한 MR 제작은 GAUDIO STUDIO를 이용하는 많은 분들의 주 사용 목적이 아닐까 싶어요. '보컬'과 '그 외 악기들'만 선택한 화면 모든 악기를 선택한 화면 GAUDIO STUDIO에서는 원하는 악기를 선택하여 음원을 분리할 수 있습니다 (보컬, 드럼, 베이스, 전자 기타, 피아노, 그 외 악기들). 여기서 보컬만 선택하여 분리해낸다면 MR을 제작할 수 있겠죠? 나머지는 AI가 알아서 처리해주기 때문에 이렇게 간단한 클릭 몇 번 만으로도 MR을 쉽게 만들 수 있답니다! 2단계 - 키(Key) 업 / 다운 MR을 나에게 맞는 키로 맞출 수 있나요? 우선 기존에 사용하던 음원 편집 프로그램이 없다면, Audacity를 추천드려요. 무료 프로그램이지만, 다양한 기능들이 숨겨져 있어 저도 학생 시절에 무척이나 많이 사용했던 프로그램이랍니다. 준비가 다 되셨나요? 이제 한번 천천히 따라 해볼게요! 먼저 상단 [파일] → [가져오기] → [오디오]를 눌러 원하는 음원을 불러온 뒤, 불러온 파일을 더블클릭 하여 전체 선택합니다. 그리고 [효과] → [음 높이 및 빠르기] → [피치 변경]으로 들어가서 키를 조정하면 끝이에요! 미세조정도 가능하니 몇 번 테스트해 보며 원하는 피치로 바꿔보세요. 여기까지 잘 따라오신 분들, 그런데 뭔가 이질감이 들지 않나요? 아니면 남들과는 다른 고품질 MR을 만들고 싶지는 않으신가요? 우리가 평소 자주 놓치고 있는 한 가지 사실이 있습니다. 바로 드럼에는 음정이 없다는 것! 이 때문에 드럼 트랙이 포함된 채로 키를 변경하게 되면, 드럼 비트의 키도 함께 바뀌게 되어 완성도에 영향을 주게 되는거죠. 😎 자! 이제 여기서 비법을 하나 알려드릴게요. 이번에는 드럼 트랙만 제외하고 나머지 악기들의 키를 조정한 뒤, 드럼과 다시 합쳐보세요. 이제 그 수상한 이질감이 사라졌을 겁니다! 3단계 - 활용해 보기 그래서 이걸로 무엇을 더 할 수 있나요? MR 분리에 이어, 내 마음대로 키까지 변경할 수 있다면, 이런 콘텐츠도 만들어볼 수 있답니다. 느낌 오시죠? 이렇게 서로 보컬 키가 다른 가수들의 듀엣도 만들어 볼 수 있어요! 여기에 분리한 목소리를 Voice Conversion AI 학습 모델을 통해 재가공한다면, 요즘 유행하는 AI 커버 콘텐츠도 만들 수 있습니다. 이때 당연히 분리된 목소리의 퀄리티가 좋을수록 학습된 결과물이 좋기 때문에 GAUDIO STUDIO를 많이 사용하고 있다는 이야기를 들었어요.👀 내 최애가 부르는 다른 가수의 노래, 궁금하지 않으신가요? 😎 이렇게 GAUDIO STUDIO를 이용한 활용법은 무궁무진하답니다. 🍯 꿀팁 2 - 이미 녹음한 음원에서 특정 트랙 조절하기 이번에는 여러분들이 일상에서 한번쯤 마주 할 수 있는 상황에서 GAUDIO STUDIO를 활용할 수 있는 예시를 보여드릴게요. 상황 1 - 정말 훌륭한 합주를 마쳤는데, 드럼소리만 너무 커요! 이런 경우 드럼 트랙만을 분리해서 음량을 조절해준다면 다른 악기들을 살릴 수 있겠죠? 같은 원리로 공연장 직캠 영상에서 지나치게 쿵쿵거리는 비트를 줄여 아티스트의 목소리를 더욱 살릴 수 있답니다. 도저히 분리가 되지 않을 것 같던 합주실 녹음본도, 살릴 수 없을 것만 같았던 직캠영상도, 이제는 훌륭하게 믹싱 해서 업로드해보세요! 상황 2. 카페에서 브이로그를 촬영했는데, 저작권 등록된 음악이 함께 녹음되었어요! 유튜브에 올릴 브이로그를 찍었는데 카페 배경 음악이 함께 녹음되었다면, 저작권 침해 요소로 감지되어 수익 창출이 제한될 수 있어요. 아마 그동안은 무작정 볼륨을 낮추거나 목소리를 올렸을 거예요. 그래도 해결이 안 되면 소리를 전부 날리고 나레이션을 녹음했을 것이구요. 😎 이제는 그러지 말고 내 목소리만 분리해서 원하지 않은 음악을 깔끔하게 제거해 보세요. GAUDIO STUDIO만 있다면 더이상 예상치 못한 저작권 문제로 고통받지 않아도 된답니다! AI 음원분리를 이용한 무궁무진한 활용 사례, 잘 보셨나요? 옛날에는 하고 싶어도 하지 못했거나, 하려면 엄청난 수고를 감수해야 했던 작업들을 이제는 너무 쉽게 하고 있다는 생각이 들면서 문득 깜짝깜짝 놀라곤 합니다. 여러분들도 마법 같은 GAUDIO STUDIO를 통해 개성 있는 콘텐츠를 만들고 즐겨보는 건 어떨까요? 멀지 않은 미래에, 스테레오 파일을 넣으면 모든 트랙 스템이 깔끔하게 분리가 될 그날까지 GAUDIO STUDIO 고도화는 계속될 예정입니다. 앞으로 많은 관심과 이용 부탁드려요~

2024.03.26

회고 인터뷰 | 가우디오랩의 첫 B2C 앱, Just Voice Lite

🎙️ Interviewer’s note 안녕하세요! 가우디오랩의 마케팅 인턴 해리입니다 🙂 B2B 솔루션만 개발하던 가우디오랩이 첫 B2C 앱 Just Voice Lite를 출시했습니다. 인터뷰를 통해 앱 개발팀의 비하인드 스토리를 마케팅팀이 조명했어요. 가우디오랩의 첫 B2C 서비스를 기획하게 된 PO 하워드, 입사 8년 차 베테랑 개발자 조이, 오디오 SDK와 앱 개발을 동시에 맡고 있는 잭, 팀의 든든한 앱 개발자 스티븐과 인터뷰했습니다. Just Voice Lite 개발에 참여한 사람들 제품을 일반 유저 타깃으로넓힐 수 있다면 스케일업이 가능할 것 같았어요. Q. B2B 오디오 솔루션을 개발하던 가우디오랩에서 B2C 서비스 개발을 시작한 계기가 무엇인가요? 하워드(PO) : 회사 말을 안 들은 거예요. 🙂 입사하자마자 B2C를 제안했어요. 나무에서 감이 떨어지길 기다리는 것처럼, B2B는 고객을 기다려야 하잖아요? 제품을 일반 유저 타깃으로 넓힐 수 있다면 스케일업이 가능할 것 같았어요. Q. 첫 B2C 앱으로 달성하고자 했던 목표는 무엇이었나요? 하워드(PO) : ‘이걸로 돈을 되게 많이 벌 수 있을 거다!’까지는 확신이 안 서서, '일단 무료로 가볍게 가보자' 정도긴 했어요. 조이(Dev) : Just Voice Lite는 매출을 위한 앱이라기보다 가우디오랩의 기술을 알리기 위한 앱에 가까웠어요. 우리의 기술을 B2C 제품으로 알려서 B2B 고객을 유치하자는 목적이 있었죠. 잭(Dev) : 저는 가우디오랩의 공간음향, EQ, Loudness Normalization과 같은 여러 SDK도 지금 앱에 넣을 수 있을 거라고 생각해요. 앱을 키워나간다면 가능해지겠죠. Q. B2B 서비스와 비교했을 때, B2C 서비스 개발에서 더 고려해야 할 사항이 있었나요? 하워드(PO) : 기업에 SDK(Software Development Kit)를 판매할 때는 사용하기 조금 어렵더라도 사용 설명서를 통해 설명할 수 있어요. 그런데 설득해야 할 대상이 일반 유저라면 얘기가 달라지죠. 조금이라도 허들이 있거나 불편하면 바로 지워버리잖아요. 한 번 더 클릭해야 하거나, 사용 환경을 바꿔야 하는 순간 사람들은 안 쓰게 되거든요. 조이(Dev) : 가상 드라이버를 써야 하는 형상이기도 해서, 어떻게 하면 유저가 걸림돌 없이 원활하게 제품의 핵심 기능을 사용할 수 있을지 많이 고민했죠. (좌) 기존에 개발했던 앱 (우) 이번에 출시한 앱 같은 기술이라도 쓰는 사람에 따라 다르게 사용될 수 있는 거죠. Q. 기존 앱과는 개발 의도가 많이 달라졌는데요? 하워드(PO) : 기존 노이즈 제거 앱과 다른 페인 포인트를 해결하는 앱을 만들고 싶었어요. 그래서 화상회의를 자주 하는 직장인에서 아티스트를 좋아하는 팬으로 메인 타깃을 변경했죠. 소음을 제거하는 앱이 아닌 목소리를 부스팅 하는 앱으로 형상을 조금 바꿔서 콘텐츠 스트리밍 시장을 노려보자고 제안했어요. 콘서트 직캠을 볼 때 주변 잡음을 제거하고 아티스트에 집중할 수 있게 목소리를 키워주거나, 영화를 볼 때 잘 안 들리는 배우의 목소리를 또렷하게 해주는 거죠. 조이(Dev) : 같은 기술이라도 쓰는 사람에 따라 다르게 사용될 수 있는 거죠. 하워드가 이걸 잘 발견했고요. 잭(Dev) : 저는 이 관점이 좋았어요. 원래 Just Voice Lite에 있는 GSEP(Gaudio Source Separation)이 ‘Denoise(노이즈 감소)' 잖아요. 그런데 지금 애플리케이션 형상을 보면 ‘Speech Enhancement(음성 향상)’거든요. 마치 다른 기술로 보이게 만들어낸 것 같아서 인상적이었어요. 조이(Dev) : 맞아요. 그런 부분을 하워드가 잘 살려준 것 같아요. 일반 유저에게 오디오 기반의 기술을 설명해도 필요성을 잘 못 느낄 텐데, 유연하게 B2C를 겨냥해서 ‘아티스트의 목소리가 더 잘 들려요’라고 제품을 타깃팅했죠. 하워드(PO) : 블로그에도 적었던 건데, 예를 들어 지금 구글 미트에 참석한 조이가 기타를 치면서 노래하는 상황에 Denoise를 해버리면 기타 소리가 들리지 않아요. 아티스트 팬들이 콘텐츠를 시청할 때는 목소리뿐만 아니라 배경음악도 중요하거든요. 그래서 Speech Enhance를 하는 게 맞지 않을까?' 이런 생각을 가졌던 거죠. Q. Just Voice Lite에는 어떤 기술들이 들어가 있을까요? 잭(Dev) : Just Voice Lite에 노이즈를 제거하는 GSEP이라는 AI 기술이 들어갔어요. 이게 SDK화 돼 있는데, 청취 평가에서 가장 효과가 좋다고 평가받은 노이즈 제거 기술이죠. 그리고 이 노이즈 분리 알고리즘이 실시간으로 돌아가요. 이 기술이 Mac OS 앱에 올라왔을 때, 매끄러운 경험을 줄 수 있는 사용성을 만들기 위해 공을 많이 들였어요. 데스크탑에서 나오는 모든 소리를 하드웨어로 듣잖아요? 이걸 클릭 한 번이면 앱과 연결할 수 있거든요. 또 데스크탑에서 블루투스를 사용했을 때 영상 싱크가 잘 맞도록 조이가 작업을 해주셔서, 원활하게 콘텐츠를 시청할 수 있어요. 정리하면 알고리즘 원천 기술, SDK 성능 그리고 어플리케이션의 심리스한 경험을 위한 여러 가지 노하우들이 Just Voice Lite의 강점인 것 같아요. 드디어 앱 심사가 통과되고, 헤니가 출시 버튼을 누르는 순간 처음 앱을 출시하는 회사는 Apple이 심사를 굉장히 빡세게 해요. Q. App Store 심사를 통과하는 데 시간이 좀 걸렸잖아요? 조이(Dev) : 처음 앱을 출시하는 회사는 Apple이 심사를 굉장히 빡세게 해요. 업계에서 다 그러더라고요. 다른 회사 친구들한테 물어보니, 첫 번째 앱인데 10번이면 양호한 거라고 얘기를 하더라고요. 다른 데는 한 30번도 리젝 맞는다고... (웃음) 해리(Marketer) : 심사 답변이 오기까지는 보통 얼마나 걸리나요? 하워드(PO) : 모바일 쪽 심사는 다르겠지만, 데스크탑 쪽 심사는 하루 안에 다 처리됐던 것 같아요. 스티븐(Dev) : 미국이랑 시차 때문에 저희는 심사 올려놓고, 자고 일어나면 리젝 당해 있고 그랬죠. 🙂 Q. 어떤 사유들로 앱 등록이 거절됐나요? 스티븐(Dev) : 첫 번째로 받았던 리젝은 드라이버 설치를 유저에게 강제하면 안 된다는 사유였어요. 조이(Dev) : 드라이버 설치를 강요하지 말라는 가이드를 ‘메인 페이지 뷰에 드라이버 설치를 노출하면 안 된다’라는 문구로 줬어요. 이 문구에 대한 해석도 팀원마다 다 달라서… 계속 심사를 넣으면서 테스트했는데, 하워드가 리뷰어에게 댓글로 잘 설명해서 다행히 드라이버 설치를 메인에 노출할 수 있었죠. 말발로 풀었어요. 🙂 하워드(PO) : 철저히 을의 입장에서… 저희가 심사단의 마음을 거스르면 안 돼요. 스티븐(Dev) : 그다음부터는 하나씩 다른 꼬투리를 잡았거든요. ‘유저 매뉴얼 설명이 부족해’, ‘마케팅 정보도 추가로 적어줬으면 좋겠어’, ‘내보내기 기능은 15분 이내로 완료가 돼야 해’. 또 ‘내가 고치라고 한 거 왜 안 고쳤어?’라고 하면서 리젝을 줄 때도 있고… 하워드가 리뷰어한테 잘 설명하면서 넘어갔죠. 리뷰어랑 소통하는 프로세스들이 여러 번 왔다 갔다 했어요. Q. 앱 심사를 통과했을 때 기분이 어떠셨나요? 스티븐(Dev) : ‘이번에도 리젝 먹으면 어떡하지’ 하면서 회의하고 있다가, 회의 도중에 딱 통과가 됐거든요. 하워드(PO) : 갑자기 통과되니까 기분 좋아서 소리 질렀죠. 스티븐(Dev) : ‘회의 얼른 끝내자고’ 막 그랬어요. 하워드(PO) : 일부러 그러는 것 같아요. 나중에 기분 좋으라고. 🙂 원래 처음에 안 된다고 했다가 나중에 해주면 되게 고마워 보이잖아요. Q. 앱 등록 과정에서 받은 피드백이 실제로 도움이 됐나요? 하워드(PO) : 저는 좋은 과정이었다고 봐요. Apple 입장에서 보면 스토어에 이상한 앱들이 생태계를 파괴할 수도 있기 때문에 필터링하는 거고. 저희 입장에서도 덕분에 파일 처리 기능도 들어가고 QA도 했으니까 나쁘지 않았다고 보기는 해요. 🎙️ SDK 이야기를 들어보기 위해 PO 완도 인터뷰했어요! 완(PO) : 안녕하세요 저는 완이고요. 올해부터 SDK 제품군의 Product Owner 역할을 맡게 되었어요. Just Voice SDK는 올해 초에 출시가 된 따끈따끈한 제품이자, SDK 스쿼드에서 올해 주력 제품으로 밀고 있는 제품입니다. 어떤 SDK 제품이나 인테그레이션이 쉽다고 하는데 실제로 고객들이랑 작업을 해보니까 얘는 정말 쉽더라고요. Q. Just Voice Lite SDK를 간단히 소개해 주세요. 완(PO) : AI 기반이지만 서버가 아니라 폰이나 랩탑 같은 단말에서 온디바이스로 돌릴 수 있는 특징이 하나 있고요. 또 시간이 오래 걸리지 않고, 실시간으로 처리할 수 있어요. 저희 연구 책임자께서 항상 ‘눈 깜빡일 새보다 더 빠르다’라고 강조해서 표현하시는데요. 수치적으로는 100분의 3초인데, 실제로 들어보시면 전혀 느끼지 못할 정도의 빠르기라고 이해하시면 될 것 같아요. 이 두 가지 특징을 가진, 다양한 소음이 있는 어떤 환경에서든 잡음은 빼고 목소리만 또렷하게 들려주는 솔루션입니다. Q. Just Voice Lite SDK가 도움을 줄 수 있는 시나리오가 있을까요? 완(PO) : 통화랑 화상 회의 같은 경우가 가장 기본적으로 생각할 수 있는 시나리오고, 시끄러운 산업 현장의 무전 솔루션을 제공하는 회사에서 잘 쓰이고 있는 서비스 사례도 있고요. 또 콜센터에서 상담원분들이 전화 받으실 때, 고객들이 시끄러운 환경에서 전화하는 일이 많잖아요? 그런 시나리오에도 저희 Just Voice를 쓰시면 목소리만 또렷하게 들으실 수 있습니다. Q. Just Voice Lite SDK의 가장 큰 장점은 무엇인가요? 완(PO) : 사실 어떤 SDK 제품이나 다 인테그레이션이 매우 쉽다고 하는데, 저희가 실제로 올해 고객들이랑 작업을 해보니까 얘는 정말 쉽더라고요. 가이드 문서도 저희가 잘 준비를 해놔서, 한 30분이면 붙여보실 수 있을 것 같아요. 저희 홈페이지에 trial 버전을 올려놨으니까, 다운받으셔서 직접 가지고 계신 환경, 앱이나 기기에 바로 적용해 보시면 될 것 같습니다. Just Voice Lite SDK는 모든 랩탑과 폰에 들어갈 수 있어요. 랩탑이나 핸드폰에서 동작하는 어플리케이션에 적용할 수도 있고요. 최근에 무선 이어폰같이 스마트폰보다 훨씬 더 성능이 떨어지는 저사양의 단말에서도 돌아갈 수 있는 버전을 준비해서, 이제는 '대부분의 기기에서 돌릴 수 있다'라고 할 수 있습니다. 또 저희가 오디오 쪽으로는 많은 전문가들을 보유하고 있어서, 전문가분들이 상황에 맞게 필요하신 부분을 빠르게 잘 컨설팅해 드리고 있습니다. 🙂 앱스토어에 등록된 Just Voice Lite! Q. 마지막으로 가우디오랩의 첫 B2C 앱을 개발한 소감을 말해주세요. 하워드(PO) : 좋은 시도였다고 봐요. 실제로 B2B 단에서 앱으로 데모도 많이 하고 그랬어요. ‘Denoise 이렇게 한번 써보세요’ 하면서. 그래서 그거 자체로도 의미가 있다고 보기는 하고, B2C 고객들도 더 생기겠죠. 많이 홍보해 주세요. 🙂 조이(Dev) : 좋은 시도이긴 했지만, 저는 Just Voice Lite가 '이거 재밌겠다’ 하면서 설치하는 앱은 아니라고 생각해요. 제가 만들고 싶은 건 남녀노소 구분 없이 쓸 수 있는 제품이거든요. 그런 아이디어가 있으면, 다음 작품은 재밌는 거 만들고 싶어요. 잭(Dev) : 하워드가 Just Voice에 여러 가지 사운드 효과를 넣는 생각을 갖고 계시잖아요. 그게 조이가 말한 재밌어질 포인트 중에 하나라고 생각해요. 언제가 될지 모르겠지만 그런 날이 빨리 왔으면 좋겠네요. 스티븐(Dev) : 일단 가우디오랩 B2C로 첫 앱 하나 뚫어봐서, 노하우가 한 번은 쌓인 거고. 다음번에 할 때는 이번보다는 시행착오가 줄어들지 않을까 생각해요. 🎙️ 끝으로… 인터뷰를 통해 첫 B2C 앱을 개발하며 겪었던 난관과 이를 극복하는 과정을 다시금 엿볼 수 있었습니다. 저에게는 앱 개발 과정의 시작부터 끝까지 간접적으로 경험할 수 있는 소중한 자리였어요. 인터뷰에 응해 주신 앱 팀에게 진심으로 감사드립니다 🙂 이번 B2C 앱 개발 경험을 발판 삼아, 가우디오랩은 다양한 B2C 서비스를 차차 론칭할 예정입니다. Just Voice Lite, 그리고 앞으로 론칭될 새로운 서비스도 많은 관심 부탁드립니다!

2024.04.30