뒤로가기back

회고 인터뷰 | 가우디오랩의 첫 B2C 앱, Just Voice Lite

2024.04.30 by Harry Kim

 

🎙️ Interviewer’s note

안녕하세요! 가우디오랩의 마케팅 인턴 해리입니다 🙂 B2B 솔루션만 개발하던 가우디오랩이 첫 B2C 앱 Just Voice Lite를 출시했습니다. 인터뷰를 통해 앱 개발팀의 비하인드 스토리를 마케팅팀이 조명했어요.

 

가우디오랩의 첫 B2C 서비스를 기획하게 된 PO 하워드, 입사 8년 차 베테랑 개발자 조이, 오디오 SDK와 앱 개발을 동시에 맡고 있는 , 팀의 든든한 앱 개발자 스티븐과 인터뷰했습니다.

 

 

 

Just Voice Lite App Dev Team

Just Voice Lite 개발에 참여한 사람들

 

 

제품을 일반 유저 타깃으로
넓힐 수 있다면
스케일업이 가능할 것 같았어요.

 

 

Q. B2B 오디오 솔루션을 개발하던 가우디오랩에서 B2C 서비스 개발을 시작한 계기가 무엇인가요?

 

하워드(PO) : 회사 말을 안 들은 거예요. 🙂 입사하자마자 B2C를 제안했어요. 나무에서 감이 떨어지길 기다리는 것처럼, B2B는 고객을 기다려야 하잖아요? 제품을 일반 유저 타깃으로 넓힐 수 있다면 스케일업이 가능할 것 같았어요.

 

 

Q. 첫 B2C 앱으로 달성하고자 했던 목표는 무엇이었나요?

 

하워드(PO) : ‘이걸로 돈을 되게 많이 벌 수 있을 거다!’까지는 확신이 안 서서, '일단 무료로 가볍게 가보자' 정도긴 했어요. 

 

조이(Dev) : Just Voice Lite는 매출을 위한 앱이라기보다 가우디오랩의 기술을 알리기 위한 앱에 가까웠어요. 우리의 기술을 B2C 제품으로 알려서 B2B 고객을 유치하자는 목적이 있었죠.

 

잭(Dev) : 저는 가우디오랩의 공간음향, EQ, Loudness Normalization과 같은 여러 SDK도 지금 앱에 넣을 수 있을 거라고 생각해요. 앱을 키워나간다면 가능해지겠죠.

 

 

Q. B2B 서비스와 비교했을 때, B2C 서비스 개발에서 더 고려해야 할 사항이 있었나요?

 

하워드(PO) : 기업에 SDK(Software Development Kit)를 판매할 때는 사용하기 조금 어렵더라도 사용 설명서를 통해 설명할 수 있어요. 그런데 설득해야 할 대상이 일반 유저라면 얘기가 달라지죠. 조금이라도 허들이 있거나 불편하면 바로 지워버리잖아요. 한 번 더 클릭해야 하거나, 사용 환경을 바꿔야 하는 순간 사람들은 안 쓰게 되거든요.

 

조이(Dev) : 가상 드라이버를 써야 하는 형상이기도 해서, 어떻게 하면 유저가 걸림돌 없이 원활하게 제품의 핵심 기능을 사용할 수 있을지 많이 고민했죠.

 

 

 

Just Voice Lite App Structure
(좌) 기존에 개발했던 앱 (우) 이번에 출시한 앱
 
 

같은 기술이라도
쓰는 사람에 따라
다르게 사용될 수 있는 거죠.

 

 

Q. 기존 앱과는 개발 의도가 많이 달라졌는데요?

 

하워드(PO) : 기존 노이즈 제거 앱과 다른 페인 포인트를 해결하는 앱을 만들고 싶었어요. 그래서 화상회의를 자주 하는 직장인에서 아티스트를 좋아하는 팬으로 메인 타깃을 변경했죠. 소음을 제거하는 앱이 아닌 목소리를 부스팅 하는 앱으로 형상을 조금 바꿔서 콘텐츠 스트리밍 시장을 노려보자고 제안했어요. 콘서트 직캠을 볼 때 주변 잡음을 제거하고 아티스트에 집중할 수 있게 목소리를 키워주거나, 영화를 볼 때 잘 안 들리는 배우의 목소리를 또렷하게 해주는 거죠.

 

조이(Dev) : 같은 기술이라도 쓰는 사람에 따라 다르게 사용될 수 있는 거죠. 하워드가 이걸 잘 발견했고요.

 

잭(Dev) : 저는 이 관점이 좋았어요. 원래 Just Voice Lite에 있는 GSEP(Gaudio Source Separation)이 ‘Denoise(노이즈 감소)' 잖아요. 그런데 지금 애플리케이션 형상을 보면 ‘Speech Enhancement(음성 향상)’거든요. 마치 다른 기술로 보이게 만들어낸 것 같아서 인상적이었어요.

 

조이(Dev) : 맞아요. 그런 부분을 하워드가 잘 살려준 것 같아요. 일반 유저에게 오디오 기반의 기술을 설명해도 필요성을 잘 못 느낄 텐데, 유연하게 B2C를 겨냥해서 ‘아티스트의 목소리가 더 잘 들려요’라고 제품을 타깃팅했죠.

 

하워드(PO) : 블로그에도 적었던 건데, 예를 들어 지금 구글 미트에 참석한 조이가 기타를 치면서 노래하는 상황에 Denoise를 해버리면 기타 소리가 들리지 않아요. 아티스트 팬들이 콘텐츠를 시청할 때는 목소리뿐만 아니라 배경음악도 중요하거든요. 그래서 Speech Enhance를 하는 게 맞지 않을까?' 이런 생각을 가졌던 거죠.

 

 

Q. Just Voice Lite에는 어떤 기술들이 들어가 있을까요?

 

잭(Dev) : Just Voice Lite에 노이즈를 제거하는 GSEP이라는 AI 기술이 들어갔어요. 이게 SDK화 돼 있는데, 청취 평가에서 가장 효과가 좋다고 평가받은 노이즈 제거 기술이죠. 그리고 이 노이즈 분리 알고리즘이 실시간으로 돌아가요. 이 기술이 Mac OS 앱에 올라왔을 때, 매끄러운 경험을 줄 수 있는 사용성을 만들기 위해 공을 많이 들였어요.

 

데스크탑에서 나오는 모든 소리를 하드웨어로 듣잖아요? 이걸 클릭 한 번이면 앱과 연결할 수 있거든요. 또 데스크탑에서 블루투스를 사용했을 때 영상 싱크가 잘 맞도록 조이가 작업을 해주셔서, 원활하게 콘텐츠를 시청할 수 있어요. 정리하면 알고리즘 원천 기술, SDK 성능 그리고 어플리케이션의 심리스한 경험을 위한 여러 가지 노하우들이 Just Voice Lite의 강점인 것 같아요.

 

 

 

The moment of app release
 
드디어 앱 심사가 통과되고, 헤니가 출시 버튼을 누르는 순간
 
 

처음 앱을 출시하는 회사는
Apple이 심사를
굉장히 빡세게 해요.

 

 

Q. App Store 심사를 통과하는 데 시간이 좀 걸렸잖아요?

 

조이(Dev) : 처음 앱을 출시하는 회사는 Apple이 심사를 굉장히 빡세게 해요. 업계에서 다 그러더라고요. 다른 회사 친구들한테 물어보니, 첫 번째 앱인데 10번이면 양호한 거라고 얘기를 하더라고요. 다른 데는 한 30번도 리젝 맞는다고... (웃음)

 

해리(Marketer) : 심사 답변이 오기까지는 보통 얼마나 걸리나요?

 

하워드(PO) : 모바일 쪽 심사는 다르겠지만, 데스크탑 쪽 심사는 하루 안에 다 처리됐던 것 같아요.

 

스티븐(Dev) : 미국이랑 시차 때문에 저희는 심사 올려놓고, 자고 일어나면 리젝 당해 있고 그랬죠. 🙂 

 

 

Q. 어떤 사유들로 앱 등록이 거절됐나요?

 

스티븐(Dev) : 첫 번째로 받았던 리젝은 드라이버 설치를 유저에게 강제하면 안 된다는 사유였어요.

 

조이(Dev) : 드라이버 설치를 강요하지 말라는 가이드를 ‘메인 페이지 뷰에 드라이버 설치를 노출하면 안 된다’라는 문구로 줬어요. 이 문구에 대한 해석도 팀원마다 다 달라서… 계속 심사를 넣으면서 테스트했는데, 하워드가 리뷰어에게 댓글로 잘 설명해서 다행히 드라이버 설치를 메인에 노출할 수 있었죠. 말발로 풀었어요. 🙂 

 

하워드(PO) : 철저히 을의 입장에서… 저희가 심사단의 마음을 거스르면 안 돼요.

 

스티븐(Dev) : 그다음부터는 하나씩 다른 꼬투리를 잡았거든요. ‘유저 매뉴얼 설명이 부족해’, ‘마케팅 정보도 추가로 적어줬으면 좋겠어’, ‘내보내기 기능은 15분 이내로 완료가 돼야 해’. 또 ‘내가 고치라고 한 거 왜 안 고쳤어?’라고 하면서 리젝을 줄 때도 있고… 하워드가 리뷰어한테 잘 설명하면서 넘어갔죠. 리뷰어랑 소통하는 프로세스들이 여러 번 왔다 갔다 했어요.

 

 

Q. 앱 심사를 통과했을 때 기분이 어떠셨나요?

 

스티븐(Dev) : ‘이번에도 리젝 먹으면 어떡하지’ 하면서 회의하고 있다가, 회의 도중에 딱 통과가 됐거든요.

 

하워드(PO) : 갑자기 통과되니까 기분 좋아서 소리 질렀죠.

 

스티븐(Dev) : ‘회의 얼른 끝내자고’ 막 그랬어요.

 

하워드(PO) : 일부러 그러는 것 같아요. 나중에 기분 좋으라고. 🙂  원래 처음에 안 된다고 했다가 나중에 해주면 되게 고마워 보이잖아요.

 

 

Q. 앱 등록 과정에서 받은 피드백이 실제로 도움이 됐나요?

 

하워드(PO) : 저는 좋은 과정이었다고 봐요. Apple 입장에서 보면 스토어에 이상한 앱들이 생태계를 파괴할 수도 있기 때문에 필터링하는 거고. 저희 입장에서도 덕분에 파일 처리 기능도 들어가고 QA도 했으니까 나쁘지 않았다고 보기는 해요.

 

 

 

🎙️ SDK 이야기를 들어보기 위해 PO 완도 인터뷰했어요!


완(PO) : 안녕하세요 저는 완이고요. 올해부터 SDK 제품군의 Product Owner 역할을 맡게 되었어요. Just Voice SDK는 올해 초에 출시가 된 따끈따끈한 제품이자, SDK 스쿼드에서 올해 주력 제품으로 밀고 있는 제품입니다.

 

 

어떤 SDK 제품이나
인테그레이션이 쉽다고 하는데
실제로 고객들이랑 작업을 해보니까
얘는 정말 쉽더라고요.

 

 

Q. Just Voice Lite SDK를 간단히 소개해 주세요.

 

완(PO) : AI 기반이지만 서버가 아니라 폰이나 랩탑 같은 단말에서 온디바이스로 돌릴 수 있는 특징이 하나 있고요. 또 시간이 오래 걸리지 않고, 실시간으로 처리할 수 있어요. 저희 연구 책임자께서 항상 ‘눈 깜빡일 새보다 더 빠르다’라고 강조해서 표현하시는데요. 수치적으로는 100분의 3초인데, 실제로 들어보시면 전혀 느끼지 못할 정도의 빠르기라고 이해하시면 될 것 같아요. 이 두 가지 특징을 가진, 다양한 소음이 있는 어떤 환경에서든 잡음은 빼고 목소리만 또렷하게 들려주는 솔루션입니다.

 

 

Q. Just Voice Lite SDK가 도움을 줄 수 있는 시나리오가 있을까요?

 

완(PO) : 통화랑 화상 회의 같은 경우가 가장 기본적으로 생각할 수 있는 시나리오고, 시끄러운 산업 현장의 무전 솔루션을 제공하는 회사에서 잘 쓰이고 있는 서비스 사례도 있고요. 또 콜센터에서 상담원분들이 전화 받으실 때, 고객들이 시끄러운 환경에서 전화하는 일이 많잖아요? 그런 시나리오에도 저희 Just Voice를 쓰시면 목소리만 또렷하게 들으실 수 있습니다.

 

 

Q. Just Voice Lite SDK의 가장 큰 장점은 무엇인가요?

 

완(PO) : 사실 어떤 SDK 제품이나 다 인테그레이션이 매우 쉽다고 하는데, 저희가 실제로 올해 고객들이랑 작업을 해보니까 얘는 정말 쉽더라고요. 가이드 문서도 저희가 잘 준비를 해놔서, 한 30분이면 붙여보실 수 있을 것 같아요. 저희 홈페이지에 trial 버전을 올려놨으니까, 다운받으셔서 직접 가지고 계신 환경, 앱이나 기기에 바로 적용해 보시면 될 것 같습니다.

 

Just Voice Lite SDK는 모든 랩탑과 폰에 들어갈 수 있어요. 랩탑이나 핸드폰에서 동작하는 어플리케이션에 적용할 수도 있고요. 최근에 무선 이어폰같이 스마트폰보다 훨씬 더 성능이 떨어지는 저사양의 단말에서도 돌아갈 수 있는 버전을 준비해서, 이제는 '대부분의 기기에서 돌릴 수 있다'라고 할 수 있습니다. 또 저희가 오디오 쪽으로는 많은 전문가들을 보유하고 있어서, 전문가분들이 상황에 맞게 필요하신 부분을 빠르게 잘 컨설팅해 드리고 있습니다. 🙂 

 

 

 

Just Voice Lite App on Mac App Store

 

앱스토어에 등록된 Just Voice Lite!

 

 

Q. 마지막으로 가우디오랩의 첫 B2C 앱을 개발한 소감을 말해주세요.

 

하워드(PO) : 좋은 시도였다고 봐요. 실제로 B2B 단에서 앱으로 데모도 많이 하고 그랬어요. ‘Denoise 이렇게 한번 써보세요’ 하면서. 그래서 그거 자체로도 의미가 있다고 보기는 하고, B2C 고객들도 더 생기겠죠. 많이 홍보해 주세요. 🙂 

 

조이(Dev) : 좋은 시도이긴 했지만, 저는 Just Voice Lite가 '이거 재밌겠다’ 하면서 설치하는 앱은 아니라고 생각해요. 제가 만들고 싶은 건 남녀노소 구분 없이 쓸 수 있는 제품이거든요. 그런 아이디어가 있으면, 다음 작품은 재밌는 거 만들고 싶어요.

 

잭(Dev) : 하워드가 Just Voice에 여러 가지 사운드 효과를 넣는 생각을 갖고 계시잖아요. 그게 조이가 말한 재밌어질 포인트 중에 하나라고 생각해요. 언제가 될지 모르겠지만 그런 날이 빨리 왔으면 좋겠네요.

 

스티븐(Dev) : 일단 가우디오랩 B2C로 첫 앱 하나 뚫어봐서, 노하우가 한 번은 쌓인 거고. 다음번에 할 때는 이번보다는 시행착오가 줄어들지 않을까 생각해요.

 

 

 

🎙️ 끝으로…

인터뷰를 통해 첫 B2C 앱을 개발하며 겪었던 난관과 이를 극복하는 과정을 다시금 엿볼 수 있었습니다. 저에게는 앱 개발 과정의 시작부터 끝까지 간접적으로 경험할 수 있는 소중한 자리였어요. 인터뷰에 응해 주신 앱 팀에게 진심으로 감사드립니다 🙂

 

이번 B2C 앱 개발 경험을 발판 삼아, 가우디오랩은 다양한 B2C 서비스를 차차 론칭할 예정입니다. Just Voice Lite, 그리고 앞으로 론칭될 새로운 서비스도 많은 관심 부탁드립니다!

pre-image
제 점수는요… MUSHRA 청음평가를 소개합니다.

안녕하세요. 가우디오랩의 시작부터 함께해오며 다양한 잡일들을 처리하고 있는 테드입니다.   최근, 저희가 개발한 기술의 성능을 파악하기 위해 청음평가를 실시하게 되었습니다. 이 청음평가를 이해하기 쉽게 설명한 글이 있다면 도움이 될 것 같아, 이렇게 끄적여보게 되었습니다.   병원을 가게 되거나 의학드라마를 보다 보면 때때로 이런 질문을 받게 됩니다. “통증이 전혀 없는 걸 0점, 상상할 수 있는 가장 심한 통증을 10점이라고 했을 때 지금 통증은 어느 정도 몇 점인가요?” 이 글을 작성하며 알게 되었는데, 이러한 질문을 NRS (Numeric Rating Scale)이라고 합니다. 통증이라는 경험은 주관적이기 때문에 NRS를 통해 단순하고 이해하기 쉽게 수치화해서 효과적으로 통증 관리와 치료를 할 수 있게 돕는다고 합니다. 갑자기 오디오 관련 블로그에서 의학용어라니 어색하기도 하네요 🙂       소리를 점수화할 수 있을까? - MUSHRA 청음평가   그렇다면 소리는 어떨까요? 두 개의 소리가 있을 때, 어떤 소리가 더 나은 소리인지 어떻게 평가할 수 있을까요?   오디오 분야에서도 사람이 직접 듣지 않고 소리를 객관적으로 평가할 수 있는 기술을 개발하기 위해 다양한 시도들을 하고 있지만, 아쉽게도 아직 완성되지 않았습니다. 즉, 기계가 소리를 분석해서 “이 소리는 80점입니다 휴먼 🤖”. 할 수 있는 기술은 아직 나오지 않았다는 거지요.   대신 과거부터 소리를 듣고 평가하는 방법론들이 많이 활용되고 있는데, 예를 들어 MUSHRA (Multiple Stimuli with Hidden Reference and Anchor), ABX, MOS (Mean Opinion Score) 등이 있습니다. 오늘은 다양한 평가 방법 중 고품질 오디오들의 미묘한 차이를 평가하는데 특화된 MUSHRA 평가 방법에 대해서 소개해보려고 합니다.   MUSHRA는 고품질 오디오 기술/시스템을 평가하기 위해 주로 사용되는 방법입니다. 국제 표준화 기구인 ITU(국제전기통신연합)에 의해 표준화되었으며, 특히 오디오 샘플 간의 미묘한 차이를 평가하는 데 유용합니다. MUSHRA 평가의 기본 원칙은 여러 개의 테스트 샘플을 동시에 제공하고, 참가자에게 이들을 비교하며 0부터 100까지의 척도를 사용하여 평가하도록 요청하는 것입니다. 여기서 제공되는 샘플에는 다음과 같은 것이 포함됩니다. Hidden Reference: 원본 오디오 트랙의 고품질 버전으로, 참가자들이 다른 샘플을 평가할 최고 기준점으로 사용됩니다. 참가자들은 이 샘플이 참조임을 알지 못합니다. Anchor: 일반적으로 낮은 품질의 오디오 샘플로, 평가의 낮은 기준점 역할을 합니다. 이를 통해 참가자들이 평가 범위를 좀 더 명확하게 인식할 수 있게 돕습니다. Test Samples: 평가 대상이 되는 여러 오디오 시스템을 통해 생성된 샘플입니다.     Hidden Reference를 정답, 즉 100점으로 두고 Anchor를 약 20점에 해당하는 낮은 기준점으로 두고 Test Samples들을 0~100점 척도에서 평가하게 합니다.   NRS와 비교해 보면 Hidden Reference가 상상할 수 있는 가장 심한 통증이고, Anchor는 통증이 전혀 없는 것이겠죠. NRS와 다르게 Anchor를 0점으로 두지 않는 이유는 Test Samples가 Anchor보다 낮은 성능을 가질 수 있기 때문입니다. NRS와 비교했을 때 또 다른 특징은 가장 심한 통증은 사람마다 다를 수 있는 반면, Hidden Reference는 누구에게나 동일한 소리이므로 더 객관적이라고 볼 수도 있겠죠.   나아가 MUSHRA에서는 Post screening rule이 있어 평가자가 무작위로 평가하지 않았는지, 주어진 지시사항을 잘 이해했는지, 성능을 충분히 구분할 수 있는 역량을 가지고 있는지를 확인하는 절차도 있습니다. 생각보다 체계적이죠?       MUSHRA 청음 평가를 직접 진행해봤습니다.   아직 충분히 이해하기 어려우실 수 있을 것 같아 올 1월에 가우디오랩에서 진행되었던 Just Voice SDK의 주관적 성능 평가를 예를 들어 설명을 드려볼게요.   1) MUSHRA 평가 설계   Just Voice SDK는 Mobile, PC, Embedded에 탑재되어 실시간으로 소음을 제거할 수 있는 기능을 제공합니다. 당시 Just Voice SDK와 경쟁 기술이자 Discord에 탑재된 소음 제거 기술인 Krisp와 두 가지 성능을 비교하고자 했는데 첫 번째는 소음을 얼마나 잘 제거하는가, 두 번째는 음성이 얼마나 명료 한가입니다. 두 성능 모두 MUSHRA 방법으로 테스트를 진행하였습니다.   Hidden Reference는 화상회의와 같은 일반적인 상황을 가정하여 조용한 스튜디오에서 다양한 스마트폰을 가지고 녹음했습니다. Test Samples는 Hidden Reference에 SNR 5dB로 노이즈를 섞은 신호를 입력으로 Just Voice SDK로 소음 제거 처리를 한 신호와 Krisp SDK로 소음 제거 처리된 신호와 비교하였습니다.   흥미로운 것은 Anchor인데요. 두 가지 성능은 다른 평가 항목이기 때문에 서로 다른 Anchor로 설정되어야 합니다. 첫 번째 평가 성능인 소음 제거에 대한 Anchor는 소음이 제거되기 전인 SNR 5dB로 노이즈를 섞은 신호로 설정하였고, 두 번째 평가 성능인 음성 명료도 대한 Anchor는 Hidden reference를 낮은 주파수 대역만 남도록 3.5kHz Low-pass filtering 한 신호로 설정했습니다. - 이는 음성 품질 평가에 주로 사용하는 방법입니다.     2) MUSHRA 평가 진행 방법   평가는 WebMushra라는 도구를 사용해서 진행했습니다. WebMushra는 아래와 같은 UI를 가지고 있습니다. Reference는 Hidden Reference가 재생되고, Cond. 1~4는 Hidden Reference, Anchor, Test Samples (Just Voice SDK, Krisp)가 무작위로 재생됩니다. 평가자는 Cond. 1~4를 비교하며 들으면서 Hidden reference를 찾아 100점을 주고, Anchor를 찾아 20점 언저리의 낮은 점수를 주고, 남은 두 Cond. 에 대하여 Reference와 Anchor 대비 상대적인 점수를 주면 됩니다.     이렇게 여러 Test Item을 가지고 평가를 진행하면 아래 이미지와 같이 평가자 별로 각 Cond. 에 대한 점수가 csv 파일로 기록됩니다.     결과는 어땠을까요?   1) MUSHRA 평가 결과 해석 방법   모든 평가자들이 평가를 완료하면 Post-screening rule을 적용하여 부적합한 결과들을 제외한 후 각 Cond. 별로 평균과 95% 신뢰구간을 그려서 비교하게 됩니다. 신뢰 구간이 95%라는 것은, 평가자들이 95%의 확률로 특정 구간 안에서 점수를 주게 된다는 의미로 이해하면 됩니다.   아래는 실제로 저희가 진행한 실험의 소음 제거 성능에 대한 결과입니다. 회색 마커는 평균, 파란색 마커와 주황색 마커는 각각 95% 신뢰 구간의 최대, 최소로 보시면 됩니다. 이 신뢰 구간이 서로 겹치지 않아야 통계적으로 유의미한 성능 차이가 있다고 얘기할 수 있겠죠? (=구분할 수 있다는 거죠.) 그리고 평가자들의 수가 많을수록 이 신뢰 구간은 좁아집니다.     2) 소음 제거도 평가 결과   이 실험은 66명이나 참가한 규모가 큰 실험이었기 때문에 신뢰 구간이 상당히 좁게 나타났습니다. Benchmark (Krsip)와 Just Voice를 비교해 보면 신뢰구간이 겹치지 않고 12.5점 차이가 발생하고 있습니다. 이 정도의 차이라면 명확하게 두 기술의 성능 차이를 구분할 수 있는 수준이죠.   청음 평가 결과를 자세히 분석할 때 Test item 별로 결과를 살펴보는데, 아래와 같이 그려서 확인합니다. Just Voice는 16개 중 7개의 Test item에서 Benchmark보다 95% 유의 수준에서 통계적으로 소음 제거 성능이 훌륭한 걸 확인할 수 있지요. (초록색)   흥미로운 점은 3개의 Test item (14p-03_office, 15p-02_hallway, s20p-04_office)에서 Just Voice보다 Hidden Reference의 평균이 낮은 결과가 나왔습니다 (파란색 및 주황색). 실제 환경에 가깝게 테스트하기 위해 스마트폰으로 녹음한 Reference에도 노이즈가 포함되었는데, Just Voice가 Reference보다 음성 왜곡 없이 더 소음을 잘 제거하다 보니 이러한 결과가 나온 것으로 분석되었습니다. 사실상 Reference와 구분이 어려운 수준인 것이죠.   심지어 14p-03_office에서는 Just Voice와 95% 통계 유의가 있게 레퍼런스보다 더 좋은 결과가 나왔습니다. (주황색). Just Voice를 레퍼런스로 판단한 거죠 👍     3) 음성 명료도 평가 결과   음성 명료도 실험 결과도 궁금하신 분들이 계실 것 같아 아래처럼 첨부해 봅니다. 위와 같은 방법으로 결과를 직접 해석해 보세요. 😉     마치며   오늘은 고품질 오디오/시스템의 성능을 비교하는 주관적 음질 평가 방법인 MUSHRA에 대해서 알아보았습니다. 주관적인 음질을 어떻게 평가하느냐는 상당히 많은 고민과 노력이 필요합니다. 정답, 즉 Hidden reference를 무엇으로 설정해야 하는지, Anchor를 무엇으로 설정해야 하는지 고민해야 하고, 실험 자체가 잘 진행되도록 열심히 챙겨야 합니다.   개인적으로는 얼른 AI 기술이 발달하여 “이 소리는 95점입니다 휴먼 🤖” 할 수 있는 날이 조만간 오면 좋겠네요.   혹시 MUSHRA 방법론에 대하여 더 알고 싶으시거나, 다른 주관적 음질 평가 방법인 ABX, MOS가 궁금하시다면, 문의를 남겨주세요. 이와 관련된 글을 작성해 보겠습니다 🙂    

2024.04.11
after-image
오디오 AI 연구자들의 축제, ICASSP 2024 & Gaudio Night 현장 스케치

안녕하세요, 가우디오랩에서 오디오 AI를 연구하고 있는 카야입니다.   지난 4월 14일부터 19일까지 삼성 코엑스(COEX) 컨벤션센터에서 음성 및 오디오 신호처리 학회 ICASSP 2024이 개최되었습니다. 올해 49회를 맞이하며 처음으로 대한민국에서 개최된 이 행사는 음성 및 오디오 신호처리 분야에서 최고 권위를 자랑하고 있는데요. 가우디오랩에서는 오디오 AI 연구자들이 어렵게 모인 자리를 기회 삼아 네트워킹 파티를 마련하기도 했습니다.   이번 포스트에서 ICASSP 현장, 그리고 Gaudio Night ✨ 에 대해 생생하게 전달해 드리고자 합니다!   느슨해진 학회 씬에 긴장감을 줘- 이 몸 등장       세계 최대 규모의 음성/오디오 분야 학회, ICASSP   International Conference on Acoustics, Speech, and Signal Processing(줄여서 ICASSP, 아이캐습 또는 아이카습 이라고 읽어요)은 IEEE Signal Processing Society(국제전기전자협회 신호처리학회)에서 주최하는 국제 학술대회입니다. 전 세계 관련 분야 연구자들이 한자리에 모여 최신 연구 결과를 공유하고 토론하는 자리인데요. 발표된 논문들은 해당 분야의 연구 트렌드를 이끌어간다고 해도 과언이 아닐 정도로 학계에 미치는 영향력이 지대합니다. 그만큼 연구자로서 ICASSP에 참석하여 최신 연구 동향을 파악하고 교류하는 것은 아주 중요한 기회이죠.   6일간 진행된 컨퍼런스에서는 음성 인식, 음성 합성, 음원 분리, 3D 오디오 등 다양한 주제의 구두 발표 세션들과 포스터 세션, 튜토리얼 등의 프로그램들이 진행되었습니다. 코로나19 팬데믹 이후 오랜만에 대면으로 열린 행사인 만큼, 현장에는 수많은 연구자로 북적였습니다. 서로 반갑게 인사를 나누고 연구 이야기로 꽃을 피우는 모습이 인상적이었어요. 🤭   전 세계에서 약 4,000명의 과학자들이 모였다고 해요!       저희 가우디오랩 AI 연구 팀원들도 진행 중인 연구에 도움이 될 만한 발표들은 물론, 개인적 호기심을 자극하는 재미있는 아이디어들이 담긴 논문들을 발 빠르게 캐치했습니다. 특히, 관심 있는 연구의 저자들과 즉석 토론은 도파민🫧 그 자체였어요.   흥미로운 연구가 정말 많았답니다.       이번 학회에서는 제가 소리 생성 AI FALL-E에 관한 논문을 포스터로 발표하기도 했는데요, 제 연구에 관심을 보인 분들과 심도 있는 피드백을 주고받으며 새삼 깨닫게 된 점이 하나 있어요. 바로 관련 연구자들과의 교류 경험이 곧 연구자로서의 성장 경험치 2배 이벤트라는 것이에요.   왜냐하면, 서로의 연구 소개를 통해 얻게 된 지식과 인사이트가 더 나은 연구 성과로 이어질 수 있기도 하고, 비슷한 연구를 하고 있는 다른 연구자들과 시행착오를 공유하며 삽질을 덜 할 수 있게 되기도 하죠. 같은 주제에 대한 고민을 주고받으며 새로운 아이디어를 얻는 것은 물론, 더 나아가 이것이 협업의 기회로 이어지기도 합니다.   앞으로도 가우디오랩에서 열심히 연구한 성과들을 학회를 통해 꾸준히 발표하고 교류해야겠다고 다짐, 또 다짐해봅니다 💪🤓   많은 분들이 관심가지고 질문을 해주셔서 꽤 바빴어요. 설명을 입으로 했는지 코로 했는지 모르겠네요.       음성/오디오 AI 연구자들의 네트워킹 자리, 'Gaudio Night'   제가 이렇게 몸소 느꼈던 네트워킹의 중요성을 가우디오랩은 이미 다 알고 있었답니다😎   가우디오랩에서는 이번 학회 기간 도중 학회에 참여한 각계의 오디오 AI 연구자들을 가우디오랩 오피스로 초대하여 네트워크를 쌓을 수 있는 Meet-up 자리를 마련했습니다. 업계와 학계를 아우르는 교류와 협력을 도모하여, 오디오 AI 연구의 발전에 기여하고자 하는 취지에서 'Gaudio Night'이라는 이름으로 행사를 추진하였습니다.   행사 초반이라 아직은 조용한 모습… 하지만…       Gaudio Night 현장에는 약 40여명의 연구자들이 함께 해주셨는데요. 오디오 AI와 관련된 다양한 세부 분야의 연구자분들과 서로의 연구에 대한 이야기는 물론, 함께 맛있는 음식과 와인도 곁들이며 즐거운 시간을 보냈습니다. 사실 오디오 AI에 관한 연구 규모가 다른 분야에 비해 아직은 작다 보니, 이런 교류의 장이 국내에는 아직 많지 않은 것 같아요. 그만큼 귀하고 귀한 관련 연구자들이 한자리에 모였다는 것만으로도 마음이 웅장해지더랍니다… 😌 뿐만 아니라 잠재적인 파트너사 발굴과 미래 가우딘 채용에도 도움이 되는 시간이었어요.   이렇게 뜻깊은 자리였던 만큼 앞으로도 Gaudio Night 같은 이벤트를 주기적으로 개최한다면, 언젠가 오디오 AI 커뮤니티에 가우디오랩이 없어서는 안 될 중요한 거점으로 거듭나게 되지 않을까요?   이번 이벤트가 그 시작점이 되기를 바라며, 앞으로도 오디오 AI 의 발전을 위해 가우디오랩이 선도적인 역할을 해나가겠습니다. 함께 성장하고 싶으신 분들, 언제든지 문을 두드려 주세요!   가우디오랩은 활짝 열려있습니다~ -최후의 12인-       가우디오랩의 발걸음은 계속됩니다 👣   ICASSP 2024 참가와 'Gaudio Night' 개최를 통해 저도 가우디오랩도 한 단계 더 성장할 수 있었던 것 같습니다. 덕분에 최신 연구 트렌드를 학습하고, 우수한 연구자들과 교류하며, 업계 리더로서의 입지를 다질 수 있었어요.   가우디오랩은 여기서 멈추지 않고 계속해서 나아가려 합니다. 우리의 비전은 오디오 기술을 통해 최고의 소리 경험을 만들어내는 것이니까요! 미래를 향한 가우디오랩의 행보에 많은 관심 부탁드립니다✨   그럼 이상으로, 카야였습니다. 감사합니다.

2024.05.17