gaudio

뒤로가기back

사운드 엔지니어가 소개하는 How to use GAUDIO STUDIO ? - 음원분리 꿀팁 🐝

2024.03.26 by Bright Kwon

안녕하세요, 가우디오랩 사운드엔지니어 브라이트입니다!

 

요즘 많은 분야에서 AI를 활용하여 생산성을 높이고 있죠. 여러분들도 한 번쯤은 AI 툴을 접해본 적이 있을 것 같은데요. 혹시 오디오 AI 회사의 사운드 엔지니어는 AI를 어떻게 활용하고 있을지 궁금하지 않으신가요?

 

저는 어릴 적, MR 제작과 믹싱 연습을 위해 힘들게 구글링을 하던 기억이 있습니다. 겨우 찾아낸 방법으로 직접 MR을 분리해내거나, 학습 자료로 공개된 멀티 트랙을 다운 받아 믹싱 연습을 했던 때가 기억이 새록새록 나네요. 지금은 간단한 제작 과정도 과거에는 일일이 수작업을 요구하다 보니, 이렇게 어렵게 완성한 작업물도 퀄리티가 영 불만족스러웠던 경우가 많았답니다.😭

 

그런데 이제는 AI의 시대가 도래하면서 이런 수고로움은 다 옛 일이 되었어요! 특히 AI로 음원을 분리해 주는 기술이 상용화되면서 오디오 산업에도 많은 작업들이 참 간편해졌습니다. 사운드엔지니어로서, 오로지 창작에만 몰두할 수 있는 좋은 시대가 온 게 아닐까라고 생각해요.

 

오늘은 그중에서도 제가 가장 많이 사용하는 GAUDIO STUDIO의 여러 꿀팁들을 소개해드리려 합니다. 여러 AI 음원 분리 서비스 중 최고의 성능을 자랑하고 있어 정말 다양하게 사용하고 있는데요, 천천히 따라오시다 보면 여러분들도 수준급의 사운드 엔지니어가 되어있지 않을까요 😎

 

 

 

🍯 꿀팁 1 - MR 만들기

 

1단계 - 보컬 분리하기

GAUDIO STUDIO에서 보컬과 음악을 어떻게 분리하나요?


정말 자주 들어오는 질문 중 하나인데요. 장기자랑 / 축가 / 이벤트 등을 위한 MR 제작은 GAUDIO STUDIO를 이용하는 많은 분들의 주 사용 목적이 아닐까 싶어요.

 

 

보컬 분리

'보컬'과 '그 외 악기들'만 선택한 화면

 

음원 분리 악기 선택

모든 악기를 선택한 화면

 

 

 

GAUDIO STUDIO에서는 원하는 악기를 선택하여 음원을 분리할 수 있습니다 (보컬, 드럼, 베이스, 전자 기타, 피아노, 그 외 악기들). 여기서 보컬만 선택하여 분리해낸다면 MR을 제작할 수 있겠죠?

 

나머지는 AI가 알아서 처리해주기 때문에 이렇게 간단한 클릭 몇 번 만으로도 MR을 쉽게 만들 수 있답니다!

 

 

2단계 - 키(Key) 업 / 다운

MR을 나에게 맞는 키로 맞출 수 있나요?

 

우선 기존에 사용하던 음원 편집 프로그램이 없다면, Audacity를 추천드려요. 무료 프로그램이지만, 다양한 기능들이 숨겨져 있어 저도 학생 시절에 무척이나 많이 사용했던 프로그램이랍니다.

 

준비가 다 되셨나요? 이제 한번 천천히 따라 해볼게요!

 

audacity 파일 가져오기

 

audacity 파일 전체 선택

 

먼저 상단 [파일] → [가져오기] → [오디오]를 눌러 원하는 음원을 불러온 뒤, 불러온 파일을 더블클릭 하여 전체 선택합니다.

 

 

 

audacity 피치 변경

 

Audacity 피치 선택

 

그리고 [효과] → [음 높이 및 빠르기] → [피치 변경]으로 들어가서 키를 조정하면 끝이에요!

미세조정도 가능하니 몇 번 테스트해 보며 원하는 피치로 바꿔보세요.

 

여기까지 잘 따라오신 분들, 그런데 뭔가 이질감이 들지 않나요? 아니면 남들과는 다른 고품질 MR을 만들고 싶지는 않으신가요?

 

우리가 평소 자주 놓치고 있는 한 가지 사실이 있습니다. 바로 드럼에는 음정이 없다는 것!
이 때문에 드럼 트랙이 포함된 채로 키를 변경하게 되면, 드럼 비트의 키도 함께 바뀌게 되어 완성도에 영향을 주게 되는거죠.

 

😎 자! 이제 여기서 비법을 하나 알려드릴게요. 이번에는 드럼 트랙만 제외하고 나머지 악기들의 키를 조정한 뒤, 드럼과 다시 합쳐보세요. 이제 그 수상한 이질감이 사라졌을 겁니다!

 

 

3단계 - 활용해 보기

그래서 이걸로 무엇을 더 할 수 있나요?

 

MR 분리에 이어, 내 마음대로 키까지 변경할 수 있다면, 이런 콘텐츠도 만들어볼 수 있답니다.

 

 

느낌 오시죠? 이렇게 서로 보컬 키가 다른 가수들의 듀엣도 만들어 볼 수 있어요!

 

여기에 분리한 목소리를 Voice Conversion AI 학습 모델을 통해 재가공한다면, 요즘 유행하는 AI 커버 콘텐츠도 만들 수 있습니다. 이때 당연히 분리된 목소리의 퀄리티가 좋을수록 학습된 결과물이 좋기 때문에 GAUDIO STUDIO를 많이 사용하고 있다는 이야기를 들었어요.👀

 

내 최애가 부르는 다른 가수의 노래, 궁금하지 않으신가요?

😎 이렇게 GAUDIO STUDIO를 이용한 활용법은 무궁무진하답니다.

 

 

 

 

🍯 꿀팁 2 - 이미 녹음한 음원에서 특정 트랙 조절하기

 

이번에는 여러분들이 일상에서 한번쯤 마주 할 수 있는 상황에서 GAUDIO STUDIO를 활용할 수 있는 예시를 보여드릴게요.

 

 

 

상황 1 - 정말 훌륭한 합주를 마쳤는데, 드럼소리만 너무 커요!

 

이런 경우 드럼 트랙만을 분리해서 음량을 조절해준다면 다른 악기들을 살릴 수 있겠죠? 같은 원리로 공연장 직캠 영상에서 지나치게 쿵쿵거리는 비트를 줄여 아티스트의 목소리를 더욱 살릴 수 있답니다.

도저히 분리가 되지 않을 것 같던 합주실 녹음본도, 살릴 수 없을 것만 같았던 직캠영상도, 이제는 훌륭하게 믹싱 해서 업로드해보세요!

 

 

 

 

상황 2. 카페에서 브이로그를 촬영했는데, 저작권 등록된 음악이 함께 녹음되었어요!

 

유튜브에 올릴 브이로그를 찍었는데 카페 배경 음악이 함께 녹음되었다면, 저작권 침해 요소로 감지되어 수익 창출이 제한될 수 있어요. 아마 그동안은 무작정 볼륨을 낮추거나 목소리를 올렸을 거예요. 그래도 해결이 안 되면 소리를 전부 날리고 나레이션을 녹음했을 것이구요.

 

😎 이제는 그러지 말고 내 목소리만 분리해서 원하지 않은 음악을 깔끔하게 제거해 보세요.

 

 

GAUDIO STUDIO만 있다면 더이상 예상치 못한 저작권 문제로 고통받지 않아도 된답니다!

 

 

 

AI 음원분리를 이용한 무궁무진한 활용 사례, 잘 보셨나요?

옛날에는 하고 싶어도 하지 못했거나, 하려면 엄청난 수고를 감수해야 했던 작업들을 이제는 너무 쉽게 하고 있다는 생각이 들면서 문득 깜짝깜짝 놀라곤 합니다.

 

여러분들도 마법 같은 GAUDIO STUDIO를 통해 개성 있는 콘텐츠를 만들고 즐겨보는 건 어떨까요?

멀지 않은 미래에, 스테레오 파일을 넣으면 모든 트랙 스템이 깔끔하게 분리가 될 그날까지 GAUDIO STUDIO 고도화는 계속될 예정입니다.

 

앞으로 많은 관심과 이용 부탁드려요~

 

pre-image
깨끗한 음성을 향한 가우디오랩의 끊임없는 도전 - Just Voice Lite 출시

  너의 목소리를 더 잘 듣고 싶어   Bam! Bang! Tat tat tat tat I’m out, I need another ??? ??? anybody ??? ???   안녕하세요, Just Voice Lite의 제품 책임자 하워드입니다. 전쟁 영화 속 한 장면에서 폭탄이 터지는 소리로 가득 찬 상황을 상상해 보세요.   화면 속 주인공들이 대화를 나누지만, 폭탄과 총성, 그리고 너무 큰 배경음악으로 인해 거의 들리지 않기도 합니다. 이런 상황에서 우리는 배우들의 목소리를 더욱 잘 듣고 싶어 합니다. 현장감을 높이기 위해 음향 감독이 추가한 효과음과 배경음악이 정작 중요한 배우들의 목소리를 덮어버려, 이야기의 중요한 부분을 놓치곤 하죠.   이때 대사를 더 잘 듣기 위해 오디오 볼륨을 키운다면 어떤 일이 발생할까요?   전체적인 음량이 더욱 커져서 당신의 고막(eardrum)이 찢어질 듯 고통받을 수 있습니다. 특히 당신이 이어폰이나 헤드폰을 착용 중인 상황이라면요. 이미 볼륨이 너무 커서 대사를 위해 소리를 더 키우지도 못하고, 그렇다고 소리를 줄이자니 대사가 거의 들리지 않게 되기 대문에 아이러니한 상황에 놓이게 됩니다. 결국 한국어 영화도 자막에 의존하여 시청하는 경우가 생기게 되죠.     내가 원한 건 이런 게 아닌데…   이와 같은 상황에서 배우의 목소리만 콕 집어내어 더욱 명료하게 들을 수 있는 아름다운 기술이 있다면 얼마나 좋을까요?   아니, 애초에 콘텐츠가 대사 명료도의 관점에서 더욱 잘 제작되었다면 이러한 고민도 할 필요가 없었을 텐데 말이죠. 콘텐츠의 본질을 담아내고자 하는 예술가와 대사를 잘 듣고 싶어 하는 현실 관객의 입장은 언제나 다르기 마련입니다.     비단 영화뿐일까요?   우리는 종종 좋지 않은 환경에서 녹음된 콘서트 실황이나 시끄러운 환경에서 녹화된 여행 유튜버 영상, 자전거/자동차 동호회 주행 영상 등을 볼 때에 화자의 목소리를 더 잘 듣기 위해 모든 신경을 곤두세우곤 합니다. 파도가 밀려오는 경치 좋은 바닷가나 야외 커피숍에서 여자/남자 친구에게 화상통화로 기타를 치며 노래를 부르는 상황이라면 어떨까요?   소음이나 잡음 때문에 우리가 좋아하는 사람의 목소리를 듣기가 어려울 때, 그 공간에 있는 상대의 목소리를 조금 더 잘 듣고 싶을 때, 우리는 더 나은 청취 경험을 위한 해결책을 찾게 됩니다.   이런 갈증을 해소하기 위해 등장한 것이 바로 목소리 강화 어플리케이션 Just Voice 입니다. 🤓       On-device AI를 활용한 실시간 처리   아주 조금만 기술적인 이야기를 해볼게요.   그렇다면 도대체 이 문제를 어떻게 해결할 수 있을까요?   혹자는 말하겠죠. 리모컨에 볼륨업 버튼을 추가해서 목소리만 키워주면 되지 않을까요? 웃기고 있으시네!   그게 어디 말처럼 쉬운 가요? 기술적으로 본다면 이러한 동작은 수 밀리 초(millisecond, 1000분의 1초) 안에 처리되어야 합니다. 내가 보는 영상에서 실시간으로 처리해야 하기 때문이죠. 즉, 소리가 나오는 족족 목소리만 분리해서 잘 들리게 처리한 후 다시 여러분에게 내보냈을 때, 영상과 소리의 싱크가 그대로 정확히 맞아야한다는 의미입니다.     하지만 가우디오랩 연구진이 출동한다면 어떨까요?   약 2년 동안의 길고 긴 연구 끝에 이 어려운 기술을 가우디오랩에서 완성했어요!   세계최고 수준의 음성 분리 기술 GSEP(Gaudio Source Separation) 기술과 On-device AI 기술을 활용하여 실시간으로 음성 명료도를 향상하는 엔진, Low Delay GSEP을 탄생시킨 것이죠.(보다 정확히 말하자면 30ms 이내로 처리합니다.) 이 기술은 주변 소음을 제거하고, 원하는 목소리를 강조하여 목소리만 듣기 쉽게 만들어 줍니다. 아 물론, 실시간으로 처리하기 위해서 비실시간 음성 분리 기술인 GSEP 대비 약간의, 아주 약간의 성능저하를 감수하긴 하였습니다.   이 기술을 활용하면, 당신이 소비하는 모든 동영상 콘텐츠 내에 있는 환경음이나 배경음악에 방해받지 않고 목소리를 더욱 또렷하게 들을 수 있습니다. 그리고 저희는 이것이 콘텐츠를 내가 원하는대로 즐기고자 하는 모든 이들에게 보다 나은 청취 경험을 제공할 것으로 믿습니다.       macOS용 Just Voice Lite를 경험해보세요   Just Voice Lite를 사용해 보세요!   Low Delay GSEP을 활용한 Just Voice 앱 시리즈 중 첫 번째, 실시간 목소리 강화 앱 Just Voice Lite를 출시했습니다.   macOS 이용자라면 Just Voice Lite 앱을 통해 화상 회의, 영화 시청, 음악 감상 등 소리가 나는 모든 환경에서 목소리의 명료도를 향상할 수 있습니다. 또한, 콘텐츠의 주변 음은 그대로 둔 채로 목소리만 더욱 크게 들을 수 있도록 설계되었기 때문에, 제작자가 의도한 음향 효과를 포기하지 않고 콘텐츠를 온전히 즐길 수 있습니다.     얼마냐고요?   Just Voice Lite는 무료로 이용가능한 앱입니다.   냉정하게 말하자면 Just Voice Lite란 콘텐츠에서 목소리만 분리해서 음량을 조금 더 키워준 것에 불과하죠. 하지만 이 기술은 무한한 잠재력을 가지고 있습니다.   분리한 목소리를 실시간으로 변조한다면 어떨까요? 울리는 공간에서 녹음한 콘텐츠를 실시간으로 목소리의 피치 조절(Pitch Shift)이나 잔향 제거(De-reverberation) 처리를 할 수도 있고요. 아니면 목소리를 분리하고 난 환경 음들에 가우디오랩이 자랑하는 공간음향기술(GSA, Gaudio Spatial Audio)을 실시간으로 적용해본다면 어떨까요? 내가 원하는 모습으로 오디오 공간감이 확 살아나지 않을까요?   예술가가 찍어낸 콘텐츠를 일방적으로 소비하고 끝내는 게 아닌, 실시간으로 콘텐츠의 요소를 조절하며 들을 수 있는 관객의 자유. 그런 자유에 가치를 매긴다고 한다면 당신은 앞으로 얼마까지 지불할 생각인가요? 관객의 자유로운 콘텐츠 소비를 서포트하기 위한 끊임없는 도전이 메타버스 오디오를 향하고 있는 가우디오랩의 지향점입니다.       "우리도 On-device로 처리하고 싶어요"   Just Voice SDK가 필요하다고요?   당신이 개발자라면 희소식이 있어요. On-device에서 음성 명료도를 향상 해주는 엔진인 Just Voice SDK도 준비해 두었습니다. 보청기용 소프트웨어, 화상회의용 시스템, AICC(AI Contact Center), 언어 학습 등에서 음성 명료도 향상을 위한 오디오 엔진이 필요하다면, 어려워하지 마시고 연락 주세요.   아! 물론 Just Voice Lite 앱은 음성을 더욱 크게 듣는 용도로 개발되었지만, Just Voice SDK는 주변 노이즈를 완전히 없애버리는 노이즈 저감(De-noise)도 가능해요. 어떻게 활용 할지에 대한 선택은 오직 사용자 당신에게 있습니다.     아니 그건 그렇고 Just Voice Lite를 아직도 사용해 본 적 없다고요?   macOS를 사용하는 당신이라면 언제든 시도해 보세요. 당신이 듣고 싶은 목소리를 더욱 선명하게 만들어줄 오디오의 미래, 지금 경험해 보세요!   🔗앱스토어 바로가기  

2024.03.08
after-image
제 점수는요… MUSHRA 청음평가를 소개합니다.

안녕하세요. 가우디오랩의 시작부터 함께해오며 다양한 잡일들을 처리하고 있는 테드입니다.   최근, 저희가 개발한 기술의 성능을 파악하기 위해 청음평가를 실시하게 되었습니다. 이 청음평가를 이해하기 쉽게 설명한 글이 있다면 도움이 될 것 같아, 이렇게 끄적여보게 되었습니다.   병원을 가게 되거나 의학드라마를 보다 보면 때때로 이런 질문을 받게 됩니다. “통증이 전혀 없는 걸 0점, 상상할 수 있는 가장 심한 통증을 10점이라고 했을 때 지금 통증은 어느 정도 몇 점인가요?” 이 글을 작성하며 알게 되었는데, 이러한 질문을 NRS (Numeric Rating Scale)이라고 합니다. 통증이라는 경험은 주관적이기 때문에 NRS를 통해 단순하고 이해하기 쉽게 수치화해서 효과적으로 통증 관리와 치료를 할 수 있게 돕는다고 합니다. 갑자기 오디오 관련 블로그에서 의학용어라니 어색하기도 하네요 🙂       소리를 점수화할 수 있을까? - MUSHRA 청음평가   그렇다면 소리는 어떨까요? 두 개의 소리가 있을 때, 어떤 소리가 더 나은 소리인지 어떻게 평가할 수 있을까요?   오디오 분야에서도 사람이 직접 듣지 않고 소리를 객관적으로 평가할 수 있는 기술을 개발하기 위해 다양한 시도들을 하고 있지만, 아쉽게도 아직 완성되지 않았습니다. 즉, 기계가 소리를 분석해서 “이 소리는 80점입니다 휴먼 🤖”. 할 수 있는 기술은 아직 나오지 않았다는 거지요.   대신 과거부터 소리를 듣고 평가하는 방법론들이 많이 활용되고 있는데, 예를 들어 MUSHRA (Multiple Stimuli with Hidden Reference and Anchor), ABX, MOS (Mean Opinion Score) 등이 있습니다. 오늘은 다양한 평가 방법 중 고품질 오디오들의 미묘한 차이를 평가하는데 특화된 MUSHRA 평가 방법에 대해서 소개해보려고 합니다.   MUSHRA는 고품질 오디오 기술/시스템을 평가하기 위해 주로 사용되는 방법입니다. 국제 표준화 기구인 ITU(국제전기통신연합)에 의해 표준화되었으며, 특히 오디오 샘플 간의 미묘한 차이를 평가하는 데 유용합니다. MUSHRA 평가의 기본 원칙은 여러 개의 테스트 샘플을 동시에 제공하고, 참가자에게 이들을 비교하며 0부터 100까지의 척도를 사용하여 평가하도록 요청하는 것입니다. 여기서 제공되는 샘플에는 다음과 같은 것이 포함됩니다. Hidden Reference: 원본 오디오 트랙의 고품질 버전으로, 참가자들이 다른 샘플을 평가할 최고 기준점으로 사용됩니다. 참가자들은 이 샘플이 참조임을 알지 못합니다. Anchor: 일반적으로 낮은 품질의 오디오 샘플로, 평가의 낮은 기준점 역할을 합니다. 이를 통해 참가자들이 평가 범위를 좀 더 명확하게 인식할 수 있게 돕습니다. Test Samples: 평가 대상이 되는 여러 오디오 시스템을 통해 생성된 샘플입니다.     Hidden Reference를 정답, 즉 100점으로 두고 Anchor를 약 20점에 해당하는 낮은 기준점으로 두고 Test Samples들을 0~100점 척도에서 평가하게 합니다.   NRS와 비교해 보면 Hidden Reference가 상상할 수 있는 가장 심한 통증이고, Anchor는 통증이 전혀 없는 것이겠죠. NRS와 다르게 Anchor를 0점으로 두지 않는 이유는 Test Samples가 Anchor보다 낮은 성능을 가질 수 있기 때문입니다. NRS와 비교했을 때 또 다른 특징은 가장 심한 통증은 사람마다 다를 수 있는 반면, Hidden Reference는 누구에게나 동일한 소리이므로 더 객관적이라고 볼 수도 있겠죠.   나아가 MUSHRA에서는 Post screening rule이 있어 평가자가 무작위로 평가하지 않았는지, 주어진 지시사항을 잘 이해했는지, 성능을 충분히 구분할 수 있는 역량을 가지고 있는지를 확인하는 절차도 있습니다. 생각보다 체계적이죠?       MUSHRA 청음 평가를 직접 진행해봤습니다.   아직 충분히 이해하기 어려우실 수 있을 것 같아 올 1월에 가우디오랩에서 진행되었던 Just Voice SDK의 주관적 성능 평가를 예를 들어 설명을 드려볼게요.   1) MUSHRA 평가 설계   Just Voice SDK는 Mobile, PC, Embedded에 탑재되어 실시간으로 소음을 제거할 수 있는 기능을 제공합니다. 당시 Just Voice SDK와 경쟁 기술이자 Discord에 탑재된 소음 제거 기술인 Krisp와 두 가지 성능을 비교하고자 했는데 첫 번째는 소음을 얼마나 잘 제거하는가, 두 번째는 음성이 얼마나 명료 한가입니다. 두 성능 모두 MUSHRA 방법으로 테스트를 진행하였습니다.   Hidden Reference는 화상회의와 같은 일반적인 상황을 가정하여 조용한 스튜디오에서 다양한 스마트폰을 가지고 녹음했습니다. Test Samples는 Hidden Reference에 SNR 5dB로 노이즈를 섞은 신호를 입력으로 Just Voice SDK로 소음 제거 처리를 한 신호와 Krisp SDK로 소음 제거 처리된 신호와 비교하였습니다.   흥미로운 것은 Anchor인데요. 두 가지 성능은 다른 평가 항목이기 때문에 서로 다른 Anchor로 설정되어야 합니다. 첫 번째 평가 성능인 소음 제거에 대한 Anchor는 소음이 제거되기 전인 SNR 5dB로 노이즈를 섞은 신호로 설정하였고, 두 번째 평가 성능인 음성 명료도 대한 Anchor는 Hidden reference를 낮은 주파수 대역만 남도록 3.5kHz Low-pass filtering 한 신호로 설정했습니다. - 이는 음성 품질 평가에 주로 사용하는 방법입니다.     2) MUSHRA 평가 진행 방법   평가는 WebMushra라는 도구를 사용해서 진행했습니다. WebMushra는 아래와 같은 UI를 가지고 있습니다. Reference는 Hidden Reference가 재생되고, Cond. 1~4는 Hidden Reference, Anchor, Test Samples (Just Voice SDK, Krisp)가 무작위로 재생됩니다. 평가자는 Cond. 1~4를 비교하며 들으면서 Hidden reference를 찾아 100점을 주고, Anchor를 찾아 20점 언저리의 낮은 점수를 주고, 남은 두 Cond. 에 대하여 Reference와 Anchor 대비 상대적인 점수를 주면 됩니다.     이렇게 여러 Test Item을 가지고 평가를 진행하면 아래 이미지와 같이 평가자 별로 각 Cond. 에 대한 점수가 csv 파일로 기록됩니다.     결과는 어땠을까요?   1) MUSHRA 평가 결과 해석 방법   모든 평가자들이 평가를 완료하면 Post-screening rule을 적용하여 부적합한 결과들을 제외한 후 각 Cond. 별로 평균과 95% 신뢰구간을 그려서 비교하게 됩니다. 신뢰 구간이 95%라는 것은, 평가자들이 95%의 확률로 특정 구간 안에서 점수를 주게 된다는 의미로 이해하면 됩니다.   아래는 실제로 저희가 진행한 실험의 소음 제거 성능에 대한 결과입니다. 회색 마커는 평균, 파란색 마커와 주황색 마커는 각각 95% 신뢰 구간의 최대, 최소로 보시면 됩니다. 이 신뢰 구간이 서로 겹치지 않아야 통계적으로 유의미한 성능 차이가 있다고 얘기할 수 있겠죠? (=구분할 수 있다는 거죠.) 그리고 평가자들의 수가 많을수록 이 신뢰 구간은 좁아집니다.     2) 소음 제거도 평가 결과   이 실험은 66명이나 참가한 규모가 큰 실험이었기 때문에 신뢰 구간이 상당히 좁게 나타났습니다. Benchmark (Krsip)와 Just Voice를 비교해 보면 신뢰구간이 겹치지 않고 12.5점 차이가 발생하고 있습니다. 이 정도의 차이라면 명확하게 두 기술의 성능 차이를 구분할 수 있는 수준이죠.   청음 평가 결과를 자세히 분석할 때 Test item 별로 결과를 살펴보는데, 아래와 같이 그려서 확인합니다. Just Voice는 16개 중 7개의 Test item에서 Benchmark보다 95% 유의 수준에서 통계적으로 소음 제거 성능이 훌륭한 걸 확인할 수 있지요. (초록색)   흥미로운 점은 3개의 Test item (14p-03_office, 15p-02_hallway, s20p-04_office)에서 Just Voice보다 Hidden Reference의 평균이 낮은 결과가 나왔습니다 (파란색 및 주황색). 실제 환경에 가깝게 테스트하기 위해 스마트폰으로 녹음한 Reference에도 노이즈가 포함되었는데, Just Voice가 Reference보다 음성 왜곡 없이 더 소음을 잘 제거하다 보니 이러한 결과가 나온 것으로 분석되었습니다. 사실상 Reference와 구분이 어려운 수준인 것이죠.   심지어 14p-03_office에서는 Just Voice와 95% 통계 유의가 있게 레퍼런스보다 더 좋은 결과가 나왔습니다. (주황색). Just Voice를 레퍼런스로 판단한 거죠 👍     3) 음성 명료도 평가 결과   음성 명료도 실험 결과도 궁금하신 분들이 계실 것 같아 아래처럼 첨부해 봅니다. 위와 같은 방법으로 결과를 직접 해석해 보세요. 😉     마치며   오늘은 고품질 오디오/시스템의 성능을 비교하는 주관적 음질 평가 방법인 MUSHRA에 대해서 알아보았습니다. 주관적인 음질을 어떻게 평가하느냐는 상당히 많은 고민과 노력이 필요합니다. 정답, 즉 Hidden reference를 무엇으로 설정해야 하는지, Anchor를 무엇으로 설정해야 하는지 고민해야 하고, 실험 자체가 잘 진행되도록 열심히 챙겨야 합니다.   개인적으로는 얼른 AI 기술이 발달하여 “이 소리는 95점입니다 휴먼 🤖” 할 수 있는 날이 조만간 오면 좋겠네요.   혹시 MUSHRA 방법론에 대하여 더 알고 싶으시거나, 다른 주관적 음질 평가 방법인 ABX, MOS가 궁금하시다면, 문의를 남겨주세요. 이와 관련된 글을 작성해 보겠습니다 🙂    

2024.04.11