Spatial Audio의 성능 평가 Part 2: 평가 결과 - GAUDIO vs Apple

2023.07.19 ・ by James Seo

Spatial Audio의 성능 평가 Part 2: 평가 결과 - GAUDIO vs Apple

(Writer: James Seo)

평가 결과

지난 파트에서는 Spatial Audio의 성능 평가를 설계하기 위한 과정을 설명드렸는데요, 이번 파트에서는 이어서 앞선 과정을 따라 설계된 평가의 결과를 공개하려고 합니다.

평가 결과는 다음과 같습니다.

[그림 1: Stereo 결과]

[그림 2: 5.1 Channel 결과]

[그림 3: 전체 결과]

스테레오와 5.1 channel 각각에 대해, 개별 평가 대상이 얻을 수 있는 최대 득점은 총 280점입니다. 모든 음원에 대해, 모든 청취자들이 하나의 평가 대상이 다른 두 평가 대상보다 좋다고 응답하면 해당 시스템은 280점의 점수를 얻게 됩니다. 결과적으로 GAUDIO의 GSA는 스테레오 음원에 대해서 186점을 획득했습니다. 반면 멀티 채널에서는 조금 더 높은 188점을 획득했네요. 즉, 다른 두 시스템에 비해 GSA가 평가자들에게 더 높은 선호도를 갖는다는 사실을 확인할 수 있습니다.

일단 점수는 GAUDIO가 좋게 나왔는데, 이것이 통계적으로 의미있는 결과인지도 중요할 것입니다. 전반적으로 공간 음향이 적용된 신호에 대한 선호가 높으니 GSA와 ASA 의 결과에 간단한 통계 기법을 적용해 분석해보겠습니다. 결과 중 GSA와 ASA를 비교한 trial만 선별해서 GSA의 점수에서 ASA의 점수를 뺀 값을 비교해 보겠습니다. 모든 청취자가 모든 음원에 대해 GSA가 더 좋다고 평가를 했다면 이 차이값의 평균은 1이 될테고, 그 반대라면 -1점이 되겠네요. 평균값만으로는 통계적 유의성을 판단하기 힘들 수 있으니, 95% 신뢰구간을 함께 계산해서 표시합니다. 이 신뢰구간에 0점이 포함된다면, 평균값에서 차이를 보이긴 하지만 통계적으로 이 두 시스템 사이의 차이는 없다고 보는 게 맞습니다. 즉, 통계적으로 유의미한 수준에서 GSA가 더 좋다고 이야기하려면, 평균값이 0보다 크고, 신뢰구간에는 0이 포함되어 있지 않아야 합니다.

[그림 4: GSA-ASA 결과 비교]

그래프 상에서 스테레오, 5.1채널 신호에 대해, 평균값은 0보다 크고, 95% 신뢰구간에 0점을 포함하지 않습니다. 두 결과를 모두 통합해봐도 동일한 경향을 확인할 수 있습니다. 즉, 단순히 카운트에서 점수를 더 많이 받은 것이 아니라, 통계적으로 유의한 수준에서 GSA를 통해 렌더링 된 소리가 ASA를 통해 렌더링 된 소리보다 더 좋다고 판단한 것이라고 이해할 수 있겠네요.

그럼 GSA와 원본, ASA와 원본의 비교 결과는 어떨까요? 앞서 분석한 것과 동일한 방법으로 평균값과 95% 신뢰구간을 계산하여 보았습니다. 그 결과는 아래와 같습니다.

[그림 5: GSA -원본 결과 비교]

[그림 6: ASA - 원본 결과 비교]

GSA-ORI 결과를 보면, 모든 경우 평균값도 0보다 크고, 신뢰구간 내에도 0점이 포함되지 않습니다. GSA-ASA의 결과와 비교해 보아도 훨씬 더 명확하게 GSA가 통계적으로 유의미하게 더 선호하는 소리로 선택되었다는 것을 확인할 수 있습니다. 반면, ASA-ORI 의 결과에서는 5.1채널 음원의 렌더링 결과에 대해서는 ASA 렌더링 된 음원과 원본이 통계적으로 유의미할 만큼의 차이가 없는 것을 확인할 수 있습니다. 아주 큰 의미는 아니지만, 평균값이 0보다 작은 것도 눈에 띕니다. 앞의 결과와 종합해서 정리해 보면, 평가에 사용된 모든 음원 포맷에 대해서 GSA로 렌더링 된 소리가 가장 선호도가 높았습니다. 5.1 채널 포맷의 경우에도 GSA로 렌더링 된 소리가 가장 선호된 것은 동일하지만, ASA로 렌더링 된 소리와 원본의 downmix 의 경우, 어느 쪽을 더 선호한다고 판단할 수 없는 결과가 나왔네요.

Conclusion

소리는 보이지 않고 만질 수 없어서, 사람들에게 소리가 좋다는 것을 쉽게 표현하여 전달하기가 참 어렵습니다. GSA가 얼마나 잘 만들어진 시스템이고 얼마나 좋은 소리 경험을 제공하는지를 설명할 수 있어야 이 기술을 시장에 널리 쓰이게 할 수 있을텐데요, 본문에서 설명한 것처럼 소리에 대해서는 객관적인 평가 방법을 적용하는 것이 사실상 불가능합니다. 직접 들어보지 못하는 분들에게도 본인의 기존 경험(원본 또는 Apple의 공간 음향)과 비교하여 사람들의 선호도가 어떻게 나타난다는 평가 결과를 통해 GSA 성능을 객관화해보고자 본 실험을 진행하였습니다.

또한, 이러한 실험에서 GSA가 좋은 결과를 얻는다면 이를 연구/개발/사업하는 팀 가우디오도 더 자신감을 가지고 앞으로 나아갈 수 있지 않을까 하는 기대를 가지기도 했고, 다행히 그런 결과가 나와 기뻤습니다. 이런 마음으로 실험의 과정과 결과, 그리고 분석 과정까지 서술하다보니 조금은 복잡한 글이 되진 않았나 걱정이 되기도 하지만, 그래도 부디 지난 번 M2S Latency 관련글과 함께 한 분이라도 GSA를 더욱 잘 이해하시는데 도움이 되었길 조심스럽게 바라며 글을 마칩니다.

GSA(GAUDIO Spatial Audio)Spatial AudioVR/AR

Spatial Audio의 성능 평가 Part 1: 평가 설계

Spatial Audio의 성능 평가 Part 1: 평가 설계 (Writer: James Seo) 오랜만에 돌아온 GSA* 연구/개발 담당 James 입니다. 지난 글에서는 GSA가 사용자의 움직임에 얼마나 민첩하게 반응하는지를 나타내는 M2S (Motion-to-Sound) Latency 를 어떻게 측정할 수 있는지에 대해서 설명드렸습니다. 이번 글에서는 ‘그래서 실제 우리가 듣는 그 소리는 진짜 좋아?’에 대한 답을 찾아보려고 합니다. GSA는 TWS나 HMD와 같은 Wearable 기기를 타겟으로 한 제품인 만큼 그 소리가 좋지 않으면 움직임에 아무리 빨리 반응한다고 해도 좋은 제품이라고 할 수 없기 때문이죠. Sound Matters! *GSA: Gaudio Spatial Audio Methods of Audio Quality Evaluation GSA의 성능 평가에 대해 설명하기 전에 우선은 음질 평가 방법에 대해 간단히 알아보겠습니다. 어떤 음향 기기 또는 음향 시스템의 성능을 평가하는 방법에는 여러가지가 있습니다. 그 중 하나가 재생하는 소리로부터 추출한 파라미터 값을 기반으로 성능을 평가하는 방법입니다. 지난 번의 M2S latency 측정이 그 대표적인 예가 되겠네요. 그 외에 오디오 / 음성 코덱의 성능을 평가할 때 자주 사용되는 PEAQ (Perceptual Evaluation of Audio Quality) / PESQ (Perceptual Evaluation of Speech Quality) 와 같이 표준으로 공인된 방법도 있습니다. 보통 이 방법들에서는 개별 소리를 분석하여 인지적 품질에 영향을 미치는 요소인 MOVs (Model Output Variables)를 계산하고, 이 값들의 가중합을 이용하여 최종 품질 점수를 도출합니다. 이러한 평가 방법을 객관 평가 기법(Objective Quality Evaluation)이라고 합니다. 이러한 객관 평가 기법은 기본적으로 음향 신호를 소프트웨어나 기기에 입력 신호로 주고, 최종적으로 품질 점수를 계산하는 방식이기 때문에 소요 시간이 비교적 짧아 효율적이라는 장점이 있습니다. 다만, 표준으로 제정되어 있는 객관 평가 기법들은 기준 신호(Reference Signal)가 있고, 평가하고자 하는 신호(Signal Under Test, SUT)가 기준 신호와 비교하였을 때 얼마나 그 품질이 떨어졌는지를 평가하는 방식이기 때문에 기준 신호가 없으면 평가 자체가 불가능하다는 단점을 가지고 있습니다. 이러한 표준 기법들이 코덱의 성능을 평가하고자 만들어진 기법이기 때문에 갖고 있는 한계이기도 합니다. 또 다른 평가 방법으로는 주관 평가 기법(Subjective Quality Evaluation)이 있습니다. 평가자가 평가 대상 음원을 비교하여 듣고 평가자의 기준으로 음원의 품질을 평가하는 방법입니다. 대표적인 평가 방법으로는 MUSHRA( Multiple Stimuli with Hidden Reference and Anchor)가 있습니다. 다만, 평가자마다 기준이 다를 수 있기 때문에, 신뢰도 있는 결과를 얻기 위해서는 평가자의 모수가 커야 한다는 단점이 있습니다. 평가자도 많아야 하지만 평가자가 직접 듣고 평가하는 방법이기 때문에 시간과 비용이 많이 든다는 것도 단점입니다. 마지막으로 그 명칭(Hidden Reference and Anchor)에서도 알 수 있듯이, 기준 신호가 있을 때에만 사용할 수 있다는 한계도 동일하게 갖고 있습니다. 이제 우리는 어떤 방법으로 GSA를 평가할지 선택해야 합니다. 우선 공간 음향이 적용된 오디오 신호에는 마땅한 기준 신호가 존재하지 않기 때문에 PEAQ와 같은 객관 평가 기법은 사용할 수 없습니다. 동일한 이유로 주관 평가 기법 중 하나인 MUSHRA도 사용할 수 없습니다. 또한 GSA의 출력 신호만을 가지고 주관 평가를 진행하는 것이 평가자들에게는 굉장히 어려운 일이기도 하고, 신뢰성 있는 결과를 얻기도 힘들다는 한계도 있습니다. 이러한 고민 끝에 선택한 방법이 시중에 있는 솔루션 중, 많이 사용되어 익숙하고 그 품질도 우수하다고 널리 알려진 솔루션과 비교하는 방법입니다. 후보가 되었던 공간 음향 솔루션이 몇 가지 있긴 하지만, 비교 대상 시스템이 늘어날 수록 비교해야 하는 신호가 늘어나고, 이러한 부담이 평가자들에게 큰 부담이 되어 평가 결과의 신뢰도를 낮출 수 있기 때문에 비교 대상 시스템을 Apple의 Spatial Audio(이후, 표현의 편의를 위해 ASA로 표기하겠습니다) 하나로 한정하여 1:1 비교하는 방법을 선택하였습니다. 새로운 주관 평가 설계(Design of Subjective Quality Evaluation) (1) Paired Comparison (쌍비교)를 통한 Preference Test 기본적인 비교 방법은 Paired Comparison(쌍비교) 를 통한 Preference Test(선호도 테스트)입니다. 두 개의 신호를 랜덤한 순서로 들려주고, 어느 쪽을 선호하는지 조사하는 방법인데요, ‘선호’로 선택된 시스템에는 +1점, 선택되지 않은 시스템에는 0점을 부여하는 식으로 점수를 카운트 합니다. 엄마가 좋아? 아빠가 좋아? 와 같은 질문이라고 보시면 되겠습니다. 본 평가는 이중 맹검 강제 선택(Double-Blind Forced Choice) 방법을 사용하므로, 평가자는 지금 내가 듣고 있는 소리가 ASA로 렌더링 된 소리인지, GSA로 렌더링 된 소리인지는 알 수 없습니다. 평가자는 그저 신호를 듣고 랜덤하게 재생되는 A,B 두 개 중 더 선호하는 쪽 하나를 고르는 것이므로 평가자의 의도된 편향은 없다고 봐도 될 것입니다. (2) Selection of Sound Excerpts 다음으로는 평가 음원을 골라야 합니다. 솔루션에 따라서는 음원의 특성 및 포맷(채널 수)에 따라 그 성능의 편차를 보이는 경우도 있기 때문에 어떤 음원으로 평가하느냐에 따라 그 결과가 달라질 수 있습니다. 우선 2채널 스테레오 음원과 5.1 채널 멀티 채널 음원을 구분하여 선정했습니다. 일반 사용자들이 보통의 환경에서 가장 많이 접할 수 있는 음원은 2채널 스테레오 음원이나, 영화나 일부 음악 소스의 경우 공간감을 더 잘 느낄 수 있도록 5.1채널 음원으로 믹싱되기도 하기 때문에 5.1 채널 음원까지 포함시키기로 하였습니다. 스테레오 음원의 경우 음악에서는 여러 장르별로 한 곡씩을 선택하였고, 여기에 스테레오 버전의 영화 클립 일부를 추가하여 총 7개의 음원을 선정했습니다. 멀티 채널 음원 역시 영화, 음악, 박수 소리 등 여러 특성을 가지고 있는 7개의 음원들을 선정했습니다. 선정된 음원은 주관 평가 시 가장 적절한 길이인 10~15초 사이로 잘라서 사용하였습니다. (3) 평가 대상 신호의 생성 Generation of Signals Under Test 이번 평가의 목적이 사용자의 움직임에 맞게 변하는 Spatial Audio의 품질을 측정하는 것이기 때문에, 실제 사용자의 움직임을 반영하여 각 평가 대상 음원을 렌더링 하는 것이 이상적일 것입니다. 하지만 ASA의 폐쇄성 때문에 이상적인 실험 환경을 구축하는데 한계가 있었습니다. ASA는 Apple 제품군 내에서만 동작하기 때문에, 다른 Spatial Audio 렌더러를 Airpods Pro 나 iPhone에 구현하고, 이를 평가 대상자들이 모르게 재생하는 것이 불가능한 구조입니다. 이러한 이유로 고정된 Head-orientation에 대해 렌더링된 신호를 별도로 생성해서 비교할 수 밖에 없었는데요, 이 때 선정된 Head-orientation은 사용자가 가장 많이 경험하게 될 정면을 선정하였습니다. 여기서 또 하나의 어려움이 발생합니다. Apple 제품 내에서만 동작하는 ASA의 소리를 어떻게 획득할 수 있느냐의 문제입니다. 하지만 다행히도 가우디오랩에서는 ASA에서 동작하는 필터들을 획득할 수 있었는데요, 현재는 iOS버전이 업데이트 되면서 그 획득 경로가 막혀있지만, 한 때는 Spatial Audio 기능을 켜고 음원을 재생하면 Airpods Pro와 같은 TWS로 전송되는 신호를 획득할 수 있어 이를 활용하였습니다. 이렇게 재생하고자 하는 음원을 iPhone에서 재생하고 실제 렌더링된 신호를 획득하는 것도 방법이겠지만, swept sine 과 같은 신호를 이용하면 ASA의 필터 계수 자체를 획득할 수도 있습니다. 이렇게 획득한 필터와 음원을 합성한 후 Airpods Pro 로 재생하면 실제 iPhone/AirPods Pro에서 Spatial Audio가 적용되어 렌더링 된 소리와 동일하게 재생됩니다. 이런 방법 외에 약간의 오차가 존재하지만 ear simulator에 Airpods Pro를 장착하고, ASA 를 on/off 한 상태의 응답을 획득해서 TWS의 응답을 배제한 상태의 ASA 필터를 획득하는 방법도 있습니다만, 이렇게 필터 계수를 획득하는 방법은 이 글의 내용과 거리가 있기도 하고 다소 기술적인 내용이기에 건너뛰도록 하겠습니다. 청취 평가에서는 ASA와 GSA를 공정하게 비교하기 위해 음질 평가용 시료로는 AirPods Pro를 사용하였습니다. 이렇게 비교하면 최종 재생 Device의 차이로 발생하는 품질에 대한 영향은 최소화 하고, 공간 음향을 구현하기 위한 렌더러의 성능에 보다 집중해서 평가를 진행할 수 있게 됩니다. 이와 더불어 비교 대상에는 ASA나 GSA를 거치지 않은 원본 신호도 포함하였습니다. ASA와 GSA 사이의 우열만을 가리다가 둘 다 원본보다 못한 결과였다면 의미가 없을테니까요. 이 결과를 보면 공간 음향에 대한 평가자의 전반적인 원본 대비 선호도를 함께 비교해 볼 수 있겠네요. 5.1채널 음원은 5.1 ch-to-2 ch 로 다운믹스한 것을 원본 신호로 가정했습니다. 최종적으로 하나의 평가 음원(Audio Excerpt)에 대한 비교 음원은 아래와 같이 구성됩니다. GSA (Gaudio Spatial Audio) vs. ASA (Apple Spatial Audio) GSA vs. Original ASA vs. Original (4) 주관 평가 진행 환경 Environment of Subjective Quality Evaluation 실제 평가자가 주관 평가를 진행하는 환경은 아래와 같습니다. 그림에서 확인하실 수 있듯이 평가 음원(Audio Excerpt)의 이름만 알 수 있을 뿐, 평가자는 A와 B 에 ASA와 GSA, 그리고 원본 중 어떤 신호가 할당되어 있는지는 알 수 없습니다. 평가를 설계한 사람도 A와 B가 어떻게 할당되는지 알 수 없고, 어떤 음원이 먼저 평가 항목으로 나올지 역시 평가 설계자나 평가자가 선택할 수 없습니다. 음원의 순서도 시스템에서 임의의 제시 되기 때문에 음원의 순서 또한 결과에 영향을 미치지 않습니다. 위 화면에서 평가자는 두 개 중 더 좋다고 생각되는 하나를 선택하게 되고, Next Test 버튼을 누르면 다음 평가를 진행할 수 있습니다. 이것이 앞서 언급했던 이중 맹검 강제 선택 방법이죠. 한 음원을 평가하는 중에 특정 구간을 반복해서 들을 수도 있고, 반복 횟수의 제한은 없습니다. 해당 평가 시스템은 GAUDIO 서버에 설치되어 있어서 웹 기반으로 동작하기 때문에 여러 명이 동시에 평가를 진행할 수도 있습니다. 각 평가 세션이 끝나면, 결과 파일은 서버에 저장됩니다. (5) 평가자 집단 이번 평가에는 20대~40대의 총 20명의 성인 남,여가 참가했습니다. 20명 가운데, 11명은 이와 같은 청취 평가 경험이 풍부한 훈련된 평가자이고, 일반인 관점의 평가를 반영하기 위해 9명은 관련 기술 및 음질 평가에 문외한이나 평소 음악 청취 등에 관심이 많은 일반인을 포함하였습니다. 평가 결과는 Part 2에서 이어집니다.

2023.07.13

Thanks Apple, Welcome Vision Pro! (ft. Spatial Computing & Spatial Audio)

Thanks Apple, Welcome Vision Pro! (ft. Spatial Computing & Spatial Audio) (Writer: Henney Oh) ONE MORE THING! 23년 6월 WWDC, Apple이 드디어 “One More Thing”을 외치며 Vision Pro 라는 이름으로 Spatial Computing Device를 선보였습니다! ‘VR HMD’ 라거나 ‘AR 글래스’ 라고 부르지 않고, “Spatial Computing“ 기기라고 정의한 것부터가 애플 답습니다. 2014년, 가우디오랩은 VR 시장에 첫 발걸음을 들이며 회사의 성격(그리고 목적하는 시장)을 The Spatial Audio Company for VR로 정의했습니다. 그래서 그동안 사람들에게 가장 많이 들었던 질문 중에 하나가 바로 “언제쯤 VR 시장이 올 것 같나요?”가 아니었나 싶습니다. 이 빈출 질문에 대한 제 답은 영리하게도 혹은 비겁하게도, “애플이 VR 기기를 내놓는 날이요”이었죠 😎 그리고 드디어! 그날이 오고야 말았습니다. 꼭 10년 만이네요. (애플은 Vision Pro를 2024년 봄에 출시한다고 발표했습니다) 이번 WWDC의 애플 키노트에서는 기기 소개 세션의 상당한 비중을 할애해 Vision Pro에 들어간 Spatial Audio를 설명하고 있습니다. 애플은 언제나 눈에 보이지 않고 그 차이를 사용자가 쉽게 인지하기 어려운 오디오에 참 많은 공을 들입니다. 오늘의 애플이 있게 만든 그 출발선에 바로 iPods라는 오디오 기기가 있었다는 사실! [사진: Spatial Audio 기능이 내장된 Apple Vision Pro의 Dual Driver Audio Pods (스피커)] Spatial Audio, NICE TO HAVE → MUST HAVE 애플의 Spatial Audio는 지난 2020년 AirPods Pro에 처음 적용되며 선을 보였습니다. 그 당시 제 주장 또한 “이 Spatial Audio는 미래에 애플이 내놓을 VR/AR 기기를 위한 사전 포석이다”였지요. 조그만 윈도우 안의 2D 화면을 보는 스마트폰(또는 TV)에서의 Spatial Audio 경험은 Nice-to-have(있으면 좋은, 멋진) 라면, VR 환경에서의 Spatial Audio는 Must-have로 바뀝니다. 가상 환경 속, 나의 뒤편에서 날 부르는 강아지의 소리가 눈앞 쪽에서 들려선 안되겠지요. 앞서 다른 포스트(링크)에서 VR Audio, Immersive Audio, 3D Audio, Spatial Audio, … 표현은 달라도 그게 그렇게 다르지 않다고 말씀드렸었습니다. 필요나 시장의 성격에 따라 부르는 이름이 다를 뿐, 3차원 음향을 만들고 재현하는 기술입니다. 애플은 2024년에 Spatial Computing Device를 선보일 것을 준비하며, 그 5년 전 3D 오디오 기술을 AirPods에 적용하며 이미 Spatial Audio라고 불렀다고 하면 억측일까요? Mono → Stereo → Spatial, 소리 인지 과정의 변화 애초에 사람은 실제 환경에서 소리를 3차원으로 인지합니다. 즉, 지금 옆자리 동료의 키보드 타이핑 소리가 나의 왼쪽 측면에서 나는지 뒤쪽 아래에 있는지를 구분하여 듣는 것이죠. 어려서부터 고도로 훈련된 우리 청각기관과 두뇌의 Binaural Hearing 스킬 덕분에 2개의 센서(양쪽 귀) 만으로 그것이 가능하지요. 따라서 스피커와 헤드폰으로 재생되는 모든 소리도 3차원으로 재현하는 것이 이상적입니다. 그러나 우리는 스피커, 헤드폰/이어폰, 통신 기술, 저장 기술 등 기기의 제약과 기술의 한계로 2D(스테레오) 혹은 1D(모노)로 소리를 저장, 전송, 재생하는 것에 오랜시간 길들여져 왔습니다. 강연장에서 연사가 마이크로 발표를 하는 동안 그 목소리는 천장에 달린 스피커를 통해 나오는 상황에 놓여본 적 있으시죠? 눈앞에 보이는 모습과 들려오는 소리, 즉 Visual cue와 Sound의 위치가 지극히 맞지 않는 상황에서도 우린 이상하다고 생각하지 않고 적응을 합니다. 대형 스피커로 수만 명의 관객에게 소리를 내보내는 공연장의 경험도 마찬가지입니다(무대 위 가수의 위치가 아닌, 벽에 달린 스피커에서 소리가 나는 것이 공연장의 경험이죠). 적응과 학습 역량이 뛰어난 우리 인류는 그렇게 제공된 소리도 이상하다고 생각하지 않고 살아왔습니다. 심지어 그런 소리들을 오랫동안 듣다 보니, 그게 더 좋게 들리는 학습 효과까지 덤으로 얻게 되었습니다. 일례로 일종의 공간 음향 포맷 중 하나인 Atmos Mix 음악들이 기존의 Stereo Mix보다 안 좋게 들린다는 평이 많습니다. 우리가 듣는 대부분의 음악인 스튜디오 레코딩 음원으로는 Stereo가 시장 표준으로 너무 오랜 기간 사용되었고 우리는 거기에 익숙해지게 됐죠. 다만, 과거 사례를 비추어 보면, 모노에서 스테레오로 넘어갈 때에도 많은 아티스트와 사용자의 저항감이 있었다고 하니, 언젠간 우리가 Spatial Audio Mix에 더 익숙해질 날도 올 수는 있겠지요. 공간음향의 완성에 진심인 애플, 그 결과가 Vision Pro Vision Pro를 쓰면 스타트랙의 홀로덱과 같이 원격 회의를 하는 상대방이 마치 내 방에 같이 앉아서 대화를 하는 것 같은 경험을 제공할 수 있습니다. “Being There” 혹은 “Being Here” 경험의 끝판왕이 될 것입니다. 그리고 이를 위해 Spatial Audio 는 필수(Must-have)입니다. 내 눈앞에 있는 상대방이 정말 여기에서 얘기하는 것처럼 소리가 들려야 우리 뇌에 Place Illusion이 일어나기 때문에요. 고개를 돌리면 소리의 위치가 그에 맞게 바뀌기까지 해야 하죠. *Binaural Rendering을 기본 기술로 하는 헤드폰용 Spatial Audio가 바로 그 기능을 해줍니다. * Binaural Rendering은 무엇이고 어떻게 쓰이냐면요… Vision Pro와 같은 Spatial Computing Device(VR, AR을 통칭하여)은 1인용 Display 기기입니다. 내 눈앞에 오직 나만을 위한 영상을 소비한다는 의미에서요. 따라서, 스피커가 아닌 헤드폰으로 소리를 재생하는 것이 필연적이죠. 헤드폰을 통해 Spatial Audio를 실현하는 원천기술이 Binaural Rendering입니다. “Binaural”은 어원 그대로 “두 개의 귀를 가진”의 의미이고, 사람은 2개의 귀(소리 수음 센서) 만으로 귓 바퀴와 우리 몸을 타고 들어오는 소리의 회절, 음영 현상 등을 이용하여 전, 후, 좌, 우, 상, 하 등 사방 팔방의 소리 방향을 인식합니다. 이 원리를 시뮬레이션해서 헤드폰을 통해 재현하여 3차원 공간에 소리를 정위하는 것이 바이노럴 렌더링이지요. 소리가 마치 이 공간에서 나는 것처럼 하기 위해서는 실제 그 자리에서 나는 소리가 우리 귀에 도착하는 경로(소리는 우리 주변의 벽, 소파, 천장 등의 사물을 만나면 일부는 흡수되고 일부는 반사되는 성질을 가지고 있습니다)를 모두 알고 그에 맞는 경로 모델링을 모두 해줘야 합니다. Vision Pro에는 이 일을 수행하기 위해 Audio Ray Tracing 기술까지 적용했다고 하죠. 엄청난 Computing 과정인데, 애플 실리콘(M2 & R1)의 승리라 할까요? 어쨌거나 그만큼 애플은 공간 음향의 완성에 진심이라는 얘기입니다. [사진: Audio Ray Tracing - WWDC 2023, Vision Pro Keynote 중에서(영상 캡쳐)] Thanks Apple, Welcome Vision Pro! 가우디오랩은 Works(사운드 엔지니어들이 기존의 음향 저작 환경 - e.g. Pro Tools - 위에서 VR 360 영상을 위한 Spatial Audio를 손쉽게 편집하고 마스터할 수 있는 저작 툴), Craft(Unity/Unreal 등의 게임 엔진으로 제작되는 VR 콘텐츠에 Spatial Audio를 입힐 수 있는 저작 툴), Sol(이렇게 제작된 콘텐츠를 HMD나 스마트폰 등에서 Head-tracking 정보를 더해 실시간 Spatial Audio 경험을 제공하는 바이노럴 렌더링 SDK)을 이미 2016-2017년에 순차적으로 선보이며, Spatial Computing/VR/AR을 위한 완전한 Spatial Audio 소리 경험의 끝점을 찍었습니다. [사진: VR Audio = Gaudio 키노트 중] 2018년 이후 VR 시장에 혹한기가 오면서 많은 관련 기술 회사들이 문을 닫았습니다. 그 혼돈 속에서도 가우디오랩은 해당 기술을 기존 시장/제품에서 활용할 수 있도록 피벗하여, 아래와 같은 기술들을 선보이며 꿋꿋이 때를 기다리며 기술을 더욱 연마하였습니다. 스마트폰/2D 스크린의 (라이브) 스트리밍 환경에서 일반 헤드폰 만으로 Spatial Audio를 경험할 수 있도록 만든 BTRS(Link, Works의 후신) 이어 버즈, 헤드폰에서 일반 Stereo 신호에도 Spatial Audio 경험을 선사할 수 있도록 하는 GSA(Link, Sol의 후신) 가우디오랩 실험실에는 차량 환경을 위한 Spatial Audio, 스테레오 스피커 또는 사운드바를 위한 Spatial Audio, 극장에서의 Spatial Audio 등 ‘The Original Spatial Audio Company’(공간 음향 종주 회사)'라는 위상에 맞는 다양한 Spatial Audio 제품과 혁신 기술들이 차곡차곡 쌓이고 있습니다. 참, 곧 열리는 AES 2023 International Conference on Spatial and Immersive Audio (August 23-25, 2023, University of Huddersfield, UK))에서는 가우디오랩 실험실의 최근 연구 성과인 ‘Room Impulse Response Estimation in a Multiple Source Environment’라는 논문을 발표합니다. 애플이 사용하는 Audio Ray Tracing 과 같은 별도의 장비 대신에 공간에 이미 존재하는 여러 소리(이를테면 상대방의 목소리)로 부터 해당 공간의 음향 특성을 자동으로 인식, 추출하여 Spatial Audio에 적용하여 몰입감을 더욱 올릴 수 있는 AI 기술에 대한 내용입니다. 스마트폰, TV, 극장 등 2D 스크린 환경에서의 Spatial Audio는 맛보기편. 가우디오랩의 Spatial Audio 기술들을 맘껏 펼칠 Spatial Computing 시대의 도래가 벌써부터 설레입니다. 오래 기다렸다, Thanks Apple, Welcome Vision Pro!

2023.07.25