요즘 핫한 Spatial Audio
요즘 핫한 Spatial Audio
12/03/2020
Spatial Audio. Apple이 입장했다. 주류시장이 될 것이다.
지난달(2020년 10월) iOS 업데이트로 iPhone과 Airpods Pro를 가진 사용자는 Spatial Audio라는 새로운 기능을 맛볼 수 있게 되었습니다. Airpods Pro를 귀에 꽂고 아이폰 화면으로 동영상을 시청하면, 그 소리가 아이폰에서 나오고 있는 것인지 귀에 착용된 이어폰에서 나오고 있는지 착각에 빠지는 신박한 체험을 할 수 있습니다. Apple 이 선보이는 많은 신기술이 그러했듯 Spatial Audio는 새로운 기술은 결코 아닙니다. 그렇지만, Apple이 입장하였기에 이제 대중화의 원년이 되지 않을까 점쳐 봅니다.
Spatial Audio (공간 오디오)가 뭐길래?
Spatial Audio Coding (SAC)
15년 전으로 시계를 돌려 2005년. 세계의 오디오 전문가들이 모여 각축을 벌이는 MPEG 표준화 회의에서는 Spatial Audio Coding 이라는 표준 제정이 한참입니다. 바야흐로 Spatial Audio 시대가 될테니, 이를 잘 압축하여 전송할 수 있는 표준을 만들자는 프로젝트를 완수하고 있었던 것이죠. MPEG은 우리가 아직도 일상에서 늘 사용하는 MP3, AAC (Advanced Audio Coding)와 같은 오디오 코덱을 표준화하는 단체입니다(물론 동영상 코덱도…). 그런데, 당시로선 아무래도 대중에게 낯선 이름 Spatial Audio Coding 이라는 이름 대신, 이 표준은 곧 MPEG Surround (ISO/IEC 23003-1) 라는 이름으로 개명을 합니다. (🤔질문 1: 그럼, Spatial Audio 와 Surround는 같은 뜻?) 이 표준 자체는 아직(?) 시장에서 큰 재미를 보지 못하여, 상당히 괜찮은 이 기술은 누군가의 하드디스크에서 잠자고 있을 겁니다.
Spatial Audio Object Coding (SAOC)
MPEG의 오디오 전문가들은 Spatial Audio Coding (SAC)의 압축 원리를 조금 더 확장하여 오디오 객체(Object)를 잘 압축하고 전송하기 위한 새로운 표준 Spatial Audio Object Coding (SAOC, ISO/IEC 23003-2)를 곧바로(2007년 무렵) 제정합니다만, 역시 13년이 지난 아직까지 시장에서 큰 재미를 보지는 못하고 있고, 역시 누군가의 하드디스크에서 잘 쉬고 있을 것입니다.
Immersive Audio
그 사이 업계 전문가들은 시장에서 재미도 못보고 수그러든 Spatial Audio라는 네이밍 대신 Immersive Audio 라는 이름을 새로 꺼내듭니다. 극장 음향에서 천장에 스피커를 배치하여 소리의 방향감을 한차원 (수직차원)으로 높인 포맷을 설명하는데서 시작하여, VR, AR, XR로 대표되는 Immersive Media 시장이 급부상하면서 그에 맞는 오디오라는 의미로 활용된 듯 합니다. (Immersive를 우리말로 번역하기가 쉽지 않은데, “실감형“이라는 표현이 가장 좋겠으나 이 단어를 다른 의미로 이미 소진해버린 바람에 쓰지 못하고, “몰입형“이라고 번역하곤 하는 것 같습니다.) (🤔질문 2: 그럼, Spatial Audio와 Immersive Audio는 같은 뜻?)
3D (Three Dimensional) Audio
3차원 오디오라고 번역할 수 있겠죠. 소리가 표현하는 공간을 3차원으로 펼친 입체감을 의미하겠습니다. 1차원이란 선. 즉, 좌-우를 구분할 수 있는 스테레오로. 2차원이란 여기에 전-후를 구분할 수 있는 상태로 5.1채널 스피커를 통해 재생할 수 있는 공간으로 정의해볼 수 있습니다. 서라운드(Surround)라고 하면 2차원 공간을 의미합니다. 여기에 높이축(위-아래)을 더 한 것이 3차원입니다. 요즘 멀티채널 포맷으로 등장하는 5.1.2 채널, 7.1.4 채널이 3차원의 예입니다.
MPEG-H 3D Audio (ISO/IEC 23008-3)
MPEG의 그 오디오 전문가들은 시간이 흘러 2014년에 위와 같은 이름으로 표준을 만듭니다. 3D의 채널도, 객체도, 그리고 Ambisonics 라는 오디오 장면 신호도 모두 압축하고 표현할 수 있는 표준입니다. 3D라는 말이 이 표준의 정체성을 대표하는 dry한 기술용어 혹은 클래식한 용어 이기에 할말은 없습니다만, 뭔가 fancy한 느낌이 없습니다.
3D 오디오라는 말은 벌써 1960년대부터 등장했던 말이니까요… 아니나 다를까 요즘엔 그냥 MPEG-H Audio라고 표현하지 3D를 잘 안붙입니다.
MPEG-H Audio는 UHDTV 방송 시대를 겨냥해 그에 맞는 오디오를 정의하기 위해 만든 표준입니다. 현재 대한민국 지상파 UHDTV 방송 표준으로 사용되고 있으며, Tidal, Amazon Echo 등에서 객체(Object) 기반의 Immersive Audio를 위한 코덱으로 사용되고 있기도 합니다. 시장의 대체제로 Dolby의 AC4 (압축방식) + ATMOS (신호포맷) 이 있습니다. MPEG-H는 포맷과 압축방식(코덱)을 포괄하는 표준입니다.
Spatial Audio, Immersive Audio, 3D Audio 용어 정리
우리말로 번역하자면 공간 오디오, 몰입형 오디오, 3차원 오디오.결론부터 말씀 드리면 이 셋은 다 같은 말이라고 해야 혼동이 없습니다.
3D 오디오는 앞서 설명한대로 표현 그대로 3차원 공간을 표현하는 오디오인데, 일찍이 오디오 업계 선배들이 아직 진정한 의미의 3차원이 만들어지기도 전에, 3D Surround 뭐 이런식으로 3차원 오디오라는 용어 마케팅을 너무 일찍 사용해 버렸습니다. 그래서, 보통의 사람들에게 “3D 오디오 = 별것 아님“을 심어버린 것 같습니다. 다방커피, 믹스커피만 마시던 시절에 원래 커피는 그런거라고 생각했던 것과 비슷하달까요?다방커피와 구분하기 위해 “에스프레쏘“, “아메리카노“과 같은 다른 용어를 사용해야 하는 것과 유사하게 Spatial 이라는 말과 Immersive 라는 말을 각각 소환해 온 것 같습니다.
Spatial Audio (공간 오디오)는 3D Audio 와 의미 자체가 이미 동의어입니다. 그런데, Spatial Audio Coding 이라고 명명하던 시절에 5.1 채널 혹은 Surround (둘 다 2차원)를 표현하는데 써버리고 나니 역시나 다방커피 이미지를 벗어나지 못했던 것 같습니다.
Immersive 는 소리가 표현하는 공간, 차원이라는 기술적 정의 대신 그 소리를 듣는 사람의 입장에서 실체를 표현한 용어라 볼 수 있습니다. 명사형인 Immersion이 현실과 가상의 경계를 구분하기 어려운 상태를 의미하므로 Immersive Audio는 그럴 정도로 사실적인 오디오. 즉, 가상의 소리인데 우리가 주변에서 늘상 듣는 소리와 구분이 안되는 상태의 오디오라는 의미이고 가상 현실을 묘사하는 표현인 “Being There”를 실현하기 위한 오디오라고도 말할 수 있습니다. “Being There”의 Immersive를 실현하기 위해서 기술적으로는 3D 혹은 Spatial Audio 가 기본이겠죠.
다만, 여기서 한가지 더 고려할 점이 있습니다. VR이 등장하면서, 가상 세계의 3차원 공간에서 청취자(listener)인 “나”가 움직입니다. 나의 시점(perspective 혹은 head-orientation)이 Yaw-Pitch-Roll이라는 3축(3DOF; Degree-Of-Freedom)으로 변화하고, 나의 위치가 X-Y-Z의 3축으로 움직일 수 있습니다. 합쳐서 6축(6DOF)의 자유도가 있는데, 이렇게 자유롭게 활보하는 “나”의 위치와 시점에서 현실과 구분되지 않는 Immersive Audio를 제공해야합니다. 그래서, Immersive Audio는 다시 6DOF 오디오와 같은 의미를 가지게 됩니다. 청취자의 입장에서 보면 6DOF 환경에서의 3D Audio 혹은 Spatial Audio일 뿐입니다.
혹자가 Spatial Audio는 신호를 취득하는 방법을, Immersive Sound는 이 신호를 청취자에게 재현하는 과정을 의미하는 것으로 구별된다고 정의한 경우를 보았는데, 저는 이 구분에 동의하지 않습니다.
VR Audio, 360 Audio
그러니까 VR Audio는 VR을 위한 오디오라는 의미이자 6DOF의 자유도를 보장하는 Immersive Audio라고 말할 수 있겠습니다. 마찬가지로 360 Audio는 360 Video (VR의 서브카테고리로 360 캠을 이용해 촬영한 영상 따위를 말하며 고개 움직임에 대응하는 3DOF의 자유도를 가진 영상 포맷)에 대응하는 오디오로서 Immersive Audio의 일종이라고 말할 수 있겠습니다.
MPEG-I Immersive Audio
2014년에 MPEG-H 표준을 이미 마무리한 오디오 전문가들은 곧이어 MPEG-I 라는 프로젝트명으로 Immersive Audio 표준화에 착수하였습니다. VR, AR, XR 시대를 바라보며 6DOF 오디오를 실현하는 오디오 기술 표준인데, 그 시장이 좀 느린 관계로 본 글을 쓰는 2020년 11월 현재까지 몇 년이 흐르는 동안 아직 Exploration (아직 표준 요구사항을 확정하는 수준) 단계에 머물고 있습니다. MPEG-H 때 클래식한 3D Audio라는 용어를 소진한 덕분에 Immersive라는 단어가 살아 있었고(신의 한수?), 비로소 붙일 수 있게 된 것 같습니다. 후세에 이 이름을 너무 일찍 소진한거라는 평을 듣지는 않을런지 모르겠습니다.
MPEG 표준을 기준으로 보면, Spatial Audio (2005) ➡️ 3D Audio (2014) ➡️ Immersive Audio (2022 ?) 의 순서로 표준을 만든셈이기도 하네요. 이 글의 주장에 따르면 같은 용어인데… 이름이 동의어라고 해서 같은 기술에 대한 표준인 것이냐? 앞서 각 표준을 요약한대로 그렇지 않습니다만, 순서도 개념도 뒤죽박죽이라 시장에는 다분히 혼선을 빚을 것 같습니다.
다시 Apple의 Spatial Audio
다시 Apple의 Spatial Audio
애플이 iOS 판올림을 하면서 “Immersive Audio” 기능을 추가했다고 말했다면 정리가 좀 더 수월했을텐데, “Spatial Audio”라고 말하면서 꼬인 것 같습니다. 이름짓기 명수인 애플이 Spatial Audio 라는 단어를 택한 탓인지 지금은 Spatial Audio가 동의어 3총사 중에는 가장 쿨해 보이기도 합니다.
애플이 발표한 Spatial Audio는 5.1채널 이상의 멀티채널 오디오 신호나 객체신호로 구성된 오디오 포맷을 수신한 경우 Airpods Pro에 이미 내장되어 있던 IMU (자이로센서 등 고개 움직임을 인식할 수 있는 센서)로 탐지한 사용자의 고개 움직임에 반응하여 (현재는 3DOF만 제공) 동영상 속의 가상의 소리가 마치 아이폰속 공간에서 나오고 있는 듯한 착각을 실현하고 있습니다. 동영상 감상의 몰입감을 높여준 것이죠. 이것이 발표된 WWDC 2020 에서는 “극장 사운드를 에어팟안에 가져왔다“고 그 효용 가치를 설명하였는데, 이는 시작일 뿐. Apple 생태계 안에서 Spatial Audio의 쓸모는 앞으로 쭉쭉 확대될 것이라 확신합니다.
Apple이 열어젖힌 Spatial Audio 대중화 원년의 뒤를 이어 2021년에는 안드로이드계 스마트폰 주자들인 삼성, LG, Oppo, Vivo, Xiaomi, Huawei, … 모두 Spatial Audio 기능을 탑재한 제품들을 쏟아낼 것으로 감히 예상합니다.
Spatial Audio (or Immersive Audio or 3D Audio)가 주전공인 회사에서 Spatial Audio 시대의 도래를 앞두고 그 용어부터 정리해보자는 뜻으로 글을 시작했는데, 쓰고보니 오히려 혼동만 가중한 것 같은 죄책감이 듭니다. 용어도 이렇게 어려운데 제품으로 가면 머리가 더 아파집니다. 가우디오랩 안에서 열심히 정리중입니다.
2020.12.04