뒤로가기back

요즘 핫한 Spatial Audio

2020.12.04 by Henney Oh

요즘 핫한 Spatial Audio

12/03/2020

 

Spatial Audio. Apple이 입장했다. 주류시장이 될 것이다.

지난달(2020년 10월) iOS 업데이트로 iPhone과 Airpods Pro를 가진 사용자는 Spatial Audio라는 새로운 기능을 맛볼 수 있게 되었습니다. Airpods Pro를 귀에 꽂고 아이폰 화면으로 동영상을 시청하면, 그 소리가 아이폰에서 나오고 있는 것인지 귀에 착용된 이어폰에서 나오고 있는지 착각에 빠지는 신박한 체험을 할 수 있습니다. Apple 이 선보이는 많은 신기술이 그러했듯 Spatial Audio는 새로운 기술은 결코 아닙니다. 그렇지만, Apple이 입장하였기에 이제 대중화의 원년이 되지 않을까 점쳐 봅니다. 

 

Spatial Audio (공간 오디오)가 뭐길래?

 

Spatial Audio Coding (SAC)

15년 전으로 시계를 돌려 2005년. 세계의 오디오 전문가들이 모여 각축을 벌이는 MPEG 표준화 회의에서는 Spatial Audio Coding 이라는 표준 제정이 한참입니다. 바야흐로 Spatial Audio 시대가 될테니, 이를 잘 압축하여 전송할 수 있는 표준을 만들자는 프로젝트를 완수하고 있었던 것이죠. MPEG은 우리가 아직도 일상에서 늘 사용하는 MP3, AAC (Advanced Audio Coding)와 같은 오디오 코덱을 표준화하는 단체입니다(물론 동영상 코덱도…). 그런데, 당시로선 아무래도 대중에게 낯선 이름 Spatial Audio Coding 이라는 이름 대신, 이 표준은 곧 MPEG Surround (ISO/IEC 23003-1) 라는 이름으로 개명을 합니다. (🤔질문 1: 그럼, Spatial Audio 와 Surround는 같은 뜻?) 이 표준 자체는 아직(?) 시장에서 큰 재미를 보지 못하여, 상당히 괜찮은 이 기술은 누군가의 하드디스크에서 잠자고 있을 겁니다.

 

Spatial Audio Object Coding (SAOC)

MPEG의 오디오 전문가들은 Spatial Audio Coding (SAC)의 압축 원리를 조금 더 확장하여 오디오 객체(Object)를 잘 압축하고 전송하기 위한 새로운 표준 Spatial Audio Object Coding (SAOC, ISO/IEC 23003-2)를 곧바로(2007년 무렵) 제정합니다만, 역시 13년이 지난 아직까지 시장에서 큰 재미를 보지는 못하고 있고, 역시 누군가의 하드디스크에서 잘 쉬고 있을 것입니다.

 

Immersive Audio

그 사이 업계 전문가들은 시장에서 재미도 못보고 수그러든 Spatial Audio라는 네이밍 대신 Immersive Audio 라는 이름을 새로 꺼내듭니다. 극장 음향에서 천장에 스피커를 배치하여 소리의 방향감을 한차원 (수직차원)으로 높인 포맷을 설명하는데서 시작하여, VR, AR, XR로 대표되는 Immersive Media 시장이 급부상하면서 그에 맞는 오디오라는 의미로 활용된 듯 합니다. (Immersive를 우리말로 번역하기가 쉽지 않은데, “실감형“이라는 표현이 가장 좋겠으나 이 단어를 다른 의미로 이미 소진해버린 바람에 쓰지 못하고, “몰입형“이라고 번역하곤 하는 것 같습니다.) (🤔질문 2: 그럼, Spatial Audio와 Immersive Audio는 같은 뜻?)

 

3D (Three Dimensional) Audio 

3차원 오디오라고 번역할 수 있겠죠. 소리가 표현하는 공간을 3차원으로 펼친 입체감을 의미하겠습니다. 1차원이란 선. 즉, 좌-우를 구분할 수 있는 스테레오로. 2차원이란 여기에 전-후를 구분할 수 있는 상태로 5.1채널 스피커를 통해 재생할 수 있는 공간으로 정의해볼 수 있습니다. 서라운드(Surround)라고 하면 2차원 공간을 의미합니다. 여기에 높이축(위-아래)을 더 한 것이 3차원입니다. 요즘 멀티채널 포맷으로 등장하는 5.1.2 채널, 7.1.4 채널이 3차원의 예입니다.

 

MPEG-H 3D Audio (ISO/IEC 23008-3)

MPEG의 그 오디오 전문가들은 시간이 흘러 2014년에 위와 같은 이름으로 표준을 만듭니다. 3D의 채널도, 객체도, 그리고 Ambisonics 라는 오디오 장면 신호도 모두 압축하고 표현할 수 있는 표준입니다. 3D라는 말이 이 표준의 정체성을 대표하는 dry한 기술용어 혹은 클래식한 용어 이기에 할말은 없습니다만, 뭔가 fancy한 느낌이 없습니다.

 

3D 오디오라는 말은 벌써 1960년대부터 등장했던 말이니까요… 아니나 다를까 요즘엔 그냥 MPEG-H Audio라고 표현하지 3D를 잘 안붙입니다.

 

MPEG-H Audio는 UHDTV 방송 시대를 겨냥해 그에 맞는 오디오를 정의하기 위해 만든 표준입니다. 현재 대한민국 지상파 UHDTV 방송 표준으로 사용되고 있으며, Tidal, Amazon Echo 등에서 객체(Object) 기반의 Immersive Audio를 위한 코덱으로 사용되고 있기도 합니다. 시장의 대체제로 Dolby의 AC4 (압축방식) + ATMOS (신호포맷) 이 있습니다. MPEG-H는 포맷과 압축방식(코덱)을 포괄하는 표준입니다.

 

 

Spatial Audio, Immersive Audio, 3D Audio 용어 정리 

우리말로 번역하자면 공간 오디오, 몰입형 오디오, 3차원 오디오.
결론부터 말씀 드리면 이 셋은 다 같은 말이라고 해야 혼동이 없습니다.

 

3D 오디오는 앞서 설명한대로 표현 그대로 3차원 공간을 표현하는 오디오인데, 일찍이 오디오 업계 선배들이 아직 진정한 의미의 3차원이 만들어지기도 전에, 3D Surround 뭐 이런식으로 3차원 오디오라는 용어 마케팅을 너무 일찍 사용해 버렸습니다. 그래서, 보통의 사람들에게 “3D 오디오 = 별것 아님“을 심어버린 것 같습니다. 다방커피, 믹스커피만 마시던 시절에 원래 커피는 그런거라고 생각했던 것과 비슷하달까요?
다방커피와 구분하기 위해 “에스프레쏘“, “아메리카노“과 같은 다른 용어를 사용해야 하는 것과 유사하게 Spatial 이라는 말과 Immersive 라는 말을 각각 소환해 온 것 같습니다.

 

Spatial Audio (공간 오디오)는 3D Audio 와 의미 자체가 이미 동의어입니다. 그런데, Spatial Audio Coding 이라고 명명하던 시절에 5.1 채널 혹은 Surround (둘 다 2차원)를 표현하는데 써버리고 나니 역시나 다방커피 이미지를 벗어나지 못했던 것 같습니다. 

 

Immersive 는 소리가 표현하는 공간, 차원이라는 기술적 정의 대신 그 소리를 듣는 사람의 입장에서 실체를 표현한 용어라 볼 수 있습니다. 명사형인 Immersion이 현실과 가상의 경계를 구분하기 어려운 상태를 의미하므로 Immersive Audio는 그럴 정도로 사실적인 오디오. 즉, 가상의 소리인데 우리가 주변에서 늘상 듣는 소리와 구분이 안되는 상태의 오디오라는 의미이고 가상 현실을 묘사하는 표현인 “Being There”를 실현하기 위한 오디오라고도 말할 수 있습니다. “Being There”의 Immersive를 실현하기 위해서 기술적으로는 3D 혹은 Spatial Audio 가 기본이겠죠. 

 

다만, 여기서 한가지 더 고려할 점이 있습니다. VR이 등장하면서, 가상 세계의 3차원 공간에서 청취자(listener)인 “나”가 움직입니다. 나의 시점(perspective 혹은 head-orientation)이 Yaw-Pitch-Roll이라는 3축(3DOF; Degree-Of-Freedom)으로 변화하고, 나의 위치가 X-Y-Z의 3축으로 움직일 수 있습니다. 합쳐서 6축(6DOF)의 자유도가 있는데, 이렇게 자유롭게 활보하는 “나”의 위치와 시점에서 현실과 구분되지 않는 Immersive Audio를 제공해야합니다. 그래서, Immersive Audio는 다시 6DOF 오디오와 같은 의미를 가지게 됩니다. 청취자의 입장에서 보면 6DOF 환경에서의 3D Audio 혹은 Spatial Audio일 뿐입니다. 

 

혹자가 Spatial Audio는 신호를 취득하는 방법을, Immersive Sound는 이 신호를 청취자에게 재현하는 과정을 의미하는 것으로 구별된다고 정의한 경우를 보았는데, 저는 이 구분에 동의하지 않습니다.

 

VR Audio, 360 Audio 

그러니까 VR Audio는 VR을 위한 오디오라는 의미이자 6DOF의 자유도를 보장하는 Immersive Audio라고 말할 수 있겠습니다. 마찬가지로 360 Audio는 360 Video (VR의 서브카테고리로 360 캠을 이용해 촬영한 영상 따위를 말하며 고개 움직임에 대응하는 3DOF의 자유도를 가진 영상 포맷)에 대응하는 오디오로서 Immersive Audio의 일종이라고 말할 수 있겠습니다.

 

MPEG-I Immersive Audio 

2014년에 MPEG-H 표준을 이미 마무리한 오디오 전문가들은 곧이어 MPEG-I 라는 프로젝트명으로 Immersive Audio 표준화에 착수하였습니다. VR, AR, XR 시대를 바라보며 6DOF 오디오를 실현하는 오디오 기술 표준인데, 그 시장이 좀 느린 관계로 본 글을 쓰는 2020년 11월 현재까지 몇 년이 흐르는 동안 아직 Exploration (아직 표준 요구사항을 확정하는 수준) 단계에 머물고 있습니다. MPEG-H 때 클래식한 3D Audio라는 용어를 소진한 덕분에 Immersive라는 단어가 살아 있었고(신의 한수?),  비로소 붙일 수 있게 된 것 같습니다. 후세에 이 이름을 너무 일찍 소진한거라는 평을 듣지는 않을런지 모르겠습니다.

 

MPEG 표준을 기준으로 보면, Spatial Audio (2005) ➡️ 3D Audio (2014) ➡️ Immersive Audio (2022 ?) 의 순서로 표준을 만든셈이기도 하네요. 이 글의 주장에 따르면 같은 용어인데… 이름이 동의어라고 해서 같은 기술에 대한 표준인 것이냐? 앞서 각 표준을 요약한대로 그렇지 않습니다만, 순서도 개념도 뒤죽박죽이라 시장에는 다분히 혼선을 빚을 것 같습니다.

 

다시 Apple의 Spatial Audio

다시 Apple의 Spatial Audio

 

애플이 iOS 판올림을 하면서 “Immersive Audio” 기능을 추가했다고 말했다면 정리가 좀 더 수월했을텐데, “Spatial Audio”라고 말하면서 꼬인 것 같습니다. 이름짓기 명수인 애플이 Spatial Audio 라는 단어를 택한 탓인지 지금은 Spatial Audio가 동의어 3총사 중에는 가장 쿨해 보이기도 합니다. 

 

애플이 발표한 Spatial Audio는 5.1채널 이상의 멀티채널 오디오 신호나 객체신호로 구성된 오디오 포맷을 수신한 경우 Airpods Pro에 이미 내장되어 있던 IMU (자이로센서 등 고개 움직임을 인식할 수 있는 센서)로 탐지한 사용자의 고개 움직임에 반응하여 (현재는 3DOF만 제공) 동영상 속의 가상의 소리가 마치 아이폰속 공간에서 나오고 있는 듯한 착각을 실현하고 있습니다. 동영상 감상의 몰입감을 높여준 것이죠. 이것이 발표된 WWDC 2020 에서는 “극장 사운드를 에어팟안에 가져왔다“고 그 효용 가치를 설명하였는데, 이는 시작일 뿐. Apple 생태계 안에서 Spatial Audio의 쓸모는 앞으로 쭉쭉 확대될 것이라 확신합니다. 

 

Apple이 열어젖힌 Spatial Audio 대중화 원년의 뒤를 이어 2021년에는 안드로이드계 스마트폰 주자들인 삼성, LG, Oppo, Vivo, Xiaomi, Huawei, … 모두 Spatial Audio 기능을 탑재한 제품들을 쏟아낼 것으로 감히 예상합니다.

 

Spatial Audio (or Immersive Audio or 3D Audio)가 주전공인 회사에서 Spatial Audio 시대의 도래를 앞두고 그 용어부터 정리해보자는 뜻으로 글을 시작했는데, 쓰고보니 오히려 혼동만 가중한 것 같은 죄책감이 듭니다. 용어도 이렇게 어려운데 제품으로 가면 머리가 더 아파집니다. 가우디오랩 안에서 열심히 정리중입니다.

pre-image
뜨거운 여름밤은 가고 남은건..? [Randy의 가우디오랩 인턴쉽 회고]

뜨거운 여름밤은 가고 남은건..? Randy의 가우디오랩 인턴쉽 회고 작성자 | 랜디   안녕하세요. 가우디오랩에서 3개월간 Software engineer intern으로 생활한 Randy입니다. 지금은 인턴쉽을 마무리 하고, 정규 가우딘으로 D1팀(개발팀)에서 SW 개발을 하고 있습니다. 말 그대로 폭풍 처럼 지나간 지난 여름 가우디오랩에서 보낸 시간을 돌아보기 위해, 그리고 가우디오가 궁금한 미래의 가우딘들을 위해 짧게나마 인턴쉽 후기를 작성하게 되었습니다.   (SW 개발자로 근무하였기 때문에, ‘신입 개발자가 느낀 가우디오랩’ 이라는 관점으로 봐주시면 감사 드리겠습니다.)   가우디오랩에 승선하게 된 계기 대학교 4학년 재학 중 인턴쉽을 수행하기 위해서 ‘프로그래머스’에서 진행하는 섬머 코딩 챌린지에 참가하였습니다. 코딩테스트를 합격 하고 5개 기업에 지원서를 제출하였는데요. 평소 오디오와 악기연주를 좋아하던 저에게 전공과 취미를 모두 살릴 수 있는 가우디오랩이 매력적으로 다가왔습니다. 지원한 기업 중 마음 속 ‘1픽’ 이었던 가우디오랩에 합격하게 되어 아직도 가끔 얼떨떨 하기도 해요.   가우디오랩? D1? 가우디오랩은 오디오 기술을 통해 훌륭한 소리 경험을 제공하는 오디오 전문 기술 스타트업 입니다. OTT, 뮤직 스트리밍, 스마트폰, 영화, VR/AR 등 소리 경험이 존재하는 모든 곳에 오디오 기술 솔루션을 제공하고 있습니다.   D1팀은 가우디오랩의 오디오 솔루션을 SDK등의 Software Product로 개발하는 일을 하고 있습니다. 오디오 알고리즘을 제품화 하고, 다양한 플랫폼에 최적화 하고, 어플리케이션을 개발 합니다. 저는 인턴기간 동안 D1팀에서 DAW(Digital Audio Workstation)에서 동작하는 오디오 Plug-Ins Application 을 개발하는 업무를 진행 하였습니다.   인턴기간동안 어떤 일을 했는지? 그 소감은? 위에서 말씀드린 것 처럼 저는 인턴기간 동안 오디오 플러그인을 개발하는 업무를 수행했습니다. 플러그인의 Front-end를 개발하고, Model 설계, 오디오 라이브러리를 플러그인과 linking하는 코드를 작성 하였습니다.    많은 분들이 인턴십을 시작 하실때 걱정하시는 것처럼, 저 또한 인턴십을 시작 할 때 여러가지 부분을 걱정 했었습니다. 혹여나 비중이 작거나 스터디 위주의 업무 구성으로 성장하지 못한다거나, 업무가 주어졌지만 가이드라인이나 멘토링 없이 진행되어 무지의 세계에서 허덕이지는 않을지 걱정 하였지만 인턴쉽 업무를 수행하면서 이러한 걱정들은 말끔히 사라졌습니다.   우선 인턴이라고 해서 작은 일을 배정받거나 실무와 동떨어진 일을 배정받지 않았습니다. 적절한 onboarding기간을 거친 후 실무에 투입 되었으며, 정규 가우딘과 동일하게 대우받으며 업무를 수행할 수 있었습니다.     또한 멘토와 함께 업무를 진행하면서 많은 도움을 받을 수 있었습니다. “어떠한 질문도 수용하는 회사” 를 추구하는 가우디오랩 철학에 걸맞게 저의 수많은 질문공세 속에서도 멘토인 Alan은 차분하게 답을 알려주거나 같이 고민해 주었습니다.   가우디오랩에서 인상 깊었던 점 가우딘으로 생활하면서 저는 3가지 인상깊은 점이 있었습니다.   첫 번째는 가우디오랩의 복지 철학 이었습니다. 가우디오는 자율 출퇴근 및 카페,재택 근무는 물론 금액 상한 없는 식사비 전액 지원, 의료비, 건강검진, 안식년, 자기계발비 등 많은 복지 제도가 있습니다.   입사 하기 전, 저는 기업들의 복지 제도는 기업이 임직원에게 제공하는 ‘서비스‘라고 생각했었습니다.자사 제품을 저렴하게 구매할 수 있거나 하는등의 복지가 업무 효율에는 직접적인 영향을 미치지 않는다고 생각했기 때문입니다. 하지만 가우디오에서 복지 제도를 경험하면서 복지 제도는 업무 효율과 생산성을 향상을 위한 ‘장치‘라고 생각하게 되었습니다.  업무 외적인 부분이지만 업무에 지장을 줄 수 있거나 불필요한 스트레스를 유발하는 요소를 복지라는 장치로 해결하는 가우디오의 문화 속에서 눈치 보지 않고 자유롭고 효율적으로 근무할 수 있었습니다.(비공식 최고 기록인 10kg증량은 덤.)   특히 기억에 남는 제도는 BOF 활동(사내 동아리 활동) 이었습니다. 1인당 10만원이 넘는 금액을 지원받으며 친목을 다지는 활동을 통해, 업무적으로 거리가 먼 가우딘들과 가까워 질 수 있는 계기가 되었습니다. 또한 취미활동을 공유하면서 회사에서 알지 못했던 모습들을 볼 수 있는 계기가 되었습니다. 개인적으로 저는 방탈출 카페를 200회 이상 방문했을 정도로 방탈출 마니아 인데, BOF 활동에서 가우딘들과 함께 협업하여 방탈출을 하면서 보다 더 끈끈해지기도 하였습니다. 돌아보면 가우디오를 지탱하고 있는 탄탄한 조직문화는 이러한 활동들이 하나 둘씩 모여서 큰 줄기를 이루고 있지 않나 생각이 듭니다.   두 번째는 수평적 조직 문화와 권한 위임 입니다. 가우디오는 영어이름을 사용하며 직급은 존재하지 않습니다.게다가 어느 누구라도 본인의 생각과 견해를 말할 수 있고, 말해야만 합니다.누군가는 별 것 아닌 것이라 생각 할 수 있지만, “대표님” 이 아니라 “Henney” 라고 부를 수 있고, 불러야 하는 문화는 생각보다 불필요한 장벽을 많이 허물 수 있다는 것을 깨달았습니다.   또한 수평적 조직 문화가 가져올 수 있는 업무의 비효율성이나 책임 소재의 불분명함을 가우디오랩에선 권한 위임을 통해 해결한 것이 인상 깊었습니다. ‘대리‘,’과장‘같은 직급은 없지만 PM(Project Manager), PO(Product Owner), CSO, CTO, VP of Engineering 등의 리더십은 존재합니다. 리더십에게 가우딘들이 동일하게 가진 권한을 ‘위임‘하였기 때문에 책임자가 분명하며, 빠른 의사결정과 빠른 실행이 가능했습니다. 그와 동시에 아이디어를 가진 가우딘이면 누구든 권한을 위임 받아 업무를 진행할 수 있기 때문에 ‘수평적 조직 문화‘와 ‘수직적 조직 구조‘가 적절하게 균형을 이루고 있다는 것을 느낄 수 있었습니다. 인턴 근무 중 제가 제안한 소프트웨어 설계 방식이나 함수 디자인 등이 실제 제품 개발에 반영 되었을 때 이러한 점이 피부로 와 닿았습니다.   세 번째는 개발자들의 성장을 추구하는 방식 입니다. 많은 회사들이 ‘성장‘이라는 키워드를 너도나도 앞다투어 얘기하지만, ‘성장통’을 이야기하는 회사는 많지 않습니다. 가우디오랩의 D1팀은 개인과 팀의 성장을 도모하면서 성장통을 분담하는 문화를 가지고 있습니다. 애자일 개발 방법론에 따른 스크럼 등의 개발 문화는 물론, 서로 알려주고 배우는 문화가 잘 정착되어 있어서 인턴 기간 동안 혼자 끙끙대거나 과도한 시간을 할애하지 않고, 다른 가우딘에게 물어보면서 배워나갈 수 있었습니다. 반대로 제가 무언갈 알려줄 때에도, 무시하지 않고 호기심을 가지고 들어 주기도 하였습니다. 자신이 하고 있는 업무랑은 무관한 내용의 질문에도 어느샌가 의자를 가져와 옆에 앉아서 설명하는 가우딘들을 볼 때면 함께 성장하고 있다는 느낌을 받곤 했습니다.   앞으로의 계획 저의 개발자로서의 목표는 ‘세상을 보다 편리하게 만드는 일에 기여한다.’ 라는 것 입니다. 대학 시절 어떤 개발자가 되어야 하는지 고민하던 도중, ‘구글은 SKY를 모른다‘의 저자 이준영 구글 엔지니어에게 메일을 보냈을 때 돌아온 답장에 적힌 말이기도 합니다. 가우디오에서 이러한 목표는 ‘세상 사람들에게 훌륭한 소리 경험을 제공하는 일에 기여한다.’ 라고 구체화 되었어요.     “길이 이끄는 대로 가지 마라. 대신 길이 없는 곳으로 가서 발자국을 남겨라” , R. W. 에머슨    이 말 처럼 앞으로 좋은 소리를 위한 가우디오의 항해에서 족적을 남길 수 있는 가우딘이 되고자 합니다.    3개월이라는 길다면 긴, 짧다면 짧을 수 있는 시간 동안 많이 도와주신 모든 가우딘 분들에게 감사 드립니다. 앞으로 새롭게 시작 될 저의 가우딘 생활도 많이 응원해주세요!   Gaudio, Go Go Go !  

2020.10.27
after-image
AirPods Max 출시와 함께 성큼 다가온 Spatial Audio 시대

AirPods Max 출시와 함께 성큼 다가온 Spatial Audio 시대 2021/02/09   Hello, AirPods Max! Apple의 첫 오버이어 헤드폰으로 시장의 주목을 한 몸에 받았던 에어팟 맥스(AirPods Max)가 한국 출시를 본격화하며 구매자들이 속속 제품을 받아보고 있다는 소식이 들리고 있습니다. Apple은 이번 에어팟 맥스 출시를 통해, 기존 에어팟 시리즈로 장악한 무선 이어폰 시장을 뛰어넘어 고성능 헤드폰 시장에서도 뜨거운 반응을 얻고 있습니다. 스마트폰과 불가분의 관계인 오디오 디바이스까지 장악하며 Apple 생태계에 소비자들을 더욱 꽉 락인(Lock-in)하고 있는 것 같네요. 이번 출시와 함께, 작년 10월 iOS 업데이트를 통해 본격적으로(어쩌면 비로소..) 사용자들의 이목을 끈 스페이셜 오디오(Spatial Audio, 공간 음향) 기술 또한 시장의 기대감을 한껏 끌어올리고 있습니다.   스페이셜 오디오(Spatial Audio), 익숙하지만 조금은 낯선 기술입니다. 스페이셜 오디오, 서라운드 사운드, 3D 사운드, 공간 음향… 많은 단어들로 면면의 장점을 맘껏 뽐내며 우리를 헷갈리게 하기도 합니다. 얼마 전 헤니가 스페이셜 오디오를 칭하는 말들에 대해 깔-끔하게 정리해 주신 적도 있었죠. 그래서 대체 스페이셜 오디오는 어떤 기술이길래 콘텐츠 제작자와 이용자 모두를 설레게 하는 걸까요? 오디오 초보 Dewey가 가우디오랩의 다정한 선생님이자 음향공학박사님 James를 조금 많이 귀찮게 한 뒤 나름대로 정리해봤습니다.   우리는 귀로도 봅니다. 잠깐. 잠시 눈을 지긋이 감고 주변의 소리에 귀를 기울여볼까요? 마치 여러 갈래의 소리가 나를 감싸고 있는듯한 느낌이 듭니다. 저는 지금 우도(가우디오의 아늑한 라운지이자 맥주가 화수분처럼 솟아나는 마법의 장소..)에 앉아서 잠시 눈을 감고 있습니다. 제 머리 앞쪽에서는 냉장고 소리가, 오른 편에서는 잔잔한 음악소리가, 왼쪽~뒤편 저 멀리서는 어느 가우딘의 작은 기침소리도 들리네요. 굳이 눈을 떠 두리번거리지 않아도, 우리는 청각을 통해 주변에서 일어나는 소리를 느끼고 그 위치를 머릿속에 대략적으로나마 그려낼 수 있습니다.   지금 제가 한 이 과정을 이어폰/헤드폰을 통해 나오는 소리로도 느낄 수 있도록 하는 소리 신호 전달 기술, 한 점을 기준으로 주변의 소리가 어디서 어떻게 나는 지를 잘 표현해서 듣는 사람이 마치 실제 그 공간 안에 있는 듯하게 만들어 주는 기술, 그것이 바로 스페이셜 오디오입니다. 덕분에 뒤통수 바로 뒤에서 펑! 하고 폭탄이 터지는 듯한 소리를 뿜어내는 영화 속 한 씬, 적막한 오케스트라 협연 공연장 안에 앉아 아주 작은 공기까지도 피부로 느낄 수 있는 실재감을 체험할 수 있게 되죠.   스페이셜 오디오, 어떤 원리를 숨기고 있는 걸까? 앞서 스페이셜 오디오는 소리라는 재료를 활용해 이어폰/헤드폰을 착용한 사용자의 귓속에 새로운 공간을 그려내고, 마치 그 공간 안에 사용자가 존재하는 것처럼 느끼게 해주는 기술이라고 말씀드렸습니다. 이 공간을 그려내려면 몇 가지 기준점이 필요한데요. 바로 나(청자이자 기준점), 나의 주변 공간, 그리고 각 소리들의 위치가 됩니다. 기준점을 중심으로 어느 방향에서 소리가 나는지를 파악해야, 오디오 기술을 통해 그 위치 그대로 사용자의 귓속에서 소리를 그려낼 수 있기 때문입니다.   고로, 스페이셜 오디오 구현의 중요한 기술은 소리의 위치를 파악(Localization)하고 바이노럴 렌더링(Binaural Rendering: 소리 신호가 두 귀로 흘러오기까지의 모든 프로세스)을 통해 양쪽 귀로 전달하는 것이 됩니다. 이 소리 산출물의 퀄리티를 좌우하는 요소 중 하나는 바로 HRTF(Head Related Transfer Function: 머리전달함수)와 BRIR(Binaural Room Impulse Response: 양이공간충격응답)인데요, HRTF는 특정 위치의 소리가 청자에게 전달 될 때의 전달 경로 및 소리가 청자의 머리와 귀의 위치에 따라 어떻게 변하는지에 대한 정보, BRIR는 최단 경로를 통해 전달되는 직접음 뿐만 아니라 공간 상에서 발생하는 반사음들이 사용자의 양쪽 귀에 어떻게 변경되어 전달되는지에 대한 정보를 필터의 형태로 나타낸 것이라고 말씀드릴 수 있습니다.     HRTF/BRIR 필터에 대해 조금 더 설명하자면… 청자의 주변을 360도의 구형으로 가정한 뒤 이 구형을 아주 세밀한 격자무늬로 쪼개서 각각의 조각으로 나눈다고 상상하면, 우리는 소리가 나는 곳의 위치를 많은 격자들 중 한 지점으로 가정해볼 수 있습니다. 어떤 음원을 이어폰/헤드폰으로 들었을 때 ‘바로 그’ 지점에서 소리가 나는 것처럼 들려주기 위해, 음원을 특정 필터에 필터링을 하게 되는데요, 이때 음원의 위치에 대한 정보를 전달하기 위해 사용되는 것이 HRTF 필터입니다. 스페이셜 오디오를 구현하는 첫 번째 과정에서는 소리를 공간 상의 특정 방향에 배치하는 것이 필수적이기 때문이죠.   그런데 HRTF는 방향에 대한 정보를 주지만, 그 공간을 모사하고 있지는 않습니다. 우리가 일상생활에서 듣는 소리에는 직접음 외에도 벽이나 주변 구조물에 부딪혀 튀어나오는 수많은 반사음들이 있습니다. 나무로 된 교실, 도톰한 커튼이 쳐져 있는 방안, 유리벽으로 둘러싸인 사무실… 각 공간의 특성마다 반사되어 나오는 소리가 달라지게 마련이죠. 이러한 공간에 대한 정보와 특성을 전달하는 것이 바로 BRIR 필터의 역할입니다. (하지만 우리 주변의 공간이란 너무나 다양하기 때문에 완벽히 해당 공간의 특성을 담는 것은 매우 어려운 일이긴 합니다.)   필터링을 통해 신호를 합성하는 과정은 청자가 실제 소리처럼 느끼게 하는 데 많은 직간접적인 역할을 하기 때문에, 이 필터는 스페이셜 오디오의 최종 품질을 좌우하는 중요한 요소라고 말씀드릴 수 있습니다.   고개를 돌릴 때마다 소리 위치가 더 생생하게 느껴져! 소리의 위치파악(Localization)이 되었다면, 우리는 공간 상에 정위된 소리와 상호작용(interactivity)을 할 수 있습니다. 에어팟 맥스, 에어팟 프로 등 스페이셜 오디오를 지원하는 TWS(True Wireless Stereo) 내부에 심어진 자이로스코프 센서(Gyroscope Sensor)가 우리의 위치 및 움직임을 파악해 주는 덕분이죠. 고개를 좌우로 돌리는 움직임에 따라 변하는 귀의 위치 및 사용자의 움직임을 TWS 속 자이로센서가 인식하고, 이미 파악해 둔 소리 재료의 위치 정보를 활용해 고개의 움직임에 맞게 실시간으로 소리를 배치해 표현해 줍니다.   네, 이것이 그 유명한 헤드 트래킹(Head Tracking)이죠. 각각의 소리 재료들이 내 움직임을 따라 실시간으로 버무려지며, 소리와 내 고개가 즉각적으로 씽크(Sync)되는 느낌을 받게 됩니다. 스페이셜 오디오를 지원하는 콘텐츠를 볼 때 내 고개의 움직임과 영상의 소리가 매우 잘 호응하며 마치 내가 그 현장에 있는 것 같은 몰입감을 선사하는 것은 바로 이 때문입니다.    아하, 그럼 스페이셜 오디오는 에어팟 맥스가 TOP? 소리가 내 귀로 들어오는 과정에 대해 James에게 자꾸 묻다 보니 뭔가 더 궁금해집니다. 대체 우리 귀는 어떻게 소리의 위치를 파악할 수 있는 것일까요? 정답은 귀의 생김새와 구조에 있습니다. 얼굴 양옆으로 빼꼼히 나와있는 귀와 제각각 다이나믹하게 생긴 귓바퀴는 우리가 소리의 상하, 전후, 좌우까지 파악할 수 있게 합니다.   어? 그런데 에어팟 프로는 커널형으로 귓속에 유닛이 쏙 들어와 있지만, 반대로 에어팟 맥스는 귀를 완전히 덮는 오버이어 헤드폰인데..? 무언가 차이가 있지 않을까요?   실제로 스페이셜 오디오는 에어팟 맥스보다는, 귓바퀴를 통과하지 않는 에어팟 프로에서 더 잘 기능하는 것 같다는 반응들도 있습니다. 에어팟 프로를 착용하게 되면(귓속으로 쏙!), 소리가 귓바퀴를 돌아 들어가며 생길 수 있는 리버브와 원치 않는 간섭 요소를 방지할 수 있기 때문이죠.   단정 지어 말하긴 어렵지만, 에어팟 맥스와 에어팟 프로를 비교해봤을 때 스페이셜 오디오 기능은 에어팟 프로에서 조금 더 잘 느껴지는 것 같다- 고 반응할 가능성이, 흔히들 말하는 음질은 오버이어 구조의 에어팟 맥스가 좀 더 좋다- 고 느낄 가능성이 더 높겠네요!   그렇지만, 내 주머니에는 둘 다 없는데.. 네, 제 얘기입니다. 저는 에어팟 구형 모델을 사용하고 있기 때문에 자이로센서가 탑재된 TWS가 없습니다. 자이로센서를 탑재한 TWS가 없다면 내 위치 정보를 전송해 줄 지원군이 없기 때문에 아쉽지만 인터랙티비티는 포기해야 할 수밖에 없습니다.   사실 우리의 고개는 소리의 앞, 뒤가 불분명할 때 이를 정확히 파악해주는 역할도 담당하고 있습니다. 우리는 무의식 중에라도 들려오는 소리의 위치를 파악하기 위해 미세하더라도 고개를 돌리곤하거든요. 고개의 움직임을 통해 아주 작은 음압과 음색의 변화를 알아챌 수 있습니다. 때문에 공간 음향 구현에 자이로센서의 유무가 미치는 영향은 차원이 다를 수 밖에 없죠.    아쉽지만 에어팟 맥스, 에어팟 프로, 갤럭시 버즈 프로 등 헤드 트래킹을 지원하는 장치가 없는 경우, 제한적으로나마 스페이셜 오디오 기능을 느껴볼 수 있는 방법이 있습니다. 바로 스페이셜 업믹스(Spatial Upmix)를 장착하는 것이죠.   스페이셜 업믹스는 기존의 스테레오 사운드(2ch)를 구성하고 있는 요소들을 분석한 뒤, 가상의 공간에 각 소리 요소를 배치하여 기존에는 없던 공간감을 만들어 주는 기술입니다. 스테레오 채널에 욱여 넣어진 사운드를 다시 넓은 공간에 재배치해 주는, 말 그대로 공간 내에서 채널 자체를 업믹스(Upmix) 해주는 신호처리 기술이죠. 작년에 LG 벨벳에서도 가우디오랩의 SU를 적극 탑재하기도 했습니다. 글로만 봐서는 잘 모르시겠다고요? 아래 영상을 보면 한 번에 느끼실 수 있을 거예요.      본격 스페이셜 오디오 시대의 문, Apple이 활짝 열었다 Apple이 본격적인 스페이셜 오디오 시대를 열면서, 삼성전자, VIVO 등 세계적인 스마트폰 제조사에서도 이 흐름에 적극 편승하고 있습니다. 앞으로 출시되는 TWS를 포함한 오디오 장치들도 대부분 자이로센서를 탑재해 스페이셜 오디오를 기본적으로 지원하게 될 것으로 예상됩니다. 스마트폰과 오디오 디바이스 모두 스페이셜 오디오 시장에 발을 내디뎠으니, 이제 OTT 서비스와 스트리밍 서비스 등 콘텐츠 업계도 한 겹 더 풍성해질 일만 남았네요.   콘텐츠 헤비 유저인 제게 스페이셜 오디오는 매우 즐겁고 기대되는 흐름입니다. 이 기술을 통해 우리는 콘텐츠를 다양한 방식으로, 각자 원하는 깊이대로, 보다 높은 퀄리티로 즐길 수 있게 되었습니다. 유명 해외 아티스트의 공연을 내 방에서 즐길 수 있는 방구석 1열 콘텐츠, 중앙 VIP석과 2층 발코니석 을 맘대로 선택해서 볼 수 있는 뮤지컬 공연까지! 스페이셜 오디오가 불러올 짜릿한 콘텐츠 시장의 물결이 한껏 기대되는 요즘입니다.   ‘최고의 소리를 경험한 사용자는 이전의 낡은 소리로는 돌아가지 못한다’라고들 하죠? 앞으로 콘텐츠 소비 경험 자체에 대한 사용자들의 안목과 기준도 점점 더 높아지고 구체화될 것 같습니다. 이미 오래전부터 스페이셜 오디오 기술을 갖고 있었던 가우디오랩은 누구보다 앞서 더 좋은 소리 경험을 제공하기 위해 열심히 달리고 있답니다!  

2021.02.09