AirPods Max 출시와 함께 성큼 다가온 Spatial Audio 시대
AirPods Max 출시와 함께 성큼 다가온 Spatial Audio 시대
2021/02/09
Hello, AirPods Max!
Apple의 첫 오버이어 헤드폰으로 시장의 주목을 한 몸에 받았던 에어팟 맥스(AirPods Max)가 한국 출시를 본격화하며 구매자들이 속속 제품을 받아보고 있다는 소식이 들리고 있습니다. Apple은 이번 에어팟 맥스 출시를 통해, 기존 에어팟 시리즈로 장악한 무선 이어폰 시장을 뛰어넘어 고성능 헤드폰 시장에서도 뜨거운 반응을 얻고 있습니다. 스마트폰과 불가분의 관계인 오디오 디바이스까지 장악하며 Apple 생태계에 소비자들을 더욱 꽉 락인(Lock-in)하고 있는 것 같네요. 이번 출시와 함께, 작년 10월 iOS 업데이트를 통해 본격적으로(어쩌면 비로소..) 사용자들의 이목을 끈 스페이셜 오디오(Spatial Audio, 공간 음향) 기술 또한 시장의 기대감을 한껏 끌어올리고 있습니다.
스페이셜 오디오(Spatial Audio), 익숙하지만 조금은 낯선 기술입니다. 스페이셜 오디오, 서라운드 사운드, 3D 사운드, 공간 음향… 많은 단어들로 면면의 장점을 맘껏 뽐내며 우리를 헷갈리게 하기도 합니다. 얼마 전 헤니가 스페이셜 오디오를 칭하는 말들에 대해 깔-끔하게 정리해 주신 적도 있었죠. 그래서 대체 스페이셜 오디오는 어떤 기술이길래 콘텐츠 제작자와 이용자 모두를 설레게 하는 걸까요? 오디오 초보 Dewey가 가우디오랩의 다정한 선생님이자 음향공학박사님 James를 조금 많이 귀찮게 한 뒤 나름대로 정리해봤습니다.
우리는 귀로도 봅니다.
잠깐. 잠시 눈을 지긋이 감고 주변의 소리에 귀를 기울여볼까요? 마치 여러 갈래의 소리가 나를 감싸고 있는듯한 느낌이 듭니다. 저는 지금 우도(가우디오의 아늑한 라운지이자 맥주가 화수분처럼 솟아나는 마법의 장소..)에 앉아서 잠시 눈을 감고 있습니다. 제 머리 앞쪽에서는 냉장고 소리가, 오른 편에서는 잔잔한 음악소리가, 왼쪽~뒤편 저 멀리서는 어느 가우딘의 작은 기침소리도 들리네요. 굳이 눈을 떠 두리번거리지 않아도, 우리는 청각을 통해 주변에서 일어나는 소리를 느끼고 그 위치를 머릿속에 대략적으로나마 그려낼 수 있습니다.
지금 제가 한 이 과정을 이어폰/헤드폰을 통해 나오는 소리로도 느낄 수 있도록 하는 소리 신호 전달 기술, 한 점을 기준으로 주변의 소리가 어디서 어떻게 나는 지를 잘 표현해서 듣는 사람이 마치 실제 그 공간 안에 있는 듯하게 만들어 주는 기술, 그것이 바로 스페이셜 오디오입니다. 덕분에 뒤통수 바로 뒤에서 펑! 하고 폭탄이 터지는 듯한 소리를 뿜어내는 영화 속 한 씬, 적막한 오케스트라 협연 공연장 안에 앉아 아주 작은 공기까지도 피부로 느낄 수 있는 실재감을 체험할 수 있게 되죠.
스페이셜 오디오, 어떤 원리를 숨기고 있는 걸까?
앞서 스페이셜 오디오는 소리라는 재료를 활용해 이어폰/헤드폰을 착용한 사용자의 귓속에 새로운 공간을 그려내고, 마치 그 공간 안에 사용자가 존재하는 것처럼 느끼게 해주는 기술이라고 말씀드렸습니다. 이 공간을 그려내려면 몇 가지 기준점이 필요한데요. 바로 나(청자이자 기준점), 나의 주변 공간, 그리고 각 소리들의 위치가 됩니다. 기준점을 중심으로 어느 방향에서 소리가 나는지를 파악해야, 오디오 기술을 통해 그 위치 그대로 사용자의 귓속에서 소리를 그려낼 수 있기 때문입니다.
고로, 스페이셜 오디오 구현의 중요한 기술은 소리의 위치를 파악(Localization)하고 바이노럴 렌더링(Binaural Rendering: 소리 신호가 두 귀로 흘러오기까지의 모든 프로세스)을 통해 양쪽 귀로 전달하는 것이 됩니다. 이 소리 산출물의 퀄리티를 좌우하는 요소 중 하나는 바로 HRTF(Head Related Transfer Function: 머리전달함수)와 BRIR(Binaural Room Impulse Response: 양이공간충격응답)인데요, HRTF는 특정 위치의 소리가 청자에게 전달 될 때의 전달 경로 및 소리가 청자의 머리와 귀의 위치에 따라 어떻게 변하는지에 대한 정보, BRIR는 최단 경로를 통해 전달되는 직접음 뿐만 아니라 공간 상에서 발생하는 반사음들이 사용자의 양쪽 귀에 어떻게 변경되어 전달되는지에 대한 정보를 필터의 형태로 나타낸 것이라고 말씀드릴 수 있습니다.
HRTF/BRIR 필터에 대해 조금 더 설명하자면…
청자의 주변을 360도의 구형으로 가정한 뒤 이 구형을 아주 세밀한 격자무늬로 쪼개서 각각의 조각으로 나눈다고 상상하면, 우리는 소리가 나는 곳의 위치를 많은 격자들 중 한 지점으로 가정해볼 수 있습니다. 어떤 음원을 이어폰/헤드폰으로 들었을 때 ‘바로 그’ 지점에서 소리가 나는 것처럼 들려주기 위해, 음원을 특정 필터에 필터링을 하게 되는데요, 이때 음원의 위치에 대한 정보를 전달하기 위해 사용되는 것이 HRTF 필터입니다. 스페이셜 오디오를 구현하는 첫 번째 과정에서는 소리를 공간 상의 특정 방향에 배치하는 것이 필수적이기 때문이죠.
그런데 HRTF는 방향에 대한 정보를 주지만, 그 공간을 모사하고 있지는 않습니다. 우리가 일상생활에서 듣는 소리에는 직접음 외에도 벽이나 주변 구조물에 부딪혀 튀어나오는 수많은 반사음들이 있습니다. 나무로 된 교실, 도톰한 커튼이 쳐져 있는 방안, 유리벽으로 둘러싸인 사무실… 각 공간의 특성마다 반사되어 나오는 소리가 달라지게 마련이죠. 이러한 공간에 대한 정보와 특성을 전달하는 것이 바로 BRIR 필터의 역할입니다. (하지만 우리 주변의 공간이란 너무나 다양하기 때문에 완벽히 해당 공간의 특성을 담는 것은 매우 어려운 일이긴 합니다.)
필터링을 통해 신호를 합성하는 과정은 청자가 실제 소리처럼 느끼게 하는 데 많은 직간접적인 역할을 하기 때문에, 이 필터는 스페이셜 오디오의 최종 품질을 좌우하는 중요한 요소라고 말씀드릴 수 있습니다.
고개를 돌릴 때마다 소리 위치가 더 생생하게 느껴져!
소리의 위치파악(Localization)이 되었다면, 우리는 공간 상에 정위된 소리와 상호작용(interactivity)을 할 수 있습니다. 에어팟 맥스, 에어팟 프로 등 스페이셜 오디오를 지원하는 TWS(True Wireless Stereo) 내부에 심어진 자이로스코프 센서(Gyroscope Sensor)가 우리의 위치 및 움직임을 파악해 주는 덕분이죠. 고개를 좌우로 돌리는 움직임에 따라 변하는 귀의 위치 및 사용자의 움직임을 TWS 속 자이로센서가 인식하고, 이미 파악해 둔 소리 재료의 위치 정보를 활용해 고개의 움직임에 맞게 실시간으로 소리를 배치해 표현해 줍니다.
네, 이것이 그 유명한 헤드 트래킹(Head Tracking)이죠. 각각의 소리 재료들이 내 움직임을 따라 실시간으로 버무려지며, 소리와 내 고개가 즉각적으로 씽크(Sync)되는 느낌을 받게 됩니다. 스페이셜 오디오를 지원하는 콘텐츠를 볼 때 내 고개의 움직임과 영상의 소리가 매우 잘 호응하며 마치 내가 그 현장에 있는 것 같은 몰입감을 선사하는 것은 바로 이 때문입니다.
아하, 그럼 스페이셜 오디오는 에어팟 맥스가 TOP?
소리가 내 귀로 들어오는 과정에 대해 James에게 자꾸 묻다 보니 뭔가 더 궁금해집니다. 대체 우리 귀는 어떻게 소리의 위치를 파악할 수 있는 것일까요? 정답은 귀의 생김새와 구조에 있습니다. 얼굴 양옆으로 빼꼼히 나와있는 귀와 제각각 다이나믹하게 생긴 귓바퀴는 우리가 소리의 상하, 전후, 좌우까지 파악할 수 있게 합니다.
어? 그런데 에어팟 프로는 커널형으로 귓속에 유닛이 쏙 들어와 있지만, 반대로 에어팟 맥스는 귀를 완전히 덮는 오버이어 헤드폰인데..? 무언가 차이가 있지 않을까요?
실제로 스페이셜 오디오는 에어팟 맥스보다는, 귓바퀴를 통과하지 않는 에어팟 프로에서 더 잘 기능하는 것 같다는 반응들도 있습니다. 에어팟 프로를 착용하게 되면(귓속으로 쏙!), 소리가 귓바퀴를 돌아 들어가며 생길 수 있는 리버브와 원치 않는 간섭 요소를 방지할 수 있기 때문이죠.
단정 지어 말하긴 어렵지만, 에어팟 맥스와 에어팟 프로를 비교해봤을 때 스페이셜 오디오 기능은 에어팟 프로에서 조금 더 잘 느껴지는 것 같다- 고 반응할 가능성이, 흔히들 말하는 음질은 오버이어 구조의 에어팟 맥스가 좀 더 좋다- 고 느낄 가능성이 더 높겠네요!
그렇지만, 내 주머니에는 둘 다 없는데..
네, 제 얘기입니다. 저는 에어팟 구형 모델을 사용하고 있기 때문에 자이로센서가 탑재된 TWS가 없습니다. 자이로센서를 탑재한 TWS가 없다면 내 위치 정보를 전송해 줄 지원군이 없기 때문에 아쉽지만 인터랙티비티는 포기해야 할 수밖에 없습니다.
사실 우리의 고개는 소리의 앞, 뒤가 불분명할 때 이를 정확히 파악해주는 역할도 담당하고 있습니다. 우리는 무의식 중에라도 들려오는 소리의 위치를 파악하기 위해 미세하더라도 고개를 돌리곤하거든요. 고개의 움직임을 통해 아주 작은 음압과 음색의 변화를 알아챌 수 있습니다. 때문에 공간 음향 구현에 자이로센서의 유무가 미치는 영향은 차원이 다를 수 밖에 없죠.
아쉽지만 에어팟 맥스, 에어팟 프로, 갤럭시 버즈 프로 등 헤드 트래킹을 지원하는 장치가 없는 경우, 제한적으로나마 스페이셜 오디오 기능을 느껴볼 수 있는 방법이 있습니다. 바로 스페이셜 업믹스(Spatial Upmix)를 장착하는 것이죠.
스페이셜 업믹스는 기존의 스테레오 사운드(2ch)를 구성하고 있는 요소들을 분석한 뒤, 가상의 공간에 각 소리 요소를 배치하여 기존에는 없던 공간감을 만들어 주는 기술입니다. 스테레오 채널에 욱여 넣어진 사운드를 다시 넓은 공간에 재배치해 주는, 말 그대로 공간 내에서 채널 자체를 업믹스(Upmix) 해주는 신호처리 기술이죠. 작년에 LG 벨벳에서도 가우디오랩의 SU를 적극 탑재하기도 했습니다. 글로만 봐서는 잘 모르시겠다고요? 아래 영상을 보면 한 번에 느끼실 수 있을 거예요.
본격 스페이셜 오디오 시대의 문, Apple이 활짝 열었다
Apple이 본격적인 스페이셜 오디오 시대를 열면서, 삼성전자, VIVO 등 세계적인 스마트폰 제조사에서도 이 흐름에 적극 편승하고 있습니다. 앞으로 출시되는 TWS를 포함한 오디오 장치들도 대부분 자이로센서를 탑재해 스페이셜 오디오를 기본적으로 지원하게 될 것으로 예상됩니다. 스마트폰과 오디오 디바이스 모두 스페이셜 오디오 시장에 발을 내디뎠으니, 이제 OTT 서비스와 스트리밍 서비스 등 콘텐츠 업계도 한 겹 더 풍성해질 일만 남았네요.
콘텐츠 헤비 유저인 제게 스페이셜 오디오는 매우 즐겁고 기대되는 흐름입니다. 이 기술을 통해 우리는 콘텐츠를 다양한 방식으로, 각자 원하는 깊이대로, 보다 높은 퀄리티로 즐길 수 있게 되었습니다. 유명 해외 아티스트의 공연을 내 방에서 즐길 수 있는 방구석 1열 콘텐츠, 중앙 VIP석과 2층 발코니석 을 맘대로 선택해서 볼 수 있는 뮤지컬 공연까지! 스페이셜 오디오가 불러올 짜릿한 콘텐츠 시장의 물결이 한껏 기대되는 요즘입니다.
‘최고의 소리를 경험한 사용자는 이전의 낡은 소리로는 돌아가지 못한다’라고들 하죠? 앞으로 콘텐츠 소비 경험 자체에 대한 사용자들의 안목과 기준도 점점 더 높아지고 구체화될 것 같습니다. 이미 오래전부터 스페이셜 오디오 기술을 갖고 있었던 가우디오랩은 누구보다 앞서 더 좋은 소리 경험을 제공하기 위해 열심히 달리고 있답니다!
2021.02.09