뒤로가기back

메타버스의 진수, 오디오 기술이 가른다

2021.05.10 by Dewey Yoon

메타버스의 진수, 오디오 기술이 가른다

(2021-05-10)

 

‘상상을 현실에서 만나는 일’, 메타버스를 중심으로 더욱 빈번해지고, 더더욱 뜨거워지는 분위기입니다.

 

메타버스(Metaverse)는 현실 세계를 의미하는 ‘Universe(유니버스)‘와 ‘가공, 추상’을 의미하는 ‘Meta(메타)’의 합성어로 3차원 가상세계를 뜻하죠. 이 메타버스의 주목도가 높아짐과 함께, 증강현실과(AR) 가상현실(VR) 시장에 다시금 훈풍이 불고 있다는 것에는 질문의 여지가 없습니다.

 

세상을 바꾸는 신기술은 대개 단 한차례의 바람으로는 결정적인 질량(Critical Mass)에까지 이르긴 어려운 것 같습니다. 2015년 즈음 거세게 불었던 가상현실 열풍 또한 그 질량을 넘지 못하고 꺼지는 듯 했었죠. 그렇지만 때를 기다리며 기술을 연마하던 몇몇 회사의 숨은 노력들과 COVID-19가 끌어온 팬데믹 상황이 더해져 세상의 관심이 차츰 높아졌나 봅니다.

 

넷플릭스로 영화를 보고, 페이스북으로 친구의 소식을 듣고, 배틀그라운드 세상에서 퇴근 후 한때를 즐기는 일. 모두 현재의 기술적 한계 내에서 구현해 나가는 메타버스의 일종입니다. 차츰 AI가 사람들을 단순노동으로부터 해방시킨다면, 우리는 더 많은 시간을 각자가 원하는 메타버스 세계에서, 더욱 밀도 있는 경험에 투자할 수 있겠죠.

 

 
바이노럴 큐 (Binaural Cues)
<자료> Benedikt Grothe, Michael Pecka, and David McAlpine, “Mechanisms of Sound Localization in Mammals”, Physiological Reviews, Vol.90, No.3, Jul. 2010, pp.983-1012.
 

메타버스의 필수 오디오 기술, 바이노럴 렌더링

현실과 가상을 오가는 메타버스 세계에서, 마치 실제 같은 강력한 ‘현실감’은 단연 핵심 중에서도 핵심이 되는데요. 현실감을 불어넣는 중요한 기술의 중심에 바로 오디오 기술이 있습니다. 가상 세계와 현실의 경계를 없애기 위해서는, 시각과 더불어 인간의 소리 경험 – 즉, 실제감 넘치는 소리를 제공하기 위한 고도화된 실감 오디오 기술이 반드시 필요한 요소기 때문이죠. 

 

이와 같은 메타버스 즉, AR과 VR을 완성하기 위한 필수 오디오 기술을 바이노럴 렌더링(Binaural Rendering)’이라고 합니다. 가우디오랩 홈페이지에도 수차례 등장하는 이 단어. 뭔가 어려워 보이는 기술이지만, 조금만 관심을 가지고 보면 오히려 신기함을 안고 살펴보게 된답니다.
 
 
그래서! 메타버스 시대를 맞이해 바이노럴 렌더링이 궁금하신 분들께 소개해드리고 싶은 글을 가져와 보았습니다! 바이노럴 렌더링을 포함한 VR/AR 오디오 기술의 전반적인 구성과 동향에 대해 궁금했던 부분이 있었다면, 바로 이 글이 시원~하게 그리고 자상하게 풀어드릴 수 있을 것 같아요!
 
 
2019년 과학기술정보통신부 정보통신기획평가원의 주간기술동향 특집호에 게재했던 Sean(정현주 박사)과 Henney(오현오 박사)의 “VR/AR 오디오 기술 및 표준화 동향”입니다. 친절하고 차분하게 메타버스(당시에는 이 표현이 없었지만요-)에 필요한 오디오 기술과 그 동향을 설명해 드립니다.
 
 
아래와 같은 목차가 준비되어 있으니 요기에서 필요한 부분만 쏙! 챙겨보셔도 좋을 것 같네요!

 

  1. 서론
  2. VR/AR 오디오 기술 개요
    • 바이노럴 오디오 – 인간의 청각 특성
    • 바이노럴 렌더링
    • VR/AR에서 사용자 자유도
    • 오디오 포맷(채널, 앰비소닉스, 객체)
    • VR/AR 오디오 제작 S/W
  3. VR/AR 오디오 표준화 동향
    • MPEG
    • 3GPP
    • VRIF
  4. 결론 및 시사점
pre-image
AirPods Max 출시와 함께 성큼 다가온 Spatial Audio 시대

AirPods Max 출시와 함께 성큼 다가온 Spatial Audio 시대 2021/02/09   Hello, AirPods Max! Apple의 첫 오버이어 헤드폰으로 시장의 주목을 한 몸에 받았던 에어팟 맥스(AirPods Max)가 한국 출시를 본격화하며 구매자들이 속속 제품을 받아보고 있다는 소식이 들리고 있습니다. Apple은 이번 에어팟 맥스 출시를 통해, 기존 에어팟 시리즈로 장악한 무선 이어폰 시장을 뛰어넘어 고성능 헤드폰 시장에서도 뜨거운 반응을 얻고 있습니다. 스마트폰과 불가분의 관계인 오디오 디바이스까지 장악하며 Apple 생태계에 소비자들을 더욱 꽉 락인(Lock-in)하고 있는 것 같네요. 이번 출시와 함께, 작년 10월 iOS 업데이트를 통해 본격적으로(어쩌면 비로소..) 사용자들의 이목을 끈 스페이셜 오디오(Spatial Audio, 공간 음향) 기술 또한 시장의 기대감을 한껏 끌어올리고 있습니다.   스페이셜 오디오(Spatial Audio), 익숙하지만 조금은 낯선 기술입니다. 스페이셜 오디오, 서라운드 사운드, 3D 사운드, 공간 음향… 많은 단어들로 면면의 장점을 맘껏 뽐내며 우리를 헷갈리게 하기도 합니다. 얼마 전 헤니가 스페이셜 오디오를 칭하는 말들에 대해 깔-끔하게 정리해 주신 적도 있었죠. 그래서 대체 스페이셜 오디오는 어떤 기술이길래 콘텐츠 제작자와 이용자 모두를 설레게 하는 걸까요? 오디오 초보 Dewey가 가우디오랩의 다정한 선생님이자 음향공학박사님 James를 조금 많이 귀찮게 한 뒤 나름대로 정리해봤습니다.   우리는 귀로도 봅니다. 잠깐. 잠시 눈을 지긋이 감고 주변의 소리에 귀를 기울여볼까요? 마치 여러 갈래의 소리가 나를 감싸고 있는듯한 느낌이 듭니다. 저는 지금 우도(가우디오의 아늑한 라운지이자 맥주가 화수분처럼 솟아나는 마법의 장소..)에 앉아서 잠시 눈을 감고 있습니다. 제 머리 앞쪽에서는 냉장고 소리가, 오른 편에서는 잔잔한 음악소리가, 왼쪽~뒤편 저 멀리서는 어느 가우딘의 작은 기침소리도 들리네요. 굳이 눈을 떠 두리번거리지 않아도, 우리는 청각을 통해 주변에서 일어나는 소리를 느끼고 그 위치를 머릿속에 대략적으로나마 그려낼 수 있습니다.   지금 제가 한 이 과정을 이어폰/헤드폰을 통해 나오는 소리로도 느낄 수 있도록 하는 소리 신호 전달 기술, 한 점을 기준으로 주변의 소리가 어디서 어떻게 나는 지를 잘 표현해서 듣는 사람이 마치 실제 그 공간 안에 있는 듯하게 만들어 주는 기술, 그것이 바로 스페이셜 오디오입니다. 덕분에 뒤통수 바로 뒤에서 펑! 하고 폭탄이 터지는 듯한 소리를 뿜어내는 영화 속 한 씬, 적막한 오케스트라 협연 공연장 안에 앉아 아주 작은 공기까지도 피부로 느낄 수 있는 실재감을 체험할 수 있게 되죠.   스페이셜 오디오, 어떤 원리를 숨기고 있는 걸까? 앞서 스페이셜 오디오는 소리라는 재료를 활용해 이어폰/헤드폰을 착용한 사용자의 귓속에 새로운 공간을 그려내고, 마치 그 공간 안에 사용자가 존재하는 것처럼 느끼게 해주는 기술이라고 말씀드렸습니다. 이 공간을 그려내려면 몇 가지 기준점이 필요한데요. 바로 나(청자이자 기준점), 나의 주변 공간, 그리고 각 소리들의 위치가 됩니다. 기준점을 중심으로 어느 방향에서 소리가 나는지를 파악해야, 오디오 기술을 통해 그 위치 그대로 사용자의 귓속에서 소리를 그려낼 수 있기 때문입니다.   고로, 스페이셜 오디오 구현의 중요한 기술은 소리의 위치를 파악(Localization)하고 바이노럴 렌더링(Binaural Rendering: 소리 신호가 두 귀로 흘러오기까지의 모든 프로세스)을 통해 양쪽 귀로 전달하는 것이 됩니다. 이 소리 산출물의 퀄리티를 좌우하는 요소 중 하나는 바로 HRTF(Head Related Transfer Function: 머리전달함수)와 BRIR(Binaural Room Impulse Response: 양이공간충격응답)인데요, HRTF는 특정 위치의 소리가 청자에게 전달 될 때의 전달 경로 및 소리가 청자의 머리와 귀의 위치에 따라 어떻게 변하는지에 대한 정보, BRIR는 최단 경로를 통해 전달되는 직접음 뿐만 아니라 공간 상에서 발생하는 반사음들이 사용자의 양쪽 귀에 어떻게 변경되어 전달되는지에 대한 정보를 필터의 형태로 나타낸 것이라고 말씀드릴 수 있습니다.     HRTF/BRIR 필터에 대해 조금 더 설명하자면… 청자의 주변을 360도의 구형으로 가정한 뒤 이 구형을 아주 세밀한 격자무늬로 쪼개서 각각의 조각으로 나눈다고 상상하면, 우리는 소리가 나는 곳의 위치를 많은 격자들 중 한 지점으로 가정해볼 수 있습니다. 어떤 음원을 이어폰/헤드폰으로 들었을 때 ‘바로 그’ 지점에서 소리가 나는 것처럼 들려주기 위해, 음원을 특정 필터에 필터링을 하게 되는데요, 이때 음원의 위치에 대한 정보를 전달하기 위해 사용되는 것이 HRTF 필터입니다. 스페이셜 오디오를 구현하는 첫 번째 과정에서는 소리를 공간 상의 특정 방향에 배치하는 것이 필수적이기 때문이죠.   그런데 HRTF는 방향에 대한 정보를 주지만, 그 공간을 모사하고 있지는 않습니다. 우리가 일상생활에서 듣는 소리에는 직접음 외에도 벽이나 주변 구조물에 부딪혀 튀어나오는 수많은 반사음들이 있습니다. 나무로 된 교실, 도톰한 커튼이 쳐져 있는 방안, 유리벽으로 둘러싸인 사무실… 각 공간의 특성마다 반사되어 나오는 소리가 달라지게 마련이죠. 이러한 공간에 대한 정보와 특성을 전달하는 것이 바로 BRIR 필터의 역할입니다. (하지만 우리 주변의 공간이란 너무나 다양하기 때문에 완벽히 해당 공간의 특성을 담는 것은 매우 어려운 일이긴 합니다.)   필터링을 통해 신호를 합성하는 과정은 청자가 실제 소리처럼 느끼게 하는 데 많은 직간접적인 역할을 하기 때문에, 이 필터는 스페이셜 오디오의 최종 품질을 좌우하는 중요한 요소라고 말씀드릴 수 있습니다.   고개를 돌릴 때마다 소리 위치가 더 생생하게 느껴져! 소리의 위치파악(Localization)이 되었다면, 우리는 공간 상에 정위된 소리와 상호작용(interactivity)을 할 수 있습니다. 에어팟 맥스, 에어팟 프로 등 스페이셜 오디오를 지원하는 TWS(True Wireless Stereo) 내부에 심어진 자이로스코프 센서(Gyroscope Sensor)가 우리의 위치 및 움직임을 파악해 주는 덕분이죠. 고개를 좌우로 돌리는 움직임에 따라 변하는 귀의 위치 및 사용자의 움직임을 TWS 속 자이로센서가 인식하고, 이미 파악해 둔 소리 재료의 위치 정보를 활용해 고개의 움직임에 맞게 실시간으로 소리를 배치해 표현해 줍니다.   네, 이것이 그 유명한 헤드 트래킹(Head Tracking)이죠. 각각의 소리 재료들이 내 움직임을 따라 실시간으로 버무려지며, 소리와 내 고개가 즉각적으로 씽크(Sync)되는 느낌을 받게 됩니다. 스페이셜 오디오를 지원하는 콘텐츠를 볼 때 내 고개의 움직임과 영상의 소리가 매우 잘 호응하며 마치 내가 그 현장에 있는 것 같은 몰입감을 선사하는 것은 바로 이 때문입니다.    아하, 그럼 스페이셜 오디오는 에어팟 맥스가 TOP? 소리가 내 귀로 들어오는 과정에 대해 James에게 자꾸 묻다 보니 뭔가 더 궁금해집니다. 대체 우리 귀는 어떻게 소리의 위치를 파악할 수 있는 것일까요? 정답은 귀의 생김새와 구조에 있습니다. 얼굴 양옆으로 빼꼼히 나와있는 귀와 제각각 다이나믹하게 생긴 귓바퀴는 우리가 소리의 상하, 전후, 좌우까지 파악할 수 있게 합니다.   어? 그런데 에어팟 프로는 커널형으로 귓속에 유닛이 쏙 들어와 있지만, 반대로 에어팟 맥스는 귀를 완전히 덮는 오버이어 헤드폰인데..? 무언가 차이가 있지 않을까요?   실제로 스페이셜 오디오는 에어팟 맥스보다는, 귓바퀴를 통과하지 않는 에어팟 프로에서 더 잘 기능하는 것 같다는 반응들도 있습니다. 에어팟 프로를 착용하게 되면(귓속으로 쏙!), 소리가 귓바퀴를 돌아 들어가며 생길 수 있는 리버브와 원치 않는 간섭 요소를 방지할 수 있기 때문이죠.   단정 지어 말하긴 어렵지만, 에어팟 맥스와 에어팟 프로를 비교해봤을 때 스페이셜 오디오 기능은 에어팟 프로에서 조금 더 잘 느껴지는 것 같다- 고 반응할 가능성이, 흔히들 말하는 음질은 오버이어 구조의 에어팟 맥스가 좀 더 좋다- 고 느낄 가능성이 더 높겠네요!   그렇지만, 내 주머니에는 둘 다 없는데.. 네, 제 얘기입니다. 저는 에어팟 구형 모델을 사용하고 있기 때문에 자이로센서가 탑재된 TWS가 없습니다. 자이로센서를 탑재한 TWS가 없다면 내 위치 정보를 전송해 줄 지원군이 없기 때문에 아쉽지만 인터랙티비티는 포기해야 할 수밖에 없습니다.   사실 우리의 고개는 소리의 앞, 뒤가 불분명할 때 이를 정확히 파악해주는 역할도 담당하고 있습니다. 우리는 무의식 중에라도 들려오는 소리의 위치를 파악하기 위해 미세하더라도 고개를 돌리곤하거든요. 고개의 움직임을 통해 아주 작은 음압과 음색의 변화를 알아챌 수 있습니다. 때문에 공간 음향 구현에 자이로센서의 유무가 미치는 영향은 차원이 다를 수 밖에 없죠.    아쉽지만 에어팟 맥스, 에어팟 프로, 갤럭시 버즈 프로 등 헤드 트래킹을 지원하는 장치가 없는 경우, 제한적으로나마 스페이셜 오디오 기능을 느껴볼 수 있는 방법이 있습니다. 바로 스페이셜 업믹스(Spatial Upmix)를 장착하는 것이죠.   스페이셜 업믹스는 기존의 스테레오 사운드(2ch)를 구성하고 있는 요소들을 분석한 뒤, 가상의 공간에 각 소리 요소를 배치하여 기존에는 없던 공간감을 만들어 주는 기술입니다. 스테레오 채널에 욱여 넣어진 사운드를 다시 넓은 공간에 재배치해 주는, 말 그대로 공간 내에서 채널 자체를 업믹스(Upmix) 해주는 신호처리 기술이죠. 작년에 LG 벨벳에서도 가우디오랩의 SU를 적극 탑재하기도 했습니다. 글로만 봐서는 잘 모르시겠다고요? 아래 영상을 보면 한 번에 느끼실 수 있을 거예요.      본격 스페이셜 오디오 시대의 문, Apple이 활짝 열었다 Apple이 본격적인 스페이셜 오디오 시대를 열면서, 삼성전자, VIVO 등 세계적인 스마트폰 제조사에서도 이 흐름에 적극 편승하고 있습니다. 앞으로 출시되는 TWS를 포함한 오디오 장치들도 대부분 자이로센서를 탑재해 스페이셜 오디오를 기본적으로 지원하게 될 것으로 예상됩니다. 스마트폰과 오디오 디바이스 모두 스페이셜 오디오 시장에 발을 내디뎠으니, 이제 OTT 서비스와 스트리밍 서비스 등 콘텐츠 업계도 한 겹 더 풍성해질 일만 남았네요.   콘텐츠 헤비 유저인 제게 스페이셜 오디오는 매우 즐겁고 기대되는 흐름입니다. 이 기술을 통해 우리는 콘텐츠를 다양한 방식으로, 각자 원하는 깊이대로, 보다 높은 퀄리티로 즐길 수 있게 되었습니다. 유명 해외 아티스트의 공연을 내 방에서 즐길 수 있는 방구석 1열 콘텐츠, 중앙 VIP석과 2층 발코니석 을 맘대로 선택해서 볼 수 있는 뮤지컬 공연까지! 스페이셜 오디오가 불러올 짜릿한 콘텐츠 시장의 물결이 한껏 기대되는 요즘입니다.   ‘최고의 소리를 경험한 사용자는 이전의 낡은 소리로는 돌아가지 못한다’라고들 하죠? 앞으로 콘텐츠 소비 경험 자체에 대한 사용자들의 안목과 기준도 점점 더 높아지고 구체화될 것 같습니다. 이미 오래전부터 스페이셜 오디오 기술을 갖고 있었던 가우디오랩은 누구보다 앞서 더 좋은 소리 경험을 제공하기 위해 열심히 달리고 있답니다!  

2021.02.09
after-image
‘진짜 현실’을 완성하는 마지막 열쇠, 메타버스 오디오

‘진짜 현실’을 완성하는 마지막 열쇠, 메타버스 오디오 (2021-07-14)   조금씩 메타버스가 달아오르나 싶더니 이제는 메타버스 관련 기사가 경제지에 게재되지 않은 날이 없을 정도로 매일 관련 뉴스가 쏟아지는 요즘입니다. 더불어 메타버스 시장의 성장과 전망에 대한 예측들이 공개되기도 했는데요, 일례로 PwC의 보고서에 따르면 XR시장은 2025년 537조 원에서 2030년 1,700조 원으로, 매우 급격한 성장이 예상되고 있습니다.   진작부터 관련 주가가 계속해서 출렁이고 관련 ETF가 인기 검색어에 오르는 등 사방의 관심과 자본의 흐름이 빠른 유속으로 메타버스로 향하고 있는 것이 확연히 드러나고 있는데요, 가우디오랩이 설립될 때부터 기대했던 ‘메타버스‘의 시대가 이제 정말 코 앞에 다가온 것이 피부로 느껴집니다. 저 역시 들뜬 마음을 감출 수가 없네요 😊   메타버스 오디오, 즉 스페이셜 오디오(Spatial Audio) 기술의 최고 역량을 자랑하는 가우디오랩은 쏟아지는 후끈한 관심의 열기를 온몸으로 느끼며 메타버스의 실현을 위한 다양한 공간 음향 기술을 고도화하고 있습니다. 메타버스로 구현될 3D 세상 속에서 모든 방향에서 들려오는 소리를 유저가 그대로 들을 수 있도록 하는 기술, 그래서 메타버스의 궁극적 목표인 ‘진짜 현실‘을 완성해내는 마지막 열쇠가 여기에 있는 것이죠. 참, 메타버스의 완성을 위한 필수 오디오 기술인 바이노럴 렌더링(Binaural Rendering)에 대해서는 지난 포스트(메타버스의 진수, 오디오 기술이 가른다)를 통해 설명해드렸던 적이 있죠? ☺️   메타버스 오디오 기술이 불러올 미래를 간략히 상상해보니, 기대감이 점점 더 커집니다.       📍 내 위치를 인식해서 음성 안내를 제공하는 방식으로, 지도를 보지 않더라도 길을 찾을 수 있게 하는 완전히 새로운 방식의 네비게이션이 있다면? 화면과 길을 번갈아 보는 여행자의 번거로움을 확 줄여줄 겁니다. 어쩌면 차량의 네비게이션 기능을 온전히 오디오가 대신하는 세상이 올지도 모르죠. 😎    📍 전시회의 도슨트의 가이드 시간이 더 줄어들거나 없어질 수 있습니다. 내 위치와 작품의 위치를 인식해서 그 앞에 서기만 하면 작품설명을 해주는 Audio Guide를 이용해 보다 편안하고 자유롭게 전시를 관람할 수 있을테니까요. 🏞   📍 또, 보청기 대신 개인별 주파수 보정을 통해 난청으로 인한 불편함을 해소할 수 있도록 하는 Personal Sound Amplification을 도입해서 난청으로 고통받는 분들에게 더 큰 도움이 될 수 있을 겁니다. 👂🏼   사실 메타버스를 확장해나가는 범위는 무궁무진합니다. 단, 이를 실현해줄 수 있는 오디오 기술만 있다면요.   메타버스의 본질은 “가상적으로 확장된 물리적 현실과 물리적으로 영구화된 가상공간의 융합“이라고 합니다. (by ASF Metaverse Roadmap Summit, 2006) 최근에는 메타버스를 증강현실, 라이프로깅, 거울세계, 가상세계로 나눠보기도 하는데요. 결국 현실과 가상, 두 세계의 교차와 결합이 메타버스의 핵심이 아닐까 싶습니다. 즉, 인간의 오감 중 가장 큰 비중을 차지하는 시각과 청각을 통해, 두 세계를 자유롭게 오갈 수 있도록 하는 것이죠.   기존에 2D로 보고 듣던 세상과 달라지는 점, 그러니까 우리에게 ‘마치 그곳에 있는 듯한’ 실재감과 몰입감을 선사하는 핵심요소는 뭘까요? 바로 매우 그럴듯한 illusion, 진짜 현실인것만 같은 정교한 환상을 만들어내는 오디오 기술력에 있습니다.   Being There Recreate System(BTRS)   <자료> Gaudio Lab, Inc. 2021.       가우디오랩의 공간 음향 기술이 적용된 세상 속에서는, 쇼파에 앉은 내 몸을 어느새 콘서트 장 한 가운데로 옮길 수 있습니다. 순식간에 BTS 의 콘서트장에서 신나게 음악을 즐길 수 있도록 만드는 것이죠. 고정된 하나의 뷰(View)에서 보는 공연이 아닌, 스테이지 앞 1열에서 최애 멤버 바로 앞에 서있는 듯한 몰입감을 선사할 수도 있답니다(진짜!) 가상과 현실의 구분이 어려울 정도로 뇌를 속이는 흥미로운 일들, 가우디오랩 안에서 일어나고 있습니다.     오디오 업계 대표선수 가우디오랩은 메타버스 세상을 어떻게 준비해왔을지 궁금하시다면! 가우디오랩의 Sean, James, Ted 그리고 Henney가 주간기술동향을 통해 발표한 따끈따끈한 이 기고를 소개해 드립니다.     시각 등 다른 감각들과의 결합은 물론, 오디오 그 단독으로도 가능한, 가상과 현실을 오가는 경험을 유저에게 선사하는 공간 음향 기술, “공간 음향(Spatial Audio) – 메타버스를 실현하는 오디오 기술”을 통해 만나보세요. 🙌🏼     (❕다운로드가 안되시는 경우,  [여기] 를 클릭 > 가장 상단의 ‘공간 음향(Spatial Audio) – 메타버스를 실현하는 오디오 기술’ 을 클릭해주세요) 아래와 같은 목차가 준비되어 있으니 필요한 부분만 골라 읽어보셔도 좋을 것 같아요. 🙂   서론 Place Illusion, Plausibility Illusion 오디오 외재화 공간 음향 라이브 저작 기술 공간 음향 기술의 모바일 응용 증강현실 오디오 결론  

2021.07.14