스트리밍 시대의 음량 문제
스트리밍 시대의 음량 문제
인공지능이 뉴스를 생성하고, 자율주행차가 고속도로를 질주하는 이 시대에 오디오는 그 역사만큼이나 해묵은 이슈인 음량(Loudness) 편차가 여전히 문제입니다. 여전히가 아니고 문제가 더 커지고 있는 것도 같습니다.
스마트폰을 사용하다 보면 누구나 겪어봤을 것입니다. 유튜브 영상을 시청하다 다음 영상으로 넘어가는 순간 갑자기 커진 음량에 깜짝 놀라 음량을 조절하던 것을. 너무나 익숙한 일상이라 문제라고 생각하지도 못하던 문제입니다. 홈버튼 마저 제거한 아이폰에 전원버튼과 함께 여전히 물리키로 존재하는 볼륨버튼은 이것이 얼마나 필수 기능인지를 역설적으로 보여주는 듯합니다.
하나의 앱에서만 그런 것이 아니고, 앱을 넘나드는 순간 문제는 더욱 심각해집니다. 멜론으로 음악을 듣다가 웨이브(WAVVE)로 동영상을 보는 순간에, 다시 게임앱을 켜는 순간에 볼륨값을 다르게 설정해야하는 불편이 따릅니다. 갑자기 고막을 터뜨리지 않을까 조마조마하기도 합니다.
“그 똑똑한 스마트폰이 알아서 좀 해주지 그것 하나도 해결 못하나?” 그런 생각을 가진 분들도 있을 것입니다.
왜 이런 문제가 생겼을까요? 역사를 거슬러 올라가자면, 이 문제는 서두에 말씀드린 것과 같이 모든 미디어가 한번씩 겪고 지나가는 역사가 오래된 문제입니다. 우선은 “소리가 크면 음질이 좋다“는 사실에 가까운 믿음 때문에 모든 콘텐츠 저작자는 할 수 있다면 소리를 키우는 방향으로 노력하고 있기 때문이고, 스마트폰에서는 현재 이것을 어떤 법규로도 강제하고 있지 않아 통제 불능 상태에 있기 때문입니다. 마지막으로 이를 기술적으로 해결하기에는 아무리 인공지능 할아버지가 등장해도 원리상 한계가 있다는 점입니다.
좀 더 공부해보겠습니다.
첫째, 왜 이런 문제가 생기고 있는 걸까요?
우리 인간이 들을 수 있는 주파수 범위, 즉, 가청주파수가 20Hz ~ 20,000Hz 라는 얘기는 어디선가 들어보셨을 것입니다. 그런데, 이 가청주파수 범위라고 해서 모든 소리를 같은 음량으로 듣지는 않습니다. 20,000Hz 를 넘어선 주파수의 소리는 그 물리량이 실제로 존재하고 아무리 커도 우리가 들을 수 없어 비가청 신호라 부르듯이, 가청주파수 범위 이내라도 20,000Hz에 가까운 고음일수록 , 반대로 20Hz에 가까운 저음일 수록 우리는 그 소리를 잘 듣지 못합니다. 바꿔 얘기하면, 음량이 매우 커야만 겨우 들립니다. 이를 많은 사람들에 대한 실험을 통해 통계적으로 나타낸 특성치를 등청감곡선(Equal-loudness Contour)라고 부릅니다.
잘 듣지 못하는 저음과 고음이 충분히 잘 들리기 위해서는 소리가 커야합니다. 우리가 나이트클럽이나 콘서트장에 가면 음악이 좋다고 느끼는 것은 우선 소리가 크기 때문입니다. 따라서, 음악을 만드는 제작자들이 너도 나도 다른 음악보다 소리를 크게 믹싱하려고 달려듭니다. 이런 현상을 업계에서는 소위 ‘음량전쟁(Loudness War)’이라고 부르며, 이 전쟁은 현재도 진행형입니다. 1970년대 음악부터 최신 K-pop까지 거슬러 올라오면 음량은 꾸준히 커지고 또 커집니다. 더 키울 수 없는 지경이어도 계속 키워나가고 있습니다. 영화, 드라마의 사운드트랙을 담당하는 연출가도 다르지 않겠죠? 서로 볼륨을 키우려는 본능에 충실합니다.
올드팝 파형, Beatles – Yesterday, -17 LUFS, 우리가 기대하는, 음악 신호 다운 파형을 보인다
최신 케이팝 파형, Red Velvet – Pyscho, -5LUFS, 위와 마찬가지로 흰색이 배경이고 칠판색이 신호이다.그러나 칠판색으로 꽉 차버려서 배경이 보이지 않는다. 음악 신호가 가진 고유 특성을 포기하며 억지로 키워서 위 아래는 자르고 콤프레서로 다이내믹 레인지는 꽉꽉 밟아 넣었음을 파형만 봐도 알 수 있다.가우디오랩에서는 이를 ‘소시지를 만들었다’고 표현하곤 한다. 음량 전쟁의 참상.
여기에 광고가 더해지는 순간 상황은 더욱 악화됩니다. 광고주 입장에서는 비싼 비용을 지불하고 황금시간에 편성한 TV, 오디오 광고가 본편보다 소리가 작다면 서글프기도 하겠죠? 오히려 더 키워서 사용자가 절대 듣지 않고는 지나칠 수 없게 만들고 싶어할 겁니다. “청바지 5벌에 단돈 4만9천원~“하는 갑툭튀 중간 광고 다들 익숙하실 것 같습니다. 저마다 더 밝고 화려한 네온사인으로 행인의 눈을 유혹하고자 하는 길거리 광고판의 노력과 다르지 않습니다.
일찌감치 지상파 TV방송에서는 전세계적으로 이 문제를 법을 통해 해결 하였습니다. 이른바 CALM act (Commercial Advertisement Loudness Mitigation Act, “조용해!법“이름 잘 짓습니다)가 발효되면서, 광고를 포함한 모든 TV 프로그램은 -24 LUFS (음량에 대한 표준단위. 자세한 정의는 이 글을 참조해주세요)에 맞춰 방송되고 있습니다. 유사한 기준을 한국을 비롯하여 유럽, 호주, 일본 등에서도 규제화하여 시행하고 있기 때문에, TV에서 제공되는 프로그램들은 음량 편차의 문제가 거의 없습니다. 광고를 본편의 음량에 맞추기 위해서는 본편 역시 기준이 있어야 겠지요. 그렇게 TV는 -23~-24 LUFS 언저리가 기준으로 굳어 졌습니다. 이정도면 위에 본 파형처럼 소시지를 만들 수가 없는 정도입니다.
TV라는 미디어는 통제가 가능한 소수의 콘텐츠 저작자들만이 사용자 기기(테레비)에 콘텐츠를 공급할 수 있기 때문에, 그리고 이들은 모두 나라별로 방송법이라는 틀 안에서 서비스를 해야하기 때문에 그만큼 통제가 쉽습니다. 이런 법규를 따를 필요없는 (그렇지만 TV를 통해 콘텐츠 소비가 가능한) OTT 사업자의 경우도 이웃하는 (방송) 서비스와의 경험의 호환성을 위해 자체 규정을 통해 이 기준을 잘 따르는 경향이 있습니다. 시청자가 승자인 법규라 할 수 있겠습니다.
그렇지만 스마트폰 세상은 다릅니다. 사용자의 귀에 소리를 제공하는 공급원의 관점에서 무한한 플랫폼(앱)과 무한한 콘텐츠 제작자가 서비스를 하는 세상입니다. 그나마 음량을 통제하는 넷플릭스 같은 OTT의 경우도 TV를 기준으로 맞춰져 있다보니 오히려 라우드니스 전쟁을 벌이고 있는 다른 앱들과의 레벨이 현저히 차이가 나서 오히려 문제가 되기도 합니다.
큰게 문제이지 작은건 좋은 것 아닌가? 그렇지 않습니다. 넷플릭스를 시청하던 시청자가 음량이 작아 볼륨을 한참 키워서 미드를 감상하다가 음악앱으로 넘어가는 순간 빵 터집니다. 따라서, 하나로 맞춰져 있지 않으면, 문제가 됩니다.
실태조사를 해보았습니다. 큰 노력 들이지 않고 확인할 수 있는 제 폰에 깔린 앱들의 제각각인 음량 분포 상황입니다. 최대 -5 LUFS에서부터 최소 -39 LUFS까지 하나의 앱안에서도 앱과 앱사이에서도 상당히 다릅니다. 이 와중에 넷플릭스가 고고하게 -27에 맞춰져 있습니다. 넷플릭스의 음량 측정 방식이 달라서 약간 다른데, 대략 TV 방송 기준에 맞춰져 있다고 보면 됩니다. 위에 설명드린 것처럼 넷플릭스 혼자 적절한 음량에 잘 맞춰둔다고 문제가 완화되는 것은 아닙니다. 넷플릭스와 스포티파이를 넘나드는 사용자라면 매번 볼륨키를 5번씩은 눌러줘야 할겁니다. 게다가 모바일 환경은 TV 시청환경과는 다르게 시끄러운 지하철 등에서 들어야 하기 때문에 TV 기준으로 맞춰진 음량 기준이 너무 작습니다. 적합하지 않습니다. 실제로 넷플릭스 사용자 게시판에는 음량이 작다는 불만이 빈번합니다. 넷플릭스 본토인 미국에서는 TV가 주 시청기기이기 때문에 바꾸겠다는 생각을 안하는 것 같습니다. (가우디오랩의 솔루션을 이용하면 원본을 다르게 보유하지 않고도 TV와 스마트폰을 다른 음량으로 재생할 수 있다는 사실을 모르는 듯 합니다.)
우리가 흔히 접할 수 있는 서비스에서 쉽게 발견할 수 있는 라우드니스 문제의 실상(최대 -5과 최소 -39는 스마트폰의 볼륨키를 11번 누른 정도의 차이다. 이런 세상에 살고 있다😕)
둘째, 왜 해결이 안되고 있을까요?
지금까지 긴 글을 잘 따라오셨다면, 결국 법이 없으면 지키기 어려운 것이라는 유도된 결론에 함께 이를 겁니다. TV의 전철을 밟아가며 TV의 사례처럼 법으로 해결할 수 있지 않을까요? 처음엔 저도 법이 답이라고 생각했습니다. 그런데 조금 더 진지하게 생각하니 (공부도 좀 해봤습니다), 국경도 없이 진행되는 서비스들을 과연 국가라는 테두리를 가진 법으로 통제할 수 있는걸까 하는 의문이 들었습니다. 음량 문제가 아니고서라도, OTT 서비스에 대한 규제를 어떤 근거로 법제화할 수 있는지는 우리나라를 비롯하여 이미 각 나라마다 어려운 문제라고 알고 있습니다. 성인물 규제를 위한 IP차단 처럼 음량에 대해서도 그런 규제라야 가능할까도 싶더군요. 게다가 동영상 뿐 아니라 게임, 음악 등 범주도 제각각인 앱 서비스들을 하나의 법으로 포괄한다는 것도 쉽지 않은 일일 것이구요.
법이 안된다면 그럼 기술은 뭐하고 있나?
기술로 음량을 통제한다면, 첫째, 콘텐츠가 제작되는 단계에서 좋은 툴을 이용하도록 하는 방법이 있을 것입니다. 그런데, 세상 모든 사람이 유튜버가 되고자 하는 1인 창작자의 시대에는 콘텐츠 제작 단계에 전문 엔지니어가 전문적인 툴을 이용해서 음량을 통제하는 것이 사실 상 불가능한 것 같습니다.
그 다음은 이런 콘텐츠가 모이는 플랫폼의 서버에서 해결하는 방법을 생각해볼 수 있겠지요. 현실적으로 가장 현명한 방법입니다만, 여기에는 두가지 애로사항이 있습니다. TV, PC, 스마트폰 등 소위 엔스크린을 표방하는 OTT의 경우 타깃 디바이스마다 서로 다른 목표 음량(Target Loudness)를 제공하기 위해서는 각각에 맞는 서로 다른 버전의 원본들을 마련해 두어야 합니다. 서버의 저장용량이 증가하고, 구현이 복잡해지는 문제를 갖습니다. 그리고, 이렇게 하기로 마음을 먹었더라도 음량을 평준화하기 위해 신호를 보정한 후 다시 저장하는 과정에서 원본의 훼손이 불가피합니다. 콘텐츠 제작자가 보내준 MP3 신호를 복호화했다가 다시 부호화하는 과정을 거치면 중복된 압축으로 인한 음질 훼손이 발생하게 되죠. 이를 Tandem Coding Artifact라고 부르는데, 할 수 있으면 피해야하는 신호처리 과정입니다. 물론, 이 과정에서 연산량이 증가하는 것도 불가피합니다. 그리고 열심히 사운드를 마스터링한 전문 사운드 엔지니어 입장에서는 이 과정에서 원본을 건드렸다는 사실 만으로 지극히 거부감을 가지고 있기도 합니다.아예 금지하는 콘텐츠 크리에이터도 존재합니다.
마지막으로 마지막 재생앱단에서 처리하는 방법이 있습니다. 소위 AGC (Automatic Gain Control)이라 부르는 계열의 방법인데, 이는 실시간으로 음량을 통제해야하기 때문에 미래에 어떤 신호가 갑자기 들어올 지 알 수 없는 문제로 인해, 또 다른 형태의 매우 심각한 음질 왜곡을 불러옵니다. 소위 pumping과 breathing이라고 부르는 왜곡 현상인데, 우리 귀는 매우 예민해서 이런 소리를 듣기 매우 싫어합니다. 이상적인 음량 평준화는 신호 전체를 이해할 때 가능하다고 하겠습니다.
이제 잠깐 약을 팔겠습니다.
한명의 적극적 소비자로서 나의 편리를 위해 이런 음량 문제를 근원적으로 해결해보자는 마음과 지금까지 설명드린 것과 같은 긴 고민의 끝에 가우디오랩에서는 서버-클라이언트 구조의 라우드니스 평준화 기술을 만들게 되었습니다. 서버에서는 입력된 음원에 대해 국제 표준 방법에 따라 (즉, LUFS단위로) 측정된 음량값을 메타데이터로 추출할 뿐 원본을 건드리는 평준화는 수행하지는 않습니다. 따라서, 입력된 원본 그대로 (압축된 그대로) 보관을 합니다. 그리고, 실제 음량 평준화를 수행하는 것은 클라이언트 앱입니다. 이때 모바일앱과 TV앱은 서로 다른 목표 음량으로 평준화를 수행할 수 있습니다. 더 나아가서, 시끄러운 지하철이냐, 조용한 집이냐 등 사용자의 청취환경에 따라 동일한 디바이스에서도 상황에 따라 다른 목표 음량으로 소리를 재생할 수 있습니다. 깔끔하지요?
그런데, 이런 서버-클라이언트 구조도 애로사항은 있습니다. 라이브가 대세인 요즘 트렌드에서는 메타데이터를 미리 추출한다는 구조 자체가 성립하지 않습니다. 고객사들과 협업을 하다보면, 광고 기반의 VOD 서비스인 경우는 라이브가 아니라 하더라도 삽입되는 광고 영상(음원) 자체가 광고 대행사의 원격 서버에서 사용자 단말로 바로 전달이 되기 때문에 플랫폼의 자체 서버에 저장하는 과정에서 메타데이터를 추출하는 공정을 삽입하기가 어려운 경우도 있습니다. 그래서 우리는 또 고민을 했고, 추가로 솔루션을 준비하였습니다. 이 솔루션도 시중의 AGC보다는 상당히 똘똘하게 잘 동작합니다만, 앞서 설명드린 것처럼 이 시나리오에서는 앞으로 아무리 인공지능 할아버지가 등장한다고 하더라도, 아직 도래하지 않은 미래 시간을 포함한 콘텐츠의 전체를 수신해야만 계산이 가능한 누적 음량(Integrated Loudness)을 알아내서 이를 기준으로 음량을 맞추는 것은 실현 불가능합니다. 다만, 최선을 다할 뿐.
가우디오랩의 라우드니스 솔루션을 도입한 착한 플랫폼들에서는 더 이상 지금껏 길게 설명한 음량 문제가 존재하지 않습니다. 고객 리뷰에 음량 문제의 언급이 사라졌습니다. 그런데, 앞선 그림에서도 보여드린 것처럼, 그리고, 사용자는 하나의 앱만을 사용하지 않는다는 사실을 마주할 때 우리의 미션은 여기가 끝은 아닌 것 같습니다. 소리나는 기능을 갖는 모든 앱 서비스들이 통일된 방법으로 메타데이터를 생성하고, 이 메타데이터를 디바이스의 OS에서 해석하고 통제할 수 있으면 이상적인 세상이 올 것입니다. 가우디오랩의 다음 도전 목표입니다. 이를 위해 이 기술과 메타데이터를 표준화하는 작업을 진행중입니다.
오늘 자세히 설명하지 않았지만, 우리 귀는 일종의 기계 장치로서 유한한 수명을 가지고 있습니다. 과도한 음량으로 인한 청력 손실은 스마트폰과 이어폰의 시대에 사는 우리 모두가 직면한 문제이며, WHO에서는 음량 노출 시간을 제한하도록 하는 권고안까지 내놓고 있습니다. 우리의 건강을 위해, 그리고 매일 매일 당연하듯이 받아들이는 볼륨 버튼 누르기의 불편을 해소하기 위한 여정에 응원을 부탁드립니다.
👏🏻응원 방법: 지금 사용하고 계신 OTT/음악 서비스에 들어가서 “음량 편차가 너무 심해서 못듣겠어요~” “내가 왜 매번 볼륨 버튼을 누르며 들어야 합니까? 니가 맞춰주세요~“ 라고 한마디 남기시면 됩니다 ^^
2020.03.12