ko
ko
리소스, 전체보기

미디어 스트리밍을 위한 라우드니스 정규화 시스템 구축방법

미디어 서비스를 제공하는 입장에서 사용자에게 더 좋은 오디오 경험을 제공하는 것은 매우 중요한 일입니다. 대표적으로 ‘미디어들의 볼륨 불균형’은 사용자가 겪는 주요한 불편함 중 하나입니다. 예를 들면, 소리가 작아 대사가 잘 들리지 않는 드라마 영상을 시청 하느라 볼륨을 키웠다가 곧 이어 나온 광고 영상의 소리가 갑자기 커져서 다급히 볼륨을 줄여야 하는 일은 하루에도 여러번 겪는 불편함입니다. 심지어 너무 큰 소리 때문에 깜짝 놀라 다급히 이어폰을 빼는 일도 있었을 것입니다. 다음은 한국의 한 OTT 서비스에 최근 (2018년 하반기) 올라온 사용자 댓글들입니다.

“갑자기 대출 광고 소리만 크게 나오는데 수정 바랍니다. 정말 듣기 싫습니다.”

“다른 플레이어에 비해서 음량이 너무 작아요. 최대 15로 해도 잘 안들리는데 음량 좀 키워주세요.”

라우드니스 정규화 (Loudness Normalization)는 이와같은 ‘미디어들의 볼륨 불균형’ 문제를 해결하는 방법입니다.

라우드니스 정규화 (Loudness Normalization)이란?

음량 (라우드니스)은 사람의 청각이 실제로 느끼는 소리의 감각적인 크기를 의미합니다. 일반적으로 사람의 청각은 물리적으로 동일한 강도의 세기를 가진 소리라 할지라도 소리의 주파수에 따라 다른 크기로 느낍니다. 따라서 음량은 데시벨, SPL (Sound Pressure Level)과 같은 물리적인 수치와는 다른 LKFS (ITU-R), LUFS (EBU-R128) 같은 단위를 사용합니다.

라우드니스 정규화는 각 프로그램들의 평균적인 음량 (Integrated Loudness, 프로그램 전체에 대한 평균 라우드니스, 긴 묵음 구간을 측정에서 제외함)를 기준 범위 내로 맞추는 것입니다. 일반적으로 이 기준을 타깃 라우드니스라고 합니다. 국가별 방송 표준의 경우 각 프로그램이 라우드니스 정규화를 강제하도록 규정하고 있습니다.  미국, 한국, 일본의 경우 -24 +/-2 LKFS, 유럽의 경우 -23 +/- 2 LUFS로 정의하여 서비스되고 있습니다. 그래서, 우리가 TV를 통해 공중파 방송 등을 시청할 때는 채널과 프로그램이 바뀌어도 음량이 다르다는 불편을 겪지 않습니다. 그러나 OTT, VOD, Music 등 미디어 스트리밍 서비스에 대해서는 아직 별도의 가이드라인이나 규제의 사각지대에 놓여있고, 이는 고스란히 사용자 (시청자)의 불편으로 이어집니다. 이에 최근에는 인터넷 기반 미디어 서비스 (특히 OTT, OVD)에 대하여 미국의 CTA (Consumer Technology Association)나 AES (Audio Engineering Society, 전세계 오디오 엔지니어의 연구회)와 같은 단체에서 라우드니스에 대한 가이드라인을 논의하고 있는 것은 반가운 소식입니다. Youtube, Netflix, Apple Music, Spotify 등 메이저 미디어 스트리밍 서비스들의 경우 자체 규정을 통해 라우드니스 정규화를 실시하여 사용자에게 더 좋은 오디오 경험을 제공하고 있습니다. 

한편, 사용자가 동일한 서비스를 모바일(스마트폰)과 TV 등 여러 스크린을 통해 소비하는 현재 환경에서 각 기기에 따라 서로 다른 타깃 라우드니스를 맞춰야하는 것은 미디어 스트리밍 서비스 플랫폼들 입장에서는 새로운 문제이기도 합니다.  

FFmpeg을 이용한 라우드니스 정규화

FFmpeg은 다양한 미디어 처리를 제공하는 프레임워크입니다. 커맨드라인 툴을 제공하기 때문에 쉽게 사용할 수 있습니다. FFmpeg에서는 loudnorm 오디오 필터를 제공하여, 라우드니스를 측정하고 이를 기반으로 미디어를 타깃 라우드니스에 맞출  수 있습니다.

Loudnorm을 사용하여 라우드니스 정규화를 수행하는 경우 dual mode를 사용하는 것이 좋습니다. Dual mode는 입력된 오디오 신호에 대하여 라우드니스 관련 파라미터 (Integrated Loudness, True Peak, LRA (Loudness Range) 등) 측정하는 1차 프로세스, 이를 다시 오디오 신호와 함께 입력하여 신호의 크기를 순간순간 맞춰나가는 2차 프로세스를 통해 라우드니스를 정규화합니다.

FFmpeg을 이용한 라우드니스 정규화 참고자료들:

FFmpeg을 사용할 때 고려해야하는 이슈

FFmpeg은 쉽게 접근할 수 있는 Open Source Software (OSS)이지만, 이를 실제로 사용하는 데는 몇가지 어려움이 있습니다. 먼저 Transcoding 서버에서 원본을 라우드니스 정규화 처리된 신호로 대체하는 파일 기반 처리 (File-based processing) 이란 점입니다. 이 경우 압축된 원본을 디코딩하고, Loudnorm 필터를 거친 후 다시 인코딩하는 과정을 거치기 때문에 소위 Tandem Coding Artifact (Transcoding 과정을 반복했을 때 발생하는 음질 열화)가 발생합니다.

또한 앞서 언급한 것처럼 TV와 Mobile은 서로 다른 타깃 라우드니스를 갖는 것이 바람직합니다. TV의 경우 방송 표준에 따라 -24 LKFS로 설정하는 것이 바람직하지만, 모바일에서는 지하철과 같은 시끄러운 환경에서도 소리가 잘 들려야하기 때문에 -24 LKFS로는 음량이 부족합니다. (넷플릭스를 사용하는 분이면, 모바일로 들을 때 유튜브나 멜론 같은 다른 앱에 비해 소리가 작다는 것을 쉽게 이해하실 겁니다.) -13~-16 LKFS 정도가 바람직합니다. 따라서 FFmpeg의 Loudnorm을 사용한다면, 각 하나의 영상에 대해 서로 다른 버전의 라우드니스를 갖는 파일을 준비해야합니다. 이는 스토리지, CDN 비용을 증가시킵니다.

Loudnorm 필터는 음질 관점에서 최적화되어 있지 않기 때문에 잘못된 라우드니스 제어로 인해 Pumping, Breathing, Noise Boost 같은 음질 왜곡이 발생하게 됩니다. 결과적으로 시청자는 라우드니스 정규화의 댓가로 음질 왜곡을 감수해야하고, 때론 콘텐츠 저작권자가 이와 같은 변형을 금지하기도 합니다.

마지막으로, Loudnorm은 실시간 구현을 위한 최적화 (예를 들어 불필요한 라우드니스 파라미터를 계산)가 되어 있지 않아서, 하루에도 수십만 시간 분량의 콘텐츠를 처리해야하는 미디어 스트리밍 서비스에서 무시못할 처리 비용이 발생하게 됩니다.

Sol Loudness SDK를 이용한 라우드니스 정규화

Sol Loudness SDK는 File-based Process 방식이 아닌 메타데이터 방식을 사용하여 라우드니스 정규화를 수행합니다. 메타데이터 방식은 서버에서 콘텐츠의 라우드니스를 분석하여 매우 작은 크기의 메타데이터 (100 byte 이하)를 생성하고, 플레이어는 이 메타데이터를 받아 설정된 타겟 라우드니스에 맞도록 처리합니다. 따라서 원본 콘텐츠를 그대로 가지고 있기 때문에 Tandem Coding Artifacts가 발생하지 않고, 여러 버전을 서버에 따로 보관하지 않고도 TV와 모바일에서 서로 다른 타겟 라우드니스를 하는 맞출 수 있는 등 여러가지 장점을 갖습니다.  나아가서, 시청자가 직접 타깃 라우드니스를 설정하거나, 주변환경 (시끄러운 지하철과 조용한 밤 시간을 다르게 하는 등)에 따라 자동으로 최적화하는 기능을 제공할 수도 있게 됩니다.

Sol Loudness SDK는 메타데이터를 즉시 생성할 수 없는 Live Streaming과 같은 환경에서도 대응하는 기능을 포함하고 있습니다. 이 역시 Loudnorm으로는 해결하기 어려운 경우입니다.

뮤직 스트리밍 서비스 인 경우는 앨범 또는 플레이리스트 단위로 라우드니스를 정규화할 수 있으며, EQ 설정에 따라 라우드니스가 달라지는 문제를 해결하고, 저주파 대역 재생능력이 떨어지는 모바일 빌트인 스피커 환경에도 균일한 음량을 제공하는 기능 등 많은 기능이 포함되어 있습니다..

음향공학박사 6명이 투입되어 개발한 독자적인 Sol Loudness SDK의 알고리즘은 정규화 과정에서 어떠한 형태의 음질 왜곡도 발생시키지 않기 때문에, 음질이 최우선인 뮤직 스트리밍 서비스에서도 걱정없이 적용 가능합니다.  

축적된 신호처리 기술과 SDK 최적화 기술로 연산량을 혁신적으로 개선하여, FFmpeg과 비교할 때 2-5배 빠른 처리 (각 기능별로 다름)가 가능합니다. 그만큼 처리 비용을 절약할 수 있습니다.

Gaudio는 BMT (Benchmark Test)를 환영합니다.

서비스를 고르는데 있어 직접 테스트하여 비교하는 것 보다 정확한 것은 없으며, 이러한 비교는 후보 솔루션을 체험해보기 위한 가장 좋은 방법입니다.

많은 고객들이 겪고 있는 Audio 문제를 해결히기 위해 다른 유사 솔루션과 Sol Loudness SDK를 비교하는 BMT를 수행하고 계십니다. 여력과 시간이 있다면 Sol Loudness SDK와 유사 서비스를 비교 테스트하는 것을 추천드립니다. Gaudio는 BMT 관련 문의를 항상 환영합니다.

Learn About Loudness sDK

Gaudio Lab 은…

가우디오랩(주)는 VR/AR, 스트리밍 미디어, 모바일, 홈 등 소리가 있는 어디에서나 사람들에게 훌륭한 소리 경험을 제공하는 일을 합니다. 인터넷으로 연결된 가상 세계를  더욱 현실처럼 만드는 소리 기술들로 전세계를 누비며, “올해의 최고 VR 혁신 기업상 수상 (VR Awards, 런던, 2017)”, “ISO/IEC MPEG-H 3D Audio 국제표준 채택 (2013, 2018)”으로 혁신적인 오디오 기술력을 인정받았습니다. 음향공학박사 6명을 비롯한 가우디오랩의 오디오 긱들은 실리콘밸리와 서울에 서식하고 있습니다.   

인사이트

Ted Lee

이태규 (Ted Lee) 박사는 가우디오의 최고 기술 책임자 (CTO)으로 10여년의 오디오 전문 기술 경력을 가지고 있습니다. MPEG 오디오 서브그룹에 40건이 넘는 기술 기고를 해왔으며 바이노럴 기술, 3D 오디오, 멀티채널 오디오 시스템, 인간-컴퓨터 상호작용 등을 포함한 많은 분야에 집중했습니다. Ted Lee는 ISO/IEC 국제표준인 MPEG-H 3D Audio 바이노럴 렌더러의 공동 발명가이자 주요개발자 입니다. MPEG-H 표준화 과정에서 레퍼런스 소프트웨어 개발과 표준 문서에 작성에 큰 기여를 했습니다. 현재는 가우디오의 CTO로서 다양한 기술 문제를 감독하며 특히 SOL 프로젝트를 이끌고 있습니다. 또한, 가우디오의 품질 보증, 개발 및 설계팀을 감독하며 회사의 모든 기술 측면이 원활하게 운영될 수 있게 노력하고 있습니다. 연세대 전기전자 공학 박사학위를 취득했습니다.

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

Privacy Settings
We use cookies to enhance your experience while using our website. If you are using our Services via a browser you can restrict, block or remove cookies through your web browser settings. We also use content and scripts from third parties that may use tracking technologies. You can selectively provide your consent below to allow such third party embeds. For complete information about the cookies we use, data we collect and how we process them, please check our Privacy Policy
Youtube
Consent to display content from Youtube
Vimeo
Consent to display content from Vimeo
Google Maps
Consent to display content from Google
Spotify
Consent to display content from Spotify
Sound Cloud
Consent to display content from Sound