뒤로가기back

솔루션 비교 : 가우디오 Sol Loudness SDK vs. FFmpeg Loudnorm

2019.04.10 by Gaudio Lab

동영상 서비스 플랫폼을 구축함에 있어서 FFmpeg은 그야말로 보배같은 존재로 알려져 있지요. FFmpeg에는 심지어 loudness normalization (음량 정규화)를 위한 필터(loudnorm)도 제공하고 있습니다. 오늘은 FFmpeg의 loudnorm를 살펴봅니다. 사실 문제점을 밝히려고 정리해봅니다 🤫

 

비교를 위해 Gaudio Sol Loudness SDK 결과를 같이 보여드립니다. 고품질을 지향하는 동영상/음악 서비스라면 사용을 신중히 생각해보아야 할 것 같습니다.

 

방송표준을 준수해야하는 경우 모든 영상 콘텐츠는 -24 LKFS (한국기준)를 맞춰야 합니다. 모바일인 경우 아직 국내에서 정해진 규정은 없으나, 전세계적으로 -16 LKFS를 권장하는 방향으로 움직이고 있습니다. LKFS 단위가 익숙하지 않은 분들을 위해, 이 숫자가 클 수록 더 큰 음량을 의미합니다. 반면 원본 콘텐츠는 제각기 다른 음량을 가질 수 있습니다. 이를 기준에 맞추기 위해 작은 신호는 키우고 큰 신호는 줄여야 하겠지요. 어찌보면 매우 쉬울 것 같은 이 일이 왜 그렇게 어려워서 전세계의 음향 공학자들이 여전히 고민하며 이 문제를 풀고 있을까요? 이 글을 읽다보면 이 질문에 대한 답도 덤으로 얻어갈 수 있지 않을까 생각합니다. 

 

FFmpeg Loudnorm

FFmpeg loudnorm을 이용하는 방법은 크게 dual-pass mode가 있고, single-pass mode가 있습니다. dual-pass mode는 표현대로 원본 신호를 두 번 지나가면서 처리합니다. 한 번은 원본 신호를 분석(신호 전체의 평균 라우드니스 값인 Integrated Loudness, IL과 신호의 크기 변화폭에 대응하는 Loudness Range, LRA, 신호의 최대값인 Maximum True Peak, MTP 등)하기 위한 것이고, 두 번째는 첫번째 pass에서 분석한 정보를 바탕으로 실제로 라우드니스를 목표값인 Target Loudness, TL에 맞추기 위해 신호를 변경시키는 과정입니다. 한편, single-pass mode에서는 전체에 대한 사전 측정 없이 들어온 신호를 바로 바로 목표값에 맞추기 위해 한방에 처리하는 방법입니다. 따라서, 여러분의 워크플로우가 dual-pass를 허락한다면 (파일 기반으로 처리할 수 있는 환경이라면), 연산량을 좀 더 쓰더라도 dual-pass mode를 사용하는 것이 음질 관점에서는 크게 유리할 것입니다.  다만, dual-pass mode라고 하더라도 신호 전체에 대한 대표값만을 파라미터로 취득할 뿐, 시간 구간별 특성을 저장하고 있는 것이 아니기 때문에 이하 소개드리는 것과 같이 의도치 않은 왜곡을 발생시킬 수 있습니다.

 

FFmpeg loudnorm dual-pass mode 처리 결과
(VOD 서비스 시나리오)

VOD 서비스 시나리오라면 dual-pass mode로 동작이 가능합니다. 첫번째 pass로부터 측정된 입력 신호 IL이 목표값 TL보다 작은 경우는 전체적으로 신호를 키워줘야겠지요. 디지털 신호는 각 오디오 샘플을 표현할 수 있는 최대값에 제한이 있기 때문에 그 이상 신호를 키울 수 없습니다. (정확히는 그 이상 키우면 클리핑이라는 왜곡이 발생합니다. Peak Limiter라는 신호처리로 어느정도 클리핑은 거슬리지 않도록 방어할 수 있지만 한계를 지나면 치명적인 왜곡으로 돌아옵니다.) 

 

클리핑과 같은 왜곡이 발생하지 않으면서도 목표 만큼 신호를 키우는 것이 dual-pass와 같은 방식을 이용한 음량 정규화 기술의 핵심입니다. FFmpeg loudnorm은 원본 신호가 충분히 작아서 키울 수 있을 때 열심히 키우고 클리핑 우려가 있을때는 키우지 않는 형태의 알고리즘을 통해 목표값 TL에 맞추려 노력합니다. 즉 신호 구간에 따라서 gain을 가변시키면서 목표를 향해 가는 셈입니다. 이와 같은 처리 과정에서 원래 큰 신호와 작은 신호와의 상대적인 관계와 흐름, 즉 envelope이 망가지면서 잘못된 신호 파형을 만들어 내고, 이것이 심각해지면, Pumping, Breathing, Noise Boosting과 같이 청음 시에도 거슬리는 치명적인 왜곡을 발생시키기도 합니다.  

 

그림 1은 dual-pass를 실험해 본 한 사례의 파형을 나타냅니다. 테스트에 사용한 신호는 오프닝과 엔딩에 음악이 있는 좌담 프로그램입니다. 뉴스나 토크쇼와 같은 방송 콘텐츠, 라디오 방송, 팟캐스트 등에서 흔히 볼 수 있는 포맷이겠지요. 그림에는 순서대로 원본 (Original), FFmpeg default (FFmpeg의 다른 설정을 주지 않을 때 자동으로 설정되는 파라미터), FFmpeg best effort (FFmpeg을 음질 왜곡 관점에서 최선을 다한 설정 파라미터), Gaudio Sol Loudness SDK에 대한 각각 출력된 오디오 신호 파형을 나타내고 있습니다.

 

FFmpeg default 파형을 원본과 비교하면, 그 동작 원리를 이해할 수 있을 것 같습니다.

 

아래 그림1의 (1)을 살펴보면, 신호가 중후반부에 이르렀을 때 음량 정규화 보정한 후의 누적 IL이 목표값에 모자르다는 것을 알게된 듯합니다. 이때부터 조금 더 공격적으로 키워나가는 현상을 보입니다. (2)를 조금 더 관찰하면, Envelope이 중간에 튀듯이 잠깐 커졌다가 줄어드는 Pumping 현상이 발견되기도 합니다. 전혀 그렇지 않아도 될 곳에서 발생하는 기현상입니다. 즉, FFmpeg loudnorm에서는 dual-pass를 사용하더라도 신호 전체에 대한 구간별 음량 등고선을 기록하고 이에 맞게 처리하는 것이 아니기 때문에 신호의 통계 특성이 변화하는 많은 콘텐츠들에서 기대와는 다른 동작을 하게 됩니다. ‘FFmpeg best effort’라고 하더라도 이와 같은 왜곡을 피해갈 수 없음을 (3) 구간에서 관찰할 수 있습니다. 

그림1: FFmpeg loudnorm dual-pass 수행 결과 파형

한편, Gaudio Sol Loudness SDK에서는 정확하게 목표값인 TL에 맞추면서도(수행 출력 IL = 16.05 LKFS), 원본을 거의 훼손하지 않는 것을 확인할 수 있습니다. LRA값 (20.9)도 거의 원본에 근접한 결과를 보입니다. 연두색으로 표시된 주요 구간의 오디오 클립을 경험해보세요.

 
Original
 
 
FFmpeg Default
 
 
FFmpeg Best Version
 
 
Gaudio Sol
 
 
 
 

FFmpeg loudnorm single-pass mode 처리 결과
(라이브스트리밍 서비스 시나리오)

라이브스트리밍의 경우처럼 서비스 시나리오 상 애초에 원본 신호의 전체 구간을 미리 스캔하는 dual-pass mode를 구현할 수 없는 경우가 있습니다. 광고를 remote server에서 당겨오는 경우도 그렇지요. 이런 경우는 FFmpeg loudnorm을 single-pass mode로 수행해야하는데, 이 경우 왜곡은 훨씬 심각합니다. (loudnorm의 single-pass는 3초의 algorithm latency가 있어서 그만큼 지연이 발생할 수 있다는 문제점은 일단 논외로 음질만을 얘기할 때 그렇습니다.)   

그림 2는 single-pass 실험을 위해 또 다른 원본(Original)에 대해 FFmpeg default, FFmpeg best effort, 그리고 Gaudio Sol Loudness SDK를 적용해 본 결과입니다. 입력 신호는 old recording된 classical music이고, 원본의 IL은 -27.01 LKFS, LRA는 17.6 입니다.  실험을 위한 목표값 TL은 -20 LKFS으로 설정해보았습니다. 라이브스트리밍 환경에서 7 LU (Loudness Unit) 정도 신호를 키워야하는 시나리오입니다. 

 
그림 2 : FFmpeg loudnorm single-pass 수행 결과 파형

빨간색 (6)으로 표시한 부분을 살펴보면 FFmpeg default에서는 원본의 작은 신호 구간을 확확 키우면서 envelope을 전체적으로 일자로 만들면서 원본을 훼손하고 있는 것을 파형 관찰만으로 확인할 수 있습니다. 이 과정에서 신호의 LRA가 9.9로 좁아지면서 훼손되는 것도 확인할 수 있습니다. FFmpeg best effort에서도 (7)을 살펴보면 유사한 결과를 내는 것을 확인할 수 있습니다. 다만, 파형으로 확인하긴 어렵지만, LRA를 살펴보면 default에 비해서 많이 건전한 값을 가지고 있는 것을 확인할 수 있습니다.  

 

Gaudio Sol Loudness SDK에는 single-pass처럼 실시간으로 동작하는 real-time mode를 제공하고 있습니다. 그리고 이것의 성능은 그림을 통해서도 어느정도 가늠할 수 있는 것처럼 왜곡은 거의 발생하지 않으면서 원본의 envelope은 잘 유지하고, IL (-20.02 LKFS)만 목표한 값에 잘 맞게 출력하는 것으로 나타났습니다. Gaudio Team이 왜곡없는 real-time loudness control을 완성하기 위해 수없이 많은 콘텐츠에 대한 실험과 트레이닝을 통해 최적화한 덕분입니다. 그리고, 이 real-time mode는 대상 콘텐츠가 일정 시간 재생되면서 누적 이력이 쌓이면, 사실상 dual-pass를 수행한 것과 같은 결과를 만들어냅니다. 본 예제 샘플에서는 실제로 20초를 지나면서부터 dual-pass 구조를 사용한 경우와 동등한 결과를 제공하였습니다. 

 

사실 파형보다 실제 소리를 비교해보았을 때 더욱 현격한 차이를 확인할 수 있습니다. 다음은 연두색으로 표시한 문제 구간에 대한 오디오 클립입니다. 

 
Original
 
 
FFmpeg Default
 
 
FFmpeg Best Version
 
 
Gaudio Sol
 

연산량

서버에서 처리해야할 동영상(오디오) 콘텐츠가 많아지는 경우, 필터의 연산량도 무시할 수 없는 고려 요소일 것입니다. 상기 dual-pass mode 시나리오를 기준으로 FFmpeg과 Sol Loudness SDK의 연산량을 비교해 보았습니다. 나타낸 숫자는 동일한 기기(MacbookPro 2.5GHz)에서 1시간 길이의 2채널(스테레오) 오디오를 처리하는데 걸리는 수행시간으로 나타냈습니다. 그림 3으로 살펴볼 수 있 듯 Gaudio Sol Loudness SDK는 우수한 음질 성능을 제공함에도 불구하고, 처리 속도 역시 약 4.4배 빠릅니다. 

 
그림 3 : FFmpeg loudnorm과 Gaudio Sol Loudness SDK 연산량 비교
-60분 길이 스테레오 오디오 신호를 처리하는데 사용된 시간, Macbook Pro 2.5GHz CPU 기준

 

처리 시간 지연 (Latency)

라이브스트리밍 시나리오인 경우는 loudnorm 알고리즘이 갖는 Latency도 중요한 이슈일 것입니다. 이 latency값의 의미는 입력신호에 대한 분석을 통해서 매 신호에 대해 목표한 gain을 적용할 수 있기까지 도달하는데 걸리는 시간지연입니다. 조금 다르게 표현하자면, 어느 시간만큼 미래 신호를 미리 보고 현재 오디오 샘플을 위한 gain값을 결정하는지가 latency입니다. 

 
그림 4: FFmpeg loudnorm과 Gaudio Sol Loudness SDK의 Latency 비교

FFmpeg은 3초의 Latency를 가지고 있는데 반해, Gaudio Sol Loudness SDK는 0.6초입니다. 5배 낮은 수치입니다. Latency는 시스템을 어떻게 구현하느냐에 따라 그 현상은 다르게 나타날 수 있습니다. 오디오 버퍼가 Latency만큼을 기다려서(Look ahead라고 부릅니다) 재생하는 것이 허용된다면 이는 최초 재생 시 결과 파형에 영향을 주지 않는다는 것이구요. (재생을 그만큼 늦춘 것이죠.) 그런 지연을 허용하지 않고 바로 출력을 내보내야한다면, Latency에 해당하는 구간만큼 gain이 보정되지 않은 신호가 포함될 수 있다는 의미가 됩니다. FFmpeg이 갖는 3초의 Latency는 사실상 기다리기 어려운 시간이고, 갑자기 큰 신호가 들어왔는데, 음량 정규화가 3초 후에 이뤄진다고 하면 사용하기 어려운 옵션이기도 합니다. 따라서, FFmpeg을 라이브스트리밍 상용 서비스에서 사용하는 것은 현실적이지 않은 것 같습니다. 한편, Gaudio가 선택한 0.6초는 청취평가 결과 대부분 시나리오에서 수용가능한 수렴속도이고, 또한 많은 경우 Video에 비해 오디오 버퍼가 빠르게 준비되기때문에 시스템에 따라 0.6초는 보이지 않는 시간 지연이기도 한 것 같습니다. 

 

결론

이상 결과를 요약하자면, Gaudio Sol Loudness SDK는 FFmpeg loudnorm 보다 4배 이상 빠른 처리 속도를 보이면서, 원본의 왜곡을 거의 발생시키지 않고도 원하는 목표인 음량 정규화를 보다 정확히 수행한다는 것을 확인할 수 있었습니다. VOD이거나 라이브스트리밍이거나 관계없이요. 특히 라이브스트리밍인 경우 FFmpeg은 상용 서비스에서 수용하기 어려운 3초의 시간지연을 가지고 있는데 반해 Gaudio는 0.6초로 서비스에 문제가 없는 수준입니다. 

 

Gaudio Sol Loudness SDK도 FFmpeg 필터 형태로도 제공되기 때문에 FFmpeg을 기반으로 구축된 플랫폼이라면 손쉽게 즉시 적용할 수 있습니다.  

(본 글은 ‘Defect Report on FFmpeg Loudnorm.pdf’의 원문을 한글로 요약 발췌하였습니다.)

 

벤치마킹 테스트 해보세요!

관심이 생겼다면 벤치마킹 테스트(BMT)를 신청하세요. 이 글을 읽는 당신과 같은 문제를 가지고 있던 많은 고객사에서 BMT를 해보고 Sol Loudness SDK를 사용하기로 결정하였습니다. 가우디오는 BMT 관련 문의를 언제나 환영합니다.

 
 

Gaudio Lab 은…

가우디오랩(주)은 VR/AR, 스트리밍 미디어, 모바일, 홈 등 소리가 있는 어디에서나 사람들에게 훌륭한 소리 경험을 제공하는 일을 합니다. 가상세계를  더욱 현실처럼 만드는 소리, 현실을 넘어 초현실적인 소리를 만드는 혁신적인 기술들로 전세계를 누비며 활약하는 국가대표 오디오 공학집단입니다. “올해의 최고 VR 혁신 기업상 수상(VR Awards, 런던, 2017)“, “ISO/IEC MPEG-H 3D Audio 국제표준 채택 (2013,2018)“으로 혁신성을 인정받은 6인의 음향공학박사와 오디오 Geek들은 실리콘밸리와 서울에 있습니다. The Science of Sound.

 
 
 
 
pre-image
AES Dublin 2019 프리뷰

AES (Audio Engineering Society) Convention 은 매년 봄과 가을에 열리는 오디오 업계의 가장 크고 오래된 역사를 가진 전시+학회 입니다. 봄에는 유럽 (영국포함)에서 가을에는 미국 (주로 New York)에서 열립니다. 미국에서 열리는 경우 전시회가 행사의 스케일을 키워주는 반면, 유럽에서 진행하는 봄 컨벤션의 전시회는 깜짝 놀랄 만큼 작고 (동네 바자회 아냐?), 대신 제출된 논문들과 회의장의 디스커션은 깊이가 조금 더 있는 느낌도 듭니다.   이번 제146차 AES Convention은 2019.3.20-23, 더블린 (아일랜드)에서 열립니다. 프로그램 미리보기로 더블린에 마음을 띄워보내봅니다.     4일간에 걸친 Paper Session (Engineering Brief 포함)의 세션 제목들만 보아도 현재 학계의 유행 트렌드를 볼 수 있습니다. 예를들어 VR의 바람이 거세던 2015년부터 직전 AES까지는 (Spatial Audio 세션과는 별개로) Binaural Audio 만 따로 모은 세션이 2-3개씩 될 만큼 (논문 편수로는 ~20여개) 때아닌 열풍이 불었었죠. 가우디오랩도 키노트 발표를 하는 등 유행을 거들었던 바 있구요. 이번 AES에서는 바이노럴 바람이 좀 잠잠해진 기미가 보이네요. 총 22개의 Paper Session 가운데 Spatial Audio는 딱 차례 있습니다. 물론 HRTF, Ambisonics, 3D Audio 등 관련 논문들이 여기 저기 다른 세션에 포함되어 있기는 하구요. 그리고, 쉽게 예상할 수 있듯, Machine Learning 태풍은 AES도 그대로 투영되어 독립 세션이 2개나 등장하였습니다. 아직까지 Audio Machine Learning은 음성이나 영상에 비하면 상당히 미개척된 분야라고들 하지요.   AES Convention에는 Paper Session 이외에 조금 더 간단한(?) 실험결과나 유용한 정보를 담은 Engineering Brief 세션들이 따로 있고 (경우에 따라 정규 논문과 별 구별이 없습니다), Tutorials와 Workshop들도 4일 내내 꽉꽉 담아 동시에 진행되어서 현장에 도착하면, AES 전통의 가이드북 (사진)을 들고 이방 저방 찾아다니며 뭘 들어야 하나 선택장애 상황에 놓이곤 하죠.   이번 AES Dublin에서 관심 가는 논문들을 몇 개 픽 (Pick) 합니다. (가우디오랩의 주관심분야에 한정된 선택이니 그 여부가 본 AES의 대표 자격을 의미하진 않습니다 ^^)     Convention Paper P15-2 Turning the DAW Inside Out—Charles Holbrow, Massachusetts Institute of Technology – Cambridge, MA, USA; MIT Media Lab “Turning the DAW Inside Out” describes a speculative, internet-enabled sound recording and music production technology. The internet changed music authorship, ownership, and distribution. We expect connected digital technologies to continue to affect the processes by which music is created and consumed. Our goal is to explore an optimistic future wherein musicians, audio engineers, software developers, and music fans all benefit from an open ecosystem of connected digital services. In the process we review a range of existing tools for internet enabled audio and audio production and consider how they can grow to support a new generation of music creation technology.   Convention Paper 10183 요즘 스트리밍 미디어로서 음악 및 오디오 서비스가 어떻게 진화할 지에 관심이 높은데, 제목과 요약이 호기심을 끌었네요. 그런데, 요약이 너무 거창해서 실속 없는 총론뿐일까 하는 의문도 드네요. 뮤지션, 오디오 엔지니어, 소프트웨어 개발자, 음악 팬이 모두 베네핏을 얻을 수 있는 오픈 에코시스템이라… too good to be true?   P20-2 Automatic Detection of Audio Problems for Quality Control in Digital Music Distribution—Pablo Alonso-Jiménez, Universitat Pompeu Fabra – Barcelona, Spain; Luis Joglar-Ongay, SonoSuite – Barcelona, Spain; Xavier Serra, Universitat Pompeu Fabra – Barcelona, Spain; Dmitry Bogdanov, Universitat Pompeu Fabra – Barcelona, Spain   Providing contents within the industry quality standards is crucial for digital music distribution companies. For this reason an excellent quality control (QC) support is paramount to ensure that the music does not contain audio defects. Manual QC is a very effective and widely used method, but it is very time and resources consuming. Therefore, automation is needed in order to develop an efficient and scalable QC service. In this paper we outline the main needs to solve together with the implementation of digital signal processing algorithms and perceptual heuristics to improve the QC workflow. The algorithms are validated on a large music collection of more than 300,000 tracks.   우린 별 생각 없이 음악스트리밍 서비스를 접하고 있지만, 스포티파이는 6천만곡, 한국의 벅스는 2천만곡이 넘는 노래를 보유하고 있고, 매일 수천에서 수만곡이 새로 추가되고 있다고 하더군요. 그런데, 그 많은 곡들을 들어보고 서비스할까? 19금 가사는 없는지, 음질은 안깨졌는지, … QC (Quality Control) 을 어떻게 해결할까 호기심가는 주제였는데, 여기 그 고민을 하고 솔루션을 제시한 곳이 있네요. 설명으론 요즘 유행하는 기계 + 사람 워크플로를 제안하는 것 같네요…     P17-4 Detecting Road Surface Wetness Using Microphones and Convolutional Neural Networks—Giovani Pepe, Universitá Politecnica delle Marche – Ancona, Italy; ASK Industries S.p.A. – Montecavolo di Quattro Castella (RE), Italy; Leonardo Gabrielli, Universitá Politecnica delle Marche – Ancona, Italy; Livio Ambrosini, Universita Politecnica delle Marche – Ancona, Italy; ASK Industries S.p.A. – Montecavolo di Quattro Castella (RE), Italy; Stefano Squartini, Università Politecnica delle Marche – Ancona, Italy; Luca Cattani, Ask Industries S.p.A. – Montecavolo di Quattrocastella (RE), Italy   The automatic detection of road conditions in next-generation vehicles is an important task that is getting increasing interest from the research community. Its main applications concern driver safety, autonomous vehicles, and in-car audio equalization. These applications rely on sensors that must be deployed following a trade-off between installation and maintenance costs and effectiveness. In this paper we tackle road surface wetness classification using microphones and comparing convolutional neural networks (CNN) with bi-directional long-short term memory networks (BLSTM) following previous motivating works. We introduce a new dataset to assess the role of different tire types and discuss the deployment of the microphones. We find a solution that is immune to water and sufficiently robust to in-cabin interference and tire type changes. Classification results with the recorded dataset reach a 95% F-score and a 97% F-score using the CNN and BLSTM methods, respectively.   Convention Paper 10193 자율주행 자동차를 위해 마이크 신호로 노면이 젖었는지를 판별하겠다고 합니다. 대표적 머신러닝 기법인 CNN을 이용해서요.. 타이어에 따라 달라지는 특성도 고려한다고 하는데, 자율주행의 완벽성을 위해 하나 더 센싱에 말이 안되는 얘기는 아닌 것 같습니다.   P05-6 ANC System Using Secondary Path Modeling Based on Driver’s Position in Vehicle—Seyeong Jang, Hyundai Mobis – Seoul, Korea; Jongin Jung, Hyundai Mobis – Seoul, Korea; Hyungsub Lim, Hyundai Mobis – Seoul, Korea   In this paper we propose a study of active noise control systems using the concept of Secondary Path modeling based on driver position in the vehicle. The system obtains estimates of the Secondary Path within range of occupant location and applies them to the ANC system to compensate for change depending on the driver’s position. We used the Offline Secondary Path modeling method and FxLMS algorithm in ANC System. Under assumption of detecting a change in position, the secondary path model is applied according to the occupant position and used as initial value of the ANC system. Therefore, ANC performance is better than a system that does not consider existing changing Secondary Path.   Convention Paper 10149 한국분들 (모비스)이 저자인 논문이라 일단 픽.했습니다. ANC (Active Noise Canceling). 노이즈캔슬링 헤드폰의 그 ANC입니다. 차량 실내 혹은 엔진 배기통을 ANC로 해결해보고자 하는 시도는 1990년대에도 한참 연구가 되었을만큼 오래된 분야입니다. 운전석의 소음을 줄이기 위해 ANC의 대표 접근방법이랄 수 있는 Filtered-X LMS (FxLMS) 를 2차 path를 추가하여 개선하는 방법을 다루고 있는 것 같네요.   P14-2 B-Format Decoding Based on Adaptive Beamforming—Alexis Favrot, Illusonic GmbH – Uster, Switzerland; Christof Faller, Illusonic GmbH – Uster, Zürich, Switzerland; EPFL – Lausanne, Switzerland   B-Format signals can be decoded into signals with first order directivity. For stereo and multichannel decoding it would be desirable to have more channel separation than what is achievable by first order. DirAC (directional audio coding) and HARPEX (high resolution plane wave expansion) achieve higher channel separation by means of using a parametric B-Format model to estimate plane waves and diffuse sound, and adaptively rendering those. A limitation is that plane wave and diffuse models are too simple to represent complex B-Format signals. We propose a B-Format decoder, where each channel is generated by an independent adaptive B-Format beamformer. Each beam is generated independently of the other beams, circumventing the limitation when using a single B-Format signal model.   Convention Paper 10180 가우디오랩과 Illusonic GmbH (스위스 소재의 오디오 기술회사입니다) 15년이 넘는 우정을 나누는 친구회사입니다. 올해도 거르지 않고 논문이 나왔네요. 훈남청년 (이젠 중년?) Alexis가 B-format (Ambisonics) 신호로부터 Adaptive Beamforming 기술을 이용해서 다채널 (e.g. 5.1채널) 오디오 신호를 잘 만들어냈다는 내용을 쓴 것 같습니다.   EB01-4 Consideration on the Design of Multi-Zone Control System in a Vehicle Cabin—Wan-Ho Cho, Korea Research Institute of Standards and Science (KRISS) – Daejeon, Korea, Republic of; Ji-Ho Chang, Korea Research Institute of Standards and Science (KRISS) – Daejeon, Korea   The personal audio system to generate different sound conditions for each seat in a vehicle cabin is the representative application of multi-zone sound field control. Here, the effectiveness validation of source positions and the robustness of estimated solutions are investigated for the design of a multi-zone control system in a vehicle cabin. To quantify the efficiency of source position, the linear independency test of transfer matrix between the candidate positions of sources and listener is conducted, and an efficient position is selected by the quantified value estimated by the effective independence method. The dummy head source system is applied to measure the transfer matrix efficiently. With the properly selected source positions, it is observed that the control performance is prominent and robust.   Engineering Brief 494 역시 한국저자분들이라 일단 픽 ^^. 한국표준과학연구원 (KRISS)에서 차량내 Personal Audio System (위치별로 사운드존을 형성) 관련한 연구 내용을 공유했네요. 소스 (음원이겠죠?)의 위치에 따라 성능이 달라지는 것을 확인했다는 내용인 것 같습니다…   EB04-1 A Study in Machine Learning Applications for Sound Source Localization with Regards to Distance—Hugh O’Dwyer, Trinity College – Dublin, Ireland; Sebastian Csadi, Trinity College Dublin – Dublin, Ireland; Enda Bates, Trinity College Dublin – Dublin, Ireland; Francis M. Boland, Trinity College Dublin – Dublin, Ireland   This engineering brief outlines how Machine Learning (ML) can be used to estimate objective sound source distance by examining both the temporal and spectral content of binaural signals. A simple ML algorithm is presented that is capable of predicting source distance to within half a meter in a previously unseen environment. This algorithm is trained using a selection of features extracted from synthesized binaural speech. This enables us to determine which of a selection of cues can be best used to predict sound source distance in binaural audio. The research presented can be seen not only as an exercise in ML but also as a means of investigating how binaural hearing works.   Engineering Brief 509 더블린에서 열리니 더블린 논문이 많아지는건 당연한거고. 유행하는 머신러닝과도 만났네요. 머신러닝 기법을 이용하여 바이노럴 신호 (레코딩? 합성?)로부터 음원의 거리를 추정하는 연구라네요. 50cm 이내의 음원에 대해 거리를 알아내는데 그 과정에서 거리에 영향을 주는 binaural hearing에 무엇이 있는지 덤으로 얻을 수 있다는군요. 제시된 요약만으로 왜 이 연구를 했는지 명확해보이진 않고, 따라서 50cm 이내라는 제약이 실험의 한계인지, 응용 시나리오가 그렇기 때문인지도 불명확하네요.   EB06-1 The Effect of HRTF Individualization and Head-Tracking on Localization and Source Wdith Perception in VR—Hengwei Su, Tokyo University of the Arts – Tokyo, Japan; Atsushi Marui, Tokyo University of the Arts – Tokyo, Japan; Toru Kamekawa, Tokyo University of the Arts – Adachi-ku, Tokyo, Japan   In this study the effects of head-tracking and HRTF individualization by subjective selection on localization and width perception of widen-processed sources in VR were investigated. Localization test and the perceived width evaluation were conducted under conditions with or without head-tracking and using individualized or non-individual HRTF. For the perceived width evaluation, monophonic signals were processed by a method proposed in previous studies, which aimed to create spatial extent for sound objects in the binaural synthesis. According to the results, head-tracking not only was effective to improve localization accuracies in localization test, but also could help synthesized source widths to be localized more accurately. No difference in perceived width was found under different conditions.   Engineering Brief 520 유행하던 바이노럴 / HRTF 연구의 연장선으로, 헤드트래킹과 HRTF 개인화 (각 개인에 따라 맞춘 HRTF 사용)가 localization (음원의 공간 위치 정확도)과 source width (음원의 크기)에 미치는 영향을 분석한 논문 (Brief)입니다. 맞게 해석한 것이라면, 헤드트레킹은 localization과 width 정확성에 모두 도움이 되지만 개인화는 영향이 없다는 것 같군요.    Tutorials 이번 AES Convention에서 제목만으로 관심을 끌만한 Workshop을 발견하진 못했습니다. Tutorials 중에서는 다음의 2개를 꼽았는데요.. T19 – Practical Deep Learning Introduction for Audio Processing Engineers Presenter: Gabriele Bunkheila, MathWorks – Madrid, Spain   Are you an audio engineer working on product development or DSP algorithms and willing to integrate AI capabilities within your projects? In this session we will walk through a simple Deep Learning example for speech classification. We will use MATLAB code and a speech command dataset made available by Google. We will cover creating and accessing labeled data, using time-frequency transformations, extracting features, designing and training deep neural network architectures, and testing prototypes on real-time audio. We will also discuss working with other popular Deep Learning tools, including exploiting available pre-trained networks.   신호처리 연구자들의 비빌언덕 매틀랩에서도 머신러닝 툴셋을 제공하고 있는데요, 그 툴들을 오디오 엔지니어들이 활용할 수 있도록 소개하는 자리인 것 같습니다.   T26 – Sound for Extreme 360° Productions Presenter: Martin Rieger, VRTONUNG – Munich, Germany The workshop shows various examples of 360-degree video productions under challenging conditions, featuring location recordings and post-production. The purpose of the talk is to give practical insights of immersive VR-videos and how sound on vision needs to be contemplated, which varies a lot from usual film formats and requires a lot of knowledge additional to audio as such. Different technologies and sometimes even custom solutions are needed on set and in post. There is no use for a boom microphone and its operator, which gets replaced by an immersive microphone array which there is, just like for 360° cameras, no perfect setup for every occasion as people tend to claim that there is.   가우디오랩의 VR360 저작툴인 Works를 사용하는 고갱님이기도 한데요, 익스트림 환경 (이 어떤 예들을 말하나는 모르겠네요)에서 VR video에 적합한 오디오 취득, 편집 기법을 연구한 내용을 소개하려는 것 같습니다.  VR이 활성화되는데 시간이 걸리는 이유의 첫번째는 디바이스 확산 속도이겠지만, 콘텐츠를 제작하는 비용도 또다른 원인중에 하나이지요. Works는 그 문제를 해결하기 위해 등장했던 툴이기도 했구요…  이상으로 2019년 봄 AES Convention, Dublin 을 프리뷰해보았습니다. 이제 비행기 예약을 고민할 때?   Gaudio Lab 은… 가우디오랩(주)는 VR/AR, 스트리밍 미디어, 모바일, 홈 등 소리가 있는 어디에서나 사람들에게 훌륭한 소리 경험을 제공하는 일을 합니다. 인터넷으로 연결된 가상 세계를  더욱 현실처럼 만드는 소리 기술들로 전세계를 누비며, “올해의 최고 VR 혁신 기업상 수상 (VR Awards, 런던, 2017)”, “ISO/IEC MPEG-H 3D Audio 국제표준 채택 (2013, 2018)”으로 혁신적인 오디오 기술력을 인정받았습니다. 음향공학박사 6명을 비롯한 가우디오랩의 오디오 긱들은 실리콘밸리와 서울에 서식하고 있습니다.     

2019.03.05
after-image
라우드니스 101

LOUDNESS 101   1. Loudness란 ?   Loudness란 인간 청각의 지각 정도에 의해 느끼는 소리의 크기를 뜻합니다. 내가 지금 듣고있는 노래의 크기를 주변 사람에게 알려준다고 가정해봅시다! 일단 소리가 크다면 Loudness가 크다고 할 수 있고, 소리가 작다면 Loudness가 작다고 할 수 있습니다. 하지만 주변 사람에게 소리의 크기를 알려준다고 했을때, Loudness에 대한 인지정도가 나와 같으리라는 보장은 없습니다. 주변 사람의 수가 많아질수록 그 보장성은 줄어들기까지 합니다. 이럴 경우 가장 효율적인 방법은 숫자가 도입된 객관적인 지표(단위)를 통해 전달하는 것입니다. 많은 분야에서 필요로했는지, Loudness 단위에 대한 연구는 활발하게 이루어져왔습니다. 그중에서도 브로드캐스팅, 스트리밍과 같은 시장에서 통용되고 실용성높은 단위를 소개하고자합니다. 소개하고자 하는 단위는 LKFS(Loudness K-Weighted relative to Full Scale)이며, LUFS(Loudness Unit relative to Full Scale)로도 불립니다. 이 단위와 관련된 파라미터들은는 ITU-R(International Telecommunication Union – Radiocommunication), EBU-R(European Broadcasting Union)에 의해 고안되었습니다.   2. Loudness 핵심 요소           위의 figure 1.는 Loudness를 측정하는 유틸리티의 인터페이스입니다. 관찰력이 좋다면 두 유틸리티에서 공통적으로 쓰이는 파라미터는 Integrated, Short-Term, Momentary loudness, true peak 그리고 Loudness Range가 있는 것을 확인 할 수 있습니다. (다른 Loudness 측정기를 보시더라도 유사한 파라미터가 쓰일 것입니다) 이번 챕터에서는 각 파라미터가 의미하는 바에 대해서 살펴보도록 하겠습니다.   2-1. 핵심 키워드   LKFS(LUFS) Loudness의 단위 중 하나이며, 인간의 청각 특성에 부합하게 설계된 K-weighting filter를 거친 입력 신호에 대한 크기입니다. K-weighting filter는 인간이 비교적 잘 듣는 주파수영역의 신호를 증가시키고, 비교적 잘 들리지 않는 주파수 영역의 신호를 감소시키는 필터로 이해하시면됩니다. Loudness의 종류에는 측정하는 길이에 따라 Momentary, Short-term, Integrated Loudness로 나뉩니다. Momentary Loudness는 0.4초, Short-term Loudness은 3초, Integrated Loudness는 전체 구간에 대한 소리 크기입니다.   LU(Loudness units) LKFS가 측정되는 자체의 값이라면 LU는 상대적인 측정량입니다. 즉, 기준 레벨 대비하여 얼만큼 차이가 나는지, 혹은 Loudness의 범위를 의미할때 쓰입니다. 예를 들어, 컨텐츠 A가 -12LKFS이고 컨텐츠  B가 -20LKFS이면 A 컨텐츠는 B 컨텐츠보다 +8LU 만큼의 Loudness를 가지고있다로 표현 가능합니다.   Momentary Loudness K-weighting filter를 거친 신호의 0.4초 분량에 해당하는 소리크기이며, 75% 오버랩(0.1초)을 하여 측정합니다. 순간순간의 소리크기로 이해하면 됩니다.     위 그림과 같이 측정한 결과를 히스토그램화 하여 누적하면 아래 그림과 같습니다.     Momentary Loudness의 히스토그램은 추후 Integrated Loudness를 계산할때 활용됩니다.   Short-term Loudness K-weighting filter를 거친 신호의 3초 분량에 해당하는 소리크기이며, EBU에서는  최소 0.1s 간격으로 갱신 할 것을 권장하고있습니다.   Short-term Loudness의 히스토그램은 추후 Loudness Range를 계산할때 활용됩니다.   Integrated Loudness 전체 구간에서 들리는 소리 크기의 평균이다. 컨텐츠 전반적인 소리 크기를 의미합니다. 구하는 방식은 다음과 같습니다. Step1) -70LKFS 이하의 momentary loudness 분포값들을 제거한 후, 나머지 분포값들의 평균을 구합니다.     Step2) step1에서 구한 평균보다 10LU만큼 작은게 relative threshold입니다.     step3) relative threshold보다 높은 분포값들의 평균이 integrated loudness입니다.       LRA(Loudness Range) 전체 구간에서의 Loudness의 범위입니다. 즉, 소리크기가 어느정도로  분포하고 있는지 알 수 있는 지표입니다. 구하는 방식은 다음과 같습니다. Step1)  -70LKFS 이하의 short-term loudness 분포값들을 제거한 후, 나머지 분포값들의 평균보다 20LU 작은 값(relative threshold)을 구합니다.     Step2) relative threshold를 넘는 분포값들 중 하위 10%와 상위 5%의 범위가 Loudness Range입니다.       True-peak 192kHz 샘플링 주파수로 변환하였을때의 피크값이며 단위는 dBTP입니다.  재생환경 중에서 충분히 높은 샘플링 주파수(192kHz)일때 열화를 방지하기 위한 값으로 이해하면 됩니다. 일반적으로 소비되는 음원의 샘플링 주파수는 44.1, 48kHz이기때문에 업샘플링을 하는게 일반적인데, 이때 기존의 sample peak 값보다 커질 수 있습니다. 업샘플링에 대한 예시입니다.     중축이 되는 업샘플링 기법 외에도 표현 범위를 넘어가는걸 방지하기 위한 attenuation, upsampling 이후에 유효한 신호들만 남기기위한 필터링, 데시벨 단위로 환산하기 위한 로그화 등이 진행됩니다. 아래 block diagram은 샘플링 주파수가 48kHz일때 true-peak를 구하는 일련의 과정입니다.     2-2. 라우드니스 감 익히기   3. 그 외   3-1. 왜 하필 LKFS(LUFS)인가요?Z   기존에는 RMS(Root-mean-square)를 활용하여 Loudness를 측정했지만 실제 인간의 청각 능력과는 매칭이 잘 안됐습니다. 이후 ITU, EBU에서 K-weighting 필터를 활용하여 인간의 청각 능력을 반영하고, 크기를 구하는 과정에서 보았듯이 소리크기를 느끼는데 있어 영향력이 없는 부분에 대한 열외처리를 하는 등 보다 정교한 방법으로 Loudness를 계산합니다. 다른 단위보다 정교하기때문에 대세로 자리잡지않았나 싶네요!   3-2. 각종 플랫폼의 Loudness 규제 및 권장 현황   (https://www.masteringthemix.com 발췌)   3-3. Loudness War에 관한 사견   Loudness와 관련된 이슈를 하나 말씀드리려합니다. 다들 아실수도 있는 ‘Loudness War’입니다. 제 마음대로 요약을 하면 컨텐츠 제작자가 “다른 창작물보다 나의 창작물의 소리를 더 크게 함으로써 청취자들로부터 하여금 더 주목받을 것이다. 보너스로 음질이 더 좋아진것처럼 청취자의 착각을 불러일으킬 것이다.“와 같은 마인드로 컨텐츠를 생산하는 것입니다. 혹은 “다른 창작물보다 나의 창작물의 소리를 더 키우진 않겠지만 차이가 크게 나지않도록 만들것이다.“와 같은 마인드도 될 수 있겠네요. 소리가 커지면 음질이 개선된다고 생각이 될지 모르겠지만, 실제로는 Dynamic이 좁아 표현력도 떨어지고, 클리핑 발생의 빈도가 높아져 음질 열화 확률은 더 높아집니다.  소리를 과하게 키우면 음원의 질 자체는 오히려 떨어진다는 것을 많은 소비자가 인지하여 소비의 패턴이 바뀌기를 희망합니다.   3-4. LKFS? LUFS?   Loudness의 단위를 최초 고안한것은 ITU에서하고 단위를 LKFS로 정의하였습니다. 이후 디스플레이 방식이나 Momentary, Short-term, Integrated Loudness, LRA 등의 용어와 디스플레이 방식 등을 정의 한것은 EBU에서 고안하면서 LUFS로 명칭을 변경하였지요. 따라서 북미권에서는 LKFS를 쓰고, 유럽권에서는 LUFS를 쓰는 경향을 보이네요. ((이 글은 상기 표준에서 내포한 철학을 필자 나름의 핵심 요소를 추린것이기에 보다 자세하고 깊은 내용을 원하시면 ITU-R BS.1770-4, EBU-R Tech 3341,3342를 정독하는 것을 권장합니다.))   Gaudio Lab 은… 가우디오랩(주)은 VR/AR, 스트리밍 미디어, 모바일, 홈 등 소리가 있는 어디에서나 사람들에게 훌륭한 소리 경험을 제공하는 일을 합니다. 가상세계를  더욱 현실처럼 만드는 소리, 현실을 넘어 초현실적인 소리를 만드는 혁신적인 기술들로 전세계를 누비며 활약하는 국가대표 오디오 공학집단입니다. “올해의 최고 VR 혁신 기업상 수상(VR Awards, 런던, 2017)“, “ISO/IEC MPEG-H 3D Audio 국제표준 채택 (2013, 2018)“으로 혁신성을 인정받은 6인의 음향공학박사와 오디오 Geek들은 실리콘밸리와 서울에 있습니다. The Science of Sound.      

2019.05.08