헐리우드가 만든 모바일 숏폼 동영상 플랫폼, 퀴비(Quibi)

2020.03.14 ・ by Gaudio Lab

헐리우드가 만든 모바일 숏폼 동영상 플랫폼, 퀴비(Quibi)

지난 1월, CES 2020에서 열린 퀴비(Quibi)의 데뷔 행사에 준하는 키노트에 참석하였다. 숏폼(short-form) 동영상의 핫한 프랫폼임을 증명하듯 선두주자임을 알리듯이 CES에서도 퀴비의 행보를 팍팍 밀어주는 듯한 분위기였다. 개인적으로 퀴비 CEO 메그 화이트맨(Meg Whiteman)의 연설 중 생각해보게 하는 말이 있었다.

“We are not shrinking TV on to phones”
“우리는 TV를 핸드폰으로 축소시키는 것이 아닙니다”

이미 우리는 유튜브나 넷플릭스 같은 플랫폼을 통해서 무수한 영상 콘텐츠를 소비하고 있고 대다수가 모바일을 통해 콘텐츠를 소비하고 있는데 이러한 콘텐츠는 그저 TV에서 볼수 있는 콘텐츠들을 모바일 또는 아이패드 등으로 축소시킨 것에 불과하다는 것인가? 도대체 퀴비에서 내세우는 ‘모바일을 위한 숏폼’이 현존하는 콘텐츠와 무엇이 다르다는 말인가? 너무 혁신으로 과장하는 것이 아닌가? 하는 생각이 들었었다.

그러다가 퀴비에서 말하는 숏폼 플랫폼에 대해 단번에 이해할 수 있는 계기가 있었는데 바로 내 스스로가 소비하는 콘텐츠에 대해 인식을 했을 때 였다. 유튜브에서의 콘텐츠 소비량이 늘어나면서, 진득하게 한자리에 앉아 비교적 오랜 시간동안 시청해야 하는 영화 관람이 지루해지고 선호하지 않게 되었고 더 나아가서는 유튜브의 콘텐츠도 너무 길다는 느낌을 받아 영상스피드를 2배속을 하거나 인스타그램의 핵심 영상만 찾아보게 되었다. 그리고 내가 주로 사용하는 스크린도 TV나 데스트탑에서 모바일로 넘어간지 오래였다.

“유튜브나 넷플릭스의 콘텐츠도 충분히 모바일로 시청할 수 있는데요?” 맞다. 그러나 해당 콘텐츠들을 모바일 뷰로 호환이 가능한 것인지 “모바일을 위한, 모바일에 의한” 콘텐츠는 아니다. 우리의 소비 콘텐츠 중 이미 자리잡힌’웹툰’을 연상해보면 이해하기가 더 쉬워진다. 처음에 네이버 웹툰도 모바일이 아닌 데스크탑에서 스크롤을 밑으로 내려가며 읽을 수 있는 형식으로 시작했다. 그러다가 모바일 사용자가 늘어나자 아예 ‘모바일뷰’를 위한 옆으로 쓱쓱 넘길 수 있는 템플릿으로 변경되었다.

영상이라고 못할 것이 없지 않은가.

퀴비(Quibi)에 대해 알아보자

“Big Stories, Quick Bites”

퀴비는 Quick + Bites 이 두 단어를 조합하였다. 이름에 걸맞게 모바일로 영상을 소비하는 유저들의 행동패턴을 파악하여 언제 어디서든, 이동하는 순간에도 내용을 끊어 보지 않고 즐길 수 있는 ‘오직 모바일을 위한, 모바일에 의한 10분 미만의 숏폼 콘텐츠’ 스트리밍 플랫폼으로 제프리 카젠버그(Jeffrey Katzenberg, 드림웍스를 공동설립한 헐리우드의 명사이다)에 의해 만들어졌다.

퀴비를 창시하게 된 영감은 TV나 영화가 아닌 베스트셀러 <다빈치 코드> 라는 책이였다고 하는데, 책 <다빈치 코드> 저자인 댄 브라운(Dan Brown)은 466페이지인 책 내용을 105개의 챕터로 나누었고 바쁜 현대인들이 책을 읽는 도중 이탈하지 않게 한 챕터 당 읽는 시간이 5분이 넘지 않게 하였는데, Jeffrey는 여기서 받은 영감을 Big stories, Quick bites 로 동영상에 적용함 셈이다.

퀴비는 어떻게 다른 플랫폼과 차별화하는가?

1. 모바일 Only 플랫폼

앞에서부터 계속 강조하는 부분이지만, 메드 화이트가 언급하는 퀴비의 차별화된 점은 바로 모바일을 위한 “새로운“플랫폼 이라는 것이다. 애초에 콘텐츠 제작을 “모바일“에 맞추고 모바일 시청에 몰입감을 더했다는 것이다. 또한, 모바일이 자체적으로 가지고 있는 기능(터치스크린, 카메라, GPS 등)을 새로운 재미 요소로 더하여 스토리에 영향을 미칠 수 있도록 하였다. 예로, 스티븐 스필버그 감독과 협업하여 제작한 공포영화는 사용자의 지역과 시간을 추산하여 오직 밤 시간대에만 시청할 수 있는 장치를 심어 두었다고 한다.

출처: CES

2. 모바일 환경 맞춤

퀴비의 콘텐츠 크리에이터와 기술팀은 협업하는 모델을 지향한다고 한다. 모바일을 위한 콘텐츠 제작에 있어 크리에이터들에게는 제약이 있었는데 바로 ‘파노라마’ 기법으로 촬영한 장면이 세로로 시청하는 모바일 사용자들에게는 감동을 줄 수 없다는 것이다. 모바일 사용자들의 몰입감을 높일 수 있게 턴스타일(Turnstyle)이라는 기술을 자체적으로 개발하였다. 턴스타일은 시청자가 화면을 가로나 세로로 보든 상관없이 보기에 최적화된 가로/세로 영상을 실시간으로 전환할 수 있도록 하여 몰입감 향상에 기여한다.

Turnstyle 기술을 구현하기 위해 콘텐츠 크리에터들은 넓은 장면(wide footage)로 영상 촬영을 하고 같은 영상을 가로/세로로 크롭(crop)하여 퀴비 엔지니어와 함께 크롭한 영상을 연결하는 후작업을 한다고 한다. 퀴비의 CTO Rob Post는 시청자가 모바일을 어느 방향으로 들던지 스크린이 전환할때 생기는 레이턴시를 피하기 위해 퀴비의 스트리밍 기술은 항시 ‘Side-loading’ 하도록 설계하였고, 싱글 오디오 트랙만 사용하여 인코딩과 패키징을 진행한다고 한다. 따라서 사용자가 동일한 콘텐츠를 세로로 보든 가로로 보든 화면을 전환할 때마다 rebuffering도 없고, audio의 pop(끊김 현상)도 없다고 주장한다.

3. Script-To-Screen 혁신

턴사이드의 기술력을 보유하고 있기에 퀴비의 대부분의 콘텐츠는 자체제작이다. 이미 175가지의 쇼에서 8500개의 에피소드를 이미 확보한 상태이며 할리우드 거물급 유명인사들이 콘텐츠 제작에 참여하였다. 또한, 화면 배율을 가로/세로의 방향에만 맞춘것이 아니라 가로로 볼때는 제 3자로써 전체적인 스토리를 파악할 수 있는 관점으로 만들어지며, 세로로 볼때는 시청자가 주인공의 관점으로 상황을 볼수있게 연출 되기 때문에 동일한 콘텐츠여도 다른 시각으로 감상할 수 있다.

4. 강력한 사용자 경험

시청자에게 만족스러운 시청 환경을 제공하기 위해 퀴비는 구글 클라우드와 파트너를 맺어 구글의 스트리밍 기술력을 사용하여 물 흐르듯 끊김없는 서비스를 제공한다고 한다. 또한, 모든 콘텐츠들은 meta-tagging(메타태깅)하여 machine-learning(머신러닝)을 통해 사용자 취향에 맞는 콘텐츠를 선별해준다. 프리미엄 유저에게만 다운로드 권한을 제공하는 유튜브와는 달리 모든 퀴비 유저들은 콘텐츠를 다운로드 받을 수 있는 다소 파격적인 베네핏을 제공한다.

그럼 퀴비는 어떻게 수익을 내는가?

1. 구독료

두가지 구독 플랜이 있다. (포스트 작성시점 기준)

$4.99 a month with ads
$7.99 ad-free

2. 광고

퀴비가 새로운 모바일 콘텐츠 플랫폼을 크리에이터들에게 열어준 것과 같이, 브랜드 즉 광고주들에게도 새로운 광고 방식을 제공함으로써 참여율을 높일 예정이라고 한다.

<마운틴듀 X 퀴비 광고영상>

실제로 이미 퀴비와 함께하기로 한 광고주들이 이번 2020 CES 키노드에서도 언급이 되었고, 퀴비가 출시를 앞둔 사전 광고 물량이 1억5000만 달러에 달한다.

출처: CES – 퀴비의 광고주 라인업

CES 키노트에서 게스트 스피커로 참가한 펩시코의 전무 아담 하틀러(Adam Harter)는 퀴비를 통해 할리우드 크리에이터와 협업하여 브랜드 마케팅을 할 수 있다는 점, 그리고 신선한 스토리텔링이 밀레니엄 세대들에게 접근할 수 있다는 점을 언급했다. 또한, 6천6백만명의 가입자를 보유하고 있는 티모바일(T-mobile)은 퀴비와의 파트너십을 통해 티모바일 고객에게 프리미엄 모바일 콘텐츠를 제공할 것이라고 말했다.

3. 라이센싱

디즈니, 유니버셜 스튜디오, 넷플릭스와 같이 퀴비도 자체제작 콘텐츠를 개발함으로써 콘텐츠 라이센스를 머천다이즈 제작, 게임 플랫폼, 놀이공원 등에 판매할 확률이 높다는 전망이 있다.

아직 출시하지 않은 퀴비는 왜 스포트라이트를 받는가? (시작부터 유니콘?)

퀴비와 유사한 스트리밍 플랫폼은 있지만, 퀴비와 같은 플랫폼은 없다. 새로운 플랫폼은 맞는데 새로운 플랫폼이라서 신선하기보다는 이 새로운 플랫폼에 함께하는 출연진들의 스펙들이 할리우드와 실리콘벨리를 아우르는 유력자들이라더 주목을 받는 것 같다.

퀴비 설립자
앞에서도 설명한 것처럼 퀴비를 창시한 제프리 카젠버그는 드림웍스를 설립한 주축 인물 중 한명으로 이미 할리우드뿐 아니라 전세계적으로 유명인사이다.
퀴비 CEO
제프리 카젠버그의 오랜 동료이기도 한 메크 휘트먼은 P&G와 드랍박스(Dropbox)의 이사회 멤버이며 이전에는 HP와 eBay의 CEO였던 저명한 사업가이다.
그리고, 이미 확보된 화려한 퀴비 크리에이터들
스티븐 스필버그(Steven Spielburg)
윌 스미스 (Will Smith)
제니퍼 로페즈(Jennifer Lopez)
케빈 하트(Kevin Hart)
빌 머레이(Bill Murray)외 다수의 할리우드 유명인들 출연 및 콜라보.

퀴비, 한국진출 할까?

퀴비는 오는 2020년 4월 6일, 미국에서 첫 런칭을 할 예정이다. 글로벌 플랜에 대해서는 현재 검토하는 중이라 한국에는 언제쯤 진출할 지 아직은 알 수 없는 상태라고.

Streaming

스트리밍 시대의 음량 문제

스트리밍 시대의 음량 문제 인공지능이 뉴스를 생성하고, 자율주행차가 고속도로를 질주하는 이 시대에 오디오는 그 역사만큼이나 해묵은 이슈인 음량(Loudness) 편차가 여전히 문제입니다. 여전히가 아니고 문제가 더 커지고 있는 것도 같습니다. 스마트폰을 사용하다 보면 누구나 겪어봤을 것입니다. 유튜브 영상을 시청하다 다음 영상으로 넘어가는 순간 갑자기 커진 음량에 깜짝 놀라 음량을 조절하던 것을. 너무나 익숙한 일상이라 문제라고 생각하지도 못하던 문제입니다. 홈버튼 마저 제거한 아이폰에 전원버튼과 함께 여전히 물리키로 존재하는 볼륨버튼은 이것이 얼마나 필수 기능인지를 역설적으로 보여주는 듯합니다. 하나의 앱에서만 그런 것이 아니고, 앱을 넘나드는 순간 문제는 더욱 심각해집니다. 멜론으로 음악을 듣다가 웨이브(WAVVE)로 동영상을 보는 순간에, 다시 게임앱을 켜는 순간에 볼륨값을 다르게 설정해야하는 불편이 따릅니다. 갑자기 고막을 터뜨리지 않을까 조마조마하기도 합니다. “그 똑똑한 스마트폰이 알아서 좀 해주지 그것 하나도 해결 못하나?” 그런 생각을 가진 분들도 있을 것입니다. 왜 이런 문제가 생겼을까요? 역사를 거슬러 올라가자면, 이 문제는 서두에 말씀드린 것과 같이 모든 미디어가 한번씩 겪고 지나가는 역사가 오래된 문제입니다. 우선은 “소리가 크면 음질이 좋다“는 사실에 가까운 믿음 때문에 모든 콘텐츠 저작자는 할 수 있다면 소리를 키우는 방향으로 노력하고 있기 때문이고, 스마트폰에서는 현재 이것을 어떤 법규로도 강제하고 있지 않아 통제 불능 상태에 있기 때문입니다. 마지막으로 이를 기술적으로 해결하기에는 아무리 인공지능 할아버지가 등장해도 원리상 한계가 있다는 점입니다. 좀 더 공부해보겠습니다. 첫째, 왜 이런 문제가 생기고 있는 걸까요? 우리 인간이 들을 수 있는 주파수 범위, 즉, 가청주파수가 20Hz ~ 20,000Hz 라는 얘기는 어디선가 들어보셨을 것입니다. 그런데, 이 가청주파수 범위라고 해서 모든 소리를 같은 음량으로 듣지는 않습니다. 20,000Hz 를 넘어선 주파수의 소리는 그 물리량이 실제로 존재하고 아무리 커도 우리가 들을 수 없어 비가청 신호라 부르듯이, 가청주파수 범위 이내라도 20,000Hz에 가까운 고음일수록 , 반대로 20Hz에 가까운 저음일 수록 우리는 그 소리를 잘 듣지 못합니다. 바꿔 얘기하면, 음량이 매우 커야만 겨우 들립니다. 이를 많은 사람들에 대한 실험을 통해 통계적으로 나타낸 특성치를 등청감곡선(Equal-loudness Contour)라고 부릅니다. 잘 듣지 못하는 저음과 고음이 충분히 잘 들리기 위해서는 소리가 커야합니다. 우리가 나이트클럽이나 콘서트장에 가면 음악이 좋다고 느끼는 것은 우선 소리가 크기 때문입니다. 따라서, 음악을 만드는 제작자들이 너도 나도 다른 음악보다 소리를 크게 믹싱하려고 달려듭니다. 이런 현상을 업계에서는 소위 ‘음량전쟁(Loudness War)’이라고 부르며, 이 전쟁은 현재도 진행형입니다. 1970년대 음악부터 최신 K-pop까지 거슬러 올라오면 음량은 꾸준히 커지고 또 커집니다. 더 키울 수 없는 지경이어도 계속 키워나가고 있습니다. 영화, 드라마의 사운드트랙을 담당하는 연출가도 다르지 않겠죠? 서로 볼륨을 키우려는 본능에 충실합니다. 올드팝 파형, Beatles – Yesterday, -17 LUFS, 우리가 기대하는, 음악 신호 다운 파형을 보인다 최신 케이팝 파형, Red Velvet – Pyscho, -5LUFS, 위와 마찬가지로 흰색이 배경이고 칠판색이 신호이다.그러나 칠판색으로 꽉 차버려서 배경이 보이지 않는다. 음악 신호가 가진 고유 특성을 포기하며 억지로 키워서 위 아래는 자르고 콤프레서로 다이내믹 레인지는 꽉꽉 밟아 넣었음을 파형만 봐도 알 수 있다.가우디오랩에서는 이를 ‘소시지를 만들었다’고 표현하곤 한다. 음량 전쟁의 참상. 여기에 광고가 더해지는 순간 상황은 더욱 악화됩니다. 광고주 입장에서는 비싼 비용을 지불하고 황금시간에 편성한 TV, 오디오 광고가 본편보다 소리가 작다면 서글프기도 하겠죠? 오히려 더 키워서 사용자가 절대 듣지 않고는 지나칠 수 없게 만들고 싶어할 겁니다. “청바지 5벌에 단돈 4만9천원~“하는 갑툭튀 중간 광고 다들 익숙하실 것 같습니다. 저마다 더 밝고 화려한 네온사인으로 행인의 눈을 유혹하고자 하는 길거리 광고판의 노력과 다르지 않습니다. 일찌감치 지상파 TV방송에서는 전세계적으로 이 문제를 법을 통해 해결 하였습니다. 이른바 CALM act (Commercial Advertisement Loudness Mitigation Act, “조용해!법“이름 잘 짓습니다)가 발효되면서, 광고를 포함한 모든 TV 프로그램은 -24 LUFS (음량에 대한 표준단위. 자세한 정의는 이 글을 참조해주세요)에 맞춰 방송되고 있습니다. 유사한 기준을 한국을 비롯하여 유럽, 호주, 일본 등에서도 규제화하여 시행하고 있기 때문에, TV에서 제공되는 프로그램들은 음량 편차의 문제가 거의 없습니다. 광고를 본편의 음량에 맞추기 위해서는 본편 역시 기준이 있어야 겠지요. 그렇게 TV는 -23~-24 LUFS 언저리가 기준으로 굳어 졌습니다. 이정도면 위에 본 파형처럼 소시지를 만들 수가 없는 정도입니다. TV라는 미디어는 통제가 가능한 소수의 콘텐츠 저작자들만이 사용자 기기(테레비)에 콘텐츠를 공급할 수 있기 때문에, 그리고 이들은 모두 나라별로 방송법이라는 틀 안에서 서비스를 해야하기 때문에 그만큼 통제가 쉽습니다. 이런 법규를 따를 필요없는 (그렇지만 TV를 통해 콘텐츠 소비가 가능한) OTT 사업자의 경우도 이웃하는 (방송) 서비스와의 경험의 호환성을 위해 자체 규정을 통해 이 기준을 잘 따르는 경향이 있습니다. 시청자가 승자인 법규라 할 수 있겠습니다. 그렇지만 스마트폰 세상은 다릅니다. 사용자의 귀에 소리를 제공하는 공급원의 관점에서 무한한 플랫폼(앱)과 무한한 콘텐츠 제작자가 서비스를 하는 세상입니다. 그나마 음량을 통제하는 넷플릭스 같은 OTT의 경우도 TV를 기준으로 맞춰져 있다보니 오히려 라우드니스 전쟁을 벌이고 있는 다른 앱들과의 레벨이 현저히 차이가 나서 오히려 문제가 되기도 합니다. 큰게 문제이지 작은건 좋은 것 아닌가? 그렇지 않습니다. 넷플릭스를 시청하던 시청자가 음량이 작아 볼륨을 한참 키워서 미드를 감상하다가 음악앱으로 넘어가는 순간 빵 터집니다. 따라서, 하나로 맞춰져 있지 않으면, 문제가 됩니다. 실태조사를 해보았습니다. 큰 노력 들이지 않고 확인할 수 있는 제 폰에 깔린 앱들의 제각각인 음량 분포 상황입니다. 최대 -5 LUFS에서부터 최소 -39 LUFS까지 하나의 앱안에서도 앱과 앱사이에서도 상당히 다릅니다. 이 와중에 넷플릭스가 고고하게 -27에 맞춰져 있습니다. 넷플릭스의 음량 측정 방식이 달라서 약간 다른데, 대략 TV 방송 기준에 맞춰져 있다고 보면 됩니다. 위에 설명드린 것처럼 넷플릭스 혼자 적절한 음량에 잘 맞춰둔다고 문제가 완화되는 것은 아닙니다. 넷플릭스와 스포티파이를 넘나드는 사용자라면 매번 볼륨키를 5번씩은 눌러줘야 할겁니다. 게다가 모바일 환경은 TV 시청환경과는 다르게 시끄러운 지하철 등에서 들어야 하기 때문에 TV 기준으로 맞춰진 음량 기준이 너무 작습니다. 적합하지 않습니다. 실제로 넷플릭스 사용자 게시판에는 음량이 작다는 불만이 빈번합니다. 넷플릭스 본토인 미국에서는 TV가 주 시청기기이기 때문에 바꾸겠다는 생각을 안하는 것 같습니다. (가우디오랩의 솔루션을 이용하면 원본을 다르게 보유하지 않고도 TV와 스마트폰을 다른 음량으로 재생할 수 있다는 사실을 모르는 듯 합니다.) 우리가 흔히 접할 수 있는 서비스에서 쉽게 발견할 수 있는 라우드니스 문제의 실상(최대 -5과 최소 -39는 스마트폰의 볼륨키를 11번 누른 정도의 차이다. 이런 세상에 살고 있다😕) 둘째, 왜 해결이 안되고 있을까요? 지금까지 긴 글을 잘 따라오셨다면, 결국 법이 없으면 지키기 어려운 것이라는 유도된 결론에 함께 이를 겁니다. TV의 전철을 밟아가며 TV의 사례처럼 법으로 해결할 수 있지 않을까요? 처음엔 저도 법이 답이라고 생각했습니다. 그런데 조금 더 진지하게 생각하니 (공부도 좀 해봤습니다), 국경도 없이 진행되는 서비스들을 과연 국가라는 테두리를 가진 법으로 통제할 수 있는걸까 하는 의문이 들었습니다. 음량 문제가 아니고서라도, OTT 서비스에 대한 규제를 어떤 근거로 법제화할 수 있는지는 우리나라를 비롯하여 이미 각 나라마다 어려운 문제라고 알고 있습니다. 성인물 규제를 위한 IP차단 처럼 음량에 대해서도 그런 규제라야 가능할까도 싶더군요. 게다가 동영상 뿐 아니라 게임, 음악 등 범주도 제각각인 앱 서비스들을 하나의 법으로 포괄한다는 것도 쉽지 않은 일일 것이구요. 법이 안된다면 그럼 기술은 뭐하고 있나? 기술로 음량을 통제한다면, 첫째, 콘텐츠가 제작되는 단계에서 좋은 툴을 이용하도록 하는 방법이 있을 것입니다. 그런데, 세상 모든 사람이 유튜버가 되고자 하는 1인 창작자의 시대에는 콘텐츠 제작 단계에 전문 엔지니어가 전문적인 툴을 이용해서 음량을 통제하는 것이 사실 상 불가능한 것 같습니다. 그 다음은 이런 콘텐츠가 모이는 플랫폼의 서버에서 해결하는 방법을 생각해볼 수 있겠지요. 현실적으로 가장 현명한 방법입니다만, 여기에는 두가지 애로사항이 있습니다. TV, PC, 스마트폰 등 소위 엔스크린을 표방하는 OTT의 경우 타깃 디바이스마다 서로 다른 목표 음량(Target Loudness)를 제공하기 위해서는 각각에 맞는 서로 다른 버전의 원본들을 마련해 두어야 합니다. 서버의 저장용량이 증가하고, 구현이 복잡해지는 문제를 갖습니다. 그리고, 이렇게 하기로 마음을 먹었더라도 음량을 평준화하기 위해 신호를 보정한 후 다시 저장하는 과정에서 원본의 훼손이 불가피합니다. 콘텐츠 제작자가 보내준 MP3 신호를 복호화했다가 다시 부호화하는 과정을 거치면 중복된 압축으로 인한 음질 훼손이 발생하게 되죠. 이를 Tandem Coding Artifact라고 부르는데, 할 수 있으면 피해야하는 신호처리 과정입니다. 물론, 이 과정에서 연산량이 증가하는 것도 불가피합니다. 그리고 열심히 사운드를 마스터링한 전문 사운드 엔지니어 입장에서는 이 과정에서 원본을 건드렸다는 사실 만으로 지극히 거부감을 가지고 있기도 합니다.아예 금지하는 콘텐츠 크리에이터도 존재합니다. 마지막으로 마지막 재생앱단에서 처리하는 방법이 있습니다. 소위 AGC (Automatic Gain Control)이라 부르는 계열의 방법인데, 이는 실시간으로 음량을 통제해야하기 때문에 미래에 어떤 신호가 갑자기 들어올 지 알 수 없는 문제로 인해, 또 다른 형태의 매우 심각한 음질 왜곡을 불러옵니다. 소위 pumping과 breathing이라고 부르는 왜곡 현상인데, 우리 귀는 매우 예민해서 이런 소리를 듣기 매우 싫어합니다. 이상적인 음량 평준화는 신호 전체를 이해할 때 가능하다고 하겠습니다. 이제 잠깐 약을 팔겠습니다. 한명의 적극적 소비자로서 나의 편리를 위해 이런 음량 문제를 근원적으로 해결해보자는 마음과 지금까지 설명드린 것과 같은 긴 고민의 끝에 가우디오랩에서는 서버-클라이언트 구조의 라우드니스 평준화 기술을 만들게 되었습니다. 서버에서는 입력된 음원에 대해 국제 표준 방법에 따라 (즉, LUFS단위로) 측정된 음량값을 메타데이터로 추출할 뿐 원본을 건드리는 평준화는 수행하지는 않습니다. 따라서, 입력된 원본 그대로 (압축된 그대로) 보관을 합니다. 그리고, 실제 음량 평준화를 수행하는 것은 클라이언트 앱입니다. 이때 모바일앱과 TV앱은 서로 다른 목표 음량으로 평준화를 수행할 수 있습니다. 더 나아가서, 시끄러운 지하철이냐, 조용한 집이냐 등 사용자의 청취환경에 따라 동일한 디바이스에서도 상황에 따라 다른 목표 음량으로 소리를 재생할 수 있습니다. 깔끔하지요? 그런데, 이런 서버-클라이언트 구조도 애로사항은 있습니다. 라이브가 대세인 요즘 트렌드에서는 메타데이터를 미리 추출한다는 구조 자체가 성립하지 않습니다. 고객사들과 협업을 하다보면, 광고 기반의 VOD 서비스인 경우는 라이브가 아니라 하더라도 삽입되는 광고 영상(음원) 자체가 광고 대행사의 원격 서버에서 사용자 단말로 바로 전달이 되기 때문에 플랫폼의 자체 서버에 저장하는 과정에서 메타데이터를 추출하는 공정을 삽입하기가 어려운 경우도 있습니다. 그래서 우리는 또 고민을 했고, 추가로 솔루션을 준비하였습니다. 이 솔루션도 시중의 AGC보다는 상당히 똘똘하게 잘 동작합니다만, 앞서 설명드린 것처럼 이 시나리오에서는 앞으로 아무리 인공지능 할아버지가 등장한다고 하더라도, 아직 도래하지 않은 미래 시간을 포함한 콘텐츠의 전체를 수신해야만 계산이 가능한 누적 음량(Integrated Loudness)을 알아내서 이를 기준으로 음량을 맞추는 것은 실현 불가능합니다. 다만, 최선을 다할 뿐. 가우디오랩의 라우드니스 솔루션을 도입한 착한 플랫폼들에서는 더 이상 지금껏 길게 설명한 음량 문제가 존재하지 않습니다. 고객 리뷰에 음량 문제의 언급이 사라졌습니다. 그런데, 앞선 그림에서도 보여드린 것처럼, 그리고, 사용자는 하나의 앱만을 사용하지 않는다는 사실을 마주할 때 우리의 미션은 여기가 끝은 아닌 것 같습니다. 소리나는 기능을 갖는 모든 앱 서비스들이 통일된 방법으로 메타데이터를 생성하고, 이 메타데이터를 디바이스의 OS에서 해석하고 통제할 수 있으면 이상적인 세상이 올 것입니다. 가우디오랩의 다음 도전 목표입니다. 이를 위해 이 기술과 메타데이터를 표준화하는 작업을 진행중입니다. 오늘 자세히 설명하지 않았지만, 우리 귀는 일종의 기계 장치로서 유한한 수명을 가지고 있습니다. 과도한 음량으로 인한 청력 손실은 스마트폰과 이어폰의 시대에 사는 우리 모두가 직면한 문제이며, WHO에서는 음량 노출 시간을 제한하도록 하는 권고안까지 내놓고 있습니다. 우리의 건강을 위해, 그리고 매일 매일 당연하듯이 받아들이는 볼륨 버튼 누르기의 불편을 해소하기 위한 여정에 응원을 부탁드립니다. 👏🏻응원 방법: 지금 사용하고 계신 OTT/음악 서비스에 들어가서 “음량 편차가 너무 심해서 못듣겠어요~” “내가 왜 매번 볼륨 버튼을 누르며 들어야 합니까? 니가 맞춰주세요~“ 라고 한마디 남기시면 됩니다 ^^

2020.03.12

Music Generative Model - 박수철 연구원(모두의 연구소)|전문가 초청

Music Generative Model 박수철 연구원 (모두의 연구소) 가우디오랩에서는 다양한 오디오 기술을 연구개발하여 제품화하고 있는데, 최근에는 AI 모델을 사용하는 제품들도 만들어지고 있습니다. 점점 AI 모델에 대한 효용성이 높아질 것으로 보이는 이 시점에, Music Generative Models에 대한 연구를 진행하신 박수철 님을 모시고 세미나를 진행하였습니다. 박수철님은 4가지 Music Generative 모델에 대해서 소개해 주셨고, 4번째 모델 Music Transformer로 본인이 직접 학습하고 만드신 곡도 공유해주셨습니다. (1) 개요 : Auto-regressive Model Music Generation은 한단계 앞까지의 샘플값을 토대로 현재 시점의 샘플값을 예측하는 문제인 Autoregressive Model로 볼 수 있다는 점으로 시작하였습니다. 2) 모델 1 : Wavenet – A. Oord (2016) Wavenet은 Auto-regression의 확률 모델을 Binary Tree와 유사한 구조를 가진 Network를 통하여 Training하는 형태로 구성되어 다음 샘플을 생성해냅니다. PCM Sample in, Sample out 구조를 가지기 때문에 당연히 Training Database의 음향 특성이 네트워크 안에 흡수가 되고, 트레이닝 된 곡들의 형태를 따라가기는 하지만 곡의 거시적인 관점에서의 맥락을 이해하는 데에는 그 한계를 보이는 Long-term Dependencies Problem을 가지기도 하였습니다. (3) 모델 2 : Vector Quantised Variational Auto Encoder (VQ-VAE) – A. Oord (2017) Wavenet의 거시적인 곡의 맥락 해결을 위하여 오디오 신호를 Frame화 하여 해당 Frame의 특성을 Vector로 치환 후, 해당 Vector의 특성을 복호하는 VQ-VAE 기법이 등장하였습니다. 기존의 Wavenet만 사용한 것보다는 Frame에 의한 거시적인 정보를 일반화된 Z-variable 형태의 code북으로 표현함으로써 보다 거시적인 악곡의 형태를 제공함을 샘플 음원을 통하여 확인하였습니다. (4) 모델 3 : MetNet – S. Vasquez (2019) Wavenet이나 VQ-VAE와는 달리, Mel-Spectrogram 상에서, 이전 frame의 spectral information과 현재 frame의 저주파 정보들을 참조하여 LSTM을 겹겹히 쌓는 구조를 갖는 형태입니다. (5) 모델 4 : Music Transformer – C. Huang (2018) 앞서 설명한 3가지의 모델은 오디오 PCM 신호를 기반으로 Music Generation을 수행하는 반면, Music Transformer는 신호보다 상위 개념인 MIDI 정보를 활용하여 수행합니다. 때문에, 전체적인 곡의 맥락과 구성이라는 점에서 매우 우수한 성능을 보였구요. 보다 세부적으로는, 입력 정보로는 MIDI 데이터가 가진 time(tick), note on/off, velocity 등의 이벤트를 토큰화하여 언어 문장 데이터처럼 활용하고, 현재 예측 지점의 Query 정보와 과거 곡의 MIDI 정보의 Key의 내적을 통하여 참조 여부 및 그 Value를 결정하는 Sparse Attention Model을 활용합니다. 상기 모델들에 대한 느낌은, Music Transformer가 가장 작곡의 관점에 가까운 모델을 가지기 때문에, 가장 자연스러운 곡을 구성하는 것으로 느껴졌고, Music Transformer가 좀 더 진화하여, 현재는 MIDI로만 구성된 것을 조금 더 나아가 순수 악보 데이터, 연주자의 연주 방식으로 분리하고, 공간 음향 모델을 적용시키게 되면, Beethoven 이 작곡했을 법한 새로운 소나타를 Vladimir Horowitz가 Carnegie Hall에서 연주한 공연 까지 생성하는 날이 그리 멀지 않은 것 같습니다.

2020.03.19