뒤로가기back

Music Generative Model - 박수철 연구원(모두의 연구소)|전문가 초청

2020.03.19 by Ben Chon

Music Generative Model

박수철 연구원 (모두의 연구소)

 

가우디오랩에서는 다양한 오디오 기술을 연구개발하여 제품화하고 있는데, 최근에는 AI 모델을 사용하는 제품들도 만들어지고 있습니다.

 

점점 AI 모델에 대한 효용성이 높아질 것으로 보이는 이 시점에, Music Generative Models에 대한 연구를 진행하신 박수철 님을 모시고 세미나를 진행하였습니다.

 

박수철님은 4가지 Music Generative 모델에 대해서 소개해 주셨고, 4번째 모델 Music Transformer로 본인이 직접 학습하고 만드신 곡도 공유해주셨습니다.

 

(1) 개요 : Auto-regressive Model

Music Generation은 한단계 앞까지의 샘플값을 토대로 현재 시점의 샘플값을 예측하는 문제인 Autoregressive Model로 볼 수 있다는 점으로 시작하였습니다.

 

 

2) 모델 1 : Wavenet – A. Oord (2016)

Wavenet은 Auto-regression의 확률 모델을 Binary Tree와 유사한 구조를 가진 Network를 통하여 Training하는 형태로 구성되어 다음 샘플을 생성해냅니다.

 

PCM Sample in, Sample out 구조를 가지기 때문에 당연히 Training Database의 음향 특성이 네트워크 안에 흡수가 되고, 트레이닝 된 곡들의 형태를 따라가기는 하지만

 

곡의 거시적인 관점에서의 맥락을 이해하는 데에는 그 한계를 보이는 Long-term Dependencies Problem을 가지기도 하였습니다.

 

 

 

(3) 모델 2 : Vector Quantised Variational Auto Encoder (VQ-VAE) – A. Oord (2017)

Wavenet의 거시적인 곡의 맥락 해결을 위하여 오디오 신호를 Frame화 하여 해당 Frame의 특성을 Vector로 치환 후, 해당 Vector의 특성을 복호하는 VQ-VAE 기법이 등장하였습니다.

 

 

기존의 Wavenet만 사용한 것보다는 Frame에 의한 거시적인 정보를 일반화된 Z-variable 형태의 code북으로 표현함으로써 보다 거시적인 악곡의 형태를 제공함을 샘플 음원을 통하여 확인하였습니다.

 

(4) 모델 3 : MetNet – S. Vasquez (2019)

Wavenet이나 VQ-VAE와는 달리, Mel-Spectrogram 상에서, 이전 frame의 spectral information과 현재 frame의 저주파 정보들을 참조하여 LSTM을 겹겹히 쌓는 구조를 갖는 형태입니다.

(5) 모델 4 : Music Transformer – C. Huang (2018)

앞서 설명한 3가지의 모델은 오디오 PCM 신호를 기반으로 Music Generation을 수행하는 반면, Music Transformer는 신호보다 상위 개념인 MIDI 정보를 활용하여 수행합니다.

때문에, 전체적인 곡의 맥락과 구성이라는 점에서 매우 우수한 성능을 보였구요.

 

보다 세부적으로는, 입력 정보로는 MIDI 데이터가 가진 time(tick), note on/off, velocity 등의 이벤트를 토큰화하여 언어 문장 데이터처럼 활용하고, 

 

현재 예측 지점의 Query 정보와 과거 곡의 MIDI 정보의 Key의 내적을 통하여 참조 여부 및 그 Value를 결정하는 Sparse Attention Model을 활용합니다.

 

 

 

상기 모델들에 대한 느낌은, Music Transformer가 가장 작곡의 관점에 가까운 모델을 가지기 때문에, 가장 자연스러운 곡을 구성하는 것으로 느껴졌고,

 

Music Transformer가 좀 더 진화하여, 현재는 MIDI로만 구성된 것을 조금 더 나아가 순수 악보 데이터, 연주자의 연주 방식으로 분리하고, 공간 음향 모델을 적용시키게 되면, Beethoven 이 작곡했을 법한 새로운 소나타를 Vladimir Horowitz가 Carnegie Hall에서 연주한 공연 까지 생성하는 날이 그리 멀지 않은 것 같습니다.

 

pre-image
헐리우드가 만든 모바일 숏폼 동영상 플랫폼, 퀴비(Quibi)

헐리우드가 만든 모바일 숏폼 동영상 플랫폼, 퀴비(Quibi)   지난 1월, CES 2020에서 열린 퀴비(Quibi)의 데뷔 행사에 준하는 키노트에 참석하였다. 숏폼(short-form) 동영상의 핫한 프랫폼임을 증명하듯  선두주자임을 알리듯이 CES에서도 퀴비의 행보를 팍팍 밀어주는 듯한 분위기였다. 개인적으로 퀴비 CEO 메그 화이트맨(Meg Whiteman)의 연설 중 생각해보게 하는 말이 있었다.   “We are not shrinking TV on to phones”“우리는 TV를 핸드폰으로 축소시키는 것이 아닙니다”   이미 우리는 유튜브나 넷플릭스 같은 플랫폼을 통해서 무수한 영상 콘텐츠를 소비하고 있고 대다수가 모바일을 통해 콘텐츠를 소비하고 있는데 이러한 콘텐츠는 그저 TV에서 볼수 있는 콘텐츠들을 모바일 또는 아이패드 등으로 축소시킨 것에 불과하다는 것인가? 도대체 퀴비에서 내세우는 ‘모바일을 위한 숏폼’이 현존하는 콘텐츠와 무엇이 다르다는 말인가? 너무 혁신으로 과장하는 것이 아닌가? 하는 생각이 들었었다. 그러다가 퀴비에서 말하는 숏폼 플랫폼에 대해 단번에 이해할 수 있는 계기가 있었는데 바로 내 스스로가 소비하는 콘텐츠에 대해 인식을 했을 때 였다. 유튜브에서의 콘텐츠 소비량이 늘어나면서, 진득하게 한자리에 앉아 비교적 오랜  시간동안 시청해야 하는 영화 관람이 지루해지고 선호하지 않게 되었고 더 나아가서는 유튜브의 콘텐츠도 너무 길다는 느낌을 받아 영상스피드를 2배속을 하거나 인스타그램의 핵심 영상만 찾아보게 되었다. 그리고 내가 주로 사용하는 스크린도 TV나 데스트탑에서 모바일로 넘어간지 오래였다. “유튜브나 넷플릭스의 콘텐츠도 충분히 모바일로 시청할 수 있는데요?” 맞다. 그러나 해당 콘텐츠들을 모바일 뷰로 호환이 가능한 것인지 “모바일을 위한, 모바일에 의한” 콘텐츠는 아니다. 우리의 소비 콘텐츠 중 이미 자리잡힌’웹툰’을 연상해보면 이해하기가 더 쉬워진다. 처음에 네이버 웹툰도 모바일이 아닌 데스크탑에서 스크롤을 밑으로 내려가며 읽을 수 있는 형식으로 시작했다. 그러다가 모바일 사용자가 늘어나자 아예 ‘모바일뷰’를 위한 옆으로 쓱쓱 넘길 수 있는 템플릿으로 변경되었다. 영상이라고 못할 것이 없지 않은가.     퀴비(Quibi)에 대해 알아보자 “Big Stories, Quick Bites”   퀴비는 Quick + Bites 이 두 단어를 조합하였다. 이름에 걸맞게 모바일로 영상을 소비하는 유저들의 행동패턴을 파악하여 언제 어디서든, 이동하는 순간에도 내용을 끊어 보지 않고 즐길 수 있는 ‘오직 모바일을 위한, 모바일에 의한 10분 미만의 숏폼 콘텐츠’ 스트리밍 플랫폼으로 제프리 카젠버그(Jeffrey Katzenberg, 드림웍스를 공동설립한 헐리우드의 명사이다)에 의해 만들어졌다. 퀴비를 창시하게 된 영감은 TV나 영화가 아닌 베스트셀러 <다빈치 코드> 라는 책이였다고 하는데, 책 <다빈치 코드> 저자인 댄 브라운(Dan Brown)은 466페이지인 책 내용을 105개의 챕터로 나누었고 바쁜 현대인들이 책을 읽는 도중 이탈하지 않게 한 챕터 당 읽는 시간이 5분이 넘지 않게 하였는데, Jeffrey는 여기서 받은 영감을 Big stories, Quick bites 로 동영상에 적용함 셈이다.   퀴비는 어떻게 다른 플랫폼과 차별화하는가? 1. 모바일 Only 플랫폼 앞에서부터 계속 강조하는 부분이지만, 메드 화이트가 언급하는 퀴비의 차별화된 점은 바로 모바일을 위한 “새로운“플랫폼 이라는 것이다. 애초에 콘텐츠 제작을 “모바일“에 맞추고 모바일 시청에 몰입감을 더했다는 것이다. 또한, 모바일이 자체적으로 가지고 있는 기능(터치스크린, 카메라, GPS 등)을 새로운 재미 요소로 더하여 스토리에 영향을 미칠 수 있도록 하였다. 예로, 스티븐 스필버그 감독과 협업하여 제작한 공포영화는 사용자의 지역과 시간을 추산하여 오직 밤 시간대에만 시청할 수 있는 장치를 심어 두었다고 한다.     출처: CES   2. 모바일 환경 맞춤 퀴비의 콘텐츠 크리에이터와 기술팀은 협업하는 모델을 지향한다고 한다. 모바일을 위한 콘텐츠 제작에 있어 크리에이터들에게는 제약이 있었는데 바로 ‘파노라마’ 기법으로 촬영한 장면이 세로로 시청하는 모바일 사용자들에게는 감동을 줄 수 없다는 것이다. 모바일 사용자들의 몰입감을 높일 수 있게 턴스타일(Turnstyle)이라는 기술을 자체적으로 개발하였다. 턴스타일은 시청자가 화면을 가로나 세로로 보든 상관없이 보기에 최적화된 가로/세로 영상을 실시간으로 전환할 수 있도록 하여 몰입감 향상에 기여한다. Turnstyle 기술을 구현하기 위해 콘텐츠 크리에터들은 넓은 장면(wide footage)로 영상 촬영을 하고 같은 영상을 가로/세로로 크롭(crop)하여 퀴비 엔지니어와 함께 크롭한 영상을 연결하는 후작업을 한다고 한다. 퀴비의 CTO Rob Post는 시청자가 모바일을 어느 방향으로 들던지 스크린이 전환할때 생기는 레이턴시를 피하기 위해 퀴비의 스트리밍 기술은 항시 ‘Side-loading’ 하도록 설계하였고, 싱글 오디오 트랙만 사용하여 인코딩과 패키징을 진행한다고 한다. 따라서 사용자가 동일한 콘텐츠를 세로로 보든 가로로 보든 화면을 전환할 때마다 rebuffering도 없고, audio의 pop(끊김 현상)도 없다고 주장한다.   3. Script-To-Screen 혁신 턴사이드의 기술력을 보유하고 있기에 퀴비의 대부분의 콘텐츠는 자체제작이다. 이미 175가지의 쇼에서 8500개의 에피소드를 이미 확보한 상태이며 할리우드 거물급 유명인사들이 콘텐츠 제작에 참여하였다. 또한, 화면 배율을 가로/세로의 방향에만 맞춘것이 아니라 가로로 볼때는 제 3자로써 전체적인 스토리를 파악할 수 있는 관점으로 만들어지며, 세로로 볼때는 시청자가 주인공의 관점으로 상황을 볼수있게 연출 되기 때문에 동일한 콘텐츠여도 다른 시각으로 감상할 수 있다.   4. 강력한 사용자 경험 시청자에게 만족스러운 시청 환경을 제공하기 위해 퀴비는 구글 클라우드와 파트너를 맺어 구글의 스트리밍 기술력을 사용하여 물 흐르듯 끊김없는 서비스를 제공한다고 한다. 또한, 모든 콘텐츠들은 meta-tagging(메타태깅)하여 machine-learning(머신러닝)을 통해 사용자 취향에 맞는 콘텐츠를 선별해준다. 프리미엄 유저에게만 다운로드 권한을 제공하는 유튜브와는 달리 모든 퀴비 유저들은 콘텐츠를 다운로드 받을 수 있는 다소 파격적인 베네핏을 제공한다.   그럼 퀴비는 어떻게 수익을 내는가? 1. 구독료 두가지 구독 플랜이 있다. (포스트 작성시점 기준) $4.99 a month with ads $7.99 ad-free   2. 광고 퀴비가 새로운 모바일 콘텐츠 플랫폼을 크리에이터들에게 열어준 것과 같이, 브랜드 즉 광고주들에게도 새로운 광고 방식을 제공함으로써 참여율을 높일 예정이라고 한다.   <마운틴듀 X 퀴비 광고영상>   실제로 이미 퀴비와 함께하기로 한 광고주들이 이번 2020 CES 키노드에서도 언급이 되었고, 퀴비가 출시를 앞둔 사전 광고 물량이 1억5000만 달러에 달한다.       출처: CES – 퀴비의 광고주 라인업   CES 키노트에서 게스트 스피커로 참가한 펩시코의 전무 아담 하틀러(Adam Harter)는 퀴비를 통해 할리우드 크리에이터와 협업하여 브랜드 마케팅을 할 수 있다는 점, 그리고 신선한 스토리텔링이 밀레니엄 세대들에게 접근할 수 있다는 점을 언급했다. 또한, 6천6백만명의 가입자를 보유하고 있는 티모바일(T-mobile)은 퀴비와의 파트너십을 통해 티모바일 고객에게 프리미엄 모바일 콘텐츠를 제공할 것이라고 말했다.   3. 라이센싱 디즈니, 유니버셜 스튜디오, 넷플릭스와 같이 퀴비도 자체제작 콘텐츠를 개발함으로써 콘텐츠 라이센스를 머천다이즈 제작, 게임 플랫폼, 놀이공원 등에 판매할 확률이 높다는 전망이 있다.   아직 출시하지 않은 퀴비는 왜 스포트라이트를 받는가? (시작부터 유니콘?)   퀴비와 유사한 스트리밍 플랫폼은 있지만, 퀴비와 같은 플랫폼은 없다. 새로운 플랫폼은 맞는데 새로운 플랫폼이라서 신선하기보다는 이 새로운 플랫폼에 함께하는 출연진들의 스펙들이 할리우드와 실리콘벨리를 아우르는 유력자들이라더 주목을 받는 것 같다.   퀴비 설립자앞에서도 설명한 것처럼 퀴비를 창시한 제프리 카젠버그는 드림웍스를 설립한 주축 인물 중 한명으로 이미 할리우드뿐 아니라 전세계적으로 유명인사이다. 퀴비 CEO제프리 카젠버그의 오랜 동료이기도 한 메크 휘트먼은 P&G와 드랍박스(Dropbox)의 이사회 멤버이며 이전에는 HP와 eBay의 CEO였던 저명한 사업가이다. 그리고, 이미 확보된 화려한 퀴비 크리에이터들스티븐 스필버그(Steven Spielburg)윌 스미스 (Will Smith)제니퍼 로페즈(Jennifer Lopez)케빈 하트(Kevin Hart)빌 머레이(Bill Murray)외 다수의 할리우드 유명인들 출연 및 콜라보.     퀴비, 한국진출 할까?  퀴비는 오는 2020년 4월 6일, 미국에서 첫 런칭을 할 예정이다. 글로벌 플랜에 대해서는 현재 검토하는 중이라 한국에는 언제쯤 진출할 지 아직은 알 수 없는 상태라고.        

2020.03.14
after-image
가우디오랩이 5번째 생일을 맞이했어요~😊🎉

가우디오랩이 5번째 생일을 맞이했어요😊🎉 작성자 | Kendall   중소벤처기업부에 따르면 국내 스타트업의 5년 내 생존률은 27.5%에 불과하다고 해요.이 생존을 기념하여(?) 이번 가우디오랩의 5번째 생일은 지난 생일들과 다르게 축하 파티를 했는데요.파티의 모든 것을 여러분과 공유하고자 합니다. 😊   어린 시절, 친구의 생일 파티 기억 나시나요?맛있는 음식과 친구들과 같이 그림 그리기, 편지 쓰기 등 활동도 하고게임도 했던 게 생각이 나서, 축하 파티의 컨셉을 5살 생일 파티로 정하게 되었어요.   아 참, 친구 생일 파티에는 초대 받은 사람들이 선물을 준비하죠?이번 파티는 가우디오랩이 가우딘에게 선물을 준비했구요, 선물은 모든 가우딘의 이름을 각각 새긴 펜이에요.🖋️   가우딘들의 Today’s Mission !이 펜을 이용하여 6살의 가우디오나 가우딘에게 편지 쓰기를 진행하였는데 내년에 이 편지를 받는다면 감회가 새로울 것 같아요.     가우디오랩의 이벤트에 없으면 서운한 것,바로 코인 게임 아닐까요 ?   *코인: 가우디오랩에서 통하는 화폐로 다양한 사내문화 활동 및 미션을 통해 코인을 획득할 수 있으며. 코인결산때 상품권등으로 교환할 수 있다.    코인 게임은 총 네 가지로 진행했어요.   보물 찾기 누구의 아이템일까요? #CHAT SEOUL – 제시어를 누구보다 빨리 슬랙에 올려라! 가우디오 퀴즈 !     보물 찾기는 James, Manuel, Sean, Jayden, Seo 가 1코인씩 획득해갔습니다. (선착순 출근 순서로 가져갔어요)      누구의 아이템일까요? 는 자리의 어떤 물건을 확대하여 보여주고누구 물건인지 맞추는 게임이에요.이 게임을 하며 가우딘은 서로에게 많은 관심이 있다는 것을 알게 되었어요.앞으로도 가우딘은 서로에게 많은 관심 가졌으면 좋겠어요.     #CHAT SEOUL 은 회사의 커뮤니케이션 툴인 SLACK 을 이용했어요.제시어를 맞춤법에 맞게 #CHAT SEOUL 에 올려준 선착순 2명에게 코인을 지급하는 룰이에요.영어 대소문자도 척척, 한글, 숫자도 척척! 👍🏻 우리 가우딘들은 못하는게 없다는 걸 또 깨달았습니다.     가우디오 퀴즈! 사실 헤니에게 퀴즈 문제와 답을 받았을 때 ‘너무 어렵지 않을까?’ 했어요.이게 웬걸 척척 맞추시는 모습 !역시나 가우딘은 가우디오랩을 사랑합니다.❤️   가우딘이 준비한 스페셜 이벤트는 <가.우.디.오> 를 이용하여 4행시 짓기 동영상이었어요.Kendall 기획, Alston 제작으로 동영상을 제작했습니다.동영상은 직접 확인 해주세요 !     코로나로 한자리에 모일 수 없었던 가우딘에게 오늘의 생일 파티는가우디오랩의 기념일이면서 오랜만에 한자리에 모여 회포를 푸는 자리이기도 했어요.앞으로의 가우디오랩, 가우딘 모두 지금처럼 서로를 생각하고가우디오랩은 일터만이 아닌 가우딘의 제 2의 집이었음 좋겠습니다.    “500년 GAUDIO를 향하여 GO GO GO !!!'      

2020.05.07