사운드 생성 AI가 불러올 미래 (DT Quarterly, 2023년 7호)

ChatGPT가 불러온 생성 AI 돌풍

생성 AI에 대한 관심이 참 뜨겁습니다. 가우디오랩은 Sound AI 전문 기업으로서 Generative AI를 활용하여 소리를 생성하는 기술을 성공적으로 개발해 사업화를 추진 중에 있는데요. 그 내용에 대해 CSO 벤이 DT Quarterly, 2023년 7호에 글로 간략히 설명했습니다.

Sound Generation과 자연음 생성의 어려움

다양한 소리들 중에서도 ▲ 사람에 의해 생성되는 발성음 ▲ 음악의 문자나 악보처럼 소리에 직접적으로 대응되는 소리 등은 Symbolic Representation 체계가 잘 갖추어져 있습니다. 즉, 기호로서 인지하기가 상대적으로 쉬운 것인데요.

반면, 키보드 소리, 강아지 소리 등 우리 주변에서 들려오는 무수히 많은 자연음에 대한 생성은 오랜 기간 연구되지 않았습니다. 세밀한 분석 작업을 통해 소리 발생 요소 하나하나를 모델링 하는 Physical Modeling 기법의 특징상, 현실적으로 존재하는 다양한 소리를 개별적으로 모두 모델링 하여 생성하는 것은 매우 어려운 일이기 때문입니다.

그래서 가우디오랩은, Context를 이해하고 이에 대한 소리를 생성하는, ‘불가능을 가능케하는’ 기술에 집중하게 되었습니다.

가우디오랩의 AI Sound Generation인 FALL-E를 사용하면,

가우디오랩의 FALL-E는, 텍스트, 이미지, 동영상의 다양한 도메인의 데이터로부터 그 의미 및 개념에 대응되는 Context를 유추하고, AI가 이에 해당하는 사운드를 생성하는 기술입니다.

영화, OTT, 게임 등 주류 미디어 산업에서의 생산성 향상은 물론, 메타버스 플랫폼 가상 공간의 재구현 측면에서도 필수적 사용이 예상되죠.

가우디오랩의 AI Sound Generation 기술은 이러한 메타버스 플랫폼에서, 플랫폼에서 용인하고자 하는 Guideline에 따르면서도 Context에 대응되는 소리를 손쉽게 만들 수 있습니다. (FALL-E가 '폴리(Foley)'로 읽히는 것처럼...)

개방적이나 관리 가능한 솔루션으로 활용될 수 있어, 플랫폼의 저작권 문제가 해결되고 품질 상으로도 검증된 오디오를 사실상 무제한 생성하며 메타버스의 소리 경험이 혁신적으로 향상될 수 있을 것으로 기대됩니다.

DT Quaterly 7호에서 전문을 확인해보시죠 :)

→ [링크] 를 클릭하시면 이동합니다.

사운드 생성 AI 올림픽 DCASE 2023, 역시 가우디오랩이 주도했습니다.

DCASE 소개 DCASE, 세계 유수의 기관이 참여하는 음향 분야의 국제적인 데이터 챌린지 가우디오랩이 세계 최초의 AI 사운드 생성 챌린지인 DCASE(Detection and Classification of Acoustic Scenes and Events의 약자) Challenge의 폴리 사운드 합성(Foley Sound Synthesis) 분야를 리드함은 물론, 가벼운 마음으로 출전했음에도 2위를 차지했습니다. 2013년에 시작되어 올해 9회 차를 맞이한 DCASE는 사운드 AI 분야에서 ‘올림픽’에 견줄 수 있을 정도의 권위를 가진 대회입니다. 생성 AI 시대를 맞이하여 사운드 생성 종목이 처음 추가된 이번 대회에는 가우디오랩 외에도 구글, 소니, 노키아, 히타치 등 세계적인 기업들 뿐만 아니라, 서울대학교, 카이스트, 카네기 멜론 대학교, 도쿄대 등 세계 명문 대학에서 두루 참가하며 사운드 AI 분야의 첨단을 다투는 장이 되었습니다. 전체 7개 프로젝트에 123팀이 지원하여 총 428개의 결과물이 제출되었다고 하니 그 치열한 경쟁이 느껴지시나요? 세계 최초의 AI 사운드 생성 챌린지: Foley Sound Synthesis Challenge 특히 생성 AI에 해당하는 ‘폴리 사운드 합성’ 과제는 올해 처음 등장해 더욱 뜨거운 관심을 받았습니다. 구체적으로는 AI 기술과 데이터를 활용해 특정 범주(자동차, 재채기 등)의 소리를 생성하는 것을 겨루는 과제였는데요. 사실 가우디오랩은 해당 분야의 오랜 경험을 바탕으로 과제를 리드하는 주관사이기도 하면서, 가벼운 마음으로 참가해 2위를 거머쥐는 쾌거까지 이루었습니다. 특히 상용화 관점에서 가장 중요한 조건으로 볼 수 있는 ‘소리의 다양성’ 평가에서는 타 도전자들을 압도하는 점수를 받기도 했습니다. [그림 1] DCASE 2023 Foley Sound Synthesis 과제 개요와 주관사 명단(Organizers) 수상 소감 이름만 들어도 알 법한 대기업과 세계의 명문 대학들 사이에서 한국의 작은 스타트업인 가우디오랩이 대회를 주관하고 포디움에까지 우뚝 설 수 있었던 배경이 궁금하실텐데요. 여기에는 일찍이 생성 AI 연구 개발을 시작한 가우디오랩의 선견지명은 물론, 보이지 않는 곳에서 묵묵히 길을 걸어온 AI 연구원들의 노력이 있었습니다. 이제 자랑은 충분히 한 것 같으니 영광의 주인공들에게 소감을 들어보겠습니다. [그림 2] DCASE 순위 발표 화면, ‘Chon_Gaudio’가 가우디오랩이 제출한 결과물입니다. DCASE는 가우디오에게 어떤 의미인가요? Ben Chon : 가우디오랩은 ChatGPT가 화제가 되기 한참 전인 2021년부터 세상 모든 소리를 만들어내겠다는 담대한 목표를 가지고 사운드 생성 AI 를 연구 개발하고 있었습니다 ([그림 4] 참조). 오랜 연구 끝에 2022년 6월에는 이번 DCASE 챌린지와 같은 개념의 Category-to-Sound 생성에 성공하였고, 이후에는 실험실을 벗어난 상용화 수준에 도달하기 위해 보다 도전적인 목표인 (임의의) Text-to-Sound 와 (임의의) Image-to-Sound 연구에 전념하며 이미 큰 진전을 보이고 있습니다. 최종적으로는 Video-to-Sound 생성 모델을 통해 어떠한 형태의 입력이더라도 그에 꼭 맞는 소리를 생성하여 소리가 필요한 어디에나(Where sound is) - 즉, 영화, 게임과 같은 기존 미디어 뿐만 아니라 메타버스와 같은 차세대 미디어에서도 - 필수적으로 필요한 솔루션이 될 것을 기대하고 있습니다. [그림 3] Sound AI의 진화 단계, 가우디오는 3단계를 넘고 있습니다. 세상의 모든 소리를 AI가 생성해내는 것을 목표로 하는 가우디오랩의 AI에 비교하면, DCASE에서 요구하는 Category-to-Sound 모델은 몇 개의 카테고리만으로 생성 범주를 한정하고 있기 때문에, 가우디오랩의 기술이 활약하기에는 너무 작은 운동장이기도 했습니다. 이번 대회에는 30개가 넘는 기술이 제출되었는데요. 그동안 가우디오랩 홀로 이 분야를 개척하고 있는 것은 아닌가 하는 외로움도 있었는데, 대회 주관을 통해 이 분야 연구를 활성화하고, 그 안에서 우리 기술의 세계적 위상도 확인할 수 있어 뜻깊었습니다. 상용화를 위해 앞서가고 있는 만큼 다른 참가자들의 연구 성과들도 잘 참고하여 앞으로 이 시장을 지속적으로 리드해 나가고자 합니다. [그림 4] 가우디오의 소리 생성 AI 프로젝트인 SSG(Sound Studio Gaudio)의 킥오프 회의 당시 자료 표지, 전설의 시작이네요 DCASE를 준비하며 가장 어려웠던 점은 무엇인가요? Keunwoo Choi : 가우디오랩이 이 분야를 주관하는 주관사였던 만큼, 국제적인 대회의 Organizer와 가우디오랩의 Research Director 역할 사이에서 끊임없는 줄타기를 해야 했던 것이 가장 어려웠습니다. Foley Sound Synthesis는 DCASE에서는 처음으로 출제된 과제였기 때문에 오거나이저로서 좋은 선례를 남길 수 있도록 공정하고 학술적으로 의미 있는 대회를 만들기 위해 노력했습니다. 동시에 가우디오랩의 리서치 디렉터로서는 제한된 연산 자원을 공유하면서 팀 전체의 연구 계획을 수립/실행해야 했는데, 이 일이 마치 어려운 퍼즐 게임처럼 느껴졌습니다. 인적, 물적 자원을 효과적으로 할당하기 위해 표를 그려가며 사람과 GPU의 업무량을 최적화하기도 했죠. 그래도 대회를 잘 마무리한 지금은 모두 좋은 경험이 된 것 같습니다. Rio Oh : 모든 과정이 쉽지 않았지만 특히 LM(language model) 기반 모델을 같이 학습하는 과정에서 많이 애를 먹었습니다. 들이는 노력에 비해 결과가 잘 나오지 않아 힘들었던 기억이 있네요. DCASE를 준비하며 가장 기억에 남는 순간은 언제였나요? Manuel Kang : AI가 처음으로 사실적인 동물 울음소리를 만들어 냈던 순간(2022년 6월!)이 가장 기억에 남습니다. 아무 소리도 나지 않던 초기 모델이 점점 발전해서 여기까지 왔다는 것이 매우 뿌듯하게 느껴졌던 순간이었습니다. Monica Lee : 맞아요. 처음으로 제대로된 동물 소리가 났을 때가 저도 잊혀지지 않아요. 그렇게 생성된 강아지 소리를 집에서 틀어보니 집에서 키우는 강아지 사빈(Sabine)이가 와서 짖으면서 어리둥절해하더라구요. 강아지 튜링 테스트는 무난히 통과한 것 같네요~ (ㅎㅎ) Rio Oh : 준비 과정에서 생성 모델에 여러 업데이트가 있었는데요, 오작동 하지 않고 의도한대로 작동해주었을 때마다 기분이 좋았습니다. 그 중에서도 백그라운드 노이즈나 녹음 환경등을 원하는대로 컨트롤 할 수 있게 되었을 때가 가장 기억에 남습니다. Devin Moon : 프롬프트 엔지니어링을 거치며 섬세한 뉘앙스를 잘 반영한 소리를 만들어낼 수 있게 최적화를 수행한 경험도 재미있었습니다. 잔향이 있는 공간에서 삐걱대는 나무 바닥 위를 빠르게 뛰어가는 소리를 만들었는데, 실제와 구분하기 힘들 정도의 소리가 생성되었던 순간이 아직도 기억에 남습니다. 가우디오랩의 생성 AI가 특별한 점이 있다면 무엇인가요? Ben Chon : 가장 중요한 포인트는 가우디오랩 AI가 과제의 범위였던 Catergory-to-Sound를 뛰어넘어, Text-to-Sound, 그리고 Image-to-Sound 까지 포함하는, 사실상 세상의 모든 소리를 만들어낼 수 있는 모델이라는 점입니다. 쉽게 말해, 보다 다양한 소리를 만들어낼 수 있는 모델이지만 대회에서의 경쟁을 위해 핸디캡(일부 범주의 소리만 한정하는)이 적용되었다고 볼 수도 있을 것 같네요. 마라톤도 뛸 수 있는 선수가 100미터 경기에 출전한 것이랄까요? 실제로 현재의 가우디오랩 AI는 각종 동물의 울음소리 뿐만 아니라, 수백 종의 동물들이 서식하는 아프리카 초원의 앰비언스까지 여러분이 상상하실 수 있는 거의 모든 소리를 생성할 수 있습니다. 또한, 잡음 없는 단일 객체의 소리도 깔끔하게 뽑아낼 수 있기 때문에 실제 영화, 게임과 같은 콘텐츠 제작 과정에 바로 활용될 수 있도록 소리를 제공하는 것도 장점이라고 할 수 있습니다. Keunwoo Choi : 이렇게 성능 좋고 다재다능한 모델을 개발하기 위해 초기부터 AI 개발에서 가장 중요하다고 할 수 있는 데이터 수집에 누구보다도 많은 공을 들였습니다. 세상에 존재하는 온갖 데이터를 힘껏 긁어 모으고, 부족한 정보는 ChatGPT와 같은 AI의 도움을 받아 채워 넣으며 최상의 데이터를 최대한으로 모으고자 노력했습니다. 이러한 데이터 확보 노력 중 하나로 국내 정상급 영화 사운드 스튜디오 '웨이브랩'을 인수해 초고품질의 데이터를 수급하기도 했습니다. 또한, 음악이나 음성에 특화된 AI 모델과 구조를 벗어나 다양한 소리(오디오 신호)를 구현하는데 적합한 형태로 생성 모델이 구현된 것도 가우디오랩 AI의 특징이라고 할 수 있을 것 같습니다. 팀원들을 대신해 수상 소감 한 말씀 부탁드립니다. Ben Chon: 가우디오랩은 DCASE 과제의 범위 안에서만 머무르지 않고 나아가 더욱 포괄적인 의미에서 모든 소리를 만들 수 있는 Text-to-Sound 모델을 개발하였습니다. 여기서 생성된 소리가, 일부 한정된 범위 내에서만 소리를 생성하도록 세팅된 DCASE에서도 인정받았다는 것은, 가우디오랩의 AI 개발 역량이 얼마나 성숙했는지를 보여주는 좋은 예시라고 생각합니다. 그만큼 ‘만능’에 가까워졌다는 이야기니까요. 또한, DCASE에서 다루지 않은 다른 카테고리의 소리들도 세계 최고 수준의 품질임을 간접적으로 증명하였으니, 저희도 앞으로의 연구에 더욱 자신감을 가지고 임할 수 있는 계기가 될 것으로 생각합니다. 저희 팀원들이지만 정말 대단한 일을 해냈다고 생각합니다. 가우디오랩 연구원 분들 모두 고생하셨습니다! Keunwoo Choi : 허허벌판 같던 생성형 오디오 AI 분야를 미리 점찍고 연구개발을 지속해온 결실을 이제야 얻기 시작한것 같아 매우 기쁩니다. DCASE에서 생성형 오디오 챌린지는 처음이라 문제 정의가 간단한 편이었는데, 저희의 시스템은 이미 그보다 훨씬 복잡한 텍스트 프롬프트에도 잘 작동합니다. 무한한 가능성을 가진 이 기술을 더 발전시키고 제품화해서 오디오 업계에 평지풍파를 일으켰으면 합니다. 앞으로의 포부, 혹은 비전을 알려주세요. Ben Chon : 가우디오랩 생성 AI가 빛을 발하기 위해서는 학계에서의 영향력 뿐만 아니라, 실제 산업에서의 적용 케이스를 확보하는 것이 중요하다고 생각합니다. DCASE를 거치면서 가우디오랩 생성 AI는 Text-to-Sound를 넘어 Image-to-Sound에 대응할 수 있을 만큼 발전하였고, 이제는 Video-to-Sound 로의 영역 확장까지 계획중입니다. 기술이 발전하는 놀라운 속도에 발맞춰 이제는 실제 산업 분야에의 적용을 염두에 두고 사람들의 삶에 실질적인 영향을 줄 수 있는 기술로 발전할 차례라고 생각합니다. 실제로 이러한 노력들이 이미 결실을 맺어 영화 제작이나 메타버스와 같은 미래 산업 분야의 기업들과 이미 활발한 논의가 진행중이기도 합니다. 가우디오랩이 전세계 사운드의 중심이 되는 미래를 위해 기술 발전과 사업화에서 모두 성과를 낼 수 있도록 힘써보고 싶습니다. 앞으로도 가우디오랩 AI 기술에 많은 관심 부탁드리겠습니다! 마무리 누구도 가지 않은 길에 앞장서며, 스텔스 모드로 묵묵히 쌓아가던 가우디오랩 연구원들의 노력을, 이제 글로벌 무대에 당당히 선보일 수 있게 되었다는 소식을 전해드릴 수 있게 되어 정말 기쁩니다. “세상의 모든 소리는 가우디오랩으로부터”를 실현하는 그 날까지, 가우디오랩 AI 기술에 앞으로도 많은 관심과 응원 부탁드립니다.

2023.06.12

WebRTC에 Audio AI SDK 통합하기 (1) : WebRTC의 오디오 파이프라인 들여다보기

WebRTC에 Audio AI SDK 통합하기 (1) : WebRTC의 오디오 파이프라인 들여다보기 (Writer: Jack Noh) WebRTC, 그게 궁금해요! MDN 문서에서는 WebRTC(Web Real-Time Communication)를 아래와 같이 설명하고 있습니다. (참고로 MDN 문서는 웹 개발을 한다면 한번은 보게 되는, 사실상 표준 문서입니다.) WebRTC(Web Real-Time Communication)는 웹 애플리케이션과 사이트가 중간자 없이 브라우저 간에 오디오나 영상 미디어를 포착하고 마음대로 스트림 할 뿐 아니라, 임의의 데이터도 교환할 수 있도록 하는 기술입니다. WebRTC를 구성하는 일련의 표준들은 플러그인이나 제 3자 소프트웨어 설치 없이 종단 간 데이터 공유와 화상 회의를 가능하게 합니다. 쉽게 말해 ‘인터넷만 연결되어 있다면 브라우저에서 별도의 소프트웨어의 설치 없이 실시간 통신을 가능하게 해주는 기술’이라고 할 수 있습니다. WebRTC를 활용한 대표적인 서비스로는 화상 회의 서비스인 Google Meet과 음성 통신 서비스인 Discord가 있죠. (실제로 Covid-19 확산기에 뜨거운 관심을 받았던 기술이기도 하고요!) WebRTC는 웹 표준이자 오픈 소스 프로젝트로, 링크를 통해 소스 코드를 확인하고 수정할 수도 있기도 합니다. WebRTC의 Audio 파이프라인에 대해 WebRTC는 멀티 미디어 기술로서, 오디오, 비디오, 데이터 스트림 등 다양한 기술을 포함하고 있습니다. 그 중에서도 저는 이번 글을 통해 WebRTC의 오디오 기술과 관련된 이야기를 해보려 합니다. WebRTC를 사용하는 화상 회의나 음성 통화 웹 어플리케이션(e.g. Google Meet)을 사용해본 적이 있다면, Audio 파이프라인이 어떻게 구성되는지 궁금해하실 겁니다. Audio 파이프라인은 2가지 Stream(흐름)으로 구분할 수 있습니다. 먼저 1)마이크 장치를 통해 입력된 음성 데이터가 상대방에게 전송되는 Stream, 그리고 동시에 2)상대방의 음성 데이터를 수신하여 스피커를 통해 출력되는 Stream입니다. 각각은 Near-end Stream(마이크 입력 신호를 상대방에게 전송)과 Far-end Stream(상대방으로 부터 수신 받은 오디오 데이터를 스피커로 출력)으로 불립니다. 각 Stream을 좀 더 자세히 살펴보면 아래와 같은 5가지 과정으로 정리할 수 있습니다. 1) Near-end Stream (마이크 입력 신호를 상대방에게 전송) 마이크 장치로부터 오디오 신호를 입력 받는다. (ADM, Audio Device Module) 입력 오디오 신호에 통화 품질을 높이기 위한 효과를 준다. (APM, Audio Processing Module) 함께 전송할 다른 오디오 신호(e.g. 파일 스트림)가 있다면 함께 Mixing 한다. (Audio Mixer) 오디오 신호를 Encoding 한다. (ACM, Audio Coding Module) RTP 패킷으로 변환후 UDP Transport로 전송한다. (Sending) 2) Far-end Stream(상대방으로 부터 수신 받은 오디오 데이터를 스피커로 출력) 연결된 상대방(N개의 Peer)으로 부터 오디오 데이터 RTP 패킷을 받는다. (Receiving) 각 RTP 패킷을 Decoding 한다. (ACM, Audio Coding Module) Decoding된 N개 스트림을 1개 스트림으로 Mixing 한다. (Audio Mixer) 출력 오디오 신호에 통화 품질을 높이기 위한 효과를 준다. (APM, Audio Processing Module) 스피커 장치로 오디오 신호를 출력 한다. (ADM, Audio Device Module) 각 과정을 담당하는 모듈의 이름은 위 설명에서 우측 (괄호)로 표시해두었는데요. 이처럼 WebRTC에서는 각 과정 별로 모듈화가 잘 되어 있습니다. 각 모듈에 대해 보다 더 자세히 살펴보면 이렇게 설명드릴 수 있는데요. ADM(Audio Device Module): 입/출력 하드웨어 영역과 접해 있으며 오디오 신호를 Capture/Render 할 수 있게 해줍니다. 플랫폼(Windows, MacOS, …) 별로 그에 맞는 API로 구현되어 있습니다. APM(Audio Processing Module): 통화 품질을 높이기 위한 오디오 신호처리 필터들의 모음입니다. 주로 단말(Client)에서 활용 됩니다. Audio Mixer: 여러 개의 오디오 스트림을 합쳐줍니다. ACM(Audio Coding Module): 전송/수신을 위해 오디오 인코딩/디코딩 합니다. 이를 그림으로 표현하면 아래와 같습니다. WebRTC Audio 파이프라인과 모듈 설명드린 것처럼 WebRTC의 Audio 파이프라인은 모듈화되어 기능단위로 나누어져 있습니다. WebRTC의 Audio 품질 개선 w/ Gaudio SDK 가우디오랩에는 GSA(Gaudio Spatial Audio), GSMO(Gaudio Sol Music One), LM1(음량 평준화 TTA 표준)등 훌륭하고 유용한 오디오 SDK들이 많습니다. 이러한 SDK를 탑재된 어플리케이션이나 서비스의 형태로 만들어 사용자에게 좋은 소리 경험을 전달하는 일은 정말 매력적인 일입니다. (아시나요?) 가우디오랩에는 WebRTC에 찰떡궁합인 SDK가 존재합니다. 바로 AI 기반으로 노이즈 제거가 가능한 GSEP-LD 인데요! 심지어 적은 연산으로 실시간 동작이 가능합니다. (게다가 세계 최고 수준의 성능!) 우리는 화상 회의를 할 때 주변 잡음(노이즈)로 인한 불편함을 참 많이 느끼는데요. 이러한 노이즈를 제거하는 신호 처리 기반의 노이즈 제거 필터가 WebRTC에 포함되어 있습니다. (앞으로 말씀드리겠지만, WebRTC에는 노이즈 제거 필터 이외에도 통화 품질을 높이기 위한 필터들이 이미 존재한다는 사실!) 이 노이즈 제거 필터는 위에서 언급된 APM(Audio Processing Module) 모듈에 포함되어 있습니다. 여기서 기존 신호 처리 기반의 노이즈 제거 필터를 가우디오랩의 인공지능 기반의 노이즈 제거 필터로 교체한다면 효과가 얼마나 좋아질까요? 당장 기존 노이즈 제거 필터를 GSEP-LD로 교체해서 들어 보고 싶은 마음이 앞서지만.., 잠시만요! 이런 복잡하고 거대한 프로젝트에 필터를 통합(혹은 교체)하기 위해서는 마음만 앞서서는 안됩니다. 왜냐하면 마음만 앞서서 무턱대고 통합을 하다보면, 아래와 같은 의문점들이 점점 머리를 복잡하게 만들기 때문입니다. GSEP-LD의 원본의 성능이 잘나오나요? → 원본의 성능이 얼마나 좋은지 확보해야 합니다. 기존 신호처리 기반의 필터들과 사이드 이펙트는 없을까요? → WebRTC의 다른 필터들을 제어하며 들어봐야 합니다. 최적의 통합 위치는 기존 노이즈 제거 필터의 위치와 같을까요? → 통합 위치를 바꾸어가면서 들어봐야 합니다. 다양한 사용자 환경에서 성능을 보장할 수 있을까요? → 다양한 실험 데이터와 플랫폼별 환경이 필요합니다. 마음만 앞서 본 게임으로 바로 들어간다면, 위와 같은 질문들에 휘둘리며 효과적인 통합과 점점 멀어지게 될 것 입니다. 그러지 않기 위해서는 먼저 ‘견고한 테스트 환경의 구축’이 필요합니다. 특히 많은 기술들이 얽혀있는 거대한 프로젝트일 수록, 그 중요성은 더욱 더 높아집니다. 하지만 견고한 테스트 환경을 구축하는 일은 쉽지 많은 않은 일인데요. 이번 글은 WebRTC의 오디오 기술에 대해 설명해드렸다면, 다음 글에서는 제가 WebRTC에서 견고한 테스트 환경을 비교적 간단히 구축해 본, WebRTC Audio 파이프라인에 GSEP-LD을 통합해 성능의 자신감을 높일 수 있었던 경험을 공유할게요! ☛ 잠깐, 그 전에 GSEP-LD의 AI 최적화를 위해 Asher가 고군분투한 이야기 들어보실래요? 🙂

2023.06.23

사운드 생성 AI가 불러올 미래 (feat. FALL-E)

사운드 생성 AI가 불러올 미래 (DT Quarterly, 2023년 7호)

DT Quaterly 7호에서 전문을 확인해보시죠 :)