“Hearing Science and Engineering” – 최인용 교수님(IOWA 주립대)

[전문가 초청] “Hearing Science and Engineering”

최인용 교수님 (IOWA 주립대)

소리는 단순한 공기의 울림(Air Vibration)을 넘어 가장 오래된 사람(나아가서 동물계)의 통신수단이고, 가장 감성적인 미디어이며, 여전히 알지못하는 것들이 있는 과학이기도 합니다. The Science of Sound라는 가우디오랩의 캠페인에 가장 어울리는 사내 초청 세미나가 있었습니다.

아이오와 주립대학(University of Iowa)에서 뇌과학의 한분야로서 Hearing Science를 연구하고 계신 최인용 교수님의 바는 방한일정을 비집고 어렵게 모셨습니다. 최인용 교수님은 서울대학교에서 전기음향학으로 박사학위를 받으시고, 삼성전자와 보스턴 대학을 거쳐 아이오와에서 Hearing Science (듣기 과학?) 분야에서 깊이 있는 연구를 하고 계십니다. 아이오와는 옥수수(감자 아니고)가 유명한 주이자 듣기 과학 분야에서도 권위있는 곳이라고 주장하시며 강연을 시작했습니다. ☺️

Hearing Science은 우리가 소리를 어떤 원리로 듣고 해석하고 또 그에 반응하는지를 알아내는 neuroscience (뇌과학)의 한 분야입니다. 아래 그림으로 정리해주신 것처럼 가우디오랩의 주무대인 audio engineering과 잘 연결될 때 “듣기 완전정복” (the complete hearing chain)이 가능하다고 할 수 있겠습니다.

이번 강의를 통해서 제가 배운 것중 가장 재밌었던 것은 우리가 말소리를 이해하는데 얼마나 노력(attention and effort)하는지에 대한 연구가 활발히 진행되고 있고, 그 비밀이 밝혀져가고 있다는 사실입니다. 그리고 거기에 Binaural Hearing, 즉, 우리가 두 개의 귀를 가지고서 소리의 방향을 구분해내는 것이 노력을 줄이는데 크게 도움이 될 것이라는 가설입니다. 이것이 명확히 해석된다면, 아마 가우디오랩이 edge를 가지고 있는 바이노럴 기술의 쓰임새를 크게 넓히게 될테니까요. 이를테면, 바이노럴 기술이 잘 적용된 (즉, immersive audio 가 잘 적용된) VR 인터넷 강의를 듣고 있으면 “귀에 쏙 들어와서” 학습능력이 향상된다거나 더 오랜시간 오디오를 청취해도 피곤해지지 않는다는 결론에 이를 수 있지 않을까 싶었습니다.

최교수님은 또한 hearing science를 연구하기 위해 필요한 사람을 대상으로 하는 많은 실험 과정에 우리의 VR 오디오 기술을 활용하면, 유익한 연구결과를 얻는데 시간과 노력을 크게 단축할 수 있을 것이라고 하시네요. 좋은 콜라보가 기대되네요.

한편, Hearing science 분야 중 일반인들에게 상당히 널리 알려진 현상중에 Cocktail party effect란 것이 있습니다. 사람들이 시끄러운 술집에 가서도 집중하고자 하는 상대방의 얘기를 알아듣고 대화를 할 수 있는 당연한 것 같지만 생각해보면 대단히 놀라운 능력을 말합니다. 수많은 잡음들 속에서 원하는 신호만을 뽑아내는 사람의 능력이죠. 그리고, 여기에는 Binaural Hearing (우리가 두개의 귀를 이용해서 소리의 위치 등 3차원 공간을 이해하는 것) 이 중요한 역할을 한다는 것까지는 잘 알려져 있습니다.

그럼에도 이것이 어떤 청각 신경에 의해 어떤 원리로 가능한지는 비교적 최근에서야 그 원리를 더 완전하게 해석할 수 있었다고 합니다 (“We finally know why you can sustain a conversation in a noisy bar” 2014년 Wired 기사). 이 연구 결과에 따르면 달팽이관에 있는 Tecorial membrane의 기공(pores) 크기가 중요하다고 합니다. 기공이 너무 작으면 주파수 선택능력은 좋아지나 소리 민감도가 나빠지고, 너무 크면 그 반대가 되어 적당한 balance를 통해 대화 등의 소리를 잘 해석할 수 있는데, 어떤 이유로 이 기공의 크기가 한쪽으로 쏠리게 되면 듣기 능력을 상실하게 된다고 합니다. 현재의 보청기만으로는 안들리던 말소리를 잘들리게 할수는 없을 것 같네요. 때마침 등장한 Airpods와 함께 슈퍼마켓에서 살 수 있는 보청기인 PSAP(Personal sound amplification product)는 향후 시장전망이 매우 밝은 관심분야이죠.

Gaudio Lab 은…

가우디오랩(주)은 VR/AR, 스트리밍 미디어, 모바일, 홈 등 소리가 있는 어디에서나 사람들에게 훌륭한 소리 경험을 제공하는 일을 합니다. 가상세계를 더욱 현실처럼 만드는 소리, 현실을 넘어 초현실적인 소리를 만드는 혁신적인 기술들로 전세계를 누비며 활약하는 국가대표 오디오 공학집단입니다. “올해의 최고 VR 혁신 기업상 수상(VR Awards, 런던, 2017)“, “ISO/IEC MPEG-H 3D Audio 국제표준 채택 (2013,2018)“으로 혁신성을 인정받은 6인의 음향공학박사와 오디오 Geek들은 실리콘밸리와 서울에 있습니다. The Science of Sound.

How many images are in an auditory scene? | 논문 읽어주는 제임스

논문 읽어주는 제임스 Paper Review – How many images are in an auditory scene? Xuan Zhong and William A. Yost J. Acoust. Soc. Am., April 2017 첫번째 글은 JASA 에 게재된 2017년 논문 중 “How many images are in an auditory scene?“이란 제목의 논문입니다. 논문 저자 중 제 2 저자인 W. A. Yost는 60년대부터 꾸준히 논문을 쓰고 계신데, 궁금해서 찾아보니 44년생이시더군요. 올해 75세. 연구교수라는 직함으로 여전히 Arizona State University에 재직 중이십니다. 연세가 드셔서도 꾸준히 연구하시는 모습, 본받을 만 한 것 같습니다. “Abstract” 시작 부분에서 이 논문이 무엇을 하고 싶은 건지를 명확히 하고 있습니다. “If an auditory scene consists of many spatially separated sound sources, how many sound sources can be processed by the auditory system?” 이라고 시작을 합니다. 즉, 음원이 공간에 퍼져있을 때 과연 auditory system 에서는 몇 개의 음원에 대해서 처리할 수 있을까? 즉 사람은 동시에 몇 개의 음원까지 분리해서 인지할 수 있는가? 에 대한 질문입니다. 사실 사람의 localization 능력에 대한 실험과 연구는 꽤 오래전부터 해 왔고 그 결과들이 실제 많은 연구와 제품에 반영되고 있습니다. 그런데, 기존의 연구들에서는 단일 음원에 대한 localization 능력에 좀 더 집중했다면, 최근의 localization 연구는 복수의 음원에 대한 localization 능력을 연구하는데 집중이 되어 있는 듯 합니다. 이 논문에서는 총 4개의 실험을 통해서 위 질문에 대한 답을 내리려고 합니다. 실험 시작 전에 실험 세팅 및 그 외 환경을 간단히 정리하고 갑시다. General Methods A. Instrumentation 15’ X 12’ X 10’ (L X W X H)인 reflection-reduced room12개 스피커를 청취자 귀 높이에 30도 간격으로 설치청취자의 Head-rotation은 가능하나, 그 외의 움직임은 하지 않도록 지시 B. Speech materials – 총 12명 (여자 6명, 남자 6명)의 Voice 녹음: American English Talkers– 한 단어 발음을 녹음하는데, 각 단어는 24개의 국가명– 녹음한 후에 level normalize하고, 시작 지점은 onset detection을 통해 time-aligned 된 형태로 가공함.– 각 talker 별로 10개의 단어를 무작위로 선택하고 (randomly selected), 각 talker는 개별 스피커에서만 소리가 남. 예를 들어 여자 1번 talker는 항상 1번 스피커에서만 소리가 나고, 남자 1번 talker는 2번 스피커에서만 소리가 나는 방식. C. Subjects – 8명의 정상 청력의 지원자. 그럼 첫번째 실험을 살펴봅시다. 첫번째 실험은 Locating Multiple Speech Sources 라는 이름의 실험입니다. 각 trial 마다 1개에서 8개까지의 스피커에서 소리가 나는데, 몇 개의 스피커에서 소리가 나는지는 random 하게 결정됩니다. 그리고 이 소리가 어디서 나는지도 random하게 결정되죠. 똑같이 4개의 스피커에서 소리가 나더라도 trial 마다 소리가 나는 스피커는 달라집니다. 청취자들은 1) 몇 개의 스피커에서 소리가 나고 있는지? 그리고 2) 어느 스피커에서 소리가 났는지를 맞추는 게 목적이 되겠네요. 실제 실험 전에 준비 단계에서 음원의 개수가 1개에서 8개까지로 구성된 예비 실험을 진행합니다. 이 예비 실험은 실험 방법과 세팅에 익숙해 질 수 있도록 하는 것이 목적인데, 이 때는 피실험자의 응답이 맞았는지 틀렸는지를 알려줍니다. 그 후 본 실험에 들어가게 되는데, 당연히 본 실험에서는 피실험자의 응답이 맞았는지에 대한 피드백은 주지 않습니다. 이런 응답도 피실험자에게 bias를 줄 수 있기 때문에, 실제 실험에서는 이런 부분들도 철저히 통제합니다. 그럼 결과는 어떠할까요? 질문이 그랬으니까 당연히 분석도1) 소리가 난 총스피커의 개수를 정확히 맞추었는지?2) 소리가 난 스피커의 위치를 정확히 인지했는지? 를 분석합니다. 일단 그래프를 한번 보죠. 위 그래프에서 왼쪽 그래프는 8명의 피실험자의 응답을 나타낸 것이고, 오른쪽 그래프는 평균값과 표준 편차를 그린 값입니다. 동시에 소리가 난 스피커의 개수가 많아져도 피실험자가 응답한 수는 4~5개에서 더 늘어나질 않습니다. 표준편차를 기준으로 봤을 때는 피실험자의 응답은 4개에서 멈춰진 것처럼 보입니다. 일단 이 결과에서는 동시 인지 가능한 음원의 개수는 4개 정도라고 보는게 맞겠네요. 그럼 음원의 위치는 얼마나 정확히 맞추었을까요? 위 그래프는 절대수가 아니라 Hits ( = Correct answers)의 비율을 나타낸 것입니다. 이 실험에서 이 비율은 맞게 대답한 개수를 실제 음원 개수로 나눈 거라고 합니다. 예를 들어 전체 5개의 스피커에서 소리가 났으며, 피실험자가 총 3개의 스피커에서 소리가 났다고 응답했고, 그 3개 중 2개에 대해서 정확한 위치를 말했다면 이 때 정확한 위치를 인지한 경우의 비율은 0.4가 되는 거죠. 일단 그래프에서 전체 소리가 난 음원의 개수가 5개가 될 때까지 이 비율은 급격하게 감소합니다. 동시 발생 음원의 개수가 4개인 경우에 위치를 정확하게 맞춘 경우는 60% 정도 밖에 되지 않네요. 그 이후로도 이 비율은 계속 감소하지만, 감소의 기울기가 좀 더 완만해 졌습니다. 일단 여기까지도 꽤 재밌는 결과가 나왔는데, 저자들은 좀 더 정확한 분석을 하고 싶었나 봅니다. 그래서 아래와 같은 표를 만들었네요. (고등학교 때 배운 확률/통계의 지식을 최대한 활용해 봅시다.) 첫번째 열은 동시에 소리가 난 음원의 개수입니다. 두번째 열은 동시에 소리가 난 스피커의 조합의 경우를 나타낸 것인데, 만약 N=2일 때 12개의 스피커에서 2개의 스피커로 소리를 낼 수 있는 경우의 수를 찾은 겁니다. 12개에서 N개의 스피커를 무작위로 뽑을 때 만들어 질 수 있는 조합의 개수가 되겠네요. 세번째 열은 해당 경우에 실제 피실험자가 응답한 총 음원의 개수를 (Fig.2의 오른쪽 그래프의 평균값, n)를 반올림한 값입니다. 네번째 열은 Fig.3의 오른쪽 그림에서 평균값을 표시한 값입니다. 근데, 이 비율을 좀 다르게 표시할 수도 있는데요. 비율을 계산할 때 N으로 나눌수도 있지만, 실제 응답한 개수인 n으로 나눌 수도 있겠지요. 그 값이 다섯번째 열에 계산된 값입니다. 이 다섯번째 컬럼이 결국은 n이라고 응답했을 때 n_hit는 몇개인가를 나타낸 것이겠네요. 여섯번째 컬럼은 사용자가 응답한 개수 중에서 위치까지 정확하게 맞춘 비율 (n_hits/n) 입니다. 이 결과가 좀 재밌는게, 처음에는 값이 감소하는 듯 하다가 다시 증가하는 추세를 보입니다. 일곱번째 컬럼은 N 개의 소리가 났고, 사용자가 n 개라고 답했을 때 모두 정확히 맞게 응답할 경우의 수입니다. (N C n 이런 방식이 우리한테는 좀 더 편한거 같기도 합니다.) 마지막 열은 피실험자가 응답한 개수에 대해서 모두 위치를 정확히 판별할 확률을 나타낸 것인데, 전체적으로 낮긴 하지만 N이나 n에 따라 최대 30배 넘는 차이를 보입니다. 일반적으로 이런 류의 실험에서는 사용자의 응답이 실제 정확히 인지해서 답을 한 건지, 아니면 추측에 의해서 답을 한 건지를 명쾌하게 풀어내야 하는데, 이런 변동값 때문에 위 표에 제시한 값들 만으로는 이런 부분을 명확히 하기 힘들다고 판단했습니다. 그래서 두번째 실험을 진행하게 되네요. 두번째 실험의 이름은 “Locating An Added Speech Source” 입니다. 이 두번째 실험은 첫번째 실험의 확장판이라고 보시면 되는데, 제목에서도 알 수 있듯이 추가된 음원의 위치를 찾아내는 실험입니다. 확장판이긴 하지만 실험이 조금 변경 되었으니 변경된 실험 세팅을 좀 살펴보고 갑시다. 이 실험에서는 총 연속된 세번의 소리를 듣게 됩니다. 첫번째와 세번째 interval 에서는 여러 개의 스피커에서 소리가 나지만 소리가 나는 위치는 동일합니다. 두번째 interval에서는 이 위치 외에 다른 하나의 스피커에서 추가로 소리가 납니다. 예를 들어 첫번째와 세번째 interval에서 4개의 스피커에(e.g. 1, 4, 8, 12번 스피커)서 소리가 났다면 두번째 interval에서는 그 4개의 스피커외에 추가로 1개의 스피커까지 해서 총 5개의 스피커(e.g. 1, 4, 8, 12번 스피커 + 6번 스피커)에서 소리가 납니다. 이 때 과연 청취자들은 6번 스피커에서 추가된 소리가 있는지를 알아보는 겁니다. 각 interval 사이에는 400ms 의 묵음구간이 있고, 두번째와 세번째 interval 의 음량 차이는 2dB 내외입니다. 두번째 interval에서 어느 스피커가 더해질지는 역시 무작위로 결정됩니다. 이 실험 역시 예비 실험 과정을 거쳐서 피실험자들이 실험 과정과 세팅에 익숙해 질 수 있는 과정을 거쳤습니다. 그럼 과연 결과는 어떨까요? 일단 이 두번째 실험에서는 피실험자들이 두번째 interval에서 추가되는 소리가 있다는 걸 이미 알고 있습니다. 그래서 뭐든 하나는 선택하겠죠. 그럼 이 때 중요한 것은 정확히 그 위치를 인지했는지를 판단하는 것이겠네요. 우선 결과를 정리한 그래프를 한번 보죠. 일단 여기서 RMS 값은 실제 추가된 소리의 위치와 피실험자가 응답한 소리의 위치의 Room-Mean-Square 값입니다. 단 주의할 건, 이 때 에러에 해당하는 값은 각도차이 중 작은 값을 사용하는 거죠. 예를 들어 1번 스피커에 추가된 소리가 재생되었는데, 피실험자가 12번이라고 응답했으면 각도 차이는 330도가 아니라 30도입니다. 그리고 전체 경우에 대한 평균값을 Chance level, 즉 이 값보다 크면 추측해서 응답한 거라고 정의했습니다. 그래프에서 보듯이 첫번째-세번째 interval에서 제시된 소리의 개수가 많을수록 RMS 값도 증가하는 것을 확인할 수 있습니다. 특히 제시된 음원의 개수가 4개보다 클 때부터는 표준편차값도 chance level을 드나들기 시작하고 8개가 동시에 제시된 경우에는 피실험자들의 반응은 명백히 추측에 기반함을 확인할 수 있습니다. 재밌는 것 사실 중에 하나는 응답 중에는 첫번째-세번째 interval에 제시된 스피커의 위치를 가리키는 경우도 가끔 있었다고 하네요. 사실 세번째 실험은 첫번째 실험과 동일합니다. 다만 제시되는 신호가 사람의 음성이 아니라 순음 (pure tone)이라는 차이가 있네요. 제시되는 순음들의 주파수는 모두 서로소인 관계입니다. 즉, 어떠한 소리도 다른 소리의 배음 (harmonics) 이 아닌 신호들입니다. 사용된 신호의 주파수는 313 Hz, 419 Hz, 541 Hz, 733 Hz, 863 Hz, 1019 Hz, 1277 Hz, 1511 Hz, 1993 Hz, 2633 Hz, 3457 Hz, 5051 Hz 입니다. 실험 방법은 실험 1과 같으니 바로 결과를 알아보는 걸로 넘어가죠. 한 눈에 봐도 실험 3의 결과는 실험 1의 결과 유사한 패턴을 갖고있긴 하지만, 응답한 음원의 개수나 hits의 비율은 좀 더 낮은 경향이 있습니다. 다만 편차는 훨씬 균일하고 안정된 패턴이 있습니다. 피실험자가 응답한 개수는 최대 4개이고, 위치의 정확도도 4개 이후로는 큰 변화없이 일정해지는 경향이 있습니다. 다만 하나 주목할 것은 pure tone을 사용한 경우, 제시된 음원의 개수가 1개라고 하더라도 위치를 정확히 맞춘 경우는 평균 70% 정도 밖에 되지 않네요. 실험 1에서 음성 신호로 실험했을 때는 그래도 거의 100%에 가까운 정확도를 가졌었죠. 여기서 의문이 하나 발생합니다. 사람은 두 명이 동일한 위치에 있다고 하더라도 fundamental frequency (F0) 정보를 이용해서 이 두 명의 음성을 분해할 수 있다고 알려져 있습니다. 그런데, 세번째 실험에서 F0가 다른 두개의 신호를 분해하는 성능이 70%까지 떨어졌네요. 그래서 마지막 네번째 실험을 수행합니다. 네번째 실험은 소리를 분해해 내는 사람의 능력의 한계가 어떤 부분이 청각의 인지적 한계 때문인지, 그리고 어떤 부분이 공간 처리 때문인지를 밝혀보고자 하는 의도입니다. 마지막 실험은 실험 1과 실험 3과 유사한 듯 다릅니다. 일단 최대 5개의 스피커만 사용하게 되구요. 조건이 Non-spatial condition과 Spatial condition으로 구분됩니다. Non-spatial condition은 재생되는 소리가 1개이든 5개이든 모두 더해서 1개의 스피커에서 소리가 납니다. Spatial condition에서는 앞 선 실험들과 마찬가지로 각각의 소리가 다른 스피커에서 나게 되는 것이죠. 오해의 여지가 있을 수 있는데, 앞에서 말한 최대 5개의 스피커만 사용한다는 것은 동시에 운용되는 스피커가 5개란 의미입니다. 12개의 스피커 어느 곳에서든 소리는 날 수 있습니다. 피실험자들은 인지할 수 있는 소리가 몇 개인지를 답하면 됩니다. 이게 오묘하게 다른 의미를 가지는데, 몇 개의 음원이 있는지를 답하는 것이 아니라 얼마나 많은 소리를 인지했는지를 답하는 거에요. 재생되는 소리는 실험 1에서 사용된 음성일 수도 있고 실험 3에서 사용된 pure tone 일 수도 있습니다. 물론 음성이 제시될 때는 다른 소리들도 모두 음성, pure tone이 재생될 때는 다른 소리들도 모두 pure tone입니다. 마지막 실험에 참여한 피실험자는 총 6명 (여성 4명, 남성 2명)이고, 정상 청력입니다. 이전 실험 1,2,3에는 참여한 적 없고, 이 실험에만 참여한 완전히 새로운 피실험자들입니다. 그럼 결과를 한번 보죠. 일단 그림의 왼쪽 그래프는 음성 신호를 대상으로 한 결과입니다. 점선은 이상적으로 답했을 때 (3개 음원이 제시되었을 때 3개가 들렸다라고 응답한 경우)이고, 실선+solid circle은 spatial condition, 점선+solid trinagle은 non-spatial condition 의 결과를 나타내고 있습니다. 두 경우 모두 제시된 음원의 개수가 많아질 수록 검출한 소리의 개수는 줄어드는 패턴을 보이지만, spatial condition의 경우 분해를 좀 더 잘 하고 있는 양상을 보입니다. non-spatial condition의 경우 5개의 음원을 재생했다고 해도 3개 정도밖에 들리지 않았다고 응답을 했네요. 이 결과로부터 음원의 공간적 분포 (spatial distribution) 이 소리를 분해해서 개별 음원으로 인지하는데 도움을 준다는 사실을 알 수 있습니다. 그림의 오른쪽 그래프는 pure tone을 사용한 실험의 결과인데, 음성보다 분해 성능의 한계가 훨씬 명확해 보입니다. spatial condition의 경우에도 아주 살짝 좋은 분해 성능을 보여주긴 하지만 표준편차가 겹치면서 의미있는 차이라고 보기 힘든 결과가 나왔구요. 동시에 5개의 음원을 재생했을 때도 2개 남짓한 소리만 들렸다고 응답했습니다. 위 결과로 보면 음원의 공간적 배치는 음원의 개수를 인지하는데 도움을 준다는 사실을 확인할 수 있습니다. 또한 동일한 위치에서 복수개의 소리가 나는 경우에 사람들은 한개보다 많은 개수의 소리를 인지한다는 사실을 확인할 수 있습니다. 다만 공간 처리 능력외에 다른 요소들이 이 인지 과정에 관여하는 것도 사실이겠네요. 이러한 요소들에는 피치 (pitch), 음색 (timbre), 음성 특징 (e.g. temporal modulation) 등이 관여할 것입니다. Discussion 결과 나왔으면 됐지, 뭔 discussion 이냐? 라고 생각하실 수도 있겠습니다만, 사실 논문의 핵심은 이 discussion에 있습니다. 결과를 바탕으로 결과를 해석할 수 있는 논거들을 생각해 보는 과정이거든요. (물론 제 discussion은 아니고 저자의 discussion 입니다.) A. Perceptual limits of auditory scene analysis 앞의 실험 결과들을 봤을 때 음원들이 각각 다른 위치를 가지고 있다면 4개정도의 음성, 또는 3개 정도의 tonal 신호는 구분해 낼 수 있다는 걸 확인을 했습니다. 음성 신호의 경우 1-3개의 음원에 대해서는 피실험자들은 전체 개수를 비교적 정확히 찾아냈습니다. 그보다 많아지는 경우 (4개 이상인 경우), 찾아낸 음원의 개수는 4개 정도에서 멈춰 더 이상 늘어나질 않았네요. 실험 2의 경우도 일치하는 결과를 보였는데, 음원의 개수가 많아질수록 추가된 음원의 위치에 대한 에러는 증가했고, 이 경우에 rms값은chance level 수준이거나 그 이상이었다는 것도 확인할 수 있었습니다. 실험 2에서 눈여겨볼만한 것은 4개 이상의 음원이 존재할 때 음원의 처리과정은 거의 변하지 않는다는 것입니다. 이런 결과는 결국 한 group의 음원 중에서 개별 음원에 대한 localization error를 반영한다고 볼 수 있겠죠. 이와 관련된 연구들이 몇 가지 더 있었습니다만, 여기서는 사실만 확인하고 넘어가죠. 실험 3은 tonal 신호에 대한 결과였는데, 결과의 패턴은 유사하나 음성 신호와 비교했을 때 분해 능력이 안 좋게 나왔습니다. 이런 결과로 봤을 때 넓은 대역폭을 갖는 신호에 대한 인지 능력이 더 좋다고 볼 수도 있겠습니다. 마지막 실험에서는 음원의 공간적 배치가 음원의 인지/분해에 영향을 준다는 사실을 확인할 수 있었네요. 유사한 연구들의 결과들과 종합해 봤을 때 정확히 확인할 수 있는 음원의 개수는 3~4개 정도인 것으로 결론이 납니다. 이보다 더 많아지면 인지할 수 있는 음원의 개수도 늘어나지 않을 뿐더러 localization error도 커지죠. 이런 결과는 여러 형태의 실험에서 동일하게 나타납니다. 음원의 특성에 따라 다소 차이는 보일지라도 결과의 전체적인 경향은 변함이 없습니다. 소소한 결론을 내려보자면 정확히 분해해서 정위시킬 수 있는 음원의 개수는 3-4개 정도에 한정이 된다는 것이고, 이러한 한계는 auditory scene이나 cocktail party 맥락에서 음원의 분해를 연구하는데 중요한 결과라고 볼 수 있겠습니다. B. Implications for 3D audio rendering techniques 다소 부수적인 논의이긴 합니다만 실험에서 검증된 결과들은 3D Audio rendering 등에 사용될 수 있을 겁니다. 여러 개의 오브젝트를 렌더링하는 시스템에서는 인지 가능한 정도의 중요 오브젝트를 주로 렌더링 하거나 하는 전략을 잡을 수도 있을 겁니다. 또한 Audio compression에도 적용될 수 있겠네요. (다만 Audio compression에 적용할 때는 redundancy를 확보하는게 관건이 될 수는 있을 것 같다는 개인적인 생각이 있습니다.) 그 외에 machine perception algorithm 등에도 활용될 수 있겠네요. 개인적으로 이 논문이 잘 세운 실험들로 밝히고자 하는 문제들을 간결하지만 정확하게 해석하고 풀어낸 논문이 아닐까 싶습니다. 소소하게 넘어갈 수 있는 문제를 잘 정의하고 그에 대한 해결책을 찾는 방법들은 논문의 내용 외에 또 하나의 배울점이 아닐까 싶습니다. Gaudio Lab 은… 가우디오랩(주)은 VR/AR, 스트리밍 미디어, 모바일, 홈 등 소리가 있는 어디에서나 사람들에게 훌륭한 소리 경험을 제공하는 일을 합니다. 가상세계를 더욱 현실처럼 만드는 소리, 현실을 넘어 초현실적인 소리를 만드는 혁신적인 기술들로 전세계를 누비며 활약하는 국가대표 오디오 공학집단입니다. “올해의 최고 VR 혁신 기업상 수상(VR Awards, 런던, 2017)“, “ISO/IEC MPEG-H 3D Audio 국제표준 채택 (2013,2018)“으로 혁신성을 인정받은 6인의 음향공학박사와 오디오 Geek들은 실리콘밸리와 서울에 있습니다. The Science of Sound.

2019.07.09

Spatial Ear Training : Localization

Introduction 당연한 말이지만, 우리가 사랑하는 사람의 목소리, 아름다운 음악 등 세상에 존재하는 소리를 들을 수 있는 이유는 바로 두 귀를 가지고 있기 때문입니다. 똑같이 생긴 사람이 없는 것처럼, 귀 또한 사람마다 모두 다르게 생겼습니다. 그런데도 어떤 소리 이벤트가 발생했을 때 귀가 중요한 큐(cue)들을 인지하는 과정은 사람마다 거의 유사합니다. 이는 귀를 통해 전달되는 소리를 뇌가 열심히 트레이닝한 결과로도 볼 수 있습니다. 이번 글에서는 숨 쉬는 것 만큼이나 당연해서 평소에 생각해보지 않았던, 귀가 소리를 듣는다는 것에 대한 재미있는 실험을 소개해드릴려고 합니다. 그중에서도 VR과 AR이 점점 일상생활 속으로 들어오고 있는 이 시대에 가상현실에서 중요한 요소로 여겨지는 소리의 방향 훈련에 대해 살펴보겠습니다. 청능 훈련 ( Auditory training) 특정 분야의 전문가들은 훈련(training)을 통해 특정 감각을 강화합니다. 예를 들면, 바리스타나 소믈리에는 다양한 향을 가진 아로마 키트 (어떤 키트는 144가지 향이 있다고 합니다) 를 이용해서 후각을 강화합니다. 그런데 귀를 트레이닝한다?! 이 생소한 이야기는 정말 가능한 일일까요? 만약 가능하다면, 어떤 부분을 어떤 방법으로 훈련할 수 있을까요? 바로 말씀드리자면, 귀는 트레이닝이 가능합니다. 어떤 소리를 듣는 것에 대해 분명한 목적을 가지고 주의를 기울여서 그것의 소리를 많이 경험하면 됩니다. 트레이닝의 예시를 들어봅시다. 임의의 사인파를 들려주고 이 소리가 얼마의 주파수를 가지고 있는지 맞춰볼 것입니다. 사인파의 주파수를 맞춘다는 목적을 가지고 수차례 반복되는 실험에서 정답과 오답을 반복하여 이루어지는 루틴을 통해 뇌에 사인파 소리에 대한 경험이 축적됩니다(=트레이닝). 이 경험이 쌓인 사람과 그렇지 않은 사람이 사인파의 주파수를 맞춘다고 했을 때, 경험이 많은, 즉 트레이닝이 충분히 된 사람이 정답을 더 잘 맞출 것입니다. 그림 1) Perceived sound width training 또 다른 예로 소리의 너비를 트레이닝 할 수 있습니다. 그림 1은 동일 수평면에 스피커 5개를 배치하여 소리의 너비를 훈련하는 실험입니다. 스피커 하나에서만 소리가 나는 것은 가장 너비가 좁은 포인트 음원이 되고, 5개의 스피커에서 모두 소리가 나는 것은 너비가 큰 전방위 음원이 됩니다. 이 트레이닝에서는 소리 나는 스피커 수를 다르게 하는데, 이것은 이 정도의 음원이 얼마 만큼의 너비를 가지는 음원이라는 것을 인지하고 그 경험을 축적하는 과정입니다. 일단 소리를 듣는 환경이 주어지고 그 환경 속에서 듣고자 하는 목적에 맞게 훈련함으로써 청음 능력이 향상 될 수 있습니다. 사실 소리의 주파수나 너비는 일상생활에서 우리에게 중요한 요소는 아닙니다. (소리를 듣고 ‘이 소리의 주파수가 얼마일까?’하고 생각하는 경우는 거의 없겠죠!) 그럼 우리가 트레이닝 해볼 수 있는 보다 중요한 요소에는 무엇이 있을까요? 요즘 VR, AR 등 가상현실에 대한 관심이 매우 높은데요, 가상현실에서 사람의 오감을 충족시키는 데에는 단순히 눈에 보이는 비전(vision) 뿐 아니라 “소리”도 매우 중요한 요인이 됩니다. 특히 가상현실에는 2D 비디오에서 벗어나 3D의 공간적 요소가 가미되기 때문에 소리의 방향에 대한 인지(interaction)가 핵심 요소로 떠오르고 있습니다. 소리의 방향은 사람이 소리를 듣고 그 소리가 나는 방향으로 쳐다 보게 만드는, 즉 소리를 들은 뇌가 그 소리에 대한 사람의 반응을 이끌어내는 매우 중요한 요소입니다. 그럼 여기서 새로운 질문을 던지겠습니다. 사람이 소리의 방향을 인지하는 것도 트레이닝의 결과일까요? 그렇다면 트레이닝이 가능할까요? 사람의 청각 기관의 방향 큐 (Localization Cues of Human Hearing System) 위의 질문의 답을 찾기 위해서 먼저 앞에서 언급했던 ‘중요한 큐’들에 대해 살펴보겠습니다. 귀의 생물학적인 관점이 아니라 소리가 뇌로 전달될때의 우리의 인지적 관점에서 접근해봅시다. 가장 쉽게는 ‘머리 전달 함수(Head Related Transfer Function, HRTF)’를 통해 큐들을 살펴 볼 수 있습니다. HRTF란 어떤 소리의 이벤트가 발생했을 때 그 소리가 발생한 지점부터 우리의 두 귀 까지의 전달 경로를 의미합니다. HRTF를 통해 우리는 다음의 세가지의 큐들을 확인할 수 있습니다. Interaural Level Difference (ILD) (두 귀에서의 소리의 크기 차이) Interaural Time Difference (ITD) (소리가 두 귀에 전달되기까지의 시간 차이) Spectral Cue (주파수 단서) 사람의 두 귀는 머리의 지름 만큼 떨어져 있습니다. 그래서 생기는 큐가 ILD와 ITD죠. ILD는 소리가 두 귀에 도달했을 때의 두 귀에서의 소리의 크기의 차이, ITD는 소리가 두 귀에 전달되기까지의 시간차입니다. spectral cue는 귓바퀴 모양 등으로 생기는 주파수 특성입니다. 이 세가지 큐는 소리가 어느 방향에서 들려오는지 인지하는 데 주된 역할을 합니다. ILD는 수평 방향의 고주파 소리를 인지하는 데 주로 사용되며, ILD는 수평 방향의 저주파 소리를 인지하는 데 주로 사용 됩니다. spectral cue는 ILD나 ITD와는 다르게 수직 방향으로의 소리를 인지하는데 중요한 큐입니다. 우리는 태어나서 지금까지 나의 귀만 가지고 소리를 들어왔는데, 만약 친구의 귀를 내 귀로 사용하게 된다면 어떠한 일이 벌어질까요? 이것에 대한 재미있는 실험이 있습니다. 그림 2) Relearning sound localization with new ear 그림 2는 사람의 귓바퀴 모양을 인위적으로 변화시켰을 때 사람이 소리의 방향을 어떻게 인지하는지, 그리고 인지가 시간에 따라 어떻게 변화하는지에 대한 실험 결과 입니다. 그림 2의 3×3 격자는 실제 소리가 발생한 지점이고, 검은 동그라미는 실험자가 소리를 듣고 그것이 어디에서 들려오는지 응답한 것의 평균입니다. (x축은 azimuth(방위각), y축은 elevation(높이)) 그림 1의 첫번째 그림은 나의 원래 귀를 가지고 실험한 것입니다. 소리가 발생한 지점을 유사하게 찾아내는 것을 알 수 있습니다(당연한 이야기지만!). 두번째 그림은 인위적으로 귓바퀴를 변화시킨 첫째날의 실험 결과 입니다. 그래프를 보시면 azimuth 축으로 방향을 인지하는 것은 큰 영향을 받지 않았지만 elevation의 변화는 거의 느끼지 못하게 되었음을 알 수 있습니다. 귓바퀴를 변화시켰다는 것은 세 가지의 방향큐 중에 spectral cue가 크게 바뀐 경우에 해당합니다. 실험자의 머리 크기가 바뀌지 않으니 ILD와 ITD는 크게 변화가 없어 azimuth는 원래 귀와 마찬가지로 어느 정도 잘 인지하는 반면, spectral cue는 크게 바뀌어 실험자가 elevation을 인지하는데 문제가 생겼다는 것을 유추할 수 있습니다. 그러나 세번째, 네번째 그림으로부터 우리는 놀라운 사실 하나를 확인할 수 있습니다. 5일이 지나자 바뀐 귀로도 elevation의 변화를 느끼기 시작한 것이 보이고 19일이 지나자 마치 나의 귀로 방향을 인지하는 것처럼 elevation을 느낄 수 있게 된 것입니다. 이는 실험자의 뇌가 변화된 외부 환경으로부터 들어오는 소리를 다시 트레이닝하여 변화된 spectral cue로부터 elevation을 인지할 수 있게 된 것입니다. 그렇다면 다시 원래 나의 귀로 돌아온다면 어떻게 될까요? 바뀐 spectral cue로 새롭게 트레이닝 했으니 원래 귀로 돌아왔을 때 마치 귀가 새롭게 바뀐 것처럼 elevation을 느끼지 못할까요? 신비롭게도 이전에 경험하고 트레이닝된 큐들을 잃어버리지 않고 그대로 유지하는 것을 다섯번째 그림을 통해 알 수 있습니다. 즉 사람의 뇌는 새로운 외부 환경의 변화에도 불구하고 이를 트레이닝 하여 적응 할 수 있을 뿐만 아니라 트레이닝된 경험과 큐를 잃어버리지 않고 유지할 수 있습니다. 이는 사람의 뇌가 훈련을 통해 하나의 HRTF가 아니라 복수의 HRTF를 가질 수 있다는 것을 의미합니다. AR에서의 방향 인지 훈련 (Auditory Localization Training in AR) 가상 현실에서 소리는 HMD와 더불어 헤드폰을 통해 재생됩니다. 이때 소리의 방향을 정위시키기 위한 방법으로는 HRTF(머리 전달 함수, Head Related Transfer Function)를 사용하는 것이 널리 쓰이고 있습니다. 예를 들어, 소리를 45도 방향에 위치시키고자 하면 방향성이 없는 모노 음원을 45도로부터 측정된 HRTF와 필터링하여 마치 소리가 45도에서 들려오는 것과 같이 만들어 낼 수 있습니다. 일반적으로 HRTF는 KEMAR라고 하는 이어폰/헤드폰 측정용 마네킹을 가지고 획득합니다. 잔향이 없는 무향실에서 소리를 발생시켜, 소리가 발생한 지점부터 마네킹의 두 귀까지 전달되는 경로를 측정하는 것입니다. 이렇게 측정된 HRTF는 사용자의 귀에서 직접 측정하지 않고 마네킹으로 측정한 것이기 때문에, 소리를 듣는 청자의 머리 크기, 귓바퀴 모양, 몸과 같은 사용자의 신체 특성이 반영되어 있지 않습니다. 따라서 이를 ‘비개인화 HRTF’ (non-individual HRTF) 라고 부릅니다. 반대로 사용자의 귀로부터 직접 측정한 것을 ‘개인화 HRTF’ (individual HRTF)라고 합니다. 시중에 나와 있는 VR 혹은 AR 장비들은 대부분 비개인화 HRTF를 사용하고 있습니다. 개인화 HRTF를 측정하는 것은 공간적, 시간적으로 더 큰 비용이 소모되는 일인데다가 각 개인별로 모든 데이터 베이스를 보유하는 것은 불가능에 가깝기 때문입니다. 나와 마네킹은 신체 특성도 다르고 귓바퀴 모양도 달라 모든 방향 큐들이 다릅니다. 즉 내 귀에서 측정된 HRTF가 아니라 마네킹에서 측정된 HRTF를 쓴다는 것은 새로운 귀(마네킹의 귀)를 통해 소리를 듣는 것과 같다고 볼 수 있습니다. 앞서 소개드린 실험에서 훈련을 통한 spectral cue 변화 가능성을 확인한 것처럼, HRTF를 통해 만들어진 새로운 귀도 트레이닝을 통해 마치 나의 HRTF인것처럼 뇌에 탑재 가능하지 않을까요? 그럼 한번 트레이닝을 해 봅시다! 그림 3) Test AR Device 그림 4) Localization Training Software 그림 3은 M사에서 개발된 AR 디바이스입니다.(비개인화 HRTF를 사용한 sound spatializer가 탑재 되어 있습니다.) 그림 4는 AR 디바이스에서 소리의 방향 인지 트레이닝을 할 수 있는 소프트웨어의 화면입니다. 트레이닝은 소리 이벤트가 청취자를 둘러싼 임의의 위치에서 발생하면 청취자는 그 소리의 방향을 찾아 화면을 터치하는 방식으로 이루어집니다. 그러면 소리가 발생한 위치를 청취자에게 정확하게 표시해주고 터치한 지점과 얼마나 맞는지 확인할 수 있는 것이죠. 아래에서 실험 결과를 자세히 살펴보겠습니다. 그림 5) 트레이닝 전후 테스트 결과 그림 6) 장기 테스트 결과 그림 5는 트레이닝 전과 후의 테스트 결과입니다.(보라 : 트레이닝 전, 초록 : 트레이닝 후) x축은 테스트 모듈이고 y축은 점수입니다. 점수는 정답과 사용자가 터치한 위치와의 차이를 계산한 것으로, 1에 가까울수록 사용자가 정답에 근접했다는 것을 의미합니다. 결과에서 알 수 있듯이 트레이닝 전보다 후에 점수가 더 높게 나타났는데, 이는 피실험자가 비개인화 HRTF에 적응하여 소리 방향에 대한 인지 능력이 트레이닝 후에 더 좋아졌다는 것입니다. 그림 6은 트레이닝 결과가 얼마나 지속되는지에 대한 실험의 결과입니다. 테스트4와 테스트2, 3, 4의 점수가 큰 차이 없다는 점을 통해 10주가 지난 뒤에도 트레이닝의 경험이 사라지지 않고 그대로 유지되는 것을 확인 할 수 있습니다. 이 실험을 통해 트레이닝으로 소리의 청음 능력 향상, 다시 말해 뇌가 새로운 환경에 적응하여 더 정확히 소리 localization을 인지할 수 있도록 relearning하는 과정이 가능하며, 일시적인 것이 아니라 유지된다는 것을 알아보았습니다. 그런데 이런 트레이닝이 무조건 잘 되는 것은 아닙니다. 트레이닝의 효과가 보이지 않는 경우도 발생하는데 여기에는 집중도(attention) 등이 큰 영향을 미칩니다. 10시간 대충 공부하는 것보다 1시간이라도 집중적으로 공부할 때 더 성적이 잘 오르는 것과 같은 이치이죠. 시간이 지날수록 동일한 환경에서 반복적으로 계속되는 트레이닝 과정이 지루해지고 집중도가 떨어질 수 있습니다. 더 나은 트레이닝을 위해 실험자의 관심과 집중도를 유지시키는 것이 중요한데, 소프트웨어를 게임으로 만든다든지 실험자가 좋아하는 음원을 사용한다든지 하는 방법을 고안해 볼 수 있습니다. 그렇지만 가장 중요한 것은 트레이닝의 목적을 달성하고자 하는 실험자의 의지일지도 모르겠습니다. 결론 (Conclusion) 이상으로 localization training에 관련된 재미있는 실험을 통해 귀로 들어오는 소리에 대한 뇌의 반응을 트레이닝으로 향상시킬 수 있다는 사실을 알아보았습니다. 트레이닝 경험이 뇌에 쌓이면 그 경험들이 새로운 환경에 대한 적응력으로 나타나게 됩니다. 이로써 소리의 특징들에 대한 인지 능력이 향상되고, 심지어 우리가 지금까지 써오던 귀를 버리고 새로운 귀를 사용할 때에도 금새 적응할 수 있는 것입니다. 아직은 전국민이 스마트폰을 쓰는 것처럼 AR, VR이 실생활에 깊이 들어와 있지는 않은 상황이라 이에 대한 소리 경험도 충분하지 않습니다. 멀지 않은 미래에 가상 현실에서의 소리 경험이 축적되면 우리는 현실 세계 속의 귀 뿐만 아니라 또 다른 세계에 ‘second ears’를 가지게 될 것 같습니다!

2019.07.26

“Hearing Science and Engineering” – 최인용 교수님(IOWA 주립대) | 전문가 초청

[전문가 초청] “Hearing Science and Engineering”

최인용 교수님 (IOWA 주립대)