새소리로 학습한 AI, 고래 울음도 인식 가능해짐
source https://spectrum.ieee.org/foundation-models-google-birds-whales
새의 지저귐과 떨림음, 노랫소리는 공기를 타고 퍼지고, 고래의 boings, “biotwangs“, 휘파람 소리는 물속에서 울려 퍼짐.
소리의 형태도 다르고 전달되는 매질도 다르지만, 이 둘 모두 Google DeepMind의 AI 오디오 모델 Perch 2.0으로 분류 가능해짐.
Perch 2.0은 생체음향 기반 모델로, 새와 양서류, 곤충, 포유류를 포함한 다른 육상 동물의 녹음 수백만 건으로 학습했음.
그런데 연구진은 이 모델을 고래 연구에 재활용했을 때 성능이 예상보다 훨씬 강하게 나와 놀라게 됨.
Google DeepMind와 Google Research의 과학자들은 거의 10년 동안 고래 생체음향을 연구해 왔음.
이 과정에서 혹등고래 호출음을 탐지하는 알고리즘도 만들었고, 최근에는 서로 다른 8종을 식별하고 그중 2종에 대해서는 여러 호출음까지 구분할 수 있는 다종 고래 모델도 내놓음.
하지만 Perch 2.0이 공개되자 연구진은 이 모델을 다시 활용해 계산 시간과 실험 부담을 줄일 수 있겠다고 판단함.
Google Research의 데이터 과학자 Lauren Harrell은 “Perch 2.0이 우리 고래 연구 용도에서도 잘 작동한다면, 완전히 새로운 고래 모델을 따로 만들 필요가 없다는 뜻임. 그 위에 필요한 모델만 얹으면 됨”이라고 설명함.
생물음향학에서의 전이 학습(Transfer Learning in Bioacoustics)
이런 발상은 전이학습이라는 기법으로 뒷받침됨.
전이학습은 한 종류의 작업이나 데이터에서 얻은 지식을, 다르지만 관련 있는 다른 작업에 적용하는 방식임.
여기서는 Perch 2.0이 새소리를 분류하며 익힌 능력이 고래 소리 분류로 이어질 수 있었음.
Harrell은 기반 모델에서의 전이학습이란 “이미 해둔 학습을 재활용하고, 마지막에 자기 용도에 맞는 작은 모델만 덧붙이면 되는 것”이라고 설명함.
이어 “우리는 호출음 유형에 대해 늘 새롭게 발견하고 있음. 수중 소리에 대해서도 계속 새로운 걸 배우고 있음. 바다에는 정체를 알 수 없는 소리가 너무 많아서, 하나의 고정된 모델만으로는 충분하지 않음”이라고 말함.
연구팀은 고래 소리와 다른 수중 잡음을 담은 해양 오디오 데이터셋 3개에서 Perch 2.0을 평가했음.
먼저 5초 단위 오디오 구간을 시간에 따른 주파수별 음강도를 보여주는 시각 표현인 스펙트로그램으로 바꿈.
이 이미지를 모델에 넣자, 데이터의 핵심 특징을 보존한 임베딩, 즉 특성 집합이 나왔음.
예를 들어 혹등고래와 범고래의 휘파람 소리 차이처럼 미세한 차이도 가려낼 수 있게 됨.
그다음 과학자들은 데이터셋마다 소수의 임베딩을 무작위로 골라씀.
최소 4개에서 최대 32개까지 사용함.
이 임베딩으로 이산적인 결과를 예측하는 선형 모델인 로지스틱 회귀 분류기를 학습시킴.
이 학습 결과는 지난해 12월 NeurIPS conference의 AI for Non-Human Animal Communication 워크숍에서 발표된 논문에 정리됐음.
임베딩이 몇 개 안 돼도 분류기가 잘 작동함이 드러남.
임베딩 수가 늘수록 성능 향상도 더 뚜렷해짐.
연구진은 또 Perch 2.0을 유사한 조류 생체음향 모델의 임베딩, 앞서 언급한 다종 고래 모델, 산호초의 다른 동물 발성 및 잡음으로 학습한 모델들과 비교했음.
그 결과 Perch 2.0이 최고 성능이거나 최소한 두 번째로 좋은 성능을 냄.
조류 생체음향 모델들도 상당히 잘 작동함이 함께 확인됨.
발성에 나타나는 진화적 유사성(Evolutionary Parallels in Vocalization)
그렇다면 왜 조류 발성으로 학습한 모델이 고래류 소리에도 잘 맞았을까.
Harrell과 동료들은 세 가지 설명을 제시함.
첫째, 새와 해양 포유류가 비슷한 물리적 발성 메커니즘을 진화시켰을 가능성이 있음.
둘째, 방대하고 다양한 데이터로 학습한 거대한 모델은 더 좁고 영역 밖인 작업에서도 잘 작동하는 경향이 있다는 규모의 법칙을 검토함.
마지막으로, 조류 발성을 분류하는 일 자체가 까다로워서 모델이 매우 세밀한 음향 특징을 익히도록 만들었고, 그 특징이 관련 과제 예측에도 도움 줬을 가능성 제기함.
Harrell은 “우리는 이 모델이 사운드스케이프 안의 작은 특징들을 찾아내도록 학습시키고 있음”이라고 말함.
이어 “그 특징들이 수중 음향과도 어떤 식으로든 비슷하다면, 동물 발성 안의 미묘한 세부도 찾아낼 수 있게 됨”이라고 설명함.
예를 들어 범고래 집단의 휘파람 소리는 “많은 조류 발성과 비슷한 종류의 스펙트로그램 범위 안에 있다”고 Harrell은 설명함.
이어 “하지만 낮은 주파수의 소리를 내는 새와 양서류, 포유류도 많기 때문에, 이 모델은 실제로 다양한 동역학에 민감하게 반응함. 그리고 그 점이 수중에서도 잘 통하는 듯함”이라고 덧붙임.
Perch 2.0이 조류 보전 연구자들을 돕고 있듯, Google 팀은 같은 생체음향 모델이 패시브 음향 모니터링을 통해 과학자들의 고래 보호 활동도 도울 수 있기를 바람.
더 나아가 이 오래된 해양 생물들이 품은 지혜를 밝혀내는 데에도 힘을 보탤 수 있기를 기대함.
