E-DSBM (Speech Enhancement)

설명: E-DSBM(Envelope-Conditioned Schrödinger Bridge Matching)은 잡음, 반향 혹은 오디오 왜곡을 제거를 목적으로 구축된 생성형 음성 향상(Speech Enhancement) 모델입니다. 본 모델은 Diffusion Schrödinger Bridge Matching (DSBM) 방법을 Speech Enhacnement에 최적화 시키도록 단방향 모델 구조를 지향합니다. 동시에 향상된 음성이 생성될 때 음향정보에 집중할 수 있도록 Temporal Envelope 정보를 U-Net에 조건으로 제공합니다.

Source code: https://github.com/EigenValuewav/E-DSBM

Page updated

Report abuse