Parakeet/parakeet/audio/audio.py

import librosa
import soundfile as sf
import numpy as np
import scipy.io
import scipy.signal

class AudioProcessor(object):
    def __init__(self,
                 sample_rate=None, # int, sampling rate
                 num_mels=None, # int, bands of mel spectrogram
                 min_level_db=None, # float, minimum level db
                 ref_level_db=None, # float, reference level db
                 n_fft=None, # int: number of samples in a frame for stft
                 win_length=None, # int: the same meaning with n_fft
                 hop_length=None, # int: number of samples between neighboring frame
                 power=None, # float:power to raise before griffin-lim
                 preemphasis=None, # float: preemphasis coefficident
                 signal_norm=None, # 
                 symmetric_norm=False, # bool, apply clip norm in [-max_norm, max_form]
                 max_norm=None, # float, max norm
                 mel_fmin=None, # int: mel spectrogram's minimum frequency
                 mel_fmax=None, # int: mel spectrogram's maximum frequency
                 clip_norm=True, # bool: clip spectrogram's norm
                 griffin_lim_iters=None, # int:
                 do_trim_silence=False, # bool: trim silence
                 sound_norm=False,
                 **kwargs):
        self.sample_rate = sample_rate
        self.num_mels = num_mels
        self.min_level_db = min_level_db
        self.ref_level_db = ref_level_db

        # stft related
        self.n_fft = n_fft
        self.win_length = win_length or n_fft
        # hop length defaults to 1/4 window_length
        self.hop_length = hop_length or 0.25 * self.win_length 
        
        self.power = power
        self.preemphasis = float(preemphasis)

        self.griffin_lim_iters = griffin_lim_iters
        self.signal_norm = signal_norm
        self.symmetric_norm = symmetric_norm

        # mel transform related
        self.mel_fmin = mel_fmin
        self.mel_fmax = mel_fmax

        self.max_norm = 1.0 if max_norm is None else float(max_norm)
        self.clip_norm = clip_norm
        self.do_trim_silence = do_trim_silence

        self.sound_norm = sound_norm
        self.num_freq, self.frame_length_ms, self.frame_shift_ms = self._stft_parameters()

    def _stft_parameters(self):
        """compute frame length and hop length in ms"""
        frame_length_ms = self.win_length * 1. / self.sample_rate
        frame_shift_ms = self.hop_length * 1. / self.sample_rate
        num_freq = 1 + self.n_fft // 2
        return num_freq, frame_length_ms, frame_shift_ms

    def __repr__(self):
        """object repr"""
        cls_name_str = self.__class__.__name__
        members = vars(self)
        dict_str = "\n".join(["  {}: {},".format(k, v) for k, v in members.items()])
        repr_str = "{}(\n{})\n".format(cls_name_str, dict_str)
        return repr_str

    def save_wav(self, path, wav):
        """save audio with scipy.io.wavfile in 16bit integers"""
        wav_norm = wav * (32767 / max(0.01, np.max(np.abs(wav))))
        scipy.io.wavfile.write(path, self.sample_rate, wav_norm.as_type(np.int16))

    def load_wav(self, path, sr=None):
        """load wav -> trim_silence -> rescale"""

        x, sr = librosa.load(path, sr=None)
        assert self.sample_rate == sr, "audio sample rate: {}Hz != processor sample rate: {}Hz".format(sr, self.sample_rate)
        if self.do_trim_silence:
            try:
                x = self.trim_silence(x)
            except ValueError:
                print(" [!] File cannot be trimmed for silence - {}".format(path))
        if self.sound_norm:
            x = x / x.max() * 0.9 # why 0.9 ?
        return x

    def trim_silence(self, wav):
        """Trim soilent parts with a threshold and 0.01s margin"""
        margin = int(self.sample_rate * 0.01)
        wav = wav[margin: -margin]
        trimed_wav = librosa.effects.trim(wav, top_db=60, frame_length=self.win_length, hop_length=self.hop_length)[0]
        return trimed_wav

    def apply_preemphasis(self, x):
        if self.preemphasis == 0.:
            raise RuntimeError(" !! Preemphasis coefficient should be positive. ")
        return scipy.signal.lfilter([1., -self.preemphasis], [1.], x)

    def apply_inv_preemphasis(self, x):
        if self.preemphasis == 0.:
            raise RuntimeError(" !! Preemphasis coefficient should be positive. ")
        return scipy.signal.lfilter([1.], [1., -self.preemphasis], x)

    def _amplitude_to_db(self, x):
        amplitude_min = np.exp(self.min_level_db / 20 * np.log(10))
        return 20 * np.log10(np.maximum(amplitude_min, x))

    @staticmethod
    def _db_to_amplitude(x):
        return np.power(10., 0.05 * x)

    def _linear_to_mel(self, spectrogram):
        _mel_basis = self._build_mel_basis()
        return np.dot(_mel_basis, spectrogram)

    def _mel_to_linear(self, mel_spectrogram):
        inv_mel_basis = np.linalg.pinv(self._build_mel_basis())
        return np.maximum(1e-10, np.dot(inv_mel_basis, mel_spectrogram))

    def _build_mel_basis(self):
        """return mel basis for mel scale"""
        if self.mel_fmax is not None:
            assert self.mel_fmax <= self.sample_rate // 2
        return librosa.filters.mel(
            self.sample_rate, 
            self.n_fft, 
            n_mels=self.num_mels,
            fmin=self.mel_fmin,
            fmax=self.mel_fmax)

    def _normalize(self, S):
        """put values in [0, self.max_norm] or [-self.max_norm, self,max_norm]"""
        if self.signal_norm:
            S_norm = (S - self.min_level_db) / (-self.min_level_db)
            if self.symmetric_norm:
                S_norm = ((2 * self.max_norm) * S_norm) - self.max_norm
                if self.clip_norm:
                    S_norm = np.clip(S_norm, -self.max_norm, self.max_norm)
                return S_norm
            else:
                S_norm = self.max_norm * S_norm
                if self.clip_norm:
                    S_norm = np.clip(S_norm, 0, self.max_norm)
                return S_norm
        else:
            return S

    def _denormalize(self, S):
        """denormalize values"""
        S_denorm = S
        if self.signal_norm:
            if self.symmetric_norm:
                if self.clip_norm:
                    S_denorm = np.clip(S_denorm, -self.max_norm, self.max_norm)
                S_denorm = (S_denorm + self.max_norm) * (-self.min_level_db) / (2 * self.max_norm) + self.min_level_db
                return S_denorm
            else:
                if self.clip_norm:
                    S_denorm = np.clip(S_denorm, 0, self.max_norm)
                S_denorm = S_denorm * (-self.min_level_db)/ self.max_norm + self.min_level_db
                return S_denorm
        else:
            return S

    def _stft(self, y):
        return librosa.stft(
            y=y, 
            n_fft=self.n_fft,
            win_length=self.win_length,
            hop_length=self.hop_length)

    def _istft(self, S):
        return librosa.istft(S, hop_length=self.hop_length, win_length=self.win_length)

    def spectrogram(self, y):
        """compute linear spectrogram(amplitude)
        preemphasis -> stft -> mag -> amplitude_to_db -> minus_ref_level_db -> normalize
        """
        if self.preemphasis:
            D = self._stft(self.apply_preemphasis(y))
        else:
            D = self._stft(y)
        S = self._amplitude_to_db(np.abs(D)) - self.ref_level_db
        return self._normalize(S)

    def melspectrogram(self, y):
        """compute linear spectrogram(amplitude)
        preemphasis -> stft -> mag -> mel_scale -> amplitude_to_db -> minus_ref_level_db -> normalize
        """
        if self.preemphasis:
            D = self._stft(self.apply_preemphasis(y))
        else:
            D = self._stft(y)
        S = self._amplitude_to_db(self._linear_to_mel(np.abs(D))) - self.ref_level_db
        return self._normalize(S)

    def inv_spectrogram(self, spectrogram):
        """convert spectrogram back to waveform using griffin_lim in librosa"""
        S = self._denormalize(spectrogram)
        S = self._db_to_amplitude(S + self.ref_level_db)
        if self.preemphasis:
            return self.apply_inv_preemphasis(self._griffin_lim(S ** self.power))
        return self._griffin_lim(S ** self.power)

    def inv_melspectrogram(self, mel_spectrogram):
        S = self._denormalize(mel_spectrogram)
        S = self._db_to_amplitude(S + self.ref_level_db)
        S = self._mel_to_linear(np.abs(S))
        if self.preemphasis:
            return self.apply_inv_preemphasis(self._griffin_lim(S ** self.power))
        return self._griffin_lim(S ** self.power)

    def out_linear_to_mel(self, linear_spec):
        """convert output linear spec to mel spec"""
        S = self._denormalize(linear_spec)
        S = self._db_to_amplitude(S + self.ref_level_db)
        S = self._linear_to_mel(np.abs(S))
        S = self._amplitude_to_db(S) - self.ref_level_db
        mel = self._normalize(S)
        return mel
        
    def _griffin_lim(self, S):
        angles = np.exp(2j * np.pi * np.random.rand(*S.shape))
        S_complex = np.abs(S).astype(np.complex)
        y = self._istft(S_complex * angles)
        for _ in range(self.griffin_lim_iters):
            angles = np.exp(1j * np.angle(self._stft(y)))
            y = self._istft(S_complex * angles)
        return y

    @staticmethod
    def mulaw_encode(wav, qc):
        mu = 2 ** qc - 1
        # wav_abs = np.minimum(np.abs(wav), 1.0)
        signal = np.sign(wav) * np.log(1 + mu * np.abs(wav)) / np.log(1. + mu)
        # Quantize signal to the specified number of levels.
        signal = (signal + 1) / 2 * mu + 0.5
        return np.floor(signal,)

    @staticmethod
    def mulaw_decode(wav, qc):
        """Recovers waveform from quantized values."""
        mu = 2 ** qc - 1
        x = np.sign(wav) / mu * ((1 + mu) ** np.abs(wav) - 1)
        return x

    @staticmethod
    def encode_16bits(x):
        return np.clip(x * 2**15, -2**15, 2**15 - 1).astype(np.int16)

    @staticmethod
    def quantize(x, bits):
        return (x + 1.) * (2**bits - 1) / 2

    @staticmethod
    def dequantize(x, bits):
        return 2 * x / (2**bits - 1) - 1
Training with multi-GPU 2019-12-17 14:23:34 +08:00			`import librosa`
			`import soundfile as sf`
			`import numpy as np`
			`import scipy.io`
			`import scipy.signal`

			`class AudioProcessor(object):`
			`def __init__(self,`
			`sample_rate=None, # int, sampling rate`
			`num_mels=None, # int, bands of mel spectrogram`
			`min_level_db=None, # float, minimum level db`
rebuild code and TransformerTTS is right. FastSpeech will later. 2020-01-08 11:55:06 +08:00			`ref_level_db=None, # float, reference level db`
Training with multi-GPU 2019-12-17 14:23:34 +08:00			`n_fft=None, # int: number of samples in a frame for stft`
			`win_length=None, # int: the same meaning with n_fft`
			`hop_length=None, # int: number of samples between neighboring frame`
			`power=None, # float:power to raise before griffin-lim`
			`preemphasis=None, # float: preemphasis coefficident`
			`signal_norm=None, #`
			`symmetric_norm=False, # bool, apply clip norm in [-max_norm, max_form]`
			`max_norm=None, # float, max norm`
			`mel_fmin=None, # int: mel spectrogram's minimum frequency`
			`mel_fmax=None, # int: mel spectrogram's maximum frequency`
			`clip_norm=True, # bool: clip spectrogram's norm`
			`griffin_lim_iters=None, # int:`
rebuild code and TransformerTTS is right. FastSpeech will later. 2020-01-08 11:55:06 +08:00			`do_trim_silence=False, # bool: trim silence`
Training with multi-GPU 2019-12-17 14:23:34 +08:00			`sound_norm=False,`
			`**kwargs):`
			`self.sample_rate = sample_rate`
			`self.num_mels = num_mels`
			`self.min_level_db = min_level_db`
			`self.ref_level_db = ref_level_db`

			`# stft related`
			`self.n_fft = n_fft`
			`self.win_length = win_length or n_fft`
			`# hop length defaults to 1/4 window_length`
			`self.hop_length = hop_length or 0.25 * self.win_length`

			`self.power = power`
			`self.preemphasis = float(preemphasis)`

			`self.griffin_lim_iters = griffin_lim_iters`
			`self.signal_norm = signal_norm`
			`self.symmetric_norm = symmetric_norm`

			`# mel transform related`
			`self.mel_fmin = mel_fmin`
			`self.mel_fmax = mel_fmax`

			`self.max_norm = 1.0 if max_norm is None else float(max_norm)`
			`self.clip_norm = clip_norm`
			`self.do_trim_silence = do_trim_silence`

			`self.sound_norm = sound_norm`
			`self.num_freq, self.frame_length_ms, self.frame_shift_ms = self._stft_parameters()`

			`def _stft_parameters(self):`
			`"""compute frame length and hop length in ms"""`
			`frame_length_ms = self.win_length * 1. / self.sample_rate`
			`frame_shift_ms = self.hop_length * 1. / self.sample_rate`
			`num_freq = 1 + self.n_fft // 2`
			`return num_freq, frame_length_ms, frame_shift_ms`

			`def __repr__(self):`
			`"""object repr"""`
			`cls_name_str = self.__class__.__name__`
			`members = vars(self)`
			`dict_str = "\n".join([" {}: {},".format(k, v) for k, v in members.items()])`
			`repr_str = "{}(\n{})\n".format(cls_name_str, dict_str)`
			`return repr_str`

			`def save_wav(self, path, wav):`
			`"""save audio with scipy.io.wavfile in 16bit integers"""`
			`wav_norm = wav * (32767 / max(0.01, np.max(np.abs(wav))))`
			`scipy.io.wavfile.write(path, self.sample_rate, wav_norm.as_type(np.int16))`

			`def load_wav(self, path, sr=None):`
			`"""load wav -> trim_silence -> rescale"""`

			`x, sr = librosa.load(path, sr=None)`
			`assert self.sample_rate == sr, "audio sample rate: {}Hz != processor sample rate: {}Hz".format(sr, self.sample_rate)`
			`if self.do_trim_silence:`
			`try:`
			`x = self.trim_silence(x)`
			`except ValueError:`
			`print(" [!] File cannot be trimmed for silence - {}".format(path))`
			`if self.sound_norm:`
			`x = x / x.max() * 0.9 # why 0.9 ?`
			`return x`

			`def trim_silence(self, wav):`
			`"""Trim soilent parts with a threshold and 0.01s margin"""`
			`margin = int(self.sample_rate * 0.01)`
			`wav = wav[margin: -margin]`
			`trimed_wav = librosa.effects.trim(wav, top_db=60, frame_length=self.win_length, hop_length=self.hop_length)[0]`
			`return trimed_wav`

			`def apply_preemphasis(self, x):`
			`if self.preemphasis == 0.:`
			`raise RuntimeError(" !! Preemphasis coefficient should be positive. ")`
			`return scipy.signal.lfilter([1., -self.preemphasis], [1.], x)`

			`def apply_inv_preemphasis(self, x):`
			`if self.preemphasis == 0.:`
			`raise RuntimeError(" !! Preemphasis coefficient should be positive. ")`
			`return scipy.signal.lfilter([1.], [1., -self.preemphasis], x)`

			`def _amplitude_to_db(self, x):`
			`amplitude_min = np.exp(self.min_level_db / 20 * np.log(10))`
			`return 20 * np.log10(np.maximum(amplitude_min, x))`

			`@staticmethod`
			`def _db_to_amplitude(x):`
			`return np.power(10., 0.05 * x)`

			`def _linear_to_mel(self, spectrogram):`
			`_mel_basis = self._build_mel_basis()`
			`return np.dot(_mel_basis, spectrogram)`

			`def _mel_to_linear(self, mel_spectrogram):`
			`inv_mel_basis = np.linalg.pinv(self._build_mel_basis())`
			`return np.maximum(1e-10, np.dot(inv_mel_basis, mel_spectrogram))`

			`def _build_mel_basis(self):`
			`"""return mel basis for mel scale"""`
			`if self.mel_fmax is not None:`
			`assert self.mel_fmax <= self.sample_rate // 2`
			`return librosa.filters.mel(`
			`self.sample_rate,`
			`self.n_fft,`
			`n_mels=self.num_mels,`
			`fmin=self.mel_fmin,`
			`fmax=self.mel_fmax)`

			`def _normalize(self, S):`
			`"""put values in [0, self.max_norm] or [-self.max_norm, self,max_norm]"""`
			`if self.signal_norm:`
			`S_norm = (S - self.min_level_db) / (-self.min_level_db)`
			`if self.symmetric_norm:`
			`S_norm = ((2 * self.max_norm) * S_norm) - self.max_norm`
			`if self.clip_norm:`
			`S_norm = np.clip(S_norm, -self.max_norm, self.max_norm)`
			`return S_norm`
			`else:`
			`S_norm = self.max_norm * S_norm`
			`if self.clip_norm:`
			`S_norm = np.clip(S_norm, 0, self.max_norm)`
			`return S_norm`
			`else:`
			`return S`

			`def _denormalize(self, S):`
			`"""denormalize values"""`
			`S_denorm = S`
			`if self.signal_norm:`
			`if self.symmetric_norm:`
			`if self.clip_norm:`
			`S_denorm = np.clip(S_denorm, -self.max_norm, self.max_norm)`
			`S_denorm = (S_denorm + self.max_norm) * (-self.min_level_db) / (2 * self.max_norm) + self.min_level_db`
			`return S_denorm`
			`else:`
			`if self.clip_norm:`
			`S_denorm = np.clip(S_denorm, 0, self.max_norm)`
			`S_denorm = S_denorm * (-self.min_level_db)/ self.max_norm + self.min_level_db`
			`return S_denorm`
			`else:`
			`return S`

			`def _stft(self, y):`
			`return librosa.stft(`
			`y=y,`
			`n_fft=self.n_fft,`
			`win_length=self.win_length,`
			`hop_length=self.hop_length)`

			`def _istft(self, S):`
			`return librosa.istft(S, hop_length=self.hop_length, win_length=self.win_length)`

			`def spectrogram(self, y):`
			`"""compute linear spectrogram(amplitude)`
			`preemphasis -> stft -> mag -> amplitude_to_db -> minus_ref_level_db -> normalize`
			`"""`
			`if self.preemphasis:`
			`D = self._stft(self.apply_preemphasis(y))`
			`else:`
			`D = self._stft(y)`
			`S = self._amplitude_to_db(np.abs(D)) - self.ref_level_db`
			`return self._normalize(S)`

			`def melspectrogram(self, y):`
			`"""compute linear spectrogram(amplitude)`
			`preemphasis -> stft -> mag -> mel_scale -> amplitude_to_db -> minus_ref_level_db -> normalize`
			`"""`
			`if self.preemphasis:`
			`D = self._stft(self.apply_preemphasis(y))`
			`else:`
			`D = self._stft(y)`
			`S = self._amplitude_to_db(self._linear_to_mel(np.abs(D))) - self.ref_level_db`
			`return self._normalize(S)`

			`def inv_spectrogram(self, spectrogram):`
			`"""convert spectrogram back to waveform using griffin_lim in librosa"""`
			`S = self._denormalize(spectrogram)`
			`S = self._db_to_amplitude(S + self.ref_level_db)`
			`if self.preemphasis:`
			`return self.apply_inv_preemphasis(self._griffin_lim(S ** self.power))`
			`return self._griffin_lim(S ** self.power)`

			`def inv_melspectrogram(self, mel_spectrogram):`
			`S = self._denormalize(mel_spectrogram)`
			`S = self._db_to_amplitude(S + self.ref_level_db)`
right fastspeech version. 2020-01-22 15:46:35 +08:00			`S = self._mel_to_linear(np.abs(S))`
Training with multi-GPU 2019-12-17 14:23:34 +08:00			`if self.preemphasis:`
			`return self.apply_inv_preemphasis(self._griffin_lim(S ** self.power))`
			`return self._griffin_lim(S ** self.power)`

			`def out_linear_to_mel(self, linear_spec):`
			`"""convert output linear spec to mel spec"""`
			`S = self._denormalize(linear_spec)`
			`S = self._db_to_amplitude(S + self.ref_level_db)`
			`S = self._linear_to_mel(np.abs(S))`
			`S = self._amplitude_to_db(S) - self.ref_level_db`
			`mel = self._normalize(S)`
			`return mel`

			`def _griffin_lim(self, S):`
			`angles = np.exp(2j * np.pi * np.random.rand(*S.shape))`
			`S_complex = np.abs(S).astype(np.complex)`
			`y = self._istft(S_complex * angles)`
			`for _ in range(self.griffin_lim_iters):`
			`angles = np.exp(1j * np.angle(self._stft(y)))`
			`y = self._istft(S_complex * angles)`
			`return y`

			`@staticmethod`
			`def mulaw_encode(wav, qc):`
			`mu = 2 ** qc - 1`
			`# wav_abs = np.minimum(np.abs(wav), 1.0)`
			`signal = np.sign(wav) * np.log(1 + mu * np.abs(wav)) / np.log(1. + mu)`
			`# Quantize signal to the specified number of levels.`
			`signal = (signal + 1) / 2 * mu + 0.5`
			`return np.floor(signal,)`

			`@staticmethod`
			`def mulaw_decode(wav, qc):`
			`"""Recovers waveform from quantized values."""`
			`mu = 2 ** qc - 1`
			`x = np.sign(wav) / mu * ((1 + mu) ** np.abs(wav) - 1)`
			`return x`

			`@staticmethod`
			`def encode_16bits(x):`
			`return np.clip(x * 215, -215, 2**15 - 1).astype(np.int16)`

			`@staticmethod`
			`def quantize(x, bits):`
			`return (x + 1.) * (2**bits - 1) / 2`

			`@staticmethod`
			`def dequantize(x, bits):`
			`return 2 * x / (2**bits - 1) - 1`