add a simple strategy to support multispeaker for tacotron.

2021-03-31 15:23:41 +08:00 · 2021-03-31 15:23:41 +08:00 · 7cc3e8c340
parent 2dd393349f
commit 7cc3e8c340
1 changed files with 19 additions and 46 deletions
--- a/parakeet/models/tacotron2.py
+++ b/parakeet/models/tacotron2.py
@ -551,6 +551,8 @@ class Tacotron2(nn.Layer):
    """
    def __init__(self,
                 vocab_size,
+                 num_speakers=1,
+                 d_speaker:int = 32,
                 d_mels: int = 80,
                 d_encoder: int = 512,
                 encoder_conv_layers: int = 3,
@ -577,6 +579,11 @@ class Tacotron2(nn.Layer):
        self.embedding = nn.Embedding(vocab_size,
                                      d_encoder,
                                      weight_attr=I.Uniform(-val, val))
+        if num_speakers > 1:
+            self.num_speakers = num_speakers
+            self.speaker_embedding = nn.Embedding(num_speakers, d_speaker)
+            self.speaker_fc = nn.Linear(d_speaker, d_encoder)
+                                                  
        self.encoder = Tacotron2Encoder(d_encoder, encoder_conv_layers,
                                        encoder_kernel_size, p_encoder_dropout)
        self.decoder = Tacotron2Decoder(
@ -590,7 +597,7 @@ class Tacotron2(nn.Layer):
                                      num_layers=postnet_conv_layers,
                                      dropout=p_postnet_dropout)

-    def forward(self, text_inputs, mels, text_lens, output_lens=None):
+    def forward(self, text_inputs, mels, text_lens, output_lens=None, speaker_ids=None):
        """Calculate forward propagation of tacotron2.

        Parameters
@ -621,6 +628,11 @@ class Tacotron2(nn.Layer):
        """
        embedded_inputs = self.embedding(text_inputs)
        encoder_outputs = self.encoder(embedded_inputs, text_lens)
+        if self.num_speakers > 1:
+            speaker_embedding = self.speaker_embedding(speaker_ids)
+            speaker_feature = F.softplus(self.speaker_fc(speaker_embedding))
+            encoder_outputs += speaker_feature.unsqueeze(1)
+            

        # [B, T_enc, 1]
        mask = paddle.unsqueeze(
@ -646,7 +658,7 @@ class Tacotron2(nn.Layer):
        return outputs

    @paddle.no_grad()
-    def infer(self, text_inputs, max_decoder_steps=1000):
+    def infer(self, text_inputs, max_decoder_steps=1000, speaker_ids=None):
        """Generate the mel sepctrogram of features given the sequences of character ids.

        Parameters
@ -671,6 +683,11 @@ class Tacotron2(nn.Layer):
        """
        embedded_inputs = self.embedding(text_inputs)
        encoder_outputs = self.encoder(embedded_inputs)
+        if self.num_speakers > 1:
+            speaker_embedding = self.speaker_embedding(speaker_ids)
+            speaker_feature = F.softplus(self.speaker_fc(speaker_embedding))
+            encoder_outputs += speaker_feature.unsqueeze(1)
+            
        mel_outputs, alignments = self.decoder.infer(
            encoder_outputs, max_decoder_steps=max_decoder_steps)

@ -685,50 +702,6 @@ class Tacotron2(nn.Layer):

        return outputs

-    @classmethod
-    def from_pretrained(cls, config, checkpoint_path):
-        """Build a tacotron2 model from a pretrained model.
-
-        Parameters
-        ----------
-        frontend: parakeet.frontend.Phonetics
-            Frontend used to preprocess text.
-
-        config: yacs.config.CfgNode
-            Model configs.
-
-        checkpoint_path: Path or str
-            The path of pretrained model checkpoint, without extension name.
-
-        Returns
-        -------
-        Tacotron2
-            The model build from pretrined result.
-        """
-        model = cls(vocab_size=config.model.vocab_size,
-                    d_mels=config.data.d_mels,
-                    d_encoder=config.model.d_encoder,
-                    encoder_conv_layers=config.model.encoder_conv_layers,
-                    encoder_kernel_size=config.model.encoder_kernel_size,
-                    d_prenet=config.model.d_prenet,
-                    d_attention_rnn=config.model.d_attention_rnn,
-                    d_decoder_rnn=config.model.d_decoder_rnn,
-                    attention_filters=config.model.attention_filters,
-                    attention_kernel_size=config.model.attention_kernel_size,
-                    d_attention=config.model.d_attention,
-                    d_postnet=config.model.d_postnet,
-                    postnet_kernel_size=config.model.postnet_kernel_size,
-                    postnet_conv_layers=config.model.postnet_conv_layers,
-                    reduction_factor=config.model.reduction_factor,
-                    p_encoder_dropout=config.model.p_encoder_dropout,
-                    p_prenet_dropout=config.model.p_prenet_dropout,
-                    p_attention_dropout=config.model.p_attention_dropout,
-                    p_decoder_dropout=config.model.p_decoder_dropout,
-                    p_postnet_dropout=config.model.p_postnet_dropout)
-
-        checkpoint.load_parameters(model, checkpoint_path=checkpoint_path)
-        return model
-

 class Tacotron2Loss(nn.Layer):
    """ Tacotron2 Loss module