move datasets into parakeet.datasets

2020-11-19 20:31:21 +08:00 · 2020-11-19 20:31:21 +08:00 · abee3ecdd4
parent b65cc4d8dc
commit abee3ecdd4
1 changed files with 0 additions and 44 deletions
--- a/parakeet/data/datasets.py
+++ b/parakeet/data/datasets.py
@ -1,44 +0,0 @@
-from paddle.io import Dataset
-from os import listdir
-from os.path import splitext, join
-from pathlib import Path
-import librosa
-
-class AudioFolderDataset(Dataset):
-    def __init__(self, path, sample_rate, extension="wav"):
-        self.root = path
-        self.sample_rate = sample_rate
-        self.extension = extension
-        self.file_names = [join(self.root, x) for x in listdir(self.root) \
-            if splitext(x)[-1] == self.extension]
-        self.length = len(self.file_names)
-
-    def __len__(self):
-        return self.length
-
-    def __getitem__(self, i):
-        file_name = self.file_names[i]
-        y, sr = librosa.load(file_name, sr=self.sample_rate) # pylint: disable=unused-variable
-        return y
-
-
-class LJSpeechMetaData(Dataset):
-    def __init__(self, root):
-        self.root = Path(root).expanduser()
-        wav_dir = self.root / "wavs"
-        csv_path = self.root / "metadata.csv"
-        records = []
-        speaker_name = "ljspeech"
-        with open(str(csv_path), 'rt') as f:
-            for line in f:
-                filename, _, normalized_text = line.strip().split("|")
-                filename = str(wav_dir / (filename + ".wav"))
-                records.append([filename, normalized_text, speaker_name])
-        self.records = records
-
-    def __getitem__(self, i):
-        return self.records[i]
-
-    def __len__(self):
-        return len(self.records)
-