Imitator głosu - deepfake. Synteza mowy w języku polskim przy pomocy konwolucyjnych sieci neuronowych

Program pozwala na generowanie (imitację) mowy wybranej osoby. Syntezator mowy bazuje na głębokich konwolucyjnych sieciach neuronowych. Przygotowano polskojęzyczną bazę ponad 12 tysięcy par tekst - dźwięk, o łącznym czasie trwania prawie 20 godzin. Posłużyło to do wytrenowania sieci neuronowej - program nauczył się brzmienia mojego głosu i może posłużyć do wypowiadania dowolnych kwestii moim głosem (oczywiście także innych niż te, które znajdowały się w zbiorze uczącym). Wygenerowany głos jest następnie przetwarzany przez filtry cyfrowe.

Specjalna aplikacja wyświetlała losowej długości fragmenty 3 książek w języku polskim, które następnie czytałem. Mój głos i odpowiadający mu tekst był zapisywany na dysku. Po zebraniu ponad 12 tysięcy rekordów i wstępnym przetworzeniu plików audio wytrenowano splotową sieć neuronową. Przykład wygenerowanej mowy został umieszczony poniżej.

Okazało się, że dość dobre wyniki możemy uzyskać już przy łącznie 2-3h nagranej mowy. System zostanie zaimplementowany w projekcie syntezatora osób zmarłych i posłuży w przyszłości do wizualizacji tych osób na podstawie nagrań pochodzących np. z kaset VHS.

Bibliografia:

- https://arxiv.org/abs/1710.08969.

https://www.tensorflow.org/

 

Przykład syntezy zdania: "To jest przykład imitacji mojego głosu przez program komputerowy. Teraz spróbuję zrobić to samo z głosem kogoś innego i zobaczymy, co z tego wyjdzie - już niedługo."