Jak zamienić swój głos w tekst za pomocą szeptu OpenAI dla systemu Windows

2023/02/07

Whisper OpenAI to nowe rozwiązanie oparte na sztucznej inteligencji, które może zamienić Twój głos w tekst. Najlepsze jest to, że odbywa się to za zerową cenę.

Jest jednak pewien haczyk: instalacja i użytkowanie jest trudniejsze niż przeciętne narzędzie Windows. Zwłaszcza jeśli chcesz użyć rdzeni Tensorowych procesora graficznego Nvidia, aby nadać mu niezłe przyspieszenie.

Nie martw się jednak. Dlatego tu jesteśmy! Czytaj dalej, aby dowiedzieć się, jak go zainstalować i używać, a także, jeśli go posiadasz, aby Whisper mógł korzystać z Twojego procesora graficznego Nvidia.

Co to jest szept OpenAI?

ChatGPT jest obecnie w modzie i już widzieliśmy, jak możesz korzystać z ChatGPT OpenAI. A jednak to nie jedyny ciekawy projekt OpenAI.

Zasilany przez głębokie uczenie się i sieci neuronowe, Whisper to system przetwarzania języka naturalnego, który może „rozumieć” mowę i zapisywać ją w tekście. Ale to także coś własnego, siedzącego w miejscu wśród wszystkich podobnych rozwiązań:

Whisper to rozwiązanie AI „wyszkolone” w zakresie języka naturalnego. Lepiej więc rozumie „normalną” ludzką mowę niż starsze rozwiązania.
Whisper nie ma interfejsu ani nie może nagrywać dźwięku. Może pobierać tylko istniejące pliki audio i wyjściowe pliki tekstowe.
Ponieważ jest dobry w „rozumieniu języka”, Whisper ma również supermoc automatycznego tłumaczenia w jednym kroku.
Whisper nie jest usługą online i może działać całkowicie offline.
Jeśli masz stosunkowo nowoczesny procesor graficzny Nvidia (GTX970 lub nowszy), Whisper może działać w „trybie przyspieszenia sprzętowego”, aby zwiększyć jego prędkość.
Nie ma wymogu rejestracji, zakupu licencji ani zakupu subskrypcji.

Dlaczego procesory graficzne AMD nie są obsługiwane?

Aby GPU były przydatne nie tylko do grafiki, musiałyby działać jako w pełni programowalne procesory. Dlatego Nvidia stworzyła CUDA, oficjalnie uznaną za „równoległą platformę obliczeniową i model programowania”. Aby dowiedzieć się więcej o CUDA i powiązanym sprzęcie („rdzeni CUDA”), przeczytaj nasz artykuł o tym, czym są rdzenie CUDA i jak ulepszają gry komputerowe.

CUDA to zastrzeżona technologia Nvidia, kompatybilna tylko z procesorami graficznymi Nvidia. Najbliższe alternatywy dla sprzętu AMD to OpenCL i Radeon Compute Platform. Aby dowiedzieć się więcej o porównaniu rozwiązań każdej firmy, zapoznaj się z naszym artykułem na temat jednostek obliczeniowych AMD i rdzeni Nvidia CUDA.

W porównaniu z alternatywami, CUDA jest uważana za bardziej dojrzałą, wydajniejszą i łatwiejszą w użyciu. Dlatego większość programistów celuje tylko w CUDA, co z kolei oznacza, że ich oprogramowanie wykorzystuje tylko funkcje sprzętowe procesorów graficznych Nvidia. Obejmuje to Whisper.

Jak pobrać i zainstalować Whisper

Niestety Whisper nie jest samodzielną aplikacją, którą można pobrać, zainstalować i uruchomić. Opiera się na innym oprogramowaniu, które również należy zainstalować.

W systemie Windows, aby ten przewodnik był prosty, będziemy intensywnie używać Chocolatey do instalowania większości niezbędnych części oprogramowania. Sprawdź nasz przewodnik po najszybszym sposobie instalacji oprogramowania Windows, aby uzyskać więcej informacji na temat Chocolatey.

W przypadku systemów Linux i Mac proces instalacji (z wyłączeniem zmiennej ścieżki systemu Windows i łatwych w użyciu plików wsadowych, które utworzymy) powinien być podobny.

Aby zainstalować i używać Whisper, musisz mieć zainstalowany Python i jego narzędzie PIP i dodać je do zmiennej „Ścieżka” systemu Windows. Aby uzyskać informacje na ten temat, zapoznaj się z naszym artykułem na temat instalowania Python PIP w systemach Windows, Mac i Linux.
Zainstaluj FFMPEG przez Chocolatey za pomocą tego polecenia: Zainstaluj także jego wersję Pythona za pomocą: choco install ffmpeg pip3 install python-ffmpeg
Na koniec zainstaluj Whisper ze strony Github za pomocą: pip3 install git+https://github.com/openai/whisper.git

Pobieranie wersji Whisper obsługującej CUDA

Chociaż Whisper nie korzysta z procesorów graficznych Nvidia, pakiet latarki , na którym polega, oferuje wersję z akceleracją CUDA. Używanie tego zamiast „zwykłej” wersji może pomóc Whisper w znacznie szybszym ukończeniu transkrypcji za pomocą procesora graficznego Nvidia.

Aby Whisper używał rdzeni CUDA twojego procesora graficznego Nvidia:

Jeśli masz już zainstalowaną „waniliową” wersję pochodni, odinstaluj i usuń jej pozostałości za pomocą: Po zakończeniu wykonaj następujące czynności: pip3 uninstall torch pip cache purge
Zainstaluj wersję palnika obsługującą CUDA za pomocą: pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
Aby sprawdzić, czy Whisper może korzystać z twojego procesora graficznego Nvidia, użyj: Powinieneś zobaczyć (domyślnie: cuda) zamiast (domyślnie: cpu) . whisper --help | findstr -i pytorch

Co zrobić, jeśli instalacja Torch nie powiedzie się

Jeśli podczas instalowania latarki napotkasz błąd „nie znaleziono wersji”, może być konieczne zainstalowanie starszej wersji Pythona równolegle do bieżącej.

Użyj tego polecenia, aby to zrobić:

choco install python --version OLDER_VERSION --side-by-side

Zastąp „STARSZĄ_WERSJĘ” wersją, na przykład 3.10.

choco zainstaluj alternatywną wersję Pythona

Następnie użyj ścieżki wersji dodatkowej dla wszystkich „ogólnych” poleceń Whisper (np. „c:\Python310\Scripts\pip.exe” zamiast samego „pip”).

Jak nagrać swój głos

Możesz użyć dowolnej aplikacji do nagrywania dźwięku, aby zamienić swój głos w plik WAV lub MP3. System Windows zawiera taką aplikację — aby uzyskać więcej informacji na ten temat, zobacz, jak korzystać z aplikacji Dyktafon systemu Windows 10.

Aby uzyskać bardziej w pełni funkcjonalną opcję, wypróbuj Audacity . Dowiedz się, jak to zrobić, korzystając z naszego przewodnika, jak używać Audacity do nagrywania dźwięku w systemach Windows i Mac.

Jak rozpocząć transkrypcję za pomocą Whisper

Chociaż Whisper nie jest wyposażony w przyjazny dla użytkownika graficzny interfejs użytkownika, jego użycie jest niezwykle proste.

Załóżmy, że mamy plik LatestNote.mp3 , który zawiera mowę w języku greckim, w folderze c:\MyAudioFiles i chcemy go przetłumaczyć na angielski i przepisać do pliku tekstowego.

Zaczynamy od uruchomienia Command Prompt lub PowerShell .
Za pomocą tego polecenia „zmieniamy katalog”, w którym przechowywany jest plik audio: cd C:\MyAudioFiles
Uwalniamy Whisper na plik z: whisper --model base --language gr --task translate LatestNote.mp3

Po przetworzeniu plik tekstowy (o nazwie „LatestNote.mp3.txt”) pojawi się w tym samym folderze. Otwórz go w edytorze tekstu, takim jak Notatnik , aby wyświetlić przetłumaczony tekst.

Użyliśmy przykładu tłumaczenia, ponieważ angielska transkrypcja jest jeszcze prostsza: wystarczy „zgubić” flagi „–language” i „-task”. Zatem dla zwykłej transkrypcji powyższe polecenie brzmiałoby:

whisper --model base LatestNote.mp3

Flaga „model” jest wymagana, ponieważ Whisper używa jednej z różnych opcji. Rozwińmy je, aby pomóc Ci wybrać najlepsze dla Twoich potrzeb.

Który model wybrać?

Whisper oferuje różne modele językowe. Im większy model, tym bardziej poprawiła się jego celność, ale i większe wymagania sprzętowe. Oni są:

Malutki.
Baza.
Mały.
Średni.
Duży.

Większość rodzimych użytkowników języka angielskiego powinna być w porządku z małymi lub podstawowymi modelami. Osoby niebędące rodzimymi użytkownikami języka angielskiego mogą uzyskiwać lepsze wyniki w przypadku większych modeli, takich jak małe i średnie .

Należy jednak pamiętać, że średnie i duże modele wymagają ponad 8 GB pamięci VRAM (czyli „pamięci twojego GPU”).

Aby wybrać jeden z nich, określ model po przełączniku „–model” w poleceniu:

whisper --model tiny/small/medium/large [file]

Na przykład:

whisper --model small My_Voice_Note.mp3

Jak usprawnić transkrypcję

Konieczność wpisywania całego polecenia Whisper za każdym razem, gdy chcesz dokonać transkrypcji dźwięku, może szybko stać się nudna. Stwórzmy globalnie dostępny plik wsadowy, aby usprawnić ten proces.

Uruchom Eksploratora Windows i odwiedź swój dysk C:.
Utwórz folder dla swoich skryptów i skopiuj jego ścieżkę do schowka.
W menu Start systemu Windows wyszukaj „ścieżkę” i wybierz opcję Edytuj systemowe zmienne środowiskowe .
Znajdź zmienną Path w obszarze Zmienne użytkownika dla TWOJA_NAZWA_UŻYTKOWNIKA . Kliknij go dwukrotnie, aby go edytować. Kliknij Nowy i wklej ścieżkę do folderu skryptów. Kliknij OK , aby zaakceptować zmiany.
Wróć do folderu skryptów w Eksploratorze Windows. Utwórz tam nowy plik wsadowy o nazwie „wht.bat”. „Wewnątrz” umieść to polecenie: whisper --model tiny --language en %1
Utwórz jeszcze dwa pliki wsadowe, „whs” i „whm”.
Umieść to w pierwszym skrypcie: whisper --model small --language en %1
Umieść to w drugim: whisper --model medium --language en %1

Gratulacje, masz teraz trzy skrypty do łatwego używania małych, małych i średnich modeli Whisper z plikami audio! Aby dokonać transkrypcji dowolnego pliku audio na tekst:

Zlokalizuj plik za pomocą Eksploratora plików systemu Windows .
Kliknij prawym przyciskiem myszy puste miejsce i wybierz Otwórz w terminalu .
Wpisz to polecenie, zastępując „wht” przez „whs” lub „whm”, aby użyć małych lub średnich modeli językowych: wht YOUR_AUDIO_FILE.mp3

Pisanie z prędkością dźwięku za pomocą szeptu

Nawet najszybsze osoby piszące na klawiaturze dotykowej nie mogą dorównać szybkości, z jaką mówimy. Jednak do niedawna mówienie zamiast pisania nie było optymalne do tworzenia dokumentów.

Większość rozwiązań zamiany głosu na tekst dawało mierne wyniki. Można było znaleźć kilka rozwiązań wartych wypróbowania, ale były one skomplikowane w użyciu lub kosztowne. Na szczęście Whisper to wszystko zmieniło.

Po wykonaniu powyższych kroków powinieneś być gotowy do transkrypcji lub tłumaczenia swojego głosu z dużą dokładnością, używając tylko jednego polecenia.