Co to jest stabilna sztuczna inteligencja audio i jak z niej korzystać

2024/02/20

Sztuczna inteligencja stała się wszechobecna i jest wykorzystywana do wielu różnych celów, w tym do generowania obrazów, treści tekstowych, a nawet do produkcji dźwięku i muzyki. Stable Audio AI to jeden z najlepszych obecnie dostępnych modeli AI do produkcji audio.

W tym przewodniku przyjrzymy się, czym jest ta platforma AI i jak można jej używać do tworzenia oryginalnego dźwięku bez konieczności używania instrumentów muzycznych.

Co to jest stabilna sztuczna inteligencja audio?

Stable Audio AI to model sztucznej inteligencji opracowany przez Stability AI, najbardziej znany ze swojej sztucznej inteligencji Stable Diffusion, która może generować obrazy na podstawie podpowiedzi dostarczonych przez użytkownika.

Stable Audio wykorzystuje zaawansowane techniki sztucznej inteligencji (w szczególności modele dyfuzyjne) do tworzenia dźwięku z opisów tekstowych. Wpisz jaki rodzaj muzyki lub dźwięków chcesz, a on wygeneruje je w ciągu kilku sekund.

Stable Audio AI zostało stworzone przez Harmonai, laboratorium badawcze Stability AI dotyczące dźwięku i umożliwia użytkownikom generowanie oryginalnego dźwięku za pomocą podpowiedzi.

To, co sprawia, że ten model AI generowania dźwięku jest tak imponujący, to fakt, że został on przeszkolony na 19 500 godzinach danych audio z wiodącej biblioteki muzyki cyfrowej AudioSparx. Do wytrenowania wykorzystano ponad 800 000 plików audio, co umożliwiło sztucznej inteligencji wygenerowanie 95 sekund dźwięku stereo o częstotliwości 44,1 kHz przy użyciu procesora graficznego Nvidia A100 w mniej niż sekundę.

Udaje się to zrobić za pomocą technologii utajonej dyfuzji, podobnej do firmowej sztucznej inteligencji Stable Diffusion do generowania obrazu. W przeciwieństwie do innych modeli AI generacji audio, Stability Audio AI może być używany do tworzenia dźwięków o różnej długości.

Możesz używać Stable Audio AI do generowania dźwięków pojedynczych instrumentów, dźwięków otoczenia, a nawet całego zespołu. Teraz zrozumiemy, jak za jego pomocą wygenerować dźwięk.

Rozpocznij pracę ze Stable Audio AI

Możesz bezpłatnie wypróbować Stable Audio AI do generowania dźwięku przy użyciu sztucznej inteligencji, ale będzie to wymagało utworzenia konta w witrynie Stable Audio. Darmowe konto ma również pewne ograniczenia.

Uruchom przeglądarkę i przejdź do witryny Stable Audio . Tam kliknij niebieski przycisk w kształcie kapsułki w prawym górnym rogu z napisem „Wypróbuj za darmo”.

Kliknięcie przycisku przeniesie Cię na nową stronę, na której możesz utworzyć konto wymagane do korzystania ze Stable Audio AI. Możesz założyć nowe konto, wprowadzając swój adres e-mail i hasło lub zalogować się poprzez swoje konto Google.

Jeśli zdecydujesz się zalogować przy użyciu konta Google, będziesz musiał udzielić Google autoryzacji w celu udostępnienia witryny internetowej danych Twojego konta. Po wprowadzeniu nazwy użytkownika i hasła do konta Google kliknij przycisk „Kontynuuj”, aby zapewnić wymaganą autoryzację.

Po zalogowaniu zostaniesz przywitany przez stronę główną platformy Stable Audio AI. Będzie zawierać warunki, które musisz zaakceptować, aby kontynuować. Tutaj możesz także zapisać się do newslettera Stable Audio. Kliknij przycisk obok miejsca, w którym jest napisane „Przeczytałem i akceptuję warunki” oraz, jeśli chcesz, przycisk poniżej, aby zapisać się do biuletynu. Następnie kliknij przycisk „Dalej” na dole.

Zaakceptowanie warunków przeniesie Cię do panelu Stable Audio, którego możesz użyć do wygenerowania oryginalnego dźwięku za pomocą podpowiedzi.

Korzystanie ze stabilnej AI audio

W lewej górnej części strony możesz wprowadzić monity dotyczące generowania dźwięku.

Możesz wprowadzić monit, taki jak Hard rock, concert promotion, metal, 180 bpmw polu. Następnie kliknij przycisk „Generuj” na dole, aby rozpocząć tworzenie dźwięku.

Innym sposobem generowania dźwięku jest użycie gotowych podpowiedzi z „Biblioteki podpowiedzi” znajdującej się poniżej sekcji podpowiedzi, gdzie można uzyskać dostęp do różnych stylów podpowiedzi dźwiękowych. Aby to zrobić, kliknij przycisk w kształcie kapsułki oznaczony jako „Brak”. Spowoduje to otwarcie biblioteki zawierającej różne style, które możesz dodać do swojego dźwięku.

Aby wybrać dowolny styl podpowiedzi dźwiękowych z biblioteki, po prostu kliknij go. Sekcja podpowiedzi nad biblioteką pokaże podpowiedzi zawarte w stylu. Wybrany styl zyska ikonę odtwarzania, a etykieta przycisku biblioteki podpowiedzi również zmieni się, aby odzwierciedlić wybrany styl.

Pod „Biblioteką podpowiedzi” możesz zobaczyć model AI używany w procesie generowania dźwięku. Kliknięcie nazwy modelu, w tym przypadku „Stable-audio-audiosparx-v1-0”, spowoduje wyświetlenie wszystkich dostępnych modeli. W tej chwili dostępny jest tylko jeden dodatkowy model, który jest w fazie Beta. Aby korzystać z modelu Beta AI, musisz przejść na plan Pro.

Następna jest sekcja „Czas trwania”, w której możesz kontrolować czas trwania generowanego dźwięku. Kliknięcie strzałki skierowanej w dół zmniejszy czas trwania, a kliknięcie strzałki skierowanej w górę zwiększy go. Darmowa wersja Stable Audio umożliwia generowanie dźwięku o długości 45 sekund. Jeśli uaktualnisz do wersji Pro, możesz wygenerować dźwięk o długości jednej minuty i 30 sekund.

Ostatnią pozycją po lewej stronie jest opcja „Dodaj dodatki”, za pomocą której możesz dostosować dźwięk. Kliknij przycisk „+”, aby wyświetlić dostępne opcje, które obecnie obejmują „Kroki”, „Liczba wyników”, „Ziarno” i „Siła podpowiedzi”.

Każda z tych dodatkowych opcji ma ustawienia, które można dostosować. Na przykład, jeśli klikniesz opcję „Kroki”, możesz zwiększyć liczbę kroków wykonywanych przez sztuczną inteligencję w celu wygenerowania dźwięku. Domyślnie dodanych jest 50 kroków i możesz je zwiększyć do 100, wpisując liczbę kroków w odpowiednim polu.

Możesz wrócić do wartości domyślnej, klikając przycisk „Resetuj” na dole. Jeśli chcesz całkowicie usunąć dodatki, kliknij przycisk „X” obok pola, w którym należy wpisać liczbę kroków.

Kiedy już skończysz, kliknij przycisk „Generuj”, a Stable Audio rozpocznie generowanie dźwięku. Alternatywnie możesz usunąć te kroki i skorzystać z innego dodatku, takiego jak opcja „Seed”, która kontroluje losowość generowania dźwięku. Domyślnie opcja jest ustawiona na „Losowa”, co oznacza, że model AI będzie używać różnych aranżacji audio do generowania dźwięku. Możesz wprowadzić inną wartość, klikając etykietę „Losowo” i wpisując wartość taką jak „222222”, aby sztuczna inteligencja za każdym razem korzystała z tego samego układu.

Inne dodatki obejmują „Liczbę wyników” i „Szybką siłę”. Ta pierwsza to funkcja Pro, która pozwala kontrolować liczbę utworów, które AI zwróci w odpowiedzi na monit (maksymalnie 5) i nie można jej używać w wersji darmowej. Możesz jednak wypróbować opcję „Siła podpowiedzi”, klikając ją. Spowoduje to wyświetlenie suwaka kontrolującego stopień zbliżenia generowanego dźwięku do wyświetlanego monitu. Domyślnie jest ustawiona na 80%, ale możesz przeciągnąć suwak w lewo lub w prawo, aby zmniejszyć lub zwiększyć siłę zgodnie z potrzebami.

Po dostosowaniu siły podpowiedzi kliknij przycisk „Generuj”, aby poinformować sztuczną inteligencję o rozpoczęciu tworzenia dźwięku. W prawym górnym rogu strony Stability Audio AI znajduje się również kilka elementów. Pierwszym z nich jest symbol nuty muzycznej, który wskazuje liczbę kredytów posiadanych przez użytkowników korzystających z bezpłatnej usługi. Możesz generować dźwięk tylko wtedy, gdy masz kredyty, a co miesiąc otrzymujesz 20 kredytów. Następnie znajduje się przycisk umożliwiający aktualizację do wersji Pro, możliwość sprawdzenia szczegółów konta oraz menu hamburgerowe zawierające dodatkowe opcje.

Kliknięcie przycisku „Uaktualnij do wersji Pro” wyświetli dostępne plany cenowe. Oprócz planu bezpłatnego możesz wybierać między planami Pro, Studio i Max, które kosztują odpowiednio 11,99 USD/miesiąc, 29,99 USD/miesiąc i 89,99 USD/miesiąc. Plan „Free” umożliwia generowanie 20 utworów miesięcznie, natomiast „Pro” pozwala na 500 utworów. Zwiększa się to do 1350 w planie „Studio” i 4500 w planie „Max”. Dodatkowo, podczas gdy czas trwania utworu w planie „Free” wynosi 45 sekund, we wszystkich pozostałych planach wynosi on 90 sekund. Plan „Bezpłatny” obejmuje licencję osobistą, natomiast w przypadku pozostałych opcji otrzymasz licencję Twórcy.

Opcja obok przycisku aktualizacji pokazuje szczegóły Twojego konta na platformie Stable Audio AI. Kliknięcie go poinformuje Cię o Twoim aktualnym planie i wszystkich jego ofertach.

Udoskonalanie podpowiedzi

Udoskonalając monity, możesz dostroić sygnał wyjściowy zapewniany przez Stability Audio. Podczas pracy z generatywną sztuczną inteligencją im lepsze będą Twoje podpowiedzi, tym lepszy będzie wynik. Oto kilka sposobów na ulepszenie podpowiedzi.

Jeśli sygnał wyjściowy brzmi zbyt elektronicznie lub cyfrowo, rozważ użycie w komunikacie słów takich jak „Zespół” lub „Na żywo”.
Jakość generowanego sygnału wyjściowego można poprawić, umieszczając w znaku zachęty słowa takie jak „44,1 kHz”, „wysoka jakość” i „stereo”.
Użyj słowa „Solo” po nazwie głównego instrumentu w ścieżce, aby ulepszyć dźwięk. Na przykład, jeśli głównym instrumentem są skrzypce, w monicie możesz wpisać „Skrzypce solo”.

Dzięki Stability Audio AI możesz z łatwością generować imponujące ścieżki audio, korzystając z podpowiedzi. Jeśli jesteś początkujący, plan darmowy to doskonały sposób na wypróbowanie modelu, natomiast profesjonalni muzycy mogą przejść na plany płatne i sprawdzić bardziej zaawansowane funkcje oferowane przez platformę.

Co to jest stabilna sztuczna inteligencja audio?

Rozpocznij pracę ze Stable Audio AI

Korzystanie ze stabilnej AI audio

Udoskonalanie podpowiedzi

Dodaj komentarz Anuluj pisanie odpowiedzi