Jak AI skalować dowolny obraz ze stabilną dyfuzją

2023/07/09

Rozczarowany niską rozdzielczością swoich dzieł ze Stable Diffusion? A może masz starsze „prawdziwe” zdjęcia, które chciałbyś przeskalować? Stable Diffusion WebUI ma narzędzia właśnie do tego, a my przeprowadzimy Cię przez ten proces, dzieląc się wskazówkami, których nauczyliśmy się po drodze.

Uwaga: w tym przewodniku zakładamy, że masz zainstalowany i uruchomiony interfejs WebUI firmy Automatic11111 Stable Diffusion . Jest to ostateczna edycja Stable Diffusion i sprawia, że upscaling (wraz z wieloma innymi aspektami pracy z obrazami AI) jest znacznie prostszy i bardziej intuicyjny w porównaniu ze standardową instalacją Stable Diffusion .

Jak skalować obrazy w stabilnej dyfuzji

Niezależnie od tego, czy masz skan starego zdjęcia , stare zdjęcie cyfrowe, czy też obraz o niskiej rozdzielczości wygenerowany przez sztuczną inteligencję , uruchom interfejs WebUI Stable Diffusion i wykonaj poniższe czynności.

1. Prześlij obraz

Wszystkie narzędzia do skalowania Stable Diffusion znajdują się w zakładce „Dodatki”, więc kliknij je, aby otworzyć menu skalowania.

Lub, jeśli właśnie wygenerowałeś obraz, który chcesz przeskalować, kliknij „Wyślij do dodatków”, a zostaniesz tam przeniesiony z obrazem gotowym do przeskalowania. W przeciwnym razie możesz przeciągnąć i upuścić swój obraz do pola przesyłania Dodatków.

Zdjęcie umieszczone w polu przesyłania Extras w WebUI Stable Diffusion.

Jeśli masz kilka obrazów, które chcesz przeskalować jednocześnie, przejdź do zakładki „Przetwarzanie wsadowe” i upuść kilka naraz. Z mojego doświadczenia wynika jednak, że nie zawsze to działa i

Krok 2: Wybierz rozmiar

Użyj suwaka „Zmień rozmiar”, aby dostosować rozmiar obrazu wyjściowego. Domyślnie użyjesz zakładki „Skaluj według”, która pozwala pomnożyć aktualną rozdzielczość obrazu przez podaną liczbę. Na przykład, jeśli ustawisz go na 2, a obraz wejściowy ma rozmiar 512 × 512, obraz zostanie przeskalowany do 1024 × 1024.

Alternatywnie możesz przejść do zakładki „Skaluj do” i wprowadzić żądaną rozdzielczość. Zwróć szczególną uwagę na aktualne proporcje obrazu i usuń zaznaczenie opcji „Przytnij, aby dopasować”, jeśli nie chcesz obcinać krawędzi.

Jeśli planujesz zrobić tapetę, pamiętaj, że większość nowoczesnych telefonów ma współczynnik proporcji 9:16 , tablety 4:3, a komputery 16:9 (chociaż monitory ultraszerokie mają nawet 21:9).

Krok 3: Wybierz Upscaler

Teraz łatwo poczuć się przytłoczonym: masz do dyspozycji kilka różnych algorytmów skalowania, wszystkie o tajemniczych nazwach i musisz wybrać jeden.

Ten, który powinieneś wybrać, ostatecznie zależy od tego, jakiego rodzaju obraz chcesz przeskalować, na przykład zdjęcie, obraz, grafikę anime lub inny rodzaj grafiki w stylu „kreskówki”. Różne algorytmy działają również z różnymi prędkościami, więc może to również zależeć od tego, jak bardzo się spieszysz.

Lista rozwijana w interfejsie WebUI Stable Diffusion pokazująca dostępne skalery.

Który jest najlepszym stabilnym upscalerem dyfuzyjnym?

Eksperymentowanie z różnymi algorytmami to jedyny sposób, aby dokładnie wiedzieć, który z wbudowanych skalerów Stable Diffucion jest najlepszy dla twojego przypadku. To powiedziawszy, jeśli potrzebujesz podstawowej rekomendacji, zazwyczaj są to dobre wybory:

Zdjęcia: ESRGAN_4x
Obrazy: R-ESRGAN 4x+
Anime: R-ESRGAN 4x+ Anime6B

Krok 4: Ekskluzywny!

Po skonfigurowaniu ustawień nadszedł czas na zwiększenie skali. Naciśnij ten duży przycisk „Generuj”, aby rozpocząć proces.

Za pierwszym razem, gdy zwiększasz skalę za pomocą danego algorytmu, Stable Diffusion będzie musiało pobrać odpowiednie modele, więc spodziewaj się, że początkowe uruchomienie zajmie więcej czasu (co będzie częściowo zależeć od szybkości połączenia).

extras-imagesPo zakończeniu skalowania w podkatalogu folderu znajdziesz obrazy wyjściowe outputs.

Wskazówki dotyczące lepszych wyników skalowania

Jeśli obrazy nie wyglądają tak, jak oczekiwałeś, jest kilka rzeczy, które możesz zrobić, aby uzyskać lepsze wyniki dzięki narzędziom do skalowania w Stable Diffusion.

Wypróbuj kombinację Upscaler

W przypadku zaawansowanego skalowania w górę można wybrać drugi algorytm, który zastosuje swój efekt do tego samego obrazu, a wyniki dwóch skalerów zostaną połączone w celu uzyskania produktu końcowego. (Dla jasności, drugi moduł zwiększania rozdzielczości nie podwoi rozdzielczości wyjściowej.) Jest to przydatne, jeśli okaże się, że dwa różne układy zwiększające rozdzielczość dają lepsze wyniki z różnych powodów.

Na przykład w moich testach odkryłem, że ESRGAN_4x najlepiej radzi sobie z zachowaniem szczegółów, ale SwinIR miał mniej ziarnistości, a jednocześnie wprowadzał irytujące artefakty płytek. Mogłem uzyskać to, co najlepsze z obu światów, ustawiając ESRGAN_4x jako główny upscaler i SwinIR jako dodatkowy, z widocznością 0,5.

Drugi upscaler wybrany w stabilnym Diffusino WebUI.

Napraw złe proporcje obrazu za pomocą przemalowania

Jeśli masz obraz, którego chcesz użyć w określonych proporcjach, ale przeskalowany obraz jest zbyt wysoki lub zbyt szeroki, aby można go było użyć bez przycinania, możesz potencjalnie rozwiązać ten problem za pomocą narzędzia „przemalowania” w Stable Diffusion . Pozwala wygenerować „więcej” obrazu, dodając obrazy po bokach lub na górze i na dole, których wcześniej nie było.

Aby rozpocząć przemalowywanie, upuść swój obraz do wejścia img2img i poszukaj menu rozwijanego „Skrypt” i wybierz opcję Outpainting mk2 lub Poor Man’s Outpainting. Dostosuj wszelkie ustawienia, które uważasz za konieczne, a następnie kliknij „Generuj”.

Jak szybko się przekonasz, przemalowanie dobrze jest trudne i prawdopodobnie jest to temat na inny przewodnik, zwłaszcza w przypadku złożonych treści graficznych, takich jak ludzie i zwierzęta. To powiedziawszy, po prostu bawiąc się i nie wprowadzając zbyt wielu zmian, udało mi się wygenerować tę panoramiczną wersję mojego zdjęcia, która na pierwszy rzut oka wygląda na wpół wiarygodną.

Powiększone zdjęcie ścieżki spacerowej jesienią z lewą i prawą stroną, wygenerowane przy użyciu funkcji Stable Diffusion. — Stable Difusion / Jordan Gloor / How-To Geek

Przywróć zniekształcone twarze za pomocą GPFGAN lub CodeFormer

Jeśli na obrazie, który wysadzasz, jest twarz osoby, może ona łatwo zostać zniekształcona nie do poznania. Bez wątpienia widzieliście też niektóre z dość przerażających przedstawień ludzkich twarzy w Stable Diffusion. W obu przypadkach chcesz przesunąć suwaki widoczności GPFGAN lub CodeFormer . Każdy nakłada warstwę korekcji twarzy podczas procesu skalowania, aby naprawić te upiorne oczy i dziwaczne zmarszczki.

Jeśli używasz CodeFormer, możesz także dostosować „wagę” jego efektu, co przypomina kontrolowanie poziomu jego siły (podczas gdy suwak widoczności przypomina dostosowywanie przezroczystości warstwy korekcyjnej). Im bardziej zwiększysz wagę, tym więcej CodeFormer będzie próbował poprawić. Może to poprawić lub pogorszyć ostateczny obraz w zależności od sytuacji. Być może będziesz musiał przejść przez kilka prób i błędów, aby uzyskać najlepszy możliwy wynik.

GPFGAN kontra CodeFormer do odbudowy twarzy

Chociaż oba są zdolnymi narzędziami, GPFGAN jest ogólnie lepszy w przywracaniu struktury twarzy (w szczególności oczu), ale CodeFormer jest lepszy w naprawianiu tekstur skóry. GPFGAN ma tendencję do nadawania ludzkiej skórze dziwnego, ultragładkiego wyglądu, więc jeśli zauważysz, że tak się dzieje, wypróbuj zamiast tego CodeFormer. Ewentualnie połącz oba i spróbuj uzyskać to, co najlepsze z obu światów. Ponownie, eksperymentowanie jest kluczowe.

Użyj suwaków GFPGAN i CodeFormer, aby dodać korekcję twarzy do przeskalowanych obrazów.

Pod względem szybkości GPFGAN jest nieco szybszy niż CodeFormer. Więc jeśli chcesz, aby skalowanie odbyło się tak szybko, jak to możliwe, prawdopodobnie będziesz chciał oprzeć się na GPFGAN.