Jak napisać niesamowitą wskazówkę dotyczącą stabilnej dyfuzji

Jak napisać niesamowitą wskazówkę dotyczącą stabilnej dyfuzji

Stable Diffusion, popularny generator grafiki oparty na sztucznej inteligencji, wymaga monitów tekstowych do wygenerowania obrazu. Czasami wykonuje niesamowitą pracę i generuje dokładnie to, czego chcesz, z niejasną wskazówką. Innym razem uzyskujesz nieoptymalne wyniki. Oto kilka wskazówek i wskazówek, które pozwolą Ci uzyskać doskonałe rezultaty.

Jak napisać wskazówkę dotyczącą stabilnej dyfuzji

Jeśli kiedykolwiek pracowałeś z generatorami obrazów AI, takimi jak Stable Diffusion, DALL-E lub MidJourney, zauważysz, że dobrze wyartykułowana podpowiedź ma kluczowe znaczenie. Dobrze sformułowana wskazówka to różnica między przekształceniem swojego pomysłu w świetny obraz a zdobyciem potwora z niesamowitej doliny, gdy zbyt wiele palców wskazuje na ciebie.

Od czasu uruchomienia Stable Diffusion w sierpniu 2022 r. ludzie próbowali znaleźć najlepsze sposoby na uzyskanie doskonałych wyników i będą robić „szybkie kowalstwo” lub „szybkie projektowanie” w nadchodzących latach. Jest to szczególnie prawdopodobne, ponieważ punkty przerwania informujące o tym, jak stabilna dyfuzja generuje obrazy, będą okresowo aktualizowane. Idealną wskazówką będzie ruchomy cel w dającej się przewidzieć przyszłości.

Bądź tak konkretny, jak to możliwe

Stabilna dyfuzja ma tendencję do rozwijania się dzięki pewnym wskazówkom, zwłaszcza w porównaniu z czymś takim jak MidJourney. Musisz mu dokładnie powiedzieć, czego chcesz. Oto przykład wykorzystania ulubionych zwierząt w Internecie: Słodkie koty.

Panel 6 obrazów wyjściowych ze Stable Diffusion przy użyciu podpowiedzi "Cute Kitty".
Podpowiedź: „Słodki kot”, Sampler = PLMS, CFG = 7, Przykładowe kroki = 50

Dobra, są całkiem urocze, może z wyjątkiem tego biednego faceta w górnej części, który wygląda, jakby spędził zbyt dużo czasu wpatrując się w otchłań. Ale co, jeśli chcesz szarych kotów, a nie krzyżówek kotów? Cóż, trzeba to sprecyzować. Zamiast tego użyj jako wskazówki „Słodkie szare koty”.

Panel 6 obrazów wyjściowych ze Stable Diffusion przy użyciu podpowiedzi „Słodki szary kot”.
Podpowiedź: „Słodki szary kot”, Sampler = PLMS, CFG = 7, Kroki samplera = 50

Stabilna dyfuzja przywraca teraz wszystkie szare koty. Możesz dodawać opisy tego, co chcesz, w tym akcesoria dla kotów na zdjęciach.

Kolejny panel 6 obrazów wyjściowych ze Stable Diffusion przy użyciu monitu „Słodki szary kot o niebieskich oczach, ubrany w muszkę”.
Podpowiedź: „Słodki szary kot z niebieskimi oczami, w muszce”, sampler = PLMS, CFG = 7, kroki próbkowania = 50

Dotyczy to wszystkiego, co chcesz stworzyć za pomocą stabilnego rozpraszania, w tym krajobrazów. Bądź opisowy i próbując różnych kombinacji słów kluczowych, pamiętaj o tym, jak zmienia się obraz. Niektóre słowa i wyrażenia mają tendencję do zniekształcania obrazu bardziej niż inne, więc może być konieczne odpowiednie dostosowanie podpowiedzi.

Nazwij określone style artystyczne lub media

Potrzeba konkretności nie kończy się, gdy w pełni opiszesz treść pożądanego obrazu. Możesz (i powinieneś) również określić pożądany styl. Pozostaniemy przy naszej wskazówce „Słodki szary kot”. Powiedzmy, że chcemy uroczych szarych kotów, ale chcemy też, żeby wyglądały, jakby były pomalowane akrylem. Pierwszą rzeczą, którą powinieneś spróbować, jest dodanie „malarstwa akrylowego” jako następnego słowa kluczowego w zaproszeniu, aby brzmiało jak „malowanie akrylowe słodkiego szarego kota”.

Zasadniczo najlepiej jest zacząć od jak najmniejszej liczby słów kluczowych, aby zbliżyć się do tego, czego chcesz, a następnie dodać więcej, aby uzyskać estetykę, której szukasz.

6 szarych kotów ze Stable Diffusion, które wyglądają jak obrazy akrylowe.
Aluzja: „Słodki szary kot akrylowy”, próbnik = PLMS, CFG = 7, kroki próbkowania = 50

Stable Diffusion rozpoznaje dziesiątki różnych stylów , od rysunków ołówkiem po modele gliniane i rendery 3D w Unreal Engine.

Kolejny przykład szarych kotów w stylu „Unreal Engine”.
Podpowiedź: „Słodki szary kot, renderowanie Unreal Engine”, sampler=PLMS, CFG=7, przykładowe kroki=50

Te przykłady sugestii są niezwykle proste, ale możesz użyć dziesiątek słów kluczowych, aby dostosować wyniki. Jeśli chcesz zwariowanych modeli kurczaka z gliny w psychodelicznym kolorze w Walmart, musisz wypełnić wszystkie te terminy.

Dziwna rzeźba kurczaka ze stopionej gliny w sklepie Walmart.
Podpowiedź: „Popiersie kurczaka w sklepie, model z gliny, (kolory psychodeliczne), topnienie, dziwne” Sampler = PLMS, CFG = 7, Kroki próbkowania = 150

Wymień konkretnych artystów do stabilnej dystrybucji

Stabilna dyfuzja jest w stanie nie tylko naśladować określone style lub środowiska; może nawet naśladować konkretnych wykonawców, jeśli sobie tego życzysz. Z tego przykładu skorzystał Pablo Picasso.

Zdecydowanie powinieneś spróbować dodać „od (nazwa wykonawcy)” do swoich podpowiedzi, jeśli jeszcze tego nie zrobiłeś. Prowadzi to do dramatycznych rezultatów. Nie bój się łączyć w pary artystów, którzy zwykle nie pasują do siebie dobrze. Często Stable Diffusion łączy odpowiednie style w ekscytujący i nieprzewidywalny sposób.

Porada: Jeśli używasz naszej zalecanej wersji Stable Diffusion z interfejsem graficznym systemu Windows, po prawej stronie okna podpowiedzi znajduje się przycisk Przenieś, który losowo doda wykonawcę do podpowiedzi. To świetny sposób na poznanie nowych stylizacji.

6 kotów, jak namalowałby je Picasso.

Waga Twoich słów kluczowych

Oczywiście samo wbicie słów kluczowych w zaproszenie nie zaprowadzi Cię zbyt daleko. Co się stanie, jeśli w opisie pojawią się wszystkie właściwe rzeczy, ale nie są one odpowiednio proporcjonalne?

Stabilna dyfuzja obsługuje ważenie słów kluczowych zaproszenia. Innymi słowy, możesz mu powiedzieć, że naprawdę musi zwracać uwagę na określone słowo kluczowe (lub słowa kluczowe) i zwracać mniejszą uwagę na inne. Jest to przydatne, jeśli uzyskujesz wyniki podobne do tych, których szukasz, ale nie do końca.

W wersji stabilnej dyfuzji w wierszu poleceń po prostu dodajesz pełny dwukropek, a następnie liczbę dziesiętną do słowa, które chcesz podświetlić. Liczby dziesiętne reprezentują wartości procentowe, więc powinny się sumować do 1.

Wracając do naszej porady „Słodki szary kot”, załóżmy, że poprawnie renderowała słodkie koty, ale niewiele z obrazów wyjściowych miało szare koty. Zamiast tego możesz zmienić podpowiedź na „słodki, szary kot: 0,7”, co spowoduje zwrócenie większej uwagi na szarego kota, a następnie automatycznie zastosuje różnicę do „słodkiego”. Możesz również ręcznie przypisać wagę do każdego słowa w podpowiedzi, jeśli chcesz dokładniej sterować, np. „Słodkie: 0,10, Szary kot: 0,60, Renderowanie Unreal Engine: 0,30”.

Większość interfejsów GUI umożliwia ważenie uchwytów stabilnej dyfuzji bez konieczności wprowadzania jawnych wartości procentowych. Zwykle możesz dodać nawiasy wokół terminu w celu podkreślenia go, a nawiasy, aby zmniejszyć znaczenie terminu. Tak więc poprzedni „słodki szary kot” mógłby brzmieć „[słodki],((szary kot)”.

Notatka. Możesz użyć wielu nawiasów, aby ustawić akcenty w dowolny sposób.

Znajdź inspirację gdzie indziej

Stabilna dyfuzja i inne generatory sztuki sztucznej inteligencji doświadczyły gwałtownego wzrostu popularności. Tego rodzaju sztukę AI można znaleźć w każdym miejscu. Oznacza to, że w Internecie krąży obecnie co najmniej kilka milionów obrazów generowanych przez użytkowników, a w większości przypadków ludzie zawierają wskazówkę, której użyli, aby uzyskać swoje wyniki.

Oto kilka zasobów, które pomogą Ci zainspirować się, jeśli nie masz pewności, co chcesz stworzyć:

Ostrzeżenie: wszystko to jest potencjalnie NSFW.

  • Lexica to repozytorium obrazów wygenerowanych za pomocą funkcji Stable Diffusion i powiązanej podpowiedzi. Dostępne wyszukiwanie słów kluczowych.
  • Studia nad stylem artystycznym Stable Diffusion – niewyczerpująca lista artystów, których rozpoznaje Stable Diffusion, a także ogólne opisy ich stylu artystycznego. Istnieje system rankingowy, który opisuje, jak dobrze stabilna dyfuzja reaguje na nazwę wykonawcy w podpowiedzi.
  • Badania modyfikatorów stabilnego dyfuzji — lista modyfikatorów, których można używać ze stabilnym dyfuzją, tak jak na stronie artysty.
  • Lista modyfikatorów AI Art — galeria zdjęć prezentująca niektóre z najpotężniejszych modyfikatorów, których możesz użyć w podpowiedziach, oraz ich działanie. Są one sortowane według typu modyfikatora.
  • Top 500 artystów biorących udział w Stable Diffusion . Wiemy dokładnie, które obrazy znalazły się w zestawie szkoleniowym Stable Diffusion, więc możemy powiedzieć, którzy artyści wnieśli największy wkład w szkolenie AI. Ogólnie rzecz biorąc, im bardziej artysta był reprezentowany w danych treningowych, tym lepiej Stable Diffusion reagowałoby na jego imię jako słowo kluczowe.
  • Subreddit Stable Diffusion – Subreddit Stable Diffusion zawiera nieustanny strumień nowych wskazówek i zabawnych odkryć. Jeśli szukasz inspiracji lub zrozumienia, nie możesz się pomylić.

Dostosuj inne ważne ustawienia

Dobra wskazówka to najtrudniejsza część korzystania ze stabilnej dyfuzji, ale jest kilka innych poprawek, które drastycznie zmienią wyniki.

  • CFG: Określa, jak mocno Stabilna Dyfuzja podąża za Twoją wskazówką. Wyższe liczby powodują więcej podążania za wskazówkami, podczas gdy niższe liczby dają AI większą swobodę. Spróbuj najpierw to skonfigurować.
  • Metoda próbkowania: sposób odszumiania obrazu w rozpoznawalne kształty. Wypróbuj kilka z nich. Popularne wydają się Euler_a, k_LMS i PLMS.
  • Kroki próbkowania: Ile razy obraz zostanie wybrany przed uzyskaniem końcowego wyniku. Czasami dobre wyniki osiąga się w 30 krokach, czasami trzeba iść do 50 lub 80. Zwykle lepsze wyniki nie są osiągane po 150 krokach. Zacznij od mniejszej liczby kroków i idź w górę.

Niektóre z naszych ulubionych stylizowanych wskazówek

Oto niektóre z naszych ulubionych wskazówek, ponieważ działają bardzo niezawodnie. Wystarczy dodać wybrany przedmiot oraz kilka modyfikatorów. Wszystkie inne ustawienia stabilnej dyfuzji pozostają takie same, jak w powyższych wskazówkach.

Uwaga: Stabilna dyfuzja jest generalnie wyjątkowo dobra w tworzeniu zachodów słońca i jesiennych liści.

(Temat), 35 mm, ostry

Wybierz motyw, a ta wskazówka niezawodnie zwróci fotorealistyczne obrazy ludzi, zwierząt i krajobrazów.

Notatka. Ten przykład podpowiedzi zawierał również Złotą Godzinę, aby uzyskać kolory zachodu słońca.

Widok Stable Diffusion na górę Katahdin widziany z jeziora.
Aluzja: zdjęcie góry Katahdin z pięknym jeziorem, 35mm, ostra, złota godzina

(Motyw), renderowanie 3D low poly, żywe pastelowe kolory, przesunięcie pochylenia, ziarno filmu

Wpisz motyw, a otrzymasz go w estetyce Art of Rally.

Bardzo kolorowy samochód.

(Motyw), (Opis otoczenia), Kinowy, Dramatyczny, Kompozycja, Słoneczne niebo, Brutalizm, Hiperrealizm, Epicka skala, Podziw, Hipermaksymalizm, Niesamowity poziom szczegółowości, Centrala artstation

Po prostu wprowadź motyw i opis otoczenia, a ta podpowiedź zapewni wspaniałe obrazy koncepcyjne miasta z wybranym przez Ciebie efektem otoczenia. Oto przykład wykorzystania Nowego Jorku jako motywu przewodniego i burzy piaskowej jako opisu środowiska:

Umiarkowanie zła pogoda w Nowym Jorku.
wskazówka: Nowy Jork, burza piaskowa, kinowy, dramatyczny, kompozycja, słoneczne niebo, brutalista, hiperrealizm, epicka skala, podziw, hipermaksymalizacja, szalony poziom szczegółowości, główna siedziba artstation

Kermit

Stabilna dyfuzja daje świetne rezultaty z Kermitem. Wypróbuj wszędzie.

Kermit ze złą lalką za sobą.

Dlaczego Stable Diffusion tak interpretuje „Kermit w Mordorze” i kim jest ten czerwony zły Kermit stojący za naszym dzielnym bohaterem? Brak pomysłu.

Pamiętaj, nie bój się usunąć tego, co Twoim zdaniem może być kluczowym terminem z podpowiedzi. Niektóre słowa, takie jak „wspaniały”, mają duży wpływ na wygląd obrazu, nawet jeśli nie mają dokładnego znaczenia. Spędzając więcej czasu ze stabilną dyfuzją, poczujesz, jak reaguje na określone słowa i szybko odkryjesz, że napisanie dobrej wskazówki jest sztuką samą w sobie.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *