Fooocus #1 – szybki test

Wstęp

Celem tego szybkiego testu jest pobieżne sprawdzenie możliwości generatywnej sieci neuronowej wytrenowanej do syntezy obrazów. Ten artykuł skupia się na konsumpcji wyników sieci i pomija aspekty typu instalacja, wymagania sprzętowe czy automatyzacja procesu (te informacje możesz znaleźć na GitHubie narzędzia, link poniżej).

Narzędzie do generowania obrazów

W dzisiejszym teście użyjemy publicznie dostępnego na GitHubie oprogramowania pod nazwą Fooocus. Rozwiązanie to dostarcza prostego (acz napakowanego opcjami) GUI, a jego instalacja jest bardzo prosta (zasadniczo należy sklonować repozytorium i uruchomić odpowiedni skrypt). Po doinstalowaniu zależności oraz pobraniu wytrenowanych modeli (około 25GB) ukazuje nam się GUI, do otworzenia w naszej przeglądarce.

Fooocus GUI

Pierwsze starcie z Fooocus (buty)

Na początek spróbujmy czegoś prostego. Spróbujemy wygenerować przedmiot którego używa cała nasza cywilizacja – buty. Dla ułatwienia wybierzemy model damski (zakładam że baza modeli do nauki jest większa). Spróbujmy poniższego polecenia (prompta):

female shoes, futuristic, energetic colors

Po kilku minutach generowania, otrzymaliśmy 9 obrazów (oryginalna rozdzielczość każdego z nich to 1024×1024 pixeli):

Trzeba przyznać że narzędzie poradziło sobie naprawdę nieźle. Oczywiście trudno zweryfikować, jak mocno różnią się od danych wsadowych, jednak jakoś wydaje się na wysokim poziomie. Na żadnych z obrazów nie widać artefaktów. Kształty, proporcje i kolory są realistyczne. Jest to pierwsze polecenie od uruchomienia programu, bez żadnego głębszego „grzebania” w ustawieniach, oprócz wybrania stylu „Ads Fashion Editorial” i wspomnianej rozdzielczości (domyślnie ustawiona jest rozdzielczość 1152×896).

Poniżej zbliżenie na jeden z obrazów:

Teraz coś trudniejszego – logo. Sieci tego typu zwykle nie radzą sobie z generowanie tekstu. Dodatkowo, polecenie będzie dłuższe, bardziej abstrakcyjne i ostatnia fraza trochę traci na sensie:

Logo for blog about technology. Blog domain is "bwrite.pl" and the main tech stack is Apache server, SEO, tools for developers and AI.

Oto efekty:

Kształty są ciekawe, jednak z tekstem dzieje się coś dziwnego. Nie wypada to dobrze, jednak jest to dopiero drugie polecenie od momentu uruchomienia programu. Wybrałem styl „Logo Design” oraz rozdzielczość 1024×1024.

Trzecie starcie z Fooocus (ludzie)

Dobrze, teraz również coś bardzo popularnego – ludzie. Spróbujmy prosty, niezbyt szczegółowy prompt:

people in park, autumn, sunny weather

Takie mamy wyniki:

Pogoda i miejsce się zgadzają, jednak „ludzie” są tylko w tle, a na pierwszym planie mamy jedną osobą. Możliwe że to również wpływ danych treningowych, choć bardziej prawdopodobne wydaje się zbyt proste (nieszczegółowe) polecenie.

Podsumowanie

Jak na darmowe narzędzie dostępne dla każdego z odpowiednim sprzętem (średniej klasy) lub dostępem do chmury obliczeniowej, możliwości narzędzia wydają się bardzo konkretne. Dosłownie w kilka minut jesteśmy w stanie wygenerować fotorealistyczne obrazy w niezłej rozdzielczości. Narzędzie ma również opcję upscalingu, więc rozdzielczość jeszcze możemy zwiększyć. Nie jest wymagana do tego ekspercka wiedza, a samo GUI zapewnia odpowiednią ilość ustawień.