Fooocus #1 – szybki test

Wstęp

Celem tego szybkiego testu jest pobieżne sprawdzenie możliwości generatywnej sieci neuronowej wytrenowanej do syntezy obrazów. Ten artykuł skupia się na konsumpcji wyników sieci i pomija aspekty typu instalacja, wymagania sprzętowe czy automatyzacja procesu (te informacje możesz znaleźć na GitHubie narzędzia, link poniżej).

Narzędzie do generowania obrazów

W dzisiejszym teście użyjemy publicznie dostępnego na GitHubie oprogramowania pod nazwą Fooocus. Rozwiązanie to dostarcza prostego (acz napakowanego opcjami) GUI, a jego instalacja jest bardzo prosta (zasadniczo należy sklonować repozytorium i uruchomić odpowiedni skrypt). Po doinstalowaniu zależności oraz pobraniu wytrenowanych modeli (około 25GB) ukazuje nam się GUI, do otworzenia w naszej przeglądarce.

Fooocus GUI

Pierwsze starcie z Fooocus (buty)

Na początek spróbujmy czegoś prostego. Spróbujemy wygenerować przedmiot którego używa cała nasza cywilizacja – buty. Dla ułatwienia wybierzemy model damski (zakładam że baza modeli do nauki jest większa). Spróbujmy poniższego polecenia (prompta):

female shoes, futuristic, energetic colors

Po kilku minutach generowania, otrzymaliśmy 9 obrazów (oryginalna rozdzielczość każdego z nich to 1024×1024 pixeli):

Trzeba przyznać że narzędzie poradziło sobie naprawdę nieźle. Oczywiście trudno zweryfikować, jak mocno różnią się od danych wsadowych, jednak jakoś wydaje się na wysokim poziomie. Na żadnych z obrazów nie widać artefaktów. Kształty, proporcje i kolory są realistyczne. Jest to pierwsze polecenie od uruchomienia programu, bez żadnego głębszego „grzebania” w ustawieniach, oprócz wybrania stylu „Ads Fashion Editorial” i wspomnianej rozdzielczości (domyślnie ustawiona jest rozdzielczość 1152×896).

Poniżej zbliżenie na jeden z obrazów:

Teraz coś trudniejszego – logo. Sieci tego typu zwykle nie radzą sobie z generowanie tekstu. Dodatkowo, polecenie będzie dłuższe, bardziej abstrakcyjne i ostatnia fraza trochę traci na sensie:

Logo for blog about technology. Blog domain is "bwrite.pl" and the main tech stack is Apache server, SEO, tools for developers and AI.

Oto efekty:

Kształty są ciekawe, jednak z tekstem dzieje się coś dziwnego. Nie wypada to dobrze, jednak jest to dopiero drugie polecenie od momentu uruchomienia programu. Wybrałem styl „Logo Design” oraz rozdzielczość 1024×1024.

Trzecie starcie z Fooocus (ludzie)

Dobrze, teraz również coś bardzo popularnego – ludzie. Spróbujmy prosty, niezbyt szczegółowy prompt:

people in park, autumn, sunny weather

Takie mamy wyniki:

Pogoda i miejsce się zgadzają, jednak „ludzie” są tylko w tle, a na pierwszym planie mamy jedną osobą. Możliwe że to również wpływ danych treningowych, choć bardziej prawdopodobne wydaje się zbyt proste (nieszczegółowe) polecenie.

Jak uruchomić Fooocus nie mając sprzętu

Jeśli nie masz komputera o odpowiednio mocnych parametrach, opcją jest uruchomienie Fooocusa w chmurze. Na stronie projektu znajduje się instrukcja uruchomienia w Google Colab. Należy jednak pamiętać że darmowe zasoby są ograniczone, zarówno w wielkości jak i czasie. Warto więc rozważyć wykupienie odpowiedniej subskrypcji, jeśli planujesz „pobawić się” tym lub innymi rozwiązaniami dłużej.

Podsumowanie

Jak na darmowe narzędzie dostępne dla każdego z odpowiednim sprzętem (średniej klasy) lub dostępem do chmury obliczeniowej, możliwości narzędzia wydają się bardzo konkretne. Dosłownie w kilka minut jesteśmy w stanie wygenerować fotorealistyczne obrazy w niezłej rozdzielczości. Narzędzie ma również opcję upscalingu, więc rozdzielczość jeszcze możemy zwiększyć. Nie jest wymagana do tego ekspercka wiedza, a samo GUI zapewnia odpowiednią ilość ustawień.