Autor: Trevor Burgess
Studiowałem literaturę na uniwersytecie w czasach, gdy semiotyka i strukturalizm dominowały w dekonstrukcji tekstów literackich. Na wydziale literatury istniała tendencja do myślenia o języku jako podstawowym sposobie rozumienia świata. W najbardziej ekstremalnych przypadkach niektórzy wykładowcy deklarowali, że świat jest tekstem do przeczytania.
Obecnie neurolodzy twierdzą, że co najmniej 40% aktywności naszego mózgu związane jest z widzeniem. Tworzę obrazy i przez całe życie byłem zaangażowany w praktykowanie, studiowanie i nauczanie rysunku oraz malarstwa. Z mojego doświadczenia wynika, że części mojego mózgu, które przetwarzają język, przechodzą w stan uśpienia lub wyłączają się, gdy jestem zaangażowany w tworzenie obrazu. Ludzie, którzy znają mnie jako gadatliwą duszę, mogą być zaskoczeni, że kiedy wychodzę ze studia po długiej sesji malarskiej, jestem trochę niemy, i trudno mi zebrać myśli i ułożyć je w słowa.
Jedna z najbardziej wpływowych książek na temat nauczania rysunku wyjaśnia, dlaczego tak jest. Nosi ona tytuł „Drawing on the right side of the brain” i jest autorstwa Betty Edwards. Opiera się ona na zrozumieniu neurobiologii mózgu, która mówi nam, że dla większości z nas funkcje werbalne, analityczne, sekwencyjne znajdują się głównie w lewej półkuli; a funkcje wizualne, przestrzenne, percepcyjne w prawej. Książka jest pełna praktycznych ćwiczeń rysunkowych zaprojektowanych, aby pomóc uczniom wyłączyć logiczną lewą stronę i włączyć intuicyjną prawą stronę mózgu.
Co to ma wspólnego ze sztuczną inteligencją? Uderzyło mnie, że wśród wszystkich zachwytów nad tym, jak sztuczna inteligencja może „generować obrazy” w sposób, który próbuje naśladować działanie sieci neuronowych w naszych mózgach, niewiele jest komentarzy na temat faktu, że dominujące modele, z których korzysta, opierają się na języku. Podstawowymi umiejętnościami, których należy się nauczyć, aby skutecznie korzystać z większości narzędzi do generowania obrazów AI, jest pisanie werbalnych, precyzyjnych, sekwencyjnych podpowiedzi – dokładnie tych funkcji lewej półkuli mózgu, które zakłócają percepcję wizualną i przestrzenną podczas nauki rysowania i malowania. Istnieją alternatywne modele „controlNet” szkicu do obrazu i pozy do obrazu, takie jak Scribble lub „Realtime canvas” Leonardo, które nie są oparte na podpowiedziach tekstowych, ale te dominujące nie są szkolone w zakresie percepcji przestrzennej. To, do czego wydają się być przeszkolone, to rozpoznawanie wzorców. Łączy się to z procesami rysowania i malowania związanymi z powierzchnią 2D, ale nie jest zbyt przydatne w konstruowaniu przekonującej przestrzeni w obrazie i częściowo wyjaśnia, dlaczego sztuczna inteligencja może łączyć obrazy rozpoznawalnego budynku lub krajobrazu, jeśli opiszesz go słowami, ale ma trudności z przekształceniem planu 2D w wizualizację 3D.
Jak więc ci z nas, którzy uczą umiejętności sztuk wizualnych związanych z fizyczną produkcją rysunku, malarstwa, rzeźby i rzemiosła, dostosowują się do korzystania z tego nowego narzędzia? Mówi się, że nowa technologia jest destrukcyjna. Czy musimy adaptować nasze czynności prawej półkuli mózgu do przetwarzania danych przez maszyny lewej półkuli? Nie da się uniknąć nauki podpowiadania. Ale wnieśmy do tego nasze własne kreatywne zakłócenia prawej półkuli mózgu.
Widziałem w sieci zabawny przykład kogoś polecającego najlepsze generatory obrazów SI, który poprosił SI, aby chmura wyglądała jak pies. Sztuczna inteligencja stworzyła chmurę z twarzą psa jakby przyklejoną na jej szczycie (lewy obrazek). Następnie prompter najwyraźniej przeszedł przez pełne 120 podpowiedzi, aby chmura wyglądała coraz bardziej jak pies. Rezultat? (prawy obrazek) Err… Chmura z nieco bardziej szczegółową głową psa. Chociaż staram się postrzegać chmurę jako psa, po prostu nie widzę w niej formy psa: żadnych łap, ogona ani nóg. A Ty?
To jest myślenie lewą półkulą mózgu. Kontynuuj, kontynuuj, kontynuuj sukcesywnie przez etap po etapie w kierunku pożądanego rezultatu. Jeśli o mnie chodzi, po 120 podpowiedziach chmura jeszcze mniej przypomina psa: na przykład kawałek chmury w prawym dolnym rogu, który sprawił, że pomyślałem, że może to być ogon psa, został oderwany. Sztuczna inteligencja odcięła psu ogon! A co z myśleniem prawopółkulowym: zrobić z chmury chmurę deszczową? Zabierz psa na spacer. Poproś sztuczną inteligencję, by sprawiła, że chmura zacznie szczekać lub przywróci psu ogon? Wszystko, by wywołać więcej dziwactw i uzyskać coś nieoczekiwanego.
Rozmawiając z niektórymi artystami wizualnymi, którzy zaangażowali się w te nowe narzędzia, to właśnie dziwność tego, co oferuje sztuczna inteligencja, jest dla nich ekscytująca i martwią się, że w miarę jak staje się ona coraz bardziej precyzyjna i kontrolowana, nieprzewidywalność zostaje utracona. Retoryka wokół sztucznej inteligencji dotyczy robienia rzeczy szybciej i wydajniej, i oczywiście możemy to wykorzystać. Ale jeśli myślimy o sztucznej inteligencji generującej tekst i obraz jako o narzędziu kreatywnym, to może powinniśmy wziąć lekcję z książki Betty Edwards i wyłączyć na chwilę zarówno nasz trening wizualny, jak i cele zorientowane na wyniki, i po prostu pomyśleć o tym w zabawny sposób jako o rodzaju cyfrowo hiperaktywnego procesu kolażu, układając wcześniej istniejące materiały w dziwne i cudowne sposoby, sklejając ze sobą psy i chmury. Miłej zabawy!