Bardzo lubię współczesny wydźwięk określenia „sztuczna inteligencja”. Budzi skrajne odczucia: zachwyt, fascynację, ale i sprzeciw, poczucie zagrożenia, niesprawiedliwości i nadmiernej pychy, a od czasu spektakularnego sukcesu ChataGPT również uczucie przesytu i zażenowania. Od razu jest o czym rozmawiać. Bo skoro inteligencja może być sztuczna, to może kreatywność też może taka być? Dlaczego rozwój technologii doprowadził do punktu, w którym algorytmy usiłują pisać wiersze, malować obrazy i pisać piosenki, a ludzie nadal machają łopatą, noszą cegły i pracują w kopalniach? Na temat można spojrzeć z co najmniej kilku stron. Spróbujmy z trzech.
Naukowo sztuczna inteligencja jest fascynującą dziedziną i w badaniach nad nią można zanurzyć się jak w dobrym albumie z masą wątków, historii i muzycznych zwrotów akcji. Obecnie najsilniej reprezentowaną rodziną algorytmów, zarówno w nowoczesnych zastosowaniach komercyjnych, jak i w masowej świadomości, są sieci neuronowe i to im chcę poświęcić najwięcej rozważań. Parę tygodni temu Hopfield i Hinton dostali Nagrodę Nobla właśnie za badania nad sieciami neuronowymi – Nobla z fizyki, warto dodać.
Sieci neuronowe uczą się wykonywać złożone przekształcenia danych. Galeria zdjęć w twoim telefonie komórkowym sama rozpoznaje i kataloguje zdjęcia: mama, tata, żona, brat, kolega, pies, jedzonko, jezioro, samochód. Nie wszyscy zdają sobie sprawę z faktu, że takiego rozpoznawania dokonuje głęboka konwolucyjna sieć neuronowa – obecnie już tak zminiaturyzowana, że można ją uruchomić na procesorze telefonu komórkowego. „Złożone przekształcenie danych”, którego nauczyła się ta sieć neuronowa, to przekształcenie wejściowych zdjęć w jedną krótką informację: kto lub co jest na tym zdjęciu?
Pamiętam dokładnie moment, w którym korzystanie z internetowego tłumacza przestało przypominać grę w głuchy telefon z beztalenciem językowym, a zaczęło działać naprawdę dobrze: odmieniać przez przypadki, rozumieć dwuznaczności, wyjaśniać niektóre gry słowne. Zbiegło się to z momentem, gdy zaczęto na szerszą skalę stosować nowoczesną architekturę sieci neuronowych, tak zwane transformery. Zresztą litera T w ChatGPT to właśnie „transformer” (Generative Pre-trained Transformer). „Złożonymi przekształceniami danych” wyuczonymi w tych dwóch przypadkach są tu odpowiednio tłumaczenie tekstu z jednego języka na drugi czy generowanie nowego tekstu w odpowiedzi na wejściowy prompt. Do tworzenia takich rozwiązań konieczne są jednak ogromne zasoby – nie tylko ludzkie i obliczeniowe, ale przede wszystkim zasoby tzw. danych uczących. Sieci neuronowe różnią się od „klasycznego” programowania, gdzie program przypomina sekwencję kroków do wykonania, coś jak przepis na zupę albo instrukcję złożenia mebla. W przypadku sztucznej inteligencji programista ustala strukturę sieci, a sieć w długotrwałym procesie stroi swoje parametry na podstawie przedstawionych danych. Wyuczona sieć potrafi już natomiast działać bardzo szybko i skutecznie. Jest w tym wszystkim coś niezwykle wciągającego…
Spójrzmy też biznesowo. Sztuczna inteligencja z wykorzystaniem sieci neuronowych wykazała ogromną skuteczność w wielu zadaniach. Jest to możliwe właśnie dzięki niespotykanej elastyczności sieci neuronowych – wszak jak już wiemy, uczą się wykonywać arbitralne przekształcenia danych, cokolwiek miałoby to w ogóle znaczyć. Jeśli jesteśmy w stanie zdefiniować rozsądne biznesowo wymagania względem przekształcenia, do którego dążymy, z dużym prawdopodobieństwem będziemy w stanie zbudować sieć neuronową do tego zadania, oczywiście o i le będziemy też dysponować odpowiednimi danymi. Najpowszechniejsze kategorie zadań stawianych takiej sztucznej inteligencji to zadania analityczne albo generatywne. W muzyce przykładem zadania analitycznego jest rozpoznawanie gatunku muzycznego danego utworu. Albo emocji w tym utworze. Albo zastosowanego instrumentarium. Albo zautomatyzowana analiza struktury – inna dla techno, gdzie operujemy nabudowaniami i dropami, inna dla utworu bigbandowego z tematem, solówkami i paroma special chorusami, a jeszcze inna dla sonatiny czy symfonii. Sieci neuronowe, które świetnie sobie radzą z tego rodzaju zadaniami, już od paru lat stanowią podstawę silników rekomendacyjnych w wiodących usługach streamingowych – przy operacyjnej skali takich przedsięwzięć konieczna jest jakaś zautomatyzowana forma analizy napływających treści.
Zupełnie innym tematem jest natomiast kwestia zagadnień generatywnych. W przypadku artystycznej interakcji ze słuchaczem już dzisiaj mamy poważny przesyt, a usługi streamingowe mają w swoich katalogach miliony utworów, których nikt albo niemal nikt nie posłuchał. Nikomu nie jest potrzebne generowanie muzyki tylko po to, żeby na świecie było jej więcej. Może co najwyżej w kategorii żartu, zabawki, zastosowań w rodzaju „wygeneruj piosenkę heavy metalową z życzeniami dla mojego przyjaciela Krzyśka, który lubi samochody i kuchnię meksykańską”. Istnieją jednak sposoby korzystania z muzyki, gdzie generowana automatycznie muzyka może stanowić wartościowy produkt, oferujący poważną przewagę w stosunku do tempa pracy człowieka – sytuacja prawna w tych przypadkach jest obecnie polem wielu gorących dyskusji. Wszak prawo opisuje rzeczywistość, a ta rzeczywistość w obliczu pędzącego rozwoju technologii zmienia się co kilka dni.
No dobra, a co ze spojrzeniem artysty, twórcy? Sieci neuronowe przede wszystkim dostarczają fascynujących nowych narzędzi. Jeszcze kilka lat temu sieci neuronowe generujące muzykę stanowiły ciekawostkę, eksperymentalne narzędzie generujące dźwięki z okolic musique concrete, noise, niszowej awangardy, a niekiedy wprost z horroru. Można by stwierdzić – no i świetnie, bo skrajne doznania estetyczne w słuchaczach potrafią też przecież budzić Ornette Coleman, Autechre czy Schnittke. Ten eksperymentalny trend nadal ma się dobrze, ale jego możliwości są obecnie znacznie szersze. W zeszłym roku na konferencji ISMIR (International Society for Music Information Retrieval) wykonany został duet saksofonu z siecią neuronową VampNet, zdolną do przetwarzania sygnału audio w czasie rzeczywistym. Saksofonista grał frazę, która stawała się promptem dla sieci neuronowej wyuczonej na dźwiękach maszyn przemysłowych i śpiewu ptaków. Sieć generowała rozwijający się, sonorystyczny podkład, który stawał się niejako inspiracją dla saksofonisty – ten w odpowiedzi grał kolejną frazę, która ponownie była przetwarzana przez sieć i włączana do podkładu. Cykliczna, wzajemna interakcja człowieka i algorytmu – niezwykłym doświadczeniem było usłyszeć to na żywo.
Na tej samej konferencji zaprezentowano też gitarę HITar, której dźwięk był przetwarzany przez sieć neuronową na indyjski instrument perkusyjny tabla, dostarczając gitarzyście zupełnie nowych technik gry. W 2021 ukazała się też sieć RAVE (Realtime Audio Variational Autoencoder), zdolna do przekształcania podanych jej impulsów na brzmienie wybranych instrumentów. Jej autor, Antoine Caillon, demonstrował wariant sieci sterowany czujnikiem ruchu – machnięcie czujnikiem w lewo generowało werbel, a w prawo potężnie brzmiącą stopę. W innym wariancie RAVE była zdolna do przekształcenia partii zagranej na fortepianie w partię zaśpiewaną przez bułgarski chór żeński. Z kolei w jednej z edycji międzynarodowego konkursu AI Song Contest zaproponowane zostało narzędzie generujące kołysanki. Jego autor uczył algorytm na swojej kilkuletniej córce – te kołysanki, które najszybciej ją usypiały, stanowiły dane uczące dla kolejnych, udoskonalonych wersji algorytmu. W jego własnych słowach: „I’ve used it about 100 times when putting my daughter to bed and in the end this is what it came up with as her own personal lullaby: Ada’s lullaby” („Użyłem go chyba ze sto razy, kiedy kładłem córkę do snu, a w rezultacie wytworzył coś na kształt jej osobistej kołysanki: kołysankę Ady” – tłum. red.). Grubo myli się ten, kto ogranicza generatywne muzyczne AI jedynie do bezdusznych systemów opartych na promptach.
Również rozwiązania analityczne mają zastosowanie dla artystów – naczelnym przykładem jest tu separacja źródeł, czyli technika, która umożliwia wycięcie wokali, gitary, bębnów lub innego instrumentu z utworu, który już został zmiksowany. AI dobrze radzi sobie również z automatyczną transkrypcją, powstają też narzędzia wspomagające naukę gry na instrumentach. Niektóre z takich rozwiązań są obecnie osadzane wewnątrz środowisk produkcyjnych czy wtyczek VST, a co za tym idzie, sposób ich wykorzystania jest coraz bardziej dedykowany muzykom i artystom raczej niż programistom i inżynierom.
Tak jak kiedyś zmieniono bieg rozwoju muzyki poprzez wygięcie kawałka metalu w odpowiedni kształt i nazwanie go trąbką albo poprzez wynalezienie samplowania i remiksowania, tak być może właśnie jesteśmy świadkami powstania najnowszej fali instrumentów muzycznych i możemy być tymi, których ludzka inteligencja zostanie poszerzona możliwościami tej sztucznej. Nie ukrywam, że to moim zdaniem najciekawsza perspektywa spośród tych trzech spojrzeń.
Komentarz Macieja Janika, adwokata z Wydziału Prawnego ZAiKS-u, kierującego działającą w ramach Stowarzyszenia Grupą ds. AI:
Rozwój i wykorzystanie sztucznej inteligencji (AI) w sektorze kreatywnym stanowi źródło istotnych korzyści, ale i wyzwań dla twórców oraz całej branży kreatywnej. Twórcy sprawdzają możliwości nowej technologii, szeroko używają AI jako źródła inspiracji bądź instrumentu do wzbogacania, dopracowania i ulepszania swoich utworów. AI nie jest jednak obecnie jedynie narzędziem wspierającym i ułatwiającym proces twórczy. Narzędzia AI mogą samodzielnie generować wytwory łudząco przypominające efekty twórczości ludzkiej (muzyka, obrazy, filmy i teksty), wchodząc w bezpośrednią konkurencję z dziełami twórców jako alternatywne źródło podaży treści rozrywkowych, informacyjnych. Konkurencję, którą trudno określić inaczej niż nieuczciwą, gdyż bazującą na pasożytnictwie, którego przejawem jest – z jednej strony – trwające od ponad dekady bezumowne korzystanie z twórczości ludzkiej udostępnionej w internecie na potrzeby trenowania modeli generatywnej AI, a z drugiej strony – daleko posunięte możliwości imitowania stylu i estetyki konkretnych twórców lub wykonawców. Jak widać po aktualnych doniesieniach prasowych, uprawnieni coraz częściej (głównie w USA) kierują pozwy przeciwko dostawcom modeli AI, którzy rozwijają swoje produkty z pominięciem praw twórców, artystów wykonawców i producentów. To wszystko pokazuje, jak ważne jest podejmowanie działań na rzecz stworzenia silnego rynku licencji prawnoautorskich dla podmiotów udostępniających publiczności systemy generatywnej AI wytrenowanej na twórczości ludzkiej. Tylko w ten sposób da się zapewnić, że postęp technologiczny w dziedzinie AI wraz z korzyściami, które bez wątpienia umożliwia, będzie budowany bez szkody dla ludzkiej kultury i twórczości.