Czy sztuczna inteligencja zagraża muzykom z krwi i kości, czy komponujące algorytmy to tylko kolejna przelotna ciekawostka? Odpowiedź zależy od tego, o jakiej muzyce mówimy – przynajmniej na razie
„Człowiek radio! Chodzi, mówi i jodłuje!” – zachwycał się w 1939 roku magazyn „Popular Science”, opisując „gigantycznego mechanicznego człowieka”. Szwajcarski konstruktor miał wyposażyć swojego robota w mikrofony, aby przyjmowały polecenia słowne i przekazywały je „dwudziestu elektrycznym silnikom pozwalającym tej fantastycznej istocie chodzić, mówić, śpiewać i jodłować” – to ostatnie dzięki „nowoczesnym, gigantycznym głośnikom”. Człowiek radio list przebojów nie podbił i, tak jak późniejsze próby konstruowania sztucznych artystów, okazał się krótkotrwałą atrakcją medialną. Ale po stu latach żarty się skończyły, bo muzyką coraz poważniej interesuje się sztuczna inteligencja.
Głośno ostatnio było o zdolnościach czatbota ChatGPT opracowanego przez firmę OpenAI, który zazwyczaj celnie odpowiada na zadawane mu pytania. Na życzenie pisze też opowiadania czy wiersze, na określony temat czy w określonym stylu. Po kilku dniach czatbot miał już milion użytkowników, co uchodzi za światowy rekord. „Nie rozumiem zachwytów nad tą technologią” – odcinał się Nick Cave, gdy jeden z jego fanów poprosił ChatGPT o napisanie tekstu piosenki w stylu Cave’a właśnie. Według samego artysty dzieło algorytmu było „do bani”, mówił wręcz o „żałosnej kpinie z człowieczeństwa”. Wielu słuchaczy po cichu przyznawało jednak, że nie zdziwiłby ich Cave śpiewający taki oto refren:
I am the sinner, I am the saint
I am the darkness, I am the light
I am the hunter, I am the prey
I am the devil, I am the savior
Czyli „Jestem grzesznikiem, jestem świętym / jestem ciemnością, jestem światłem / jestem łowcą, jestem zwierzyną / jestem diabłem, jestem zbawcą”.
Sztuczna inteligencja tworzy jednak nie tylko lepsze lub gorsze teksty piosenek, ale komponuje także samą muzykę – i ją wykonuje. „Pewien znany muzyk ostatnio nagrał płytę z wokalistką, ale – jak się dowiedziałem za kulisami – ta wokalistka wcale nie istnieje. To była AI” – pisze amerykański jazzman i publicysta Ted Gioia. Zdecydowanie nie jest to odosobniony przypadek. Jak donosił magazyn „Music Business Worldwide”, chiński koncern Tencent Music opublikował w serwisach streamingowych już ponad tysiąc piosenek, w których sztuczna inteligencja podszywa się pod wokalistki i wokalistów z krwi i kości. Jeden z tych utworów przebił granicę 100 mln odtworzeń.
Nie trzeba być gigantem technologicznym, by spróbować własnych sił w tej materii. Serwis Jukebox AI, stworzony przez wspomnianą firmę OpenAI, pozwala każdemu wygenerować utwór w stylu wybranego artysty, także z wokalem. Muzykę na życzenie w mig generują też Amper Music, AIVA, Ecrett Music, Soundraw, Boom i wiele innych. Niektóre wymagają od użytkownika istotnego wkładu, jak wybranie tonacji, metrum, tempa czy określenia instrumentarium. Inne oczekują tylko wybrania gatunku czy nastroju. A ostatnio Google zaprezentowało model o nazwie MusicLM, któremu wystarczy opis słowny tego, co chcemy usłyszeć. Wystarczy kilka słów: pogodne techno, nastrojowa muzyka do gry wideo, akordeonowy death metal. Ale można się też rozpisać, jeden z podanych przykładów: „Połączenie reggaetonu i elektronicznej muzyki klubowej z kosmicznym, nieziemskim brzmieniem. Wywołuje poczucie zagubienia w pustce, zaciekawienie i zdumienie, a zarazem nadaje się do tańca”. I nawet jeśli produkty tych wszystkich algorytmów są przeciętne, to samo można powiedzieć o większości tworzonej na świecie muzyki. I pewnie nikt z nas nie zdaje sobie sprawy, jak znaczną część muzyki towarzyszącej obecnie reklamom, podcastom, grom wideo, ale także niskobudżetowym filmom i serialom stworzyły algorytmy sztucznej inteligencji. A jej dalsza ekspansja jest niemal pewna.
Lepsza niż ludzie
„To dość niepokojąca wiadomość dla wszystkich miłośników muzyki, którzy wierzą, że unikalny styl kompozytora wypływa z głębi jego przeżyć i emocji, że twórca kompozycji przemawia dźwiękami w niezwykle wyjątkowy sposób” – pisał 25 lat temu „New York Times” w artykule zatytułowanym Nieznany Bach? Nie, komputer to skomponował. Tekst dotyczył algorytmu, który opracował prof. Steve Larson, muzykolog i wykładowca z Uniwersytetu Oregonu. Nauczył on komputer komponować w stylu Bacha, a potem także udawać Beethovena, Chopina, Mozarta, Rachmaninowa, Strawinskiego – i pioniera ragtime’u Scotta Joplina. Szybko uznano, że w takim kopiowaniu komputer jest lepszy od ludzi.
Programowi wytykano jednak, że nie ma własnego stylu, potrafi jedynie naśladować. To jednak trudniej było zarzucić Emily Howell. Ją z kolei zaprogramował prof. David Cope, kompozytor i profesor z Uniwersytetu Kalifornijskiego. Zbiór „5000 Works” liczący tyleż partytur – symfonii, sonat fortepianowych, kwartetów smyczkowych – Emily opublikowała już na początku lat 90. Ale głośno zrobiło się o niej kilkanaście lat temu, gdy wydała debiutancki album „From Darkness, Light”. Wiele osób, które nie znały jego genezy, zachwycało się pięknymi, poruszającymi kompozycjami fortepianowymi. A część także po poznaniu natury artystki. „To nowoczesne arcydzieło, które stawia Howell obok najbardziej wyrazistych współczesnych kompozytorów w USA” – zachwalał recenzent amerykańskiego radia publicznego NPR. Magazyn „Slate” pisał z kolei: „Już na tak wczesnym etapie rozwoju Emily Howell jest lepszą kompozytorką niż 99 proc. populacji ludzkiej”.
Inni całkowicie skreślali Howell, najczęściej zarzucając jej bezduszność, brak emocji itd. Ale jej twórca łatwo odpierał te zarzuty. Jeszcze przed premierą płyty Cope zorganizował bowiem dwa wykonania koncertowe materiału. Słuchacze pierwszego nie wiedzieli, że Emily jest maszyną – i byli w większości zachwyceni. Przed drugim występem publiczności powiedziano prawdę. Wówczas zaroiło się od sceptyków, a nawet osób przekonanych, że już po kilku taktach domyśliliby się, iż muzykę napisał algorytm. Cope przypominał również, że kompozytorzy od wieków wspomagają się „bezdusznymi” narzędziami. Haydn już w XVIII w. pytał kości, jaki kształt ma nadać swoim dziełom. Grecki kompozytor Iannis Xenakis w połowie ubiegłego stulecia zaprzęgał do tego rachunek prawdopodobieństwa. Także polski kompozytor Paweł Mykietyn pisanie muzyki zwykł zaczynać od napisania najpierw wzorów arytmetycznych, potem geometrycznych. Nie wspominając o tym, że miliony artystów już od kilku dobrych dekad wspomagają się w studiu wirtualnymi instrumentami, cyfrowymi efektami, samplowaną perkusją czy korektorami wokalu. Najpopularniejszym muzykiem lat 80. był automat perkusyjny Roland TR-808.
Emily Howell i innym twórczym programom wypominano i wciąż wypomina się też, że przetwarzają muzykę pisaną ludzką ręką, że to od człowieka nauczyły się składać nuty, akordy i zgłoski. Tyle że od zarania komponowania to samo dotyczy ludzi. „Kompozytorzy przetwarzają fragmenty zasłyszane gdzie indziej. Mieszanie takich strzępów to podstawowy element procesu twórczego” – mówił Cope. Sam napisał program, który wykrywał w muzyce podejrzane podobieństwa do innych utworów. W ten sposób dowiódł, że np. Beethoven pożyczał tematy od Mozarta – nawet jeśli nieświadomie. Zapożyczeń w muzyce popularnej nie dałoby się zliczyć, od My Sweet Lord George’a Harrisona po Blurred Lines Robina Thicke. Posłuchanie jeden po drugim It's Man's Man's World Jamesa Browna oraz Dziwny jest ten świat Czesława Niemena też niejednego zafrapuje. Podsłuchiwanie innych wypadałoby więc wybaczyć i sztucznej inteligencji.
Uciec do przodu
„Nie słuchajcie mediów i ludzi z branży IT, kiedy deliberują, jak innowacyjna i ekscytująca jest muzyka sztucznej inteligencji, bo przynajmniej na razie nie jest” – radzi Ted Gioia. Według niego chwilowo mamy do czynienia z efektem świeżości, który szybko się skończy. Podobnie jak wysyp generowanych przez sztuczną inteligencję teledysków. W Polsce klipy takie opublikowali m.in. Rysy (Herz) oraz raper Kopruch (Zebranie zarządu), pierwszy mocno inspirowany anime, drugi malarski w stylu Beksińskiego, oba surrealistyczne.
Prawdziwym atutem sztucznej inteligencji jest niska cena. Większości twórców filmów i dokumentów, youtuberów i podcasterów, kreatorów gier i reklam nie stać na zatrudnienie zawodowego kompozytora, nie mówiąc o wykonawcach. A jednocześnie chcą mieć oryginalną muzykę, która (inaczej niż tanie nagrania stockowe) nie pojawiła się już w windach albo na infoliniach. Pozostaje im więc zatrudnić algorytm. Sztuczna inteligencja będzie więc na razie podbijać dziedziny, w których muzyka służy zasadniczo za tło, a niski koszt pozwala wybaczyć umiarkowane walory artystyczne.
To się zmieni w drugim etapie – ocenia Gioia – czyli gdy AI zacznie komponować hity. Wówczas nagrania generowane przez sztuczną inteligencję z nisz przeniosą się do main-
streamu. Tak jak niegdyś automaty perkusyjne, a w ostatnich dwóch dekadach Auto-Tune, który dzisiaj w uszach wielu młodych słuchaczy gwarantuje „normalne” brzmienie wokalu, a głos niepotraktowany tym efektem jawi się przeżytkiem. Te i inne innowacje wprowadzano jako tańszą alternatywę do zatrudniania zawodowych muzyków czy kupowania kosztownego wyposażenia. Z czasem stawały się jednak brzmieniem akceptowanym lub wręcz uwielbianym przez masową publiczność, wystarczy przypomnieć karierę Rolanda TR-808. „I tak będzie z AI” – przekonuje Gioia. „Pierwsze sukcesy zawdzięcza potrzebie oszczędzania, ale gdy słuchacze się z nią oswoją, jej brzmienie dla wielu osób stanie się tym preferowanym”.
Czy coś sztuczną inteligencję może zatrzymać? Na razie mogą ją co najwyżej spowolnić spory dotyczące kwestii praw autorskich. Czy należą się temu, kto wykorzystał AI, aby wygenerować „swój” utwór? A może raczej twórcom danego algorytmu, firmom je udostępniającym? Czy może jedni i drudzy powinni się jakoś tantiemami dzielić? Niektórzy z kolei podkreślają, że AI uczy się tworzyć muzykę na podstawie milionów utworów napisanych ludzką ręką, dlatego im też należy się udział w zyskach. Na to inni odpowiadają: przecież to samo dotyczy absolutnie każdego żywego muzyka. Na razie więc różne serwisy oferujące generowaną muzykę różnie do sprawy podchodzą. Często w darmowej wersji zachowują sobie prawa do dzieł swoich algorytmów, ale jeśli wykupi się dostęp premium, pozwalają częściowo lub w pełni przejąć prawa autorskie do tego, co wybrzmi spod myszki. W różnych kierunkach zmierzają też regulacje w różnych krajach.
Co mogą zrobić zaniepokojeni cyfrową konkurencją muzycy? Być może spróbować ucieczki do przodu. „Im bardziej wykonawcy upraszczają swoje piosenki, tym prędzej stracą pracę na rzecz robotów” – uważa Gioia. „Im rzadziej grają z serca, im bardziej polegają na formułkach i naśladownictwie, tym łatwiej będzie ich zastąpić”. Obcowania z żywym, niedoskonałym, ale podobnym do słuchaczy zlepkiem emocji, smutków i radości maszyna nie zastąpi. Przynajmniej do etapu trzeciego.