Je umetna inteligenca res že tako napredovala, da lahko sama ustvarja vsebine? Nedavno sem se soočil z izzivom izbire darila za svojo starejšo hčer, ki je praznovala šesti rojstni dan. Vedno se trudim, da bi darilu dodal osebno noto, da bi imelo dolgoročno tudi sentimentalno vrednost. Padla je ideja, da izdelam personalizirano knjigico, v kateri bi povzel dogodke in pustolovščine, ki jih je Lara (moja starejša hči) doživela v preteklem letu.
Spomnil sem se, kako sem ob njenem rojstvu pri blagovni znamki, specializirani za tovrstne “personalizirane” knjige za vse priložnosti, naročil takšno knjigo za novorojenko Laro. Izbral sem lahko zgolj ime deklice, predvidel, kako bo videti, ko odraste, in izbral deset od petnajstih možnih zgodb. Po približno tednu dni smo v nabiralnik prejeli “personalizirano” knjigo z likom Lare v različnih (izbranih) scenarijih. Raven prilagoditve ni bila pretirano visoka – izbrani lik se je pojavljal v izbranih scenah, njeno ime pa je bilo dodano na kakšno sliko.
Šest let kasneje je Lara seveda odrasla malenkost drugače, kot smo si predstavljali ob njenem rojstvu, zato je danes ta knjiga le še ena med vsemi neosebnimi knjigami, ki jih je dobila za razna darila. Ko jo Lara danes vzame v roke, se v njej ne prepozna. Zato je bila moja motivacija še toliko večja, da naredim boljši izdelek, kot sem ga (kar drago) plačal ob njenem rojstvu in ki na koncu ni imel prav velike vrednosti.
Ko sem začel z delom, sem ugotovil, da bo moja misija vsebovala tri glavne korake:
- Priprava zgodb
- Priprava slik za vizualno podporo zgodbam
- Sistem za združitev zgodb in slik v obliko, pripravljeno za tisk
Zgodbe
Sem takšna oseba, da mi je neverjetno težko ustvariti ustrezno vsebino, ko sedim pred praznim listom papirja, pa naj bo to fikcija ali resnične zgodbe. Še posebej, če naj bodo zgodbe predstavljene na zanimiv način za šestletnico. Zato sem sklenil, da bom vsebino poskusil pripraviti s pomočjo umetne inteligence. Pripravil sem seznam desetih dogodkov, ki so se Lari zgodili v preteklem letu, in za vsak dogodek zapisal približno tri kratke oporne točke, ki bi AI-ju služile kot ideje.
Nato sem se obrnil na umetno inteligenco. ChatGPT-jevemu modelu 4 sem “naročil”, naj posnema slog pisanja Larine najljubše pisateljice Paulette Bourgeois, avtorice serije o želvaku Frančku. Prav tako sem ga usmeril, naj piše vsebine, osredotočene na izobraževanje, pozitivnost in primernost za šestletnike. Ko sem vnesel vseh deset dogodkov in ključne točke za vsak scenarij, moram priznati, da so me rezultati pozitivno presenetili — še posebej glede na to, da je bila vsebina ustvarjena v slovenščini, kjer ima ChatGPT včasih težave z jezikom.
Tako sem imel pokrit vsebinski del.
Slike
Že pred časom sem precej eksperimentiral z naprednimi orodji za generiranje slik, kot je Midjourney. Vse lepo in prav, a ko gre za uporabo ponavljajočega se lika (“consistent character”), Midjourney ni najboljša izbira, saj modela ne moreš naučiti na naboru lastnih fotografij resničnih oseb. Lahko mu naročiš, da ustvari “consistent character” na podlagi ene fotografije, vendar zaradi pomanjkanja učnih materialov rezultati niso dovolj podobni izvirniku in sem kot rezultat večinoma dobival skropucala.
Zato sem uporabil model Flux, ki sem ga poganjal na platformi Replicate in ga naučil na naboru originalnih slik — dokumentacija priporoča med 8 in 20 slikami; jaz sem jih uporabil 18. Pred učenjem modela je možno nastaviti tudi različne parametre učenja, od števila korakov pa do LoRA parametrov. Kombinacije teh parametrov na koncu dajo dokaj različne rezultate, zato si je na tem koraku smiselno vzeti več časa in naštudirati parametre ter njihov učinek v končnem izdelku. Učenje modela na lastnih slikah traja nekje med 30 minutami in eno uro ter stane približno 2–3 evre za porabljeno računsko moč. Vsaka generirana slika že streniranega modela pa potem stane zgolj nekaj centov. Poleg tega, da model plačuješ po porabi — torej brez naročnin kot na Midjourneyu — so rezultati bistveno boljši kot pri ostalih modelih.
Za prompte za model Flux sem uporabil isti ChatGPT kot za zgodbe.
Med samim procesom sem opazil, da je model Flux boljši pri generiranju fotografij kot ilustracij. Pri ilustracijah sem moral včasih večkrat ponoviti prompt, da sem dobil dober rezultat. Prav tako sem opazil, da se pri scenah, ki niso dobro zastopane na spletu — kjer se ti modeli običajno učijo — slike nagibajo k specifičnemu slogu, ki ga nisem navedel v promptu. Predvidevam, da model nima dovolj ustreznih podatkov za konsistentne ter relevantne rezultate. Ko sem nekoliko prilagodil prompt — odstranil kakšno besedo ali jo nadomestil s podobno — je model ustvaril dobre rezultate.

Združevanje vsega skupaj
Imel sem torej zgodbe in ilustracije z našo slavljenko. Za sam sistem združevanja besedil z grafičnimi elementi sem se odločil za orodje Figma, kjer sem z nastavitvami okvirjev (“frame”-ov), razmikov (“padding”-ov) in Auto-layouta dobršen del kreacije končnega izdelka avtomatiziral, tako da sem na posameznih straneh preko grafičnega vmesnika menjal samo slike. Slike sem s prednastavljeno masko tudi obdelal, da dobijo malo gradienta, kar na težjem papirju izgleda zares vrhunsko. Najbolj pomembno mi je bilo, da sem na koncu dosegel, da je bila razporeditev strani za tisk popolnoma konsistentna in da ob listanju po knjižici dobiš tisti premium občutek kot pri resnih tiskarskih izdelkih.

Končni Izdelek
Na koncu mi je uspelo izdelati 15-stransko knjigo, ki sem jo podaril Lari. Obožujem, ko doma narejena darila pri otrocih resnično zaživijo, in s to knjigo je bilo točno tako. Lara je bila navdušena! Še posebej ji je bilo všeč, da se je takoj prepoznala kot glavna junakinja knjige in vzkliknila: “Oči, to sem jaz!” Druga velika prednost v primerjavi z generičnimi knjigami je, da je vsebina popolnoma prilagojena njej — zgodbe, ki so se ji resnično zgodile v preteklem letu. Zdaj se vsak večer pred spanjem zatopiva v branje njenih zgodb in razglabljava o preteklih dogodivščinah.
Na splošno pa me je najbolj presenetilo, kako je tehnologija umetne inteligence na področju generativnih slik v zadnjem letu napredovala in kako dostopna je postala. Brez potrebe po superračunalniku ali zmogljivih grafičnih karticah lahko za nekaj evrov naučiš svoj model in sproti ustvarjaš slike ter plačuješ po uporabi. Ob kombinaciji parih znanj lahko doma dejansko izdelaš izdelke, ki so bili še pred kratkim popolnoma v domeni specializiranih podjetij.