Armano Srbljinović: Analiza emocija – od književnih djela do poslovnih izvješća

Razvoj računalne tehnologije otvorio je mnogobrojne nove mogućnosti primjene raznih matematičkih i ostalih analitičkih metoda, često u područjima u kojima takve metode prije baš i nisu bile primjenjivane. U ovom tekstu pokušat ću čitateljima približiti jednu od računalnih metoda analize teksta – analizu sentimenta. Usredotočit ću se na primjenu analize sentimenta u području koje nam obično ne pada prvo na pamet u kontekstu računalnih metoda – u analizama fabule proznih književnih djela. Na kraju ću se kratko osvrnuti na još neke „pragmatičnije” primjene analize sentimenta u ekonomiji i političkim znanostima.

Kurt Vonnegut i tipični oblici fabule

Američki književnik Kurt Vonnegut (1922. – 2007.) u svojim se djelima volio poigravati fabulom. Njegova prva knjiga, „Mehanički pijanino” (Player Piano), futuristička distopija na tragu Huxleyjeva „Divnog novog svijeta”, ima još kakvu-takvu fabulu, a u kasnijim mu se djelima fabula sve više gubi. Antiratna „Klaonica 5” (Slaughterhouse-Five) ima nelinearnu strukturu, dok je u pretencioznom „Galapagosu” fabula destruirana do te mjere da su imena likova koji će uskoro umrijeti unaprijed označena zvjezdicom.

Pomalo je paradoksalno da je autor koji nije previše mario za fabulu svojedobno Sveučilištu u Chicagu predložio temu magistarskog rada o tipičnim oblicima fabule književnih djela. Teza je odbijena s obrazloženjem da je prejednostavna i nedovoljno ozbiljna, no Vonneguta to nije spriječilo da svoje zamisli nastavi propagirati putem javnih predavanja. Osim što je bio vrstan pisac, Vonneguta je krasio i smisao za šou, tako da je nemoguće prepričati njegovo izlaganje, tijekom kojeg nikad niste sigurni što je šala, a što predavač misli ozbiljno. Stoga čitateljima preporučujem pogledati barem četveroipolminutni isječak iz jednog od njegovih predavanja čija se snimka i dalje može naći na YouTubeu.

Ukratko, Vonnegutova je osnovna zamisao na x-osi prikazati vremenski razvoj fabule, iskazan, recimo, sukcesivnim brojevima stranica (ili redaka) u knjizi, dok y-os prikazuje sudbinu glavnog junaka, koja može varirati od krajnje loše (negativni pol, u Vonnegutovoj terminologiji: ill fortune) do krajnje dobre (pozitivni pol, good fortune). Vonnegut tvrdi da postoji nekoliko tipičnih oblika krivulje koja predstavlja fabulu u takvom prikazu: glavni junak počne dobro, zatim se susreće s mnoštvom teškoća, no na kraju se ipak izvuče („čovjek u gabuli”, man in a hole):

b) glavnom junaku ide veoma dobro, onda veoma loše, na kraju se opet izvuče („mladić susreće djevojku”, boy meets girl):

c) glavnom junaku krene loše, u nizu koraka mu se sudbina veoma popravi, onda doživi nagli pad i na kraju se opet izvuče („Pepeljuga”; s obzirom na to da ovaj oblik nije baš „elementaran”, pretpostavljam da tu ima i vonegatovske (auto)ironije):

Isječak iz predavanja koji sam spomenuo ne sadržava još dva elementarna oblika, koji su vrlo jednostavni i neću ih ovdje grafički prikazivati, a Vonnegut ih naziva „Kafka” i „Hamlet“. „Kafka” je oblik u kojem glavni junak počne loše i što dalje, sve mu je gore, a „Hamlet” ili „ni dobre ni loše vijesti” zapravo je samo ravna crta koja se poklapa s x-osi. Detaljnije i o tim oblicima možete pročitati ovdje.

Vonnegut je preminuo 2007. godine, ne dočekavši akademsku provjeru svojih zamisli, no desetak godina poslije pojavila su se čak dva rada kojima se pokušalo potvrditi Vonnegutovu tezu – onaj Matthewa Jockersa iz 2015. i još jedan Andrewa Reagana i suradnika iz 2016. godine. Oba rada koriste se tzv. „analizom sentimenta” za grafičke prikaze fabula, a razlikuju se u nekim tehničkim detaljima. O radu Reaganova tima saznao sam iz članka u The Atlanticu i općenito mi se čini da je taj rad nešto poznatiji pa se u nastavku uglavnom bavim njime. No, prije toga nekoliko riječi o tome što je uopće analiza sentimenta.

Analiza sentimenta

Analiza sentimenta (sentiment analysis) računalna je metoda analize teksta kojom se prebrajaju „emocionalno obojene” riječi u tekstu. Kako računalo zna koje su riječi emocionalno obojene? Pa jednostavno tako da u svojoj memoriji ima svojevrsni „leksikon emocionalno obilježenih pojmova” i za svaku riječ na koju naiđe provjeri nalazi li se u tom leksikonu. Najjednostavnije metode razlikuju samo „pozitivno” i „negativno” emocionalno obojene riječi. Pritom negacija mijenja emocionalni „polaritet” (polarity) ili „valentnost” (valence) riječi na koju se ta negacija odnosi u suprotan: „sretan” ima pozitivan, a „nisam sretan” negativan polaritet. Pojedini izrazi (amplifiers/deamplifiers) služe za pojačavanje, odnosno smanjivanje, intenziteta: „veoma sretan” ima veći polaritet od „sretan”; „donekle sretan” ima manji polaritet od „sretan”. Složenije metode analize sentimenta ne razlikuju samo polaritet (pozitivna/negativna), nego i tip emocije koju riječ izražava, npr. strah („bojim se”), ljutnju („do đavola”), tugu („žalosno”) itd. Za primjenu tih složenijih metoda potrebni su i složeniji emocionalni leksikoni koji posebno popisuju riječi kojima se izražava svaka pojedina emocija koja je analizom obuhvaćena.

Primjerice, ako je za knjigu „Moby Dick“ Hermana Melvillea na x-osi broj retka, od početka (nula) do kraja knjige, a na y-osi emocionalni polaritet izračunan redak po redak, onda jednom (jednostavnijom) metodom analize sentimenta, koju nudi programski paket R, dobijemo sljedeći grafikon:

Ispostavlja se, dakle, da veći dio knjige ima negativni emocionalni polaritet, s kraćim „izletima u pozitivu” oko 4 000. i 16 000. retka, te na samom kraju knjige, oko 22 000. retka, kad se postiže maksimum pozitivnog polariteta. Premda završni pozitivni polaritet nije veoma visok, viši je nego u ostatku knjige pa zaključujemo da djelo ima relativno sretan svršetak.

Rad Reaganova tima

Reaganov tim proveo je analizu sentimenta na približno 1 300 tekstova koji su slobodno dostupni u najstarijoj digitalnoj knjižnici u sklopu tzv. Projekta Gutenberg. Nakon toga su specijaliziranim matematičkim metodama (kombinacijom analize glavnih komponenata, hijerarhijske klaster analize i samoorganizirajućih mapa) klasificirali 1 300 dobivenih rezultata u šest kategorija koje bi trebale predstavljati Vonnegutove tipične oblike fabula: (1) „od trnja do zvijezda” ili „uspon” (rags to richesrise), (2) „tragedija” ili „od zvijezda to trnja” ili „pad” (tragedyriches to ragsfall), (3) „čovjek u gabuli” ili „pad pa uspon” (man in a holefall then rise), (4) „Ikar” ili „uspon pa pad” (Icarusrise then fall), (5) „Pepeljuga” ili „uspon pa pad pa uspon” (Cinderellarise then fall then rise) i (6) „Edip” ili „pad pa uspon pa pad” (Oedipusfall then rise then fall).

Premda se tih šest kategorija ne poklapa baš sasvim s Vonnegutovih pet predloženih elementarnih formi, moglo bi se ipak reći da je Vonnegut dobio zadovoljštinu – osnovni oblici fabule postoje i mogu se identificirati. No, na Vonnegutovu žalost, ubrzo su otkrivene neke slabosti rada Reaganova tima zbog kojih se još uvijek ne može reći da je Vonnegutova teza potvrđena.

NaimeBen Schmidt istaknuo je da rad Reagana i suradnika ima nekoliko nedostataka. Prvo, uzorak od oko 1 300 tekstova s kojim je Reaganov tim radio biran je automatski i na ne sasvim zadovoljavajuć način, tako da Schmidt tvrdi da čak oko 40 % uzorka čine tekstovi koji uopće nisu književna djela – ima tu osobnih svjedočanstava, političkih eseja, uputa o gradnji kućica za ptice, psiholoških i drugih tekstova koje sadržava repozitorij Projekta Gutenberg, a koji uopće ne pripadaju kategoriji tekstova s fabulom.

Drugo, test kojim se koristio Reaganov tim kako bi pokazao značajnost svojih nalaza jednostavno je preslab. Naime, Reagan i suradnici za svaki su analizirani tekst slučajno ispremiješali riječi od kojih se on sastoji (tj. napravili tzv. „salatu riječi”) i proveli kontrolnu analizu na takvim, slučajnim verzijama originalnih tekstova te pokazali da na tim verzijama nije moguće jasno identificirati šest kategorija fabule. Takav je test slab, jer sve što on pokazuje jest da se u smislenim tekstovima mogu pronaći neki obrasci kojih u slučajno ispremiješanim tekstovima nema, što je manje-više trivijalna činjenica. Schmidt pomalo ironično primjećuje da je takav nalaz usporediv s onim da pokažemo da cijene na burzi pokazuju pravilnosti kojih nema u posve slučajnim nizovima brojeva te da na temelju toga tvrdimo da možemo predviđati cijene na burzi.

Treće, i možda najvažnije pitanje glasi: je li analiza sentimenta uopće prikladna za provjeru Vonnegutove teze? Naime, analiza sentimenta usredotočena je na emocionalni polaritet fabule, dok je Vonnegut izvorno na y-os smjestio sudbinu glavnog junaka (ill fortune/good fortune). Ta dva koncepta mogu se činiti sličnima, no ne poklapaju se nužno. Primjerice, ako je glavni junak negativac, i autor o njemu piše u negativnom tonu, analiza sentimenta pokazat će negativni polaritet. Pritom, međutim, sudbina tog negativca ne mora nužno biti loša, ili barem ne odmah na početku pripovijesti. Imat ćemo, dakle, diskrepanciju između negativnog polariteta i „pozitivne” sudbine. Stoga ne treba čuditi što Schmidt smatra da analiza sentimenta nije prikladna za provjeru Vonnegutove teze. Sâm Schmidt predložio je alternativnu metodu računalne analize fabule – „pripovjedne krivulje” (plot arcs). Koliko je autoru ovog teksta poznato, ta metoda još nije upotrijebljena za provjeru Vonnegutove teze, ali jest za jezične analize filmova i televizijskih serija. Schmidt općenito smatra da je za analizu fabule važnije detektirati obrasce dizanja i spuštanja tenzije, nego svaku emocionalno obojenu riječ u tekstu.

Korisnost računalnih metoda analize teksta

S obzirom na gore navedene nedostatke, je li rad Reagana i suradnika beskoristan? Rekao bih da nije. Naime, netko tko će se sljedeći okušati na Vonnegutovoj tezi sada zna da treba biti pažljiviji s uzorkom, da treba koristiti jači test te da, ako želi provjeriti baš Vonnegutov izvorni iskaz, analiza sentimenta za to nije najpogodnija.

Još jedno pitanje koje bi se moglo postaviti jest ono u vezi s korisnošću računalnih metoda analize teksta općenito. Nekome bi se možda moglo učiniti da pitanje osnovnih oblika fabule baš i nije najvažnije pitanje na svijetu te da ono više pripada domeni intelektualnih kurioziteta. Imaju li metode tog tipa i „pragmatičnije” primjene? Odgovor je potvrdan. Jedno od najčešćih područja primjene analize sentimenta u poslovnom svijetu jesu analize tekstualnih ocjena raznih proizvoda i usluga koje daju njihovi kupci, odnosno korisnici. Takve su analize korisne za unapređivanje proizvoda i usluga te osmišljavanje odgovarajućih marketinških strategija, a primjenjuju se i u automatskim sustavima za preporučivanje sličnih sadržaja na Internetu ili sličnih proizvoda za kupnju.

Nedavno je u jednom tehničkom izvješću kompanije Ericsson predloženo također da se analiza sentimenta primijeni na izvješća izvršnih direktora (CEO-a) velikih kompanija. U posljednjih nekoliko godina to je doista i učinjeno te već postoji više radova na tu temu. Svrha je takvih istraživanja ispitati upotrebljivost analize sentimenta i sličnih računalnih metoda u procjenama budućeg poslovanja kompanija. S tim u vezi, širem krugu čitatelja može biti zanimljiv primjer koji, doduše, ne potječe iz znanstvenih časopisa, ali je ilustrativan i prikazuje rezultate analize sentimenta pisama Warrena Buffeta dioničarima.

Primjeri iz političkih znanosti obuhvaćaju, među ostalim, analizu sentimenta objava na Twitteru (tzv. tweetova) u vezi s američkim predsjedničkim izborima te donekle sličnu analizu tweetova za vrijeme Arapskog proljeća u Egiptu 2011. godine. Spomenut ću još i ambiciozni projekt mapiranja emocija izraženih na Twitteru, na razmeđu medicinskih, političkih i ekonomskih znanosti.

Zanimljivo je, također, da su se počeli pojavljivati i prvi rezultati analiza sentimenta s Twittera u vezi s pandemijom virusa SARS-CoV-2, a Institut inženjera elektrotehnike i elektronike (IEEE) omogućio je pristup velikim skupovima tweetova na tu temu, kako bi se što više olakšao posao potencijalnim istraživačima. U svom sam prošlom članku pisao o društvenom dijeljenju emocija poput panike. Analiza sentimenta na društvenim mrežama poput Twittera predstavlja upravo jedan od zanimljivih daljnjih pravaca istraživanja procesa širenja emocija. Ako to može biti neka utjeha, u ova ne baš laka vremena otvaraju se, eto, i neke nove mogućnosti istraživanja. A ako još sačuvamo i malo smisla za humor, po uzoru na, recimo, Vonneguta, budućnost nam se možda više neće činiti tako teškom! (Heretica.com.hr)

O autoru:

Prati me blagoslov, ili možda prokletstvo, interdisciplinarnosti – diplomirao sam matematiku, magistrirao računalne znanosti, doktorirao sociologiju. Objavio sam – što u časopisima, što na konferencijama – šezdesetak radova na tromeđi tih područja. Na Heretici namjeravam na popularan način pisati o primjenama matematike i računarstva u društvenim znanostima. Živim u Zagrebu, gdje sam i upoznao suprugu Jasminu, na pola puta između naših dvaju rodnih gradova – Križevaca i Karlovca.Volim rock i jazz, a trenutno najviše slušam glas jednog simpatičnog malog dječaka.

Vezano

Komentari su zatvoreni.