Marco Rendina: Aloitetaan alusta. Voitteko antaa meille tekstityksen määritelmän?
Mauro Cettolo: Totta kai. Tekstitys on lyhyt teksti, joka yleensä näkyy näytön alareunassa. Monet, elleivät kaikki meistä, ovat nähneet tekstityksiä ainakin kerran elämässämme, esimerkiksi katsoessaan elokuvaa kielellä, jota emme puhu. Ne laajentavat audiovisuaalisen sisällön saatavuutta henkilöihin, jotka joko eivät osaa kieltä, jolla sitä puhutaan, tai eivät eri syistä voi kuunnella ääntä.
MR: Joten tekstitykset ovat käännöksiä siitä, mitä sanotaan?
MC: Itse asiassa on olemassa erilaisia tekstityksiä. Sen lisäksi, että tekstitys tarjoaa käyttäjille todellisia käännöksiä siitä, mitä sanotaan, on tekstitys samalla kielellä kuin puhe, sekä rikkaampi tekstitysmuoto, joka sisältää äänien kuvauksen, mikä tekee sisällöstä helpommin saatavilla.
MR: Minkä tyyppistä tekstitystä AI4Culture-projekti työstää?
Keskitymme kieltenväliseen tekstitykseen ja seuraamme unelmaamme siitä, että videosisältö olisi saatavilla Europeana.eu-sivuston kautta eri kielillä yhä monimuotoisemmalle yleisölle. Tämä on aktiivinen ja haastava tutkimuslinja, joka on viime vuosina nähnyt erilaisten automaattisten lähestymistapojen syntymisen. Näitä ovat niin kutsutut porrastetut lähestymistavat, joissa tehtävää käsitellään erillisten tekoälykomponenttien putkistolla äänen segmentointia, puheen transkriptiota, tekstin kääntämistä ja ajastusta varten. Se sisältää myös uusia ratkaisuja, joissa tehtävä suoritetaan yhdellä hermomallilla, joka on suunniteltu suorittamaan kaikki prosessin vaiheet.
MR: Mitä haasteita tekstityksen automaattisten lähestymistapojen kehittäminen aiheuttaa?
MC: Monikielinen tekstitys ei ole pelkkä käännös. Se on monitahoinen tehtävä, jota monimutkaistaa tarve tasapainottaa monia näkökohtia samanaikaisesti.
Aloitamme äänitulosta: Pelkästään tämä näkökohta erikseen tarkasteltuna asettaa haasteita tällä hetkellä hyvin aktiivisella tutkimusalueella, joka tunnetaan puheen kääntämisenä. Harkitse esimerkiksi sitä, että kirjoitetun tekstin sanat rajaavat välilyönnit, kun taas äänipuheessa meidät tavoittaa jatkuvana virtana, jossa usein sanat tulevat haastaviksi erottaa toisistaan.
Jos tähän lisätään se, että puhutut sanat saavuttavat meidät vääristyneinä tiettyjen aksenttien, ääntämisen, epäröinnin, musiikin ja taustaäänien häiriöiden tai useiden puhujien päällekkäisyyden aiheuttaman sekaannuksen vuoksi, voimme kuvitella vaikeudet, joita kone, ohjelmistomalli, kohtaa näennäisesti yksinkertaisessa tehtävässä, kuten puheen kääntämisessä.
MR: Nyt ymmärrämme, miksi määrittelit tekstityksen monitahoiseksi tehtäväksi! Mikä muu tekee siitä vaikeaa?
MC: No - tekstityksen vaatima käännös on tyypillinen esimerkki siitä, mitä kutsumme rajoitetuksi käännökseksi. Hyvän tekstityksen on täytettävä erityiset vaatimukset, sen on oltava minimaalisesti invasiivinen. Jotta tekstitys olisi käyttäjäystävällinen, sen on minimoitava kognitiivinen kuormitus, jonka käyttäjä tarvitsee tekstin lukemiseen sisältöä katsellessaan. Näin henkilö voi nauttia videosisällöstä ilman häiriötekijöitä ja ennen kaikkea ilman lukemisesta johtuvaa liiallista vaivaa.
MR: Mitä rajoituksia tekstityksen on täytettävä, jotta se ei ole invasiivinen?
MC: Rajoitukset ovat ajallisia, tilallisia ja syntaktisia. Ajallisesta näkökulmasta tekstityksen on oltava täysin linjassa videovirran kanssa, jotta vältetään tilanteet, joissa joku puhuu, mutta emme voi lukea, mitä he sanovat. Tilallisesta näkökulmasta tekstityksen on oltava riittävän ytimekäs, jotta se ei vaadi liikaa aikaa lukea ja vähentää lukemiseen tarvittavia silmien liikkeitä (ns. saccades). Lopuksi on syntaktisia rajoitteita; alaotsikon jakaminen riveihin ei saisi erottaa lauseiden osatekijöitä toisistaan. Nämä eivät ole yleisiä periaatteita: on olemassa tiukat säännöt, vaikkakin hieman erilaiset sisällöntarjoajat.
MR: Onko mahdollista, että koneet suorittavat nämä tehtävät, joita vain muutama vuosi sitten pidettiin saavuttamattomina?
MC: Osittain kyllä, kiitos myös AI4Culturen kaltaisille hankkeille. Nykyään meillä on neuroverkkopohjaisia malleja, jotka pystyvät tuottamaan hyväksyttäviä tekstityksiä eri kielipareille. ”Hyväksyttävä” tarkoittaa, että ne eivät todellakaan sovellu suuriin Hollywood-tuotantoihin, mutta niitä voidaan käyttää siihen valtavaan määrään audiovisuaalista materiaalia, joka muutoin olisi ikuisesti saavuttamattomissa kieliesteiden ja käännösresurssien puutteen vuoksi. Joskus mallimme tekevät edelleen virheitä, jopa hauskoja, mutta olemme oikealla tiellä: Koulutamme malleja tietyille kielille, ja tulokset riittävät välittämään sanotun merkityksen ja, jos mahdollista, sopivat manuaalisiin tarkistuksiin - paljon paremmin kuin alusta alkaen!
MR: Kuulostaa hyvältä - mitkä ovat seuraavat haasteet, joita kohtaamme sitten?
MC: Mainitsen kolme.
Ensimmäinen koskee järjestelmien automaattista arviointia. Tällä hetkellä arvioinnit ovat hajanaisia moniin mittareihin, joiden avulla malleja voidaan arvioida kunkin rajoitteen suhteen. Näiden tuomioiden yhdistäminen yhdeksi pisteeksi on edelleen monimutkainen ongelma, samoin kuin yksi tärkeimmistä tutkimusintresseistäni lähitulevaisuudessa.
Toinen on kielen kattavuus: tänään pystymme käsittelemään hyvin rajallinen joukko kielipareja, enimmäkseen Englanti-keskeinen. Maailmassa on kuitenkin yli 7 000 kieltä, ja useimmille niistä ei ole tietoja eikä tietokonetyökaluja ja -malleja.
Kolmas haaste on ympäristö. Nykypäivän tekoäly pystyy tekemään suuria asioita, mutta niin sanottujen perusmallien energiakustannukset, jotka riippuvat valtavista laskentaresursseista, ovat erittäin korkeat. Vielä paljon tehtävää, mutta AI4Culturen kaltaiset projektit antavat meille mahdollisuuden jakaa työmme maailman kanssa ja edetä yhdessä kentällä.
MR: Kiitos näkemyksistäsi tästä haastavasta ja jännittävästä tutkimusalueesta. Tästä lähtien nautimme tekstityksistä täysin erilaisella ja paljon tietoisemmalla perspektiivillä!
Lue lisää
Myöhemmin tänä kesänä edellä esitetty automaattinen tekstitysputki integroidaan avoimen lähdekoodin ja käyttäjäystävälliseen automaattiseen tekstitystyökaluun. Sen avulla kulttuuriperintölaitokset voivat automaattisesti luoda audiovisuaaliselle materiaalilleen tekstityksen kahdeksalla kielellä, mikä mahdollistaa myös niiden manuaalisen editoinnin ja validoinnin.
Syyskuussa 2024 AI4Culture käynnistää myös alustan, jolla avoimet työkalut, kuten automaattinen tekstitystyökalu, asetetaan saataville verkossa yhdessä niihin liittyvän dokumentaation ja koulutusmateriaalin kanssa.
Seuraa Europeana Pron projektisivua saadaksesi lisätietoja ja pysy ajan tasalla projektin LinkedIn- ja X-tilistä! Tällä hetkellä kaikki automaattisen tekstitysputken käyttöönotosta kiinnostuneet henkilöt voivat tutustua GitHubin avoimen lähdekoodin koodiin.
