Nära möten med AI: en intervju om automatisk textning

Publicerad 13 juni 2024 av

Marco Rendina (European Fashion Heritage Association)

Mauro Cettolo (Bruno Kessler Foundation)

Marco Rendina: Låt oss börja från början. Kan du ge oss en definition av undertexter?

Mauro Cettolo: Visst är det så. Undertexter är korta textstycken som vanligtvis visas längst ner på en skärm. Många, om inte alla, har sett undertexter åtminstone en gång i våra liv, till exempel när vi tittar på en film på ett språk vi inte talar. De utvidgar tillgängligheten till audiovisuellt innehåll till personer som antingen inte kan språket som det talas på eller, av olika skäl, inte kan lyssna på ljudet.

MR: Ah, naturligtvis, så undertexter är översättningar av vad som sägs?

MC: Det finns faktiskt olika typer av undertextning. Förutom undertexter som presenterar användare med faktiska översättningar av vad som sägs, finns det textning på samma språk som talet, liksom en rikare form av undertextning, vilket inkluderar beskrivning av ljud, vilket gör innehållet mer tillgängligt.

MR: Vilken typ av textning arbetar AI4Culture-projektet med?

Vi fokuserar på flerspråkig textning, i enlighet med vår dröm om att göra videoinnehållet tillgängligt via Europeana.eu på flera språk för en allt mer varierad publik. Detta är en aktiv och utmanande forskningslinje som under de senaste åren har sett framväxten av olika automatiska tillvägagångssätt. Dessa omfattar de så kallade kaskadstrategierna, där uppgiften hanteras genom en pipeline av separata AI-komponenter för ljudsegmentering, taltranskription, textöversättning och temporisering. Det innehåller också nya lösningar, där uppgiften utförs av en enda neural modell utformad för att utföra alla steg i processen.

MR: Vilka utmaningar innebär utvecklingen av automatiska metoder för textning?

MC: Undertextning på flera språk är inte bara en översättning. Det är en mångfacetterad uppgift som kompliceras av behovet av att balansera många aspekter samtidigt.

Vi utgår från ljudingången: Enbart denna aspekt, betraktad för sig, innebär utmaningar inom ett forskningsområde som är mycket aktivt idag, så kallat Speech Translation. Tänk till exempel på att ord i skriven text avgränsas av mellanslag, medan i ljudtal når oss som en kontinuerlig ström, där ord ofta blir utmanande att skilja från varandra.

Om vi lägger till det faktum att talade ord når oss förvrängda av specifika accenter, uttal, tvekan, med störningar av musik och bakgrundsljud, eller med den förvirring som orsakas av överlappningen av flera högtalare, kan vi föreställa oss de svårigheter som en maskin, en mjukvarumodell, står inför i en till synes enkel uppgift som att översätta tal.

MR: Nu förstår vi varför du definierade undertextning som en mångfacetterad uppgift! Vad mer gör det svårt?

MC: Tja - den typ av översättning som krävs av undertextning är ett typiskt exempel på vad vi kallar begränsad översättning. En bra undertext måste uppfylla specifika krav, den måste vara minimalt invasiv. För att vara användarvänlig måste undertexter minimera den kognitiva belastning som krävs för att användaren ska kunna läsa texten medan han eller hon tittar på innehållet. På så sätt kan en person njuta av videoinnehållet utan distraktioner och framför allt utan överdriven ansträngning på grund av läsning.

MR: Vilka begränsningar måste en undertext uppfylla för att undvika att vara invasiv?

MC: Restriktioner är temporala, rumsliga och syntaktiska. Ur tidssynpunkt måste undertexter vara perfekt anpassade till videoströmmen, för att undvika situationer där någon talar men vi kan inte läsa vad de säger. Ur rumslig synvinkel måste undertexterna vara tillräckligt koncisa för att inte kräva för mycket tid att läsa och minska ögonrörelserna (så kallade sackader) som är nödvändiga för läsning. Slutligen finns det syntaktiska begränsningar. Uppdelningen av en undertext i rader bör inte skilja frasernas beståndsdelar åt. Dessa är inte allmänna principer: Det finns strikta regler, även om de skiljer sig något mellan olika innehållsleverantörer.

MR: Är det möjligt för maskiner att utföra dessa uppgifter som för bara några år sedan ansågs ouppnåeliga?

MC: Delvis, ja, tack också till projekt som AI4Culture. Idag har vi neurala nätverksbaserade modeller som kan generera acceptabla undertexter för olika språkpar. ”Acceptable” innebär att de verkligen inte lämpar sig för stora Hollywoodproduktioner, men kan användas för den enorma mängd audiovisuellt material som annars för alltid skulle förbli oåtkomligt på grund av språkbarriärer och brist på resurser för översättning. Ibland gör våra modeller fortfarande misstag, även roliga sådana, men vi är på rätt väg: Vi tränar modeller på specifika språk, och resultaten är tillräckliga för att förmedla innebörden av vad som sades och, om möjligt, är lämpliga för manuella revideringar - mycket bättre än att börja från början!

MR: Låter bra - vilka är de kommande utmaningarna vi kommer att möta då?

MC: Jag ska nämna tre.

Den första gäller den automatiska utvärderingen av systemen. För närvarande är våra utvärderingar uppdelade i en mängd mätvärden för att bedöma modeller mot var och en av de begränsningar som står på spel. Att kombinera dessa bedömningar till en enda poäng är fortfarande ett komplext problem, liksom ett av mina huvudsakliga forskningsintressen inom den närmaste framtiden.

Den andra är språktäckningen: Idag kan vi hantera en mycket begränsad uppsättning språkpar, mestadels engelskcentrerade. Det finns dock över 7 000 språk i världen och för de flesta av dem finns det ingen data eller datorverktyg och modeller.

Den tredje utmaningen är miljön. Dagens AI kan göra stora saker, men energikostnaderna för de så kallade grundmodellerna, som är beroende av enorma beräkningsresurser, är extremt höga. Fortfarande mycket att göra, men projekt som AI4Culture ger oss chansen att dela vårt arbete med världen och gemensamt avancera inom området.

MR: Tack för dina insikter i detta utmanande och spännande forskningsområde. Från och med nu kommer vi att njuta av undertexter med ett helt annat och mycket mer medvetet perspektiv!

Läs mer

Senare i sommar kommer den automatiska undertextningspipeline som presenteras ovan att integreras i ett användarvänligt automatiskt undertextningsverktyg med öppen källkod. Det kommer att göra det möjligt för kulturarvsinstitutioner att automatiskt skapa undertexter på åtta språk för sitt audiovisuella material, vilket även möjliggör manuell redigering och validering.

I september 2024 kommer AI4Culture också att lansera en plattform där öppna verktyg, såsom det automatiska textningsverktyget, kommer att göras tillgängliga online, tillsammans med tillhörande dokumentation och utbildningsmaterial.

Håll ett öga på projektsidan på Europeana Pro för mer information och håll ögonen öppna på projektet LinkedIn och X-konto! För närvarande kan alla som är intresserade av att distribuera den automatiska undertextningspipelinen utforska den öppna källkod som finns tillgänglig på GitHub.

Nära möten med AI: en intervju om automatisk textning

Dela

Läs mer

Upptäck relaterat innehåll