Στενές επαφές με την τεχνητή νοημοσύνη: συνέντευξη για τον αυτόματο υποτιτλισμό

Δημοσιεύτηκε 13 Ιουνίου 2024 με

Marco Rendina (European Fashion Heritage Association)

Mauro Cettolo (Bruno Kessler Foundation)

Μάρκο Ρεντίνα: Ας ξεκινήσουμε από την αρχή. Μπορείτε να μας δώσετε έναν ορισμό των υπότιτλων;

Mauro Cettolo: Ναι, φυσικά. Οι υπότιτλοι είναι μικρά κομμάτια κειμένου που εμφανίζονται συνήθως στο κάτω μέρος μιας οθόνης. Πολλοί, αν όχι όλοι μας, έχουμε δει υπότιτλους τουλάχιστον μία φορά στη ζωή μας, για παράδειγμα, όταν παρακολουθούμε μια ταινία σε μια γλώσσα που δεν μιλάμε. Διευρύνουν την προσβασιμότητα του οπτικοακουστικού περιεχομένου σε άτομα που είτε δεν γνωρίζουν τη γλώσσα στην οποία ομιλείται είτε, για διάφορους λόγους, δεν μπορούν να ακούσουν τον ήχο.

MR: Φυσικά, οι υπότιτλοι είναι μεταφράσεις των όσων λέγονται;

MC: Στην πραγματικότητα, υπάρχουν διαφορετικοί τύποι υποτιτλισμού. Εκτός από τους υπότιτλους που παρουσιάζουν στους χρήστες πραγματικές μεταφράσεις των όσων λέγονται, υπάρχει υποτιτλισμός στην ίδια γλώσσα με την ομιλία, καθώς και μια πλουσιότερη μορφή υποτιτλισμού, η οποία περιλαμβάνει την περιγραφή των ήχων, καθιστώντας το περιεχόμενο πιο προσιτό.

MR: Σε τι είδους υποτιτλισμό εργάζεται το έργο AI4Culture;

Εστιάζουμε στον διαγλωσσικό υποτιτλισμό, ακολουθώντας το όνειρό μας να καταστήσουμε το περιεχόμενο βίντεο διαθέσιμο μέσω του Europeana.eu προσβάσιμο σε όλες τις γλώσσες σε ένα ολοένα και πιο ποικιλόμορφο κοινό. Αυτή είναι μια ενεργή και προκλητική γραμμή έρευνας που τα τελευταία χρόνια έχει δει την εμφάνιση διαφόρων αυτόματων προσεγγίσεων. Σε αυτές περιλαμβάνονται οι λεγόμενες «διαδοχικές» προσεγγίσεις, όπου το έργο αντιμετωπίζεται με μια σειρά χωριστών κατασκευαστικών στοιχείων ΤΝ για την κατάτμηση του ήχου, τη μεταγραφή ομιλίας, τη μετάφραση κειμένου και τον χρονικό προσδιορισμό. Περιλαμβάνει επίσης καινοτόμες λύσεις, όπου η εργασία εκτελείται από ένα μόνο νευρωνικό μοντέλο που έχει σχεδιαστεί για να εκτελεί όλα τα βήματα της διαδικασίας.

MR: Ποιες προκλήσεις θέτει η ανάπτυξη αυτόματων προσεγγίσεων για τον υποτιτλισμό;

MC: Ο διαγλωσσικός υποτιτλισμός δεν είναι απλή μετάφραση. Πρόκειται για ένα πολύπλευρο έργο, το οποίο περιπλέκεται περισσότερο από την ανάγκη ταυτόχρονης εξισορρόπησης πολλών πτυχών.

Ξεκινάμε από την είσοδο ήχου: η πτυχή αυτή από μόνη της, θεωρούμενη μεμονωμένα, παρουσιάζει προκλήσεις σε έναν ερευνητικό τομέα που είναι πολύ δραστήριος σήμερα, γνωστός ως Μετάφραση Λόγου. Σκεφτείτε, για παράδειγμα, το γεγονός ότι οι λέξεις στο γραπτό κείμενο οριοθετούνται από χώρους, ενώ στην ηχητική ομιλία μας φτάνει ως ένα συνεχές ρεύμα, στο οποίο συχνά οι λέξεις γίνονται δύσκολο να διακριθούν μεταξύ τους.

Αν προσθέσουμε σε αυτό το γεγονός ότι οι προφορικές λέξεις φτάνουν σε μας διαστρεβλωμένες από συγκεκριμένες προφορές, προφορά, δισταγμούς, με την παρέμβαση της μουσικής και των θορύβων του περιβάλλοντος ή με τη σύγχυση που προκαλείται από την επικάλυψη πολλαπλών ομιλητών, μπορούμε να φανταστούμε τις δυσκολίες που αντιμετωπίζει μια μηχανή, ένα μοντέλο λογισμικού, σε ένα φαινομενικά απλό έργο όπως η μετάφραση ομιλίας.

MR: Τώρα καταλαβαίνουμε γιατί ορίσατε τον υποτιτλισμό ως ένα πολύπλευρο έργο! Τι άλλο το κάνει δύσκολο;

MC: Λοιπόν - το είδος της μετάφρασης που απαιτείται από τον υποτιτλισμό είναι ένα τυπικό παράδειγμα αυτού που ονομάζουμε περιορισμένη μετάφραση. Ένας καλός υπότιτλος πρέπει να πληροί συγκεκριμένες απαιτήσεις, πρέπει να είναι ελάχιστα επεμβατικός. Για να είναι φιλικοί προς το χρήστη, οι υπότιτλοι πρέπει να ελαχιστοποιούν το γνωστικό φορτίο που απαιτείται για να διαβάσει ο χρήστης το κείμενο ενώ παρακολουθεί το περιεχόμενο. Με αυτόν τον τρόπο, ένα άτομο μπορεί να απολαύσει το περιεχόμενο του βίντεο χωρίς περισπασμούς και, πάνω απ 'όλα, χωρίς υπερβολική προσπάθεια λόγω ανάγνωσης.

MR: Ποιοι περιορισμοί πρέπει να πληροί ένας υπότιτλος για να μην είναι επεμβατικός;

MC: Οι περιορισμοί είναι χρονικοί, χωρικοί και συντακτικοί. Από χρονική άποψη, οι υπότιτλοι πρέπει να είναι απόλυτα ευθυγραμμισμένοι με τη ροή βίντεο, για να αποφευχθούν καταστάσεις όπου κάποιος μιλάει, αλλά δεν μπορούμε να διαβάσουμε τι λένε. Από χωρική άποψη, οι υπότιτλοι πρέπει να είναι αρκετά συνοπτικοί ώστε να μην απαιτούν πολύ χρόνο για να διαβαστούν και να μειωθούν οι κινήσεις των ματιών (γνωστές ως saccades) που είναι απαραίτητες για την ανάγνωση. Τέλος, υπάρχουν συντακτικοί περιορισμοί. ο διαχωρισμός ενός υποτίτλου σε γραμμές δεν θα πρέπει να διαχωρίζει τα συστατικά των φράσεων. Δεν πρόκειται για γενικές αρχές: υπάρχουν αυστηροί κανόνες, αν και ελαφρώς διαφορετικοί μεταξύ των παρόχων περιεχομένου.

MR: Είναι δυνατόν οι μηχανές να εκτελούν αυτές τις εργασίες που, μόλις πριν από λίγα χρόνια, θεωρήθηκαν ανέφικτες;

MC: Εν μέρει, ναι, χάρη και σε έργα όπως το AI4Culture. Σήμερα έχουμε νευρωνικά μοντέλα βασισμένα σε δίκτυα ικανά να παράγουν αποδεκτούς υπότιτλους για διαφορετικά ζεύγη γλωσσών. «Αποδεκτό» σημαίνει ότι σίγουρα δεν είναι κατάλληλο για μεγάλες παραγωγές του Χόλιγουντ, αλλά μπορεί να χρησιμοποιηθεί για τον τεράστιο όγκο οπτικοακουστικού υλικού που διαφορετικά θα παρέμενε για πάντα απρόσιτο λόγω γλωσσικών φραγμών και έλλειψης πόρων για μετάφραση. Μερικές φορές τα μοντέλα μας εξακολουθούν να κάνουν λάθη, ακόμη και αστεία, αλλά είμαστε στο σωστό δρόμο: εκπαιδεύουμε μοντέλα σε συγκεκριμένες γλώσσες και τα αποτελέσματα είναι επαρκή για να μεταδώσουν το νόημα των όσων ειπώθηκαν και, αν είναι δυνατόν, είναι κατάλληλα για χειροκίνητες αναθεωρήσεις - πολύ καλύτερα από ό, τι ξεκινώντας από το μηδέν!

MR: Ακούγεται υπέροχο - ποιες είναι οι επόμενες προκλήσεις που θα αντιμετωπίσουμε τότε;

MC: Θα αναφέρω τρεις.

Η πρώτη αφορά την αυτόματη αξιολόγηση των συστημάτων. Προς το παρόν, οι αξιολογήσεις μας είναι κατακερματισμένες σε ένα πλήθος μετρήσεων για την αξιολόγηση μοντέλων σε σχέση με κάθε έναν από τους περιορισμούς που παίζουν. Ο συνδυασμός αυτών των κρίσεων σε μια ενιαία βαθμολογία παραμένει ένα σύνθετο πρόβλημα, καθώς και ένα από τα κύρια ερευνητικά μου ενδιαφέροντα στο άμεσο μέλλον.

Το δεύτερο είναι αυτό της γλωσσικής κάλυψης: Σήμερα είμαστε σε θέση να ασχοληθούμε με ένα πολύ περιορισμένο σύνολο ζευγών γλωσσών, κυρίως αγγλοκεντρικών. Ωστόσο, υπάρχουν πάνω από 7.000 γλώσσες στον κόσμο και, για τις περισσότερες από αυτές, δεν υπάρχουν δεδομένα, ούτε εργαλεία και μοντέλα υπολογιστών.

Η τρίτη πρόκληση είναι το περιβάλλον. Η σημερινή τεχνητή νοημοσύνη είναι ικανή να κάνει σπουδαία πράγματα, αλλά το ενεργειακό κόστος των λεγόμενων μοντέλων θεμελίωσης, τα οποία εξαρτώνται από τεράστιους υπολογιστικούς πόρους, είναι εξαιρετικά υψηλό. Υπάρχουν ακόμη πολλά που πρέπει να γίνουν, αλλά έργα όπως το AI4Culture μας δίνουν την ευκαιρία να μοιραστούμε τη δουλειά μας με τον κόσμο και να προχωρήσουμε συλλογικά στον τομέα.

MR: Σας ευχαριστούμε για τις γνώσεις σας σε αυτόν τον απαιτητικό και συναρπαστικό ερευνητικό τομέα. Από τώρα και στο εξής, θα απολαμβάνουμε υπότιτλους με μια εντελώς διαφορετική και πολύ πιο συνειδητή προοπτική!

Μάθετε περισσότερα

Αργότερα αυτό το καλοκαίρι, ο αγωγός αυτόματου υποτιτλισμού που παρουσιάστηκε παραπάνω πρόκειται να ενσωματωθεί σε ένα εργαλείο αυτόματου υποτιτλισμού ανοιχτού κώδικα και φιλικό προς τον χρήστη. Θα επιτρέψει στα ιδρύματα πολιτιστικής κληρονομιάς να δημιουργούν αυτόματα υπότιτλους σε οκτώ γλώσσες για το οπτικοακουστικό υλικό τους, επιτρέποντας επίσης τη χειροκίνητη επεξεργασία και επικύρωσή τους.

Τον Σεπτέμβριο του 2024, το AI4Culture θα δρομολογήσει επίσης μια πλατφόρμα όπου ανοικτά εργαλεία, όπως το εργαλείο αυτόματου υποτιτλισμού, θα είναι διαθέσιμα στο διαδίκτυο, μαζί με σχετική τεκμηρίωση και εκπαιδευτικό υλικό.

Παρακολουθήστε τη σελίδα του έργου στην Europeana Pro για περισσότερες λεπτομέρειες και μείνετε συντονισμένοι στον λογαριασμό LinkedIn και X του έργου! Προς το παρόν, όλοι όσοι ενδιαφέρονται για την ανάπτυξη του αγωγού αυτόματου υποτιτλισμού μπορούν να εξερευνήσουν τον κώδικα ανοικτού κώδικα που είναι διαθέσιμος στο GitHub.

Στενές επαφές με την τεχνητή νοημοσύνη: συνέντευξη για τον αυτόματο υποτιτλισμό

Κοινοποίηση

Μάθετε περισσότερα

Ανακαλύψτε σχετικό περιεχόμενο