Μάρκο Ρεντίνα: Ας ξεκινήσουμε με την αποσυσκευασία του OCR. Τι είναι και γιατί σχετίζεται με τη διατήρηση της πολιτιστικής κληρονομιάς;
Tom Vanallemeersch: OCR (Optical Character Recognition) ή HTR (Handwritten Text Recognition) είναι μια τεχνολογία που παράγει ένα ψηφιακό αντίγραφο έντυπων ή χειρόγραφων κειμένων. Οι μεταγραφές σαρωμένων εγγράφων είναι κυρίως σημαντικές για τη δυνατότητα αναζήτησης, καθώς επιτρέπουν τη χρήση λέξεων-κλειδιών για την αναζήτηση συγκεκριμένου εγγράφου ή για την αναζήτηση συγκεκριμένου τμήματος εντός ενός εγγράφου. Για την περαιτέρω ενίσχυση αυτής της δυνατότητας αναζήτησης, οι μεταγραφές μπορούν να μεταφράζονται με τη χρήση αυτόματης μετάφρασης, επιτρέποντας στους χρήστες να αναζητούν λέξεις σε έγγραφα σε διαφορετικές γλώσσες χρησιμοποιώντας, για παράδειγμα, μόνο έναν αγγλικό όρο αναζήτησης.
MR: Πόσο αποτελεσματική είναι η τρέχουσα υπερσύγχρονη τεχνολογία OCR;
Τηλεόραση: Τα τελευταία χρόνια έχει σημειωθεί αξιοσημείωτη πρόοδος στην τεχνολογία OCR και ορισμένα μοντέλα OCR έχουν εντυπωσιακές επιδόσεις, ειδικά σε σύγχρονα έντυπα κείμενα. Υπάρχει επίσης ένα ευρύ φάσμα όλο και πιο εξειδικευμένων μοντέλων που καλύπτουν διαφορετικές ανάγκες, όπως κείμενα του 18ου αιώνα ή χειρόγραφες επιστολές του Β 'Παγκοσμίου Πολέμου.
Ωστόσο, παρά τις εξελίξεις αυτές, εξακολουθούν να υπάρχουν προκλήσεις λόγω παραγόντων όπως τα διαφορετικά στυλ γραφής και διάταξης κειμένου, οι σχετικές γλώσσες ή η παρουσία «θόρυβου» (υποβαθμισμένοι χαρακτήρες ή διαπερατότητα σε έγγραφα διπλής σελίδας, όπου το μελάνι της πίσω πλευράς εμφανίζεται στην μπροστινή πλευρά). Ζητήματα όπως η εσφαλμένη αναγνώριση χαρακτήρων μπορούν να επηρεάσουν δραματικά την ακρίβεια των μεταγραφών OCR, ένα πρόβλημα που γίνεται ιδιαίτερα εμφανές όταν αυτά τα αποτελέσματα χρησιμοποιούνται για μεταφραστικούς σκοπούς.
Με βάση την εμπειρία μας στο CrossLang με την ανάπτυξη συστημάτων για την πολύγλωσση επεξεργασία εγγράφων και την αυτοματοποίηση της μετάφρασης, αντιμετωπίσαμε αυτές τις προκλήσεις άμεσα για να διασφαλίσουμε ότι το αποτέλεσμα του OCR δεν είναι μόνο ακριβές, αλλά και έτοιμο για μετάφραση.
MR: Μπορείτε να μας καθοδηγήσετε στον τρόπο με τον οποίο κάνετε τις μεταγραφές OCR έτοιμες για μετάφραση;
Τηλεόραση: Ασφαλώς. Η προετοιμασία των μεταγραφών για μετάφραση είναι μια διαδικασία πολλαπλών σταδίων.
Πρώτον, το έγγραφο ή η εικόνα μεταφορτώνεται και εφαρμόζεται τεχνολογία OCR για τη δημιουργία ψηφιακής μεταγραφής. Αυτό περιλαμβάνει την ανάλυση της διάταξης της σελίδας και τον προσδιορισμό των χαρακτήρων στις περιοχές κειμένου. Δεδομένου ότι αυτή η διαδικασία είναι αυτοματοποιημένη, η προκύπτουσα έξοδος μπορεί να περιέχει σφάλματα όπως εσφαλμένη αναγνώριση χαρακτήρων και κενά διαστήματα. Επιπλέον, η έξοδος OCR συνήθως στερείται κατάτμησης, παρουσιάζοντας γραμμές τυπωμένων ή χειρόγραφων χαρακτήρων όπως εμφανίζονται στην εικόνα, χωρίς καμία κατάτμηση σε προτάσεις. Ενώ αυτό μπορεί να είναι καλό, εφόσον ο τελικός χρήστης μπορεί να διαβάσει το κείμενο στην πρωτότυπη γλώσσα, χρησιμοποιώντας απευθείας την έξοδο OCR, συμπεριλαμβανομένων των ορθογραφικών σφαλμάτων και της έλλειψης κατάτμησης, είναι πολύ πιθανό να οδηγήσει σε ανακριβείς μεταφράσεις.
Χρησιμοποιούμε διάφορες τεχνικές για την αντιμετώπιση αυτών των ανακριβειών. Θα αναφέρω δύο βασικές προσεγγίσεις. Πρώτον, χρησιμοποιούνται τεχνικές κατάτμησης και απούφεσης για τον εντοπισμό και τον διαχωρισμό προτάσεων μέσα στο κείμενο και την αφαίρεση παύλες που χωρίζουν τις λέξεις στο τέλος των γραμμών. Δεύτερον, για να ενισχύσουμε περαιτέρω την ακρίβεια της εξόδου OCR, χρησιμοποιούμε εργαλεία βασισμένα σε λεξιλόγιο και μεγάλα γλωσσικά μοντέλα (LLM), συμπεριλαμβανομένων των chatbots ανοιχτού κώδικα, για τον αυτόματο εντοπισμό και τη διόρθωση σφαλμάτων στις λέξεις για να ευθυγραμμίσουμε το κείμενο όσο το δυνατόν περισσότερο με την αρχική εικόνα.
Τέλος, με τη διορθωμένη έξοδο OCR, η MT μπορεί να εφαρμοστεί για τη δημιουργία μεταφράσεων που είναι πιο ακριβείς. Αυτό το βήμα βασίζεται στην ποιότητα του κειμένου εισαγωγής, καθιστώντας τα δύο προηγούμενα βήματα αυτόματης διόρθωσης ζωτικής σημασίας για την επίτευξη χρήσιμων αποτελεσμάτων MT.

MR: Πώς αξιολογείτε την επιτυχία αυτής της διαδικασίας διόρθωσης;
Τηλεόραση: Χρησιμοποιούμε αυτοματοποιημένες μετρήσεις, όπως το ποσοστό σφάλματος χαρακτήρα (CER) και το ποσοστό επεξεργασίας μετάφρασης (TER), για να αξιολογήσουμε την ακρίβεια και την ποιότητα της διορθωμένης εξόδου OCR και της μετάφρασής της. Αυτές οι μετρήσεις μας επιτρέπουν να συγκρίνουμε τη διορθωμένη έξοδο OCR με την αλήθεια του εδάφους (την επιθυμητή μεταγραφή), παρέχοντας πολύτιμες πληροφορίες για την αποτελεσματικότητα των μεθόδων μας. Παρατηρήσαμε σημαντικές βελτιώσεις εν προκειμένω, καθώς τόσο η CER όσο και η TER γενικά μειώνονται μετά τη διόρθωση της παραγωγής OCR.
Επίσης, κατά καιρούς διεξάγουμε μη αυτόματες επιθεωρήσεις για να διασφαλίσουμε τη συνολική ακρίβεια ενός κειμένου, καθώς ακόμη και ένα μικρό λάθος θα μπορούσε να αλλάξει το νόημα της πρότασης, ενδεχομένως με αποτέλεσμα παρεξηγήσεις ή ανακρίβειες. Μπορεί επίσης να υπάρχουν περιπτώσεις όπου κάποιος (όπως ένας ιστορικός) επιθυμεί να διατηρήσει ορισμένα στοιχεία του κειμένου, συμπεριλαμβανομένων πιθανών σφαλμάτων (όπως λανθασμένα λόγια). σε τέτοιες περιπτώσεις, ένα LLM μπορεί να «υπερδιορθώσει» (παρομοίως, μπορεί να αντικαταστήσει λέξεις γραμμένες σε παλαιότερη παραλλαγή μιας γλώσσας με νεότερες εκδοχές τους). Τέτοια σενάρια με γνώμονα τη διατήρηση («διπλωματική μεταγραφή») απαιτούν προσεκτική χειροκίνητη επιθεώρηση.
MR: Ποιες συμβουλές θα δίνατε σε ιδρύματα πολιτιστικής κληρονομιάς που επιθυμούν να ενσωματώσουν προηγμένες τεχνολογίες OCR και μετάφρασης στις προσπάθειές τους για διατήρηση;
Τηλεόραση: Η ύψιστη συμβουλή που μπορώ να προσφέρω είναι να παρακολουθώ εκ του σύνεγγυς τις εξελίξεις του έργου AI4Culture. Τον Οκτώβριο του 2024 θα προσφέρουμε ένα διαδικτυακό εργαστήριο που θα απευθύνεται σε φοιτητές και εμπειρογνώμονες στον τομέα της πολιτιστικής κληρονομιάς, στο οποίο θα εξηγήσουμε την εφαρμογή του OCR και της MT σε σαρωμένα έγγραφα με πρακτικό τρόπο και θα παράσχουμε ορισμένες περισσότερες τεχνικές λεπτομέρειες σχετικά με πτυχές όπως η αυτοματοποιημένη διόρθωση της παραγωγής OCR. Μείνετε συντονισμένοι στους λογαριασμούς του AI4Culture στα μέσα κοινωνικής δικτύωσης.
Μάθετε περισσότερα
Τον Σεπτέμβριο του 2024, το έργο AI4Culture θα δρομολογήσει μια πλατφόρμα όπου ανοικτά εργαλεία, όπως τα εργαλεία OCR που παρουσιάστηκαν ανωτέρω, θα είναι διαθέσιμα στο διαδίκτυο, μαζί με σχετική τεκμηρίωση και εκπαιδευτικό υλικό. Παρακολουθήστε τη σελίδα του έργου στην Europeana Pro για περισσότερες λεπτομέρειες και μείνετε συντονισμένοι στον λογαριασμό LinkedIn και X του έργου!
