Η πρόκληση των πολυγλωσσικών μεταδεδομένων
Η Europeana εργάζεται με συλλογές που περιγράφονται σε τουλάχιστον 37 γλώσσες και προσπαθεί να τις ταιριάξει με όρους αναζήτησης που μπορεί να εμφανιστούν σε οποιαδήποτε γλώσσα. Όλα τα στοιχεία των συλλογών στον ιστότοπο της Europeana περιγράφονται σε ένα σύνολο πεδίων μεταδεδομένων που μεταφέρουν βασικές πληροφορίες σχετικά με αυτά, όπως ο τίτλος και ο δημιουργός τους. Αυτές οι πληροφορίες βοηθούν τους ανθρώπους να ανακαλύψουν και να κατανοήσουν τα αντικείμενα που τους ενδιαφέρουν. Επί του παρόντος, η πλειονότητα των αρχείων περιέχει όρους σε μία μόνο γλώσσα, τη γλώσσα των παρόχων δεδομένων. Αυτή η έλλειψη πολυγλωσσικών μεταδεδομένων παρεμποδίζει τον στόχο της Europeana να προσφέρει ευρεία πρόσβαση στη συλλογή της σε όλες τις γλώσσες.
Η αντιμετώπιση της πολυγλωσσίας από την άποψη αυτή είναι μια αρκετά δύσκολη προσπάθεια. Κατ’ αρχάς, τα μεταδεδομένα δεν είναι μια φυσική γλώσσα με πλήρεις προτάσεις και προβλέψιμη γραμματική· παρουσιάζεται συχνά με σύντομες φράσεις ή ακόμη και μεμονωμένες λέξεις, πράγμα που σημαίνει ότι είναι δύσκολο να βρεθεί το πλαίσιο που απαιτείται για μια ακριβή μετάφραση. Επιπλέον, οι όροι που χρησιμοποιούνται μπορεί να είναι πολύ συγκεκριμένοι· μπορεί να μοιάζουν με γενικό όρο, αλλά έχουν διαφορετική σημασία όταν χρησιμοποιούνται σε πλαίσιο πολιτιστικής κληρονομιάς.
Για παράδειγμα, ο ελληνικός θρησκευτικός όρος που αντικατοπτρίζει τον Μυστικό Δείπνο θα μπορούσε λανθασμένα να μεταφραστεί ως Μυστικό Δείπνο. Ο αντίκτυπος αυτής της ανακριβούς μετάφρασης - ή η απουσία μετάφρασης στα αγγλικά συνολικά - θα ήταν ότι τα ελληνικά αντικείμενα με τίτλο ή περιγραφή που αναφέρεται στο συγκεκριμένο θέμα δεν θα εμφανίζονταν στα αποτελέσματα όταν κάποιος αναζητά πίνακες σχετικά με τον Μυστικό Δείπνο στην ιστοσελίδα της Europeana.
Δημιουργία γέφυρας μεταξύ της Europeana και των κοινοτήτων ψηφιακών υπηρεσιών eTranslation
Πώς συνεργάζεται το έργο Europeana Translate με άλλους ενδιαφερόμενους φορείς και εργαλεία για την αντιμετώπιση αυτής της πρόκλησης;
Το eTranslation, το οποίο αναπτύχθηκε από την Ευρωπαϊκή Επιτροπή, είναι ένα γλωσσικό εργαλείο που δημιουργήθηκε με τη χρήση των πλέον πρόσφατων τεχνολογιών ΤΝ και έχει εκπαιδευτεί στον μεγάλο όγκο δεδομένων που είναι διαθέσιμα τόσο εσωτερικά όσο και συγκεντρωμένα μέσω μιας προσπάθειας συλλογής γλωσσικών πόρων σε επίπεδο ΕΕ. Στο αποθετήριο ELRC-SHARE που χρησιμοποιείται από το eTranslation DSI, η πολιτιστική κληρονομιά υποεκπροσωπείται και, ως εκ τούτου, οι υφιστάμενες τεχνολογικές λύσεις είναι λιγότερο καλά εξοπλισμένες για τον χειρισμό των ειδικών πτυχών των δεδομένων πολιτιστικής κληρονομιάς.
Στο πλαίσιο αυτό, η ανάπτυξη συνεργασιών μεταξύ των ενδιαφερόμενων μερών από τις κοινότητες Europeana και eTranslation είναι καίριας σημασίας για την προσαρμογή των εργαλείων αυτόματης μετάφρασης, ώστε να μπορούν να εξυπηρετούν τις ιδιαίτερες ανάγκες του τομέα της πολιτιστικής κληρονομιάς. Η Europeana Translate επιδιώκει να φέρει σε επαφή την eTranslation και τις κοινότητες της Europeana για την αντιμετώπιση των προκλήσεων που αντιμετωπίζουν και οι δύο τομείς. Η βελτίωση της πολυγλωσσικής πρόσβασης στην ψηφιακή πολιτιστική κληρονομιά απαιτεί ορισμένους συμπληρωματικούς ρόλους και εμπειρογνωμοσύνη, οι οποίοι εξυπηρετούνται από τους διάφορους εταίρους της Europeana Translate (βλ.εδώ).
Πειράματα με αυτόματη μετάφραση
Τους τελευταίους μήνες, οι εταίροι του έργου συνεργάστηκαν για να επιλέξουν και να κατατμήσουν και να καθαρίσουν κατάλληλα τις εγγραφές μεταδεδομένων από τον ιστότοπο της Europeana. Στη συνέχεια, τα δεδομένα αυτά αξιοποιήθηκαν από τον εταίρο του έργου Pangeanic, ο οποίος τα χρησιμοποίησε επιπλέον των 12 εκατομμυρίων μεταφραστικών τμημάτων κειμένου από υφιστάμενους γενικούς γλωσσικούς πόρους για τη βελτίωση της ακρίβειας των αλγορίθμων αυτόματης μετάφρασης κατά τη μετάφραση μεταδεδομένων πολιτιστικής κληρονομιάς.
Ο Pangeanic διεξήγαγε μια σειρά πειραμάτων εξετάζοντας διαφορετικούς συνδυασμούς δεδομένων εκπαίδευσης. Σε αυτά περιλαμβάνονταν δίγλωσσα μεταδεδομένα από την Europeana, συνθετικά δεδομένα που παράγονται από μεταδεδομένα σε μία γλώσσα και πολύγλωσσα λεξιλόγια σχετικά με τον τομέα της πολιτιστικής κληρονομιάς. Εναλλακτικές πηγές δεδομένων, πέραν της Europeana, εξετάστηκαν επίσης για γλώσσες για τις οποίες υπάρχουν λίγοι ή καθόλου πόροι με μεταφράσεις στα αγγλικά. Η αυτόματη αξιολόγηση αυτών των πειραμάτων με τη χρήση καθιερωμένων μετρήσεων επέτρεψε στους εταίρους να αποφασίσουν σχετικά με τη ρύθμιση για τις αυτόματες μεταφράσεις βέλτιστης ποιότητας και να τις συγκρίνουν με τα αποτελέσματα που επιτεύχθηκαν από άλλα μεταφραστικά εργαλεία, όπως το Google Translate και το eTranslate. Γενικά, η αξιολόγηση καταδεικνύει βελτιώσεις στα αποτελέσματα σε σύγκριση με τα γενικά μοντέλα για τις περισσότερες γλώσσες.
Οι μηχανές αυτόματης μετάφρασης που θα προκύψουν από τη διαδικασία αυτή θα χρησιμοποιηθούν για τη μετάφραση μεταδεδομένων από τις 23 επίσημες γλώσσες της ΕΕ στα αγγλικά (την 24η επίσημη γλώσσα). Αυτές οι μηχανές μετάφρασης θα χρησιμοποιηθούν για τη δημιουργία αυτόματων αγγλικών μεταφράσεων για τουλάχιστον 25 εκατομμύρια εγγραφές μεταδεδομένων στην πλατφόρμα Europeana. Οι μεταφράσεις θα ευρετηριαστούν και θα προβληθούν, βελτιώνοντας την πολύγλωσση εμπειρία των χρηστών στην πλατφόρμα Europeana. Επανεξετάζοντας το πρόσωπο που αναζητά αντικείμενα εμπνευσμένα από το θρησκευτικό θέμα του «Τελευταίου Δείπνου», μετά την ολοκλήρωση του Europeana Translate, θα έχουν επίσης πρόσβαση σε πίνακες από την Ελλάδα, τη Ρουμανία και πολλές άλλες χώρες που δεν περιλαμβάνονται επί του παρόντος στα αποτελέσματα αναζήτησης.
Επιπλέον, η Europeana Translate θα καταστήσει ανοικτά διαθέσιμους τους επιλεγμένους και κατάλληλα επεξεργασμένους γλωσσικούς πόρους που παρήγαγε μέσω του αποθετηρίου ELRC-SHARE βάσει δωρεάν άδειας επαναχρησιμοποίησης (CC0). Αυτό θα επιτρέψει στην κοινότητα της αυτόματης μετάφρασης να κάνει χρήση ανοικτών δεδομένων για να εκπαιδεύσει, να προσαρμόσει και να δοκιμάσει τις μεταφραστικές υπηρεσίες της στον τομέα της πολιτιστικής κληρονομιάς.
Συμμετοχή των ανθρώπων στον βρόχο
Τους επόμενους μήνες, θα πραγματοποιηθούν δύο συμπληρωματικές αξιολογήσεις των αυτόματων μεταφράσεων που παράγονται από τα πειράματα από γλωσσολόγους και επαγγελματίες του τομέα της πολιτιστικής κληρονομιάς.
Το εργαλείο αξιολόγησης μηχανικής μετάφρασης θα χρησιμοποιηθεί για την αξιολόγηση της ακρίβειας και της απόδοσης και των 23 μηχανών μετάφρασης. Θα διοργανωθούν τρεις εκστρατείες πληθοπορισμού για τη συμμετοχή επαγγελματιών του τομέα της πολιτιστικής κληρονομιάς, οι οποίοι θα συμβάλουν στη δοκιμή και την αξιολόγηση της αυτόματης μετάφρασης (στις γλώσσες που θα αξιολογηθούν εν προκειμένω περιλαμβάνονται τα γαλλικά, τα ιταλικά και τα ολλανδικά). Οι εκστρατείες θα εμπλέξουν επίσης το κοινό και θα αυξήσουν την ευαισθητοποίηση της κοινότητας πολιτιστικής κληρονομιάς σχετικά με τη δύναμη των υπηρεσιών αυτόματης μετάφρασης. Η πλατφόρμα CrowdHeritage θα χρησιμοποιηθεί για την παρουσίαση των αυτόματων μεταφράσεων στο πλαίσιο των αντικειμένων πολιτιστικής κληρονομιάς στα οποία αναφέρονται.
Τα αποτελέσματα αυτών των αξιολογήσεων θα παράσχουν χρήσιμες πληροφορίες και θα χρησιμοποιηθούν για τον καθορισμό του αποδεκτού κατώτατου ορίου ποιότητας για τη δημοσίευση αυτόματων μεταφράσεων στην Europeana και για χρήση στις πλατφόρμες των οργανισμών πολιτιστικής κληρονομιάς.
Μάθετε περισσότερα και συμμετάσχετε
Για περισσότερες πληροφορίες, μπορείτε να παρακολουθήσετε ένα εισαγωγικό βίντεο, ένα βίντεο σχετικά με τα πρώτα αποτελέσματα του έργου, ή να διαβάσετε σχετικά με την αρχιτεκτονική Europeana Translate στο παρόν έγγραφο που παρουσιάστηκε στην Ευρωπαϊκή Ένωση Μηχανικής Μετάφρασης 2022. Οι επαγγελματίες στον τομέα των οπτικοακουστικών μέσων, της μόδας και των μουσείων θα έχουν την ευκαιρία να συμβάλουν στο έργο, βοηθώντας στην αξιολόγηση των αποτελεσμάτων των εκστρατειών εξειδικευμένης προμήθειας, οι οποίες θα πραγματοποιηθούν στις αρχές του 2023. Παρακολουθήστε τη σελίδα της εκδήλωσης Europeana Pro για να μάθετε περισσότερα.
