Δυνατότητα αυτόματης μετάφρασης για εμπλουτισμό
Ένα εργαλείο API που αναπτύχθηκε από τον εταίρο του έργου Pangeanic ανιχνεύει τη γλώσσα που χρησιμοποιείται στα μεταδεδομένα Europeana και επιτρέπει τη μηχανική μετάφρασή της. Με την ονομασία Heritage Metadata Automatic Translation Service (HM ATS), το εργαλείο αυτό αποτελεί μέρος μιας σειράς εργαλείων σημασιολογικού εμπλουτισμού που ανέπτυξε η Europeana XX.
Για να δημιουργήσει το εργαλείο, η Pangeanic κατασκεύασε 10 μηχανές νευρωνικής αυτόματης μετάφρασης (μεταφράζοντας ιταλικά, γερμανικά, τσεχικά, ελληνικά, γαλλικά, σουηδικά, καταλανικά, ολλανδικά, πολωνικά και ισπανικά στα αγγλικά). Χρησιμοποίησαν δεδομένα κατάρτισης από τα αποθετήρια της Pangeanic και ανοικτά δεδομένα στο διαδίκτυο. Η Pangeanic απασχολούσε επίσης μεταφραστές για τη μετάφραση περιορισμένου αριθμού αρχείων από τα αποθετήρια της Europeana, προκειμένου να διαθέτει ειδικά δεδομένα κατάρτισης της Europeana για διάφορες γλώσσες.
Το εργαλείο χρησιμοποιήθηκε για τη μετάφραση και τον εμπλουτισμό περίπου δυόμισι εκατομμυρίων εγγραφών κατά τη διάρκεια του έργου. Ο Pangeanic επέκτεινε με επιτυχία και τελειοποίησε το εργαλείο για να ταιριάζει στις απαιτήσεις απόδοσης ενός τόσο τεράστιου όγκου δεδομένων. Χρησιμοποιήστε τον κώδικα API μόνοι σας.
Για την αξιολόγηση και την επικύρωση της ποιότητας της αυτόματης μετάφρασης, οι εταίροι δημιούργησαν επίσης ένα σύστημα επικύρωσης της μετάφρασης (με βάση το LabelStudio). Οι επαγγελματίες της πολιτιστικής κληρονομιάς και οι γηγενείς ομιλητές των σχετικών γλωσσών έχουν επικυρώσει περισσότερες από 2.700 μεταφράσεις χρησιμοποιώντας αυτό το σύστημα. Η ανατροφοδότηση ήταν συντριπτικά θετική, επιβεβαιώνοντας την υψηλή ποιότητα της νευρωνικής μηχανικής μετάφρασης και ότι λειτουργεί καλά για τον τομέα της ψηφιακής πολιτιστικής κληρονομιάς.
Οι επικυρωμένες μεταφράσεις θα χρησιμοποιηθούν για την περαιτέρω βελτίωση των μηχανών αυτόματης μετάφρασης στο έργο Europeana Translate, στο οποίο συμμετέχει και η Pangeanic. Στόχος του έργου αυτού είναι να βοηθήσει την Europeana να προχωρήσει στην εφαρμογή της πολυγλωσσικής στρατηγικής της, παρέχοντας μεταφράσεις μεταδεδομένων που θα επιτρέψουν την καλύτερη αναζήτηση και προβολή των συλλογών της στις μητρικές τους γλώσσες και στις γλώσσες των χρηστών.
Εμπλουτισμός για σύνολα δεδομένων
Το SAGE, ένα διαδικτυακό εργαλείο για την παραγωγή, τον εμπλουτισμό, τη δημοσίευση, την πρόσβαση και τη διαχείριση συνόλων δεδομένων RDF, αναπτύχθηκε από το Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ) για την Europeana XX. Το RDF (Resource Description Framework) είναι μια γλώσσα που χρησιμοποιείται για να αναπαραστήσει το περιεχόμενο ενός συνόλου δεδομένων. Τα δεδομένα RDF μπορούν να εισαχθούν ή να παραχθούν απευθείας από διάφορες πηγές δεδομένων και μορφοτύπους, να οργανωθούν σε σύνολα δεδομένων και να εμπλουτιστούν με τη χρήση σχολιαστών. Οι εμπλουτισμοί αυτοί μπορούν στη συνέχεια να επικυρωθούν χειροκίνητα. Όλα τα σύνολα δεδομένων, συμπεριλαμβανομένων τυχόν σχολίων, μπορούν να δημοσιευτούν σε καταστήματα RDF, να ευρετηριαστούν και να προσπελαστούν μέσω κλήσεων API.
Χάρη στο SAGE, επιλεγμένα τμήματα δημοσιευμένων συνόλων δεδομένων μπορούν επίσης τώρα να σχολιαστούν και να εμπλουτιστούν μέσω εξωτερικών υπηρεσιών API, όπως εργαλεία σύνδεσης δεδομένων με σχετικά Wikidata, DBPedia, Geonames και άλλους πόρους ή εργαλεία που ανιχνεύουν εμφανίσεις όρων λεξιλογίου στα δεδομένα. Μόλις γίνουν εμπλουτισμοί στο SAGE, στη συνέχεια επικυρώνονται χειροκίνητα μέσω ενός συστήματος που επιτρέπει μαζικές επικυρώσεις χρησιμοποιώντας ομαδοποίηση κειμένου και ταξινόμηση συχνότητας κειμένου, ανάθεση εργασιών επικύρωσης σε πολλούς χρήστες και στενή παρακολούθηση της συνολικής διαδικασίας επικύρωσης.
Το εργαλείο SAGE χρησιμοποιήθηκε επίσης στο έργο Pagode για τον αυτόματο εμπλουτισμό περισσότερων από 20.000 εγγραφών. Θα χρησιμοποιηθεί επίσης στο έργο CRAFTED για την ανάλυση πεδίων μεταδεδομένων και κειμένου που εξάγεται από εργαλεία ανάλυσης περιεχομένου τεχνητής νοημοσύνης, προκειμένου να εντοπιστεί και να αρθεί η αβεβαιότητα από κατονομαζόμενες οντότητες. Απώτερος στόχος είναι να εμπλουτιστούν περισσότερα από 100.000 αρχεία και να καταστεί δυνατή η επικύρωση και η αξιολόγηση των αυτόματα εξαγόμενων οντοτήτων από τους χρήστες.
Μάθετε περισσότερα
Μπορείτε να εξερευνήσετε όλα τα εργαλεία που αναπτύχθηκαν στο πλαίσιο του έργου Europeana XX (και άλλων έργων γενικών υπηρεσιών) στη σελίδα Υπηρεσίες και εργαλεία της Europeana.
