Μάρκο Ρεντίνα: Ας ξεκινήσουμε από τα βασικά. Τι είναι ο σημασιολογικός εμπλουτισμός;
Ειρήνη Καλδέλη: Σημασιολογικός εμπλουτισμός είναι η διαδικασία προσθήκης νέας σημασιολογίας σε μη δομημένα δεδομένα, όπως το ελεύθερο κείμενο, έτσι ώστε οι μηχανές να μπορούν να το κατανοήσουν και να δημιουργήσουν συνδέσεις με αυτό. Στην περίπτωση των μεταδεδομένων κειμένου που περιγράφουν στοιχεία πολιτιστικής κληρονομιάς, αυτά μπορούν να αναλυθούν και να επαυξηθούν με ελεγχόμενους όρους από Συνδεδεμένα Ανοικτά σύνολα δεδομένων ή λεξιλόγια, όπως τα Wikidata ή το Getty Art & Architecture Thesaurus (AAT). Οι όροι αυτοί αναφέρονται συνήθως ως σχόλια και μπορούν να αντιπροσωπεύουν έννοιες και χαρακτηριστικά (όπως «Κόστος» ή «Αναγέννηση»), πρόσωπα, τοποθεσίες, οργανισμούς ή χρονολογικές περιόδους. Για παράδειγμα, οι συμβολοσειρές «Leonardo da Vinci» και «da Vinci, Leonardo» μπορούν και οι δύο να συνδεθούν με το στοιχείο Wikidata που αντιπροσωπεύει τον ιταλικό πολυμαθή της Αναγέννησης.
MR: Γιατί είναι σημαντικό να εμπλουτίζονται τα μεταδεδομένα με όρους από συνδεδεμένα ανοικτά σύνολα δεδομένων ή λεξιλόγια;
ΕΚ: Ο σημασιολογικός εμπλουτισμός προσθέτει νόημα και περιεχόμενο στις ψηφιακές συλλογές και τις καθιστά πιο εύκολα ανακαλύψιμες. Δεδομένης της σημασίας του, αποτέλεσε κύριο μέλημα και επίκεντρο των προσπαθειών της πρωτοβουλίας Europeana, καθώς και μεμονωμένων φορέων συγκέντρωσης και παρόχων δεδομένων.
Πρώτον, τα συνδεδεμένα δεδομένα καθιστούν τα μεταδεδομένα κειμένου σαφή. Για παράδειγμα, η συμβολοσειρά «Leonardo da Vinci» μπορεί επίσης να αναφέρεται, ανάλογα με το πλαίσιο, στον ιταλικό αερολιμένα ή σε θωρηκτό με το ίδιο όνομα. Κάθε μία από αυτές τις έννοιες αντιπροσωπεύεται μέσω ενός ειδικού URI (Unique Reference Identifier) από το Wikidata, και, έτσι, συνδέοντας το κείμενο με το σωστό URI, γίνεται σαφές σε τι αναφέρεται το κείμενο.
Δεύτερον, τα συνδεδεμένα δεδομένα μας επιτρέπουν να ανακτήσουμε πρόσθετες πληροφορίες σχετικά με μια συγκεκριμένη οντότητα, να δημιουργήσουμε συνδέσεις μεταξύ διαφορετικών πόρων και να τις προσαρμόσουμε στα συμφραζόμενα. Για παράδειγμα, μας επιτρέπει να συνδέουμε αντικείμενα που φέρουν ετικέτα με τον όρο «δαχτυλίδι» με την ευρύτερη έννοια των «κοσμημάτων» και να τα διασυνδέουμε με αντικείμενα εμπλουτισμένα με τον όρο «βραχιόλι», ο οποίος αποτελεί επίσης παράδειγμα «κοσμημάτων».
Τέλος, τα συνδεδεμένα δεδομένα συνοδεύονται συνήθως από μεταφράσεις, βελτιώνοντας τις δυνατότητες πολύγλωσσης αναζήτησης. Αυτό επιτρέπει σε όσους χρησιμοποιούν επιγραμμικά αποθετήρια να περιηγούνται και να αναζητούν συλλογές στο λεγόμενο «σημασιολογικό επίπεδο»: κάποιος που ψάχνει για «κόσμημα» (η ελληνική λέξη για τα «κοσμήματα») θα είναι σε θέση να ανακαλύψει αντικείμενα που περιγράφονται ως δαχτυλίδια καθώς και βραχιόλια.
MR: Αλέξανδρος, ο εμπλουτισμός των μεταδεδομένων απαιτεί προσπάθεια και πόρους που συχνά στερούνται τα ιδρύματα πολιτιστικής κληρονομιάς. Πώς μπορούν οι ψηφιακές τεχνολογίες να συμβάλουν στην αντιμετώπιση αυτής της πρόκλησης;
Αλέξανδρος Χορταράς : Τα ιδρύματα πολιτιστικής κληρονομιάς μπορούν να χρησιμοποιούν τεχνολογίες αιχμής για την αυτοματοποίηση της χειροκίνητης, χρονοβόρας και συχνά εγκόσμιας διαδικασίας εμπλουτισμού μεταδεδομένων. Τα εργαλεία επεξεργασίας φυσικής γλώσσας μπορούν να χρησιμοποιηθούν για την ανάλυση μεταδεδομένων κειμένου και τον εντοπισμό και την ταξινόμηση κατονομαζόμενων οντοτήτων, όπως πρόσωπα ή ονόματα τοποθεσίας, που αναφέρονται σε μη δομημένο κείμενο. Οι προσεγγίσεις μηχανικής μάθησης χρησιμοποιούνται εκτενώς για το έργο της αποσαφήνισης της κατονομαζόμενης οντότητας, η οποία είναι υπεύθυνη να αποφασίσει εάν, για παράδειγμα, η αναφορά στο «Leonardo da Vinci» στο κείμενο αναφέρεται στον ιταλικό πολυμαθή ή στο θωρηκτό. Ανάλογα με τα χαρακτηριστικά του κειμένου, όπως το μήκος και η γλώσσα του, το λεξιλόγιο με το οποίο θέλουμε να το συνδέσουμε και το είδος των οντοτήτων που θέλουμε να εντοπίσουμε, πρέπει να συνδυάσουμε τα εργαλεία που είναι πιο κατάλληλα για τη συγκεκριμένη εργασία. Για παράδειγμα, από την εμπειρία μας με προηγούμενα έργα όπως το CRAFTED, για ορισμένες εργασίες με σαφώς καθορισμένο περιορισμένο πλαίσιο, ακόμη και μια απλή προσέγγιση αντιστοίχισης λεμματισμού και συμβολοσειράς μπορεί να είναι καταλληλότερη από σύνθετους αλγόριθμους που βασίζονται σε ML.
MR: Μπορώ όμως να εμπιστευτώ πλήρως τα αποτελέσματα ενός αυτόματου αλγορίθμου; Κι αν κάνει λάθη;
ΔΕ: Πράγματι, οι αυτόματοι αλγόριθμοι που αναλύουν το ελεύθερο κείμενο για την κατονομαζόμενη αναγνώριση και αποσαφήνιση οντοτήτων κάνουν λάθη. Η ακρίβεια εξαρτάται από την εκάστοτε εργασία και τον αλγόριθμο που εφαρμόζεται. Για παράδειγμα, οι σύντομες περιγραφές κειμένου που είναι κοινές στα μεταδεδομένα στερούνται πλαισίου και έτσι οι αλγόριθμοι ML που εκπαιδεύονται σε λήμματα της Βικιπαίδειας μπορεί να οδηγήσουν σε λανθασμένες αντιστοιχίες.
Επιπλέον, ακόμη και αν οι σύνδεσμοι που ανιχνεύονται αυτόματα είναι σωστοί, μπορεί να θεωρηθούν ανεπιθύμητοι σε ένα συγκεκριμένο πλαίσιο. Για παράδειγμα, η σύνδεση των αρχείων μεταδεδομένων με όρους που αναπαριστούν χρώματα μπορεί να είναι σημαντική για μια συλλογή μόδας, αλλά μπορεί να είναι ανεπιθύμητη για την περιγραφή ενός χειρογράφου που τυχαίνει να αναφέρει ένα συγκεκριμένο χρώμα. Κατά συνέπεια, η ανθρώπινη επιθεώρηση και η επικύρωση των αυτόματων σχολιασμών είναι απαραίτητες. Ωστόσο, δεδομένου ότι υπάρχουν συχνά χιλιάδες αυτόματες σημειώσεις, η χειροκίνητη επικύρωση μπορεί να είναι μια διαδικασία υψηλής έντασης πόρων. Σε πρακτικό επίπεδο, οι άνθρωποι θα πρέπει να εξετάζουν ένα επιλεγμένο δείγμα των σχολίων και, ανάλογα με τα αποτελέσματα και τον στόχο, να αποφασίζουν σχετικά με τα κατάλληλα κριτήρια φιλτραρίσματος.
MR: Μια τελευταία ερώτηση για την Ειρήνη. Υπάρχουν πολλοί αλγόριθμοι και βιβλιοθήκες εκεί έξω, αλλά φαίνεται ότι απαιτούνται σημαντικές τεχνικές γνώσεις για τη δημιουργία τους. Πώς βοηθά το AI4Culture τα ιδρύματα πολιτιστικής κληρονομιάς να επωφεληθούν από αυτές τις τεχνολογίες;
ΕΚ: Στο πλαίσιο του έργου AI4Culture, εργαζόμαστε σε μια πλατφόρμα, που ονομάζεται SAGE, η οποία αναπτύχθηκε από το Εθνικό Μετσόβιο Πολυτεχνείο. Το SAGE διευκολύνει τον σημασιολογικό εμπλουτισμό των μεταδεδομένων πολιτιστικής κληρονομιάς προσφέροντας μια σειρά καθιερωμένων σχολιαστών (πρότυπα εμπλουτισμού) διαμορφωμένα για να εξυπηρετούν τις ανάγκες του τομέα. Η πλατφόρμα υποστηρίζει ολόκληρη τη ροή εργασιών εμπλουτισμού, από την εισαγωγή δεδομένων και την αυτόματη παραγωγή σημασιολογικών σχολίων έως την ανθρώπινη επικύρωση και τη δημοσίευση δεδομένων με τη μορφή που αναμένεται από την Europeana. Το εργαλείο έχει χρησιμοποιηθεί με επιτυχία για τον εμπλουτισμό των μεταδεδομένων πολιτιστικής κληρονομιάς σε διάφορες εφαρμογές (μεταξύ άλλων μέσω των έργων CRAFTED και Europeana XX). Στο πλαίσιο του AI4Culture, επεκτάθηκε για να αποκρύψει την τεχνική πολυπλοκότητα των αλγορίθμων αυτόματου σημασιολογικού εμπλουτισμού και να στηρίξει την απρόσκοπτη διαλειτουργικότητα με τον κοινό ευρωπαϊκό χώρο δεδομένων για την πολιτιστική κληρονομιά. Για τον σκοπό αυτό, η πλατφόρμα υποστηρίζει μορφότυπους που σχετίζονται με μεταδεδομένα πολιτιστικής κληρονομιάς, όπως το EDM (Europeana Data Model) και διευκολύνει την άμεση εισαγωγή μεταδεδομένων από πηγές που σχετίζονται με την πολιτιστική κληρονομιά, όπως το Europeana.eu ή το εργαλείο MINT που χρησιμοποιείται από διάφορους φορείς συγκέντρωσης της Europeana.
Προς το παρόν, οι ενδιαφερόμενοι μπορούν να δοκιμάσουν το SAGE εδώ. Ο πηγαίος κώδικας είναι διαθέσιμος στο GitHub (frontend, backend). Μπορείτε να μάθετε πώς να χρησιμοποιείτε το SAGE ακολουθώντας μια σειρά από εκπαιδευτικά βίντεο και διαβάζοντας τις οδηγίες του Wiki
Μάθετε περισσότερα
Τον Σεπτέμβριο του 2024, το έργο AI4Culture θα δρομολογήσει μια πλατφόρμα όπου ανοικτά εργαλεία, όπως το εργαλείο SAGE για τον σημασιολογικό εμπλουτισμό που παρουσιάζεται ανωτέρω, θα είναι διαθέσιμα στο διαδίκτυο, μαζί με σχετική τεκμηρίωση και εκπαιδευτικό υλικό. Παρακολουθήστε τη σελίδα του έργου στην Europeana Pro για περισσότερες λεπτομέρειες και μείνετε συντονισμένοι στον λογαριασμό LinkedIn και X του έργου!
