Ο εμπλουτισμός των μεταδεδομένων πολιτιστικής κληρονομιάς με καλύτερες ετικέτες και περιγραφές διευκολύνει τον καθένα να αναζητήσει και να βρει αυτά τα αντικείμενα πολιτιστικής κληρονομιάς, πράγμα που σημαίνει ότι θα βρείτε αυτό που χρειάζεστε πιο γρήγορα και πιο εύκολα. Οι πρόσφατες εξελίξεις στον τομέα της πληροφορικής και της τεχνητής νοημοσύνης προσφέρουν αξιοσημείωτες ευκαιρίες για τον αυτόματο εμπλουτισμό των μεταδεδομένων πολιτιστικής κληρονομιάς με ελάχιστους πόρους. Ωστόσο, η συμμετοχή των ανθρώπων σε αυτό το έργο παραμένει σημαντική. Στο έργο CRAFTED, παίρνουμε τη βιοτεχνική κληρονομιά ως μελέτη περίπτωσης προκειμένου να σφυρηλατήσουμε, να εφαρμόσουμε και να δοκιμάσουμε μια μεθοδολογία που συνδυάζει αλγορίθμους με ανθρώπινη επικύρωση για τον εμπλουτισμό των μεταδεδομένων πολιτιστικής κληρονομιάς σε κλίμακα.
Η μεθοδολογία, την οποία περιγράφουμε παρακάτω, αποτελείται από τέσσερα βασικά βήματα: ανάλυση δεδομένων· αυτόματος εμπλουτισμός· επικύρωση του εμπλουτισμού από τον άνθρωπο· και εμπλουτισμός με διύλιση με βάση τα αποτελέσματα της επικύρωσης. Σε κάθε ένα από τα βήματα αυτής της διαδικασίας, αντιμετωπίσαμε μια σειρά από κρίσιμα ερωτήματα. Τι είδους εμπλουτισμός είναι χρήσιμος για διαφορετικούς τύπους δεδομένων; Πώς επιλέγουμε τα κατάλληλα δείγματα για ανθρώπινη επικύρωση; Πώς μπορούμε να θεσπίσουμε αποδεκτά όρια ποιότητας για τον αυτόματο εμπλουτισμό;
Ανάλυση δεδομένων
Η λεπτομερής κατανόηση των μεταδεδομένων και του περιεχομένου των συλλογών που επιλέγονται για εμπλουτισμό, καθώς και ο καθορισμός κατάλληλων στόχων εμπλουτισμού, είναι ένα κρίσιμο πρώτο βήμα για τον καθορισμό των απαιτήσεων που πρέπει να πληρούν τα εργαλεία μας. Είναι σημαντικό να μελετηθούν οι διάφορες γλώσσες και η σημασιολογία κάθε πεδίου μεταδεδομένων, καθώς και ο τρόπος με τον οποίο είναι δομημένες οι τιμές τους (για παράδειγμα, όταν εξετάζουμε ένα πεδίο που μεταφέρει χωρικές πληροφορίες, μπορεί να διαπιστώσουμε ότι η τιμή του είναι συχνά δομημένη με τη μορφή «πόλης/περιοχής»). Ομοίως, τα χαρακτηριστικά του περιεχομένου πρέπει να ελέγχονται για τον εντοπισμό σημαντικών χαρακτηριστικών που μπορούν να εξαχθούν από αυτό, λαμβάνοντας υπόψη πτυχές όπως η διαθέσιμη ανάλυση εικόνας και ο τρόπος με τον οποίο απεικονίζονται τα αντικείμενα στις εικόνες.
Αυτόματος εμπλουτισμός
Στο έργο CRAFTED εφαρμόσαμε μια σειρά από διαφορετικά εργαλεία για την ανάλυση των μεταδεδομένων κειμένου και του περιεχομένου μιας μεγάλης ποικιλίας συλλογών με διαφορετικά χαρακτηριστικά και ανάγκες εμπλουτισμού. Για την ανάλυση των μεταδεδομένων χρησιμοποιήθηκε η πλατφόρμα SAGE (Semantic Annotation and Generation of Enrichments) που αναπτύχθηκε από το Εθνικό Μετσόβιο Πολυτεχνείο. Η πλατφόρμα είναι σε θέση να αναλύει μεταδεδομένα κειμένου σε διάφορες γλώσσες και να εντοπίζει ευρύ φάσμα εννοιών κατάλληλων για κάθε περίπτωση (όπως υλικά και τεχνικές) που αναφέρονται στα μεταδεδομένα. Στη συνέχεια, μπορεί να τους συνδέσει με όρους από διαδικτυακά λεξιλόγια που αφορούν συγκεκριμένους τομείς, όπως ο θησαυρός μόδας Europeana που καλύπτει έννοιες που σχετίζονται με τη μόδα. Μπορεί επίσης να εκτελέσει εξαγωγή οντότητας με όνομα γενικού σκοπού για τον εντοπισμό οργανισμών, τόπων και ανθρώπων και τη σύνδεσή τους με συνδεδεμένες ανοικτές βάσεις γνώσεων όπως τα Wikidata.
Παράλληλα, δοκιμάσαμε μια σειρά εργαλείων που αναλύουν εικόνες και βίντεο. Πειραματιστήκαμε με δύο κύριες προσεγγίσεις για την ανίχνευση χρωμάτων: η πρώτη προσέγγιση διακρίνει το προσκήνιο από το φόντο, μετά την οποία προσπαθεί να εξαγάγει το χρώμα ή τα χρώματα του ανιχνευθέντος προσκηνίου. Η δεύτερη προσέγγιση ουσιαστικά κάνει το ίδιο, αλλά υποστηρίζεται από έναν εκπαιδευμένο αλγόριθμο ανίχνευσης αντικειμένων. Προσπαθήσαμε επίσης να εντοπίσουμε και να εξάγουμε γραπτό κείμενο από εικόνες χρησιμοποιώντας OCR (Optical Character Recognition). Τέλος, εξάγουμε κείμενα από βίντεο, με ανάμεικτα αποτελέσματα ανάλογα με την ομιλούμενη γλώσσα.
Επικύρωση από άνθρωπο
Στο τρίτο στάδιο της μεθοδολογίας, οι άνθρωποι καλούνται να ελέγξουν τα αποτελέσματα του αυτοματοποιημένου σταδίου σχολιασμού και να τα αποδεχθούν ή να τα απορρίψουν. Οι ανθρώπινοι επικυρωτές μπορούν επίσης να προσθέσουν νέα σχόλια που ο αυτόματος αλγόριθμος απέτυχε να εντοπίσει.
Ομολογουμένως, όσο περισσότερα από αυτά τα αυτόματα σχόλια επικυρώνονται, τόσο το καλύτερο. Ωστόσο, υπάρχουν χιλιάδες από αυτούς τους αυτοματοποιημένους σχολιασμούς και η υποβολή ανθρώπινων επικυρωτών σε αυτούς είναι μια διαδικασία υψηλής έντασης πόρων. Αντ' αυτού, εξετάζουμε ένα δείγμα σχολιασμών που έχει επιλεγεί για να μας επιτρέψει να εξάγουμε συμπεράσματα σχετικά με όλους τους αυτόματους σχολιασμούς.
Κατά την επιλογή του δείγματος πρέπει να λαμβάνονται υπόψη διάφοροι παράγοντες. Για την ανάλυση μεταδεδομένων, το δείγμα πρέπει να καλύπτει διαφορετικά πεδία μεταδεδομένων με διάφορα μήκη κειμένου, να λαμβάνει υπόψη τις βαθμολογίες βεβαιότητας που αποδίδουν οι αλγόριθμοι σχολιασμού στους σχολιασμούς τους (οι οποίοι υποδηλώνουν πόσο σίγουροι αισθάνονται ότι είναι σωστοί) και ούτω καθεξής. Ομοίως, για την ανάλυση περιεχομένου, το δείγμα πρέπει να διατηρεί μια ισορροπημένη αναπαράσταση αντικειμένων με διαφορετικά χαρακτηριστικά περιεχομένου, για παράδειγμα, με διαφορετικά χρώματα και διαφορετικούς τύπους αντικειμένων.

Αναλύοντας την ανθρώπινη ανατροφοδότηση για να βελτιώσουμε τον εμπλουτισμό μας
Στόχος μας είναι να αναλύσουμε τη συσχέτιση μεταξύ των αυτόματων βαθμολογιών εμπιστοσύνης που αποδίδονται από τους αλγόριθμους σχολιασμού και τις ανθρώπινες κρίσεις, ώστε να μπορέσουμε να καθορίσουμε ποιο είναι το κατάλληλο όριο για να θεωρήσουμε έναν αυτόματο σχολιασμό έγκυρο ή όχι. Για παράδειγμα, εάν οι άνθρωποι τείνουν να δέχονται όλα τα σχόλια δείγματος για τα οποία το αυτοματοποιημένο μοντέλο έδωσε βαθμολογία εμπιστοσύνης 80% ή υψηλότερη, μπορούμε να αποφασίσουμε ότι όλα τα σχόλια πάνω από αυτό το σκορ μπορούν αυτόματα να γίνουν αποδεκτά ως έγκυρα. Οι ανθρώπινες επικυρώσεις μπορούν επίσης να μας βοηθήσουν να αξιολογήσουμε και να συγκρίνουμε την αποτελεσματικότητα διαφορετικών αλγορίθμων. Αυτός ο τελευταίος στόχος είναι ο στόχος μιας εκστρατείας πληθοπορισμού που ξεκίνησε πρόσφατα και στοχεύει στην αξιολόγηση των αποτελεσμάτων που παράγονται από δύο διαφορετικούς αλγόριθμους ανίχνευσης χρωμάτων. Μπορείτε επίσης να μας βοηθήσετε να αξιολογήσουμε τα μοντέλα σχολιασμού μας!
Τέλος, θέλουμε να χρησιμοποιήσουμε την ανθρώπινη ανατροφοδότηση για να βελτιώσουμε την ακρίβεια των ίδιων των αυτόματων αλγορίθμων. Παρόλο που οι αλγόριθμοι επανεκπαίδευσης που βασίζονται σε τεχνικές μηχανικής μάθησης δεν συγκαταλέγονται στους στόχους του έργου CRAFTED, η ανθρώπινη ανατροφοδότηση μπορεί να μας βοηθήσει να τροποποιήσουμε τους αλγόριθμους προς την επίτευξη αποτελεσμάτων υψηλότερης ακρίβειας.
Συμμετέχετε
Εάν επιθυμείτε να μας βοηθήσετε να αξιολογήσουμε τα αποτελέσματα που παράγονται από τους αλγόριθμους ανίχνευσης χρωμάτων, σας προσκαλούμε να συμβάλετε σε μία από τις ακόλουθες καμπάνιες πληθοπορισμού:
Εκστρατεία για τις συλλογές του Μουσείου Πράτο με στόχο τη σύγκριση δύο διαφορετικών αλγορίθμων τεχνητής νοημοσύνης
Μια εκστρατεία που περιλαμβάνει αντικείμενα χειροτεχνίας από το Μουσείο Μόδας της Αμβέρσας
Εκστρατεία για διάφορα αντικείμενα από την ελληνική χειροτεχνία
