Παρακαλείστε να σημειώσετε: τα μεταδεδομένα αυτού του αντικειμένου στον ιστότοπο E__uropeana.eu χρησιμοποιούν παρωχημένη γλώσσα για την περιγραφή των Ρομά.
Σήμερα, ο καθένας μπορεί να περιηγηθεί διαδικτυακά σε εκατομμύρια αντικείμενα ψηφιακής πολιτιστικής κληρονομιάς, ενώ μόνο το Europeana.eu παρέχει πρόσβαση σε περισσότερα από 50 εκατομμύρια αντικείμενα. Αυτό είναι δυνατό εν μέρει χάρη στα συνδεδεμένα ανοικτά δεδομένα ή το LOD.
Χρησιμοποιώντας το LOD, τα ιδρύματα πολιτιστικής κληρονομιάς μπορούν να δημοσιεύουν, να διαρθρώνουν και να συνδέουν τις συλλογές τους και να προσθέτουν περισσότερα τυποποιημένα μεταδεδομένα σε αντικείμενα. Για παράδειγμα, το Rijksmuseum συνδέει αντικείμενα στη συλλογή LOD με τα Wikidata και το Getty Art & Architecture Thesaurus (AAT). Η έκδοση LOD του διάσημου πίνακα του Vermeer «The Milkmaid» συνδέεται με την έννοια του «ελαιούχου χρώματος» από την AAT.
Ενώ το LOD φέρνει πολλά οφέλη, έχει επίσης ορισμένους περιορισμούς. Ένα από τα μεγαλύτερα προβλήματα που υπογραμμίζουν οι ερευνητές και οι επαγγελματίες της πολιτιστικής κληρονομιάς είναι ο τρόπος με τον οποίο το LOD αντικατοπτρίζει τις προκαταλήψεις στα δεδομένα στα οποία βασίζεται και μπορεί να παραλείψει αποχρώσεις και πολιτιστικές πολυπλοκότητες. Αυτό είναι ιδιαίτερα ορατό όταν εξετάζουμε αντικείμενα με περίπλοκες και αντικρουόμενες ιστορίες: αντικείμενα που σχετίζονται με την αποικιοκρατία, τους ιστορικά περιθωριοποιημένους ανθρώπους και τις καταπιεσμένες κοινότητες. Στην έρευνά μας, διερευνούμε μια πτυχή αυτού του προβλήματος: αμφιλεγόμενη ορολογία.
Αμφιλεγόμενοι όροι σε δημοφιλή σύνολα δεδομένων
Εάν ο όρος «λαδομπογιά» είναι απίθανο να προσβάλει, η ιστορία είναι διαφορετική με φυλετικές δυσφημίσεις, υποτιμητικές αναφορές σε κοινωνικές ομάδες ή παρωχημένα αποικιακά ονόματα. Θα μπορούσε κανείς να σκεφτεί ότι τα ευρέως χρησιμοποιούμενα σύνολα δεδομένων, όπως τα Wikidata ή τα AAT, είναι απαλλαγμένα από μεροληπτικές και «κακές λέξεις». Αυτό δεν συμβαίνει, όπως έδειξε η πρόσφατη μελέτη μας.
Βρήκαμε χιλιάδες εμφανίσεις αμφιλεγόμενων αγγλικών και ολλανδικών όρων σε τέσσερα σύνολα δεδομένων - Wikidata, AAT και δύο λεξιλογικές βάσεις δεδομένων Princeton WordNet και Open Dutch WordNet. Δεν καταλήξαμε σε μια λίστα με αμφισβητούμενους όρους, αλλά βασιστήκαμε στην έκδοση Words Matter από το Ολλανδικό Εθνικό Μουσείο Παγκόσμιων Πολιτισμών, η οποία εξηγεί τις πολιτιστικές ευαισθησίες πίσω από τους όρους που χρησιμοποιούνται στις περιγραφές μουσείων.
Εξετάζοντας πού ακριβώς εμφανίζονταν αμφιλεγόμενοι όροι, διαπιστώσαμε ότι τα Wikidata τους χρησιμοποιούν συχνά σε προτιμώμενες ετικέτες. Αυτό σημαίνει ότι οι χρήστες βλέπουν τους όρους στερεοτύπων ως κύρια ονόματα στοιχείων σε διεπαφές. Άλλα σύνολα δεδομένων αναφέρουν αμφισβητούμενους όρους κυρίως σε μεγαλύτερα περιγραφικά πεδία.
Συγκέντρωση συλλογικής εμπειρογνωμοσύνης
Αφού μάθαμε για την κλίμακα του προβλήματος, θέλαμε να μάθουμε πώς οι επαγγελματίες της πολιτιστικής κληρονομιάς και οι προγραμματιστές LOD θα μπορούσαν να το αντιμετωπίσουν και δεν υπήρχε καλύτερη ευκαιρία από τη διοργάνωση εργαστηρίου στο συνέδριο AI και κληρονομιάς στις Κάτω Χώρες.
Μαζί με τη Laura Hollink, την προϊσταμένη μου στο CWI (το εθνικό ερευνητικό ινστιτούτο για τα μαθηματικά και την επιστήμη των υπολογιστών στις Κάτω Χώρες) και μια συν-συγγραφέα, επιλέξαμε περιπτώσεις για τους συμμετέχοντες στο εργαστήριο για να συζητήσουμε. Το εργαστήρι μας προσέλκυσε 45 άτομα και σχηματίσαμε οκτώ ομάδες. Για κάθε ομάδα, ετοιμάσαμε έναν φάκελο με μια εκτύπωση μιας έννοιας LOD ή ένα αρχείο από το Europeana.eu με αμφισβητούμενους όρους, μια σελίδα από το Words Matter που εξηγεί γιατί ένας συγκεκριμένος όρος είναι αμφισβητούμενος και κολλώδεις σημειώσεις. Ζητήσαμε από τους συμμετέχοντες να προτείνουν τρόπους για να καταστεί η αναπαράσταση μιας έννοιας LOD ή του Europeana.eu πιο συμπεριληπτική.
Η αντικατάσταση από μόνη της δεν αποτελεί λύση
Ενώ έγιναν πολλές προτάσεις για την αντιμετώπιση του ζητήματος, καμία από αυτές δεν είπε ότι η αντικατάσταση ενός αμφισβητούμενου όρου με ένα κατάλληλο συνώνυμο θα έλυνε πλήρως το ζήτημα. Εκτός από τη χρήση συνωνύμων, οι συμμετέχοντες τόνισαν την ανάγκη να συμπεριληφθούν εξηγήσεις σχετικά με την αμφιλεγόμενη ορολογία στα μεταδεδομένα - γιατί έχει χρησιμοποιηθεί και γιατί έχει καταστεί ακατάλληλη. Ένα σημείωμα πρότεινε ότι τέτοιες εξηγήσεις και συζητήσεις σχετικά με αμφισβητούμενους όρους θα μπορούσαν να αποτελέσουν λύση για τις προκαταλήψεις στα μεταδεδομένα. Σε δύο περιπτώσεις, εντοπίσαμε σημειώσεις που έλεγαν ότι θα πρέπει να υπάρχουν πληροφορίες από τις κοινότητες που παρερμηνεύονται στα μεταδεδομένα.
Επιλέξαμε τρεις περιπτώσεις με τον ίδιο όρο —τσιγγάνους— για να δούμε πώς διαφορετικές ομάδες στο εργαστήριο προσεγγίζουν τον ίδιο όρο. Δύο υποθέσεις με αρχείο Europeana.eu ήταν πανομοιότυπες: ανέφεραν τον όρο στον τίτλο, την περιγραφή και το πεδίο μεταδεδομένων «θέμα» σχετικά με μια ταινία που καλύπτει τις κοινωνικές προκλήσεις των Ρομά στο Λονδίνο. Η τρίτη περίπτωση ήταν η έννοια AAT «τσιγγάνικες άμαξες». Οι λέξεις Matter προτείνουν τη χρήση του όρου «Ρομά» αντί του υποτιμητικού όρου «τσιγγάνος». Και οι τρεις ομάδες συμφώνησαν με την πρόταση αυτή, αλλά και ότι δεν θα αντικαταστήσουν απλώς τη λέξη «τσιγγάνος».
Μία ομάδα πρότεινε να προστεθούν περισσότερες πληροφορίες στα μεταδεδομένα της εγγραφής: ότι ο όρος «τσιγγάνος» θεωρείται υποτιμητικός, ότι χρησιμοποιήθηκε προηγουμένως στα μεταδεδομένα και ότι οι Ρομά ονομάζονταν προηγουμένως «τσιγγάνος». Μια άλλη ομάδα εξέφρασε την άποψη ότι «φαίνεται εύκολο να αλλάξει η λέξη [«τσιγγάνος»] σε Ρομά, αλλά οι αρνητικές συνδηλώσεις στο κείμενο/πλαίσιο [στο κείμενο περιγραφής του στοιχείου] δεν θα μεταφερθούν απλώς στον όρο “Ρομά”;» Μια άλλη σημείωση αναφέρει ότι ο όρος μπορεί να γίνει αντιληπτός διαφορετικά σε διαφορετικούς πολιτισμούς: Θεωρείται αυτός ο όρος υποτιμητικός παντού;
Μπορούμε να σχεδιάσουμε μεταδεδομένα χωρίς αποκλεισμούς με LOD;
Αυτές οι ερωτήσεις και οι προτάσεις που συλλέξαμε δεν είναι καινούργιες. Τα ιδρύματα πολιτιστικής κληρονομιάς, μαζί με τους θησαυρούς και τους ιδιοκτήτες λεξιλογίου και τους συντάκτες, αναζητούν τρόπους για να καταστήσουν τα μεταδεδομένα συμπεριληπτικά. Υπάρχουν κατευθυντήριες γραμμές και γλωσσάρια γραμμένα για να βοηθήσουν τους επιμελητές να εκπροσωπούν ψηφιακά αντικείμενα χωρίς αποκλεισμούς: για παράδειγμα, ποια θησαυροί να επιλέξουν και πώς να ταξινομήσουν τα στοιχεία κατάλληλα.
Ωστόσο, οι στερεοτυπικοί όροι χρησιμοποιούνται τόσο στις περιγραφές αντικειμένων όσο και στις έννοιες LOD. Ποιος θα είναι ο ρόλος των νέων εξελίξεων στην επίλυση αυτού του προβλήματος; Πώς μπορούμε να χρησιμοποιήσουμε γραφήματα γνώσης, θησαυρούς και σχήματα για την οικοδόμηση συμπεριληπτικών αναπαραστάσεων της πολιτιστικής κληρονομιάς; Για τους ερευνητές και τους επαγγελματίες του LOD, τα ερωτήματα αυτά δεν έχουν ακόμη αντιμετωπιστεί και οι προκλήσεις της εκπροσώπησης σύνθετων, διαφοροποιημένων και αμφισβητούμενων αντικειμένων πολιτιστικής κληρονομιάς μπορούν να αποτελέσουν κινητήρια δύναμη για αυτούς.
Ανακαλύψτε περισσότερα
Μάθετε περισσότερα για την έρευνα του Cultural AI Lab στα έγγραφα ανοικτής πρόσβασης A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage και How Contentious Terms About People and Cultures are Used in Linked Open Data.
Το Ίδρυμα Europeana συμμετέχει σε έργα όπως το DE-BIAS που αποσκοπούν στην ανάπτυξη λεξιλογίων, βάσεων γνώσεων με τη χρήση διασυνδεδεμένων ανοικτών δεδομένων και αυτοματοποιημένων εργαλείων αναγνώρισης και επισήμανσης που επιτρέπουν την επισήμανση και την ενσωμάτωση αμφισβητούμενων όρων στη βάση δεδομένων της Europeana. Διαβάστε περισσότερα για το έργο DE-BIAS εδώ.
Αυτή η ανάρτηση γράφτηκε από τον Andrei Nesterov, διδακτορικό φοιτητή στην ομάδα Human-Centered Data Analytics, CWI - The National Research Centre for Math and Computer Science in the Netherlands. Το ερευνητικό του έργο είναι μέρος του Πολιτιστικού Εργαστηρίου Τεχνητής Νοημοσύνης.
