Το Παρατηρητήριο Εικονικής Γλώσσας
Η CLARIN είναι μια ερευνητική υποδομή που έχει ως στόχο να υποστηρίξει τους ερευνητές στις ανθρωπιστικές και κοινωνικές επιστήμες καθιστώντας προσβάσιμους ψηφιακούς γλωσσικούς πόρους και εργαλεία από όλη την Ευρώπη και πέραν αυτής μέσω ενός διαδικτυακού περιβάλλοντος ενιαίας σύνδεσης. Ως εταίροι στην υποδομή ψηφιακών υπηρεσιών της Europeana (DSI), η Europeana και η CLARIN συνεργάζονται για την ενσωμάτωση περιεχομένου πολιτιστικής κληρονομιάς στην υποδομή της CLARIN. Από την αρχική πιλοτική ενσωμάτωση το 2017, η CLARIN επικαιροποιεί τακτικά και επεκτείνει την επιλογή των αντικειμένων πολιτιστικής κληρονομιάς που περιλαμβάνει στο Παρατηρητήριο Εικονικής Γλώσσας (VLO). Αυτή η διαδικτυακή υπηρεσία αναζήτησης και ανακάλυψης επικεντρώνεται στις ανάγκες των μελετητών που αναζητούν γλωσσικούς πόρους και ενσωματώνεται στην ευρύτερη υποδομή CLARIN.
Νέοι πόροι για ερευνητές
Βασικό μέρος αυτής της ενσωμάτωσης είναι η βελτίωση της πρόσβασης των χρηστών σε διαδικτυακές δυνατότητες ανάλυσης και επεξεργασίας για κάθε πόρο που βρίσκεται μέσω της VLO. Οι λειτουργίες αυτές είναι διαθέσιμες για ευρύ φάσμα πόρων πολιτιστικής κληρονομιάς που «συγκομίζονται» μέσω της Europeana, από χειρόγραφα της εποχής της αναγέννησης και ψηφιοποιημένες εφημερίδες έως ιστορικά παιδικά βιβλία και προφορικές καταγραφές ιστορίας.
Τον Απρίλιο του 2019 γράψαμε για την πρώτη ενσωμάτωση πόρων. Δείξαμε ένα ισχυρό παράδειγμα για το πώς οι άνθρωποι μπορούν να επεξεργαστούν έναν γλωσσικό πόρο απευθείας από το πρόγραμμα περιήγησής τους με μερικά κλικ μετά την ανακάλυψή του. Σε εκείνο το σημείο, περίπου 135.000 αρχεία είχαν προέλθει από την Europeana και περιλαμβάνονταν στην VLO. Από τότε, έχουμε πραγματοποιήσει δύο επιπλέον επαναλήψεις επιλογής και ολοκλήρωσης, με αποτέλεσμα πάνω από 275.000 εγγραφές από την Europeana, η οποία είναι περισσότερο από οποιονδήποτε άλλο μεμονωμένο πάροχο αρχείων μεταδεδομένων που βρίσκεται επί του παρόντος στο VLO. Παρακάτω, παρουσιάζουμε δύο επιπλέον παραδείγματα πόρων που είναι επί του παρόντος διαθέσιμοι και δείχνουμε πώς μπορούν να υποβληθούν σε περαιτέρω επεξεργασία.
«O kimmeryjskich pomnikach w Krymie»
Το «Okimmeryjskich pomnikach w Krymie»,είναι ένα πολωνικό βιβλίο του 1882, που παρέχεται από το Federacja Bibliotek Cyfrowych ως PDF, με το πλήρες περιεχόμενό του να είναι διαθέσιμο ως αποτέλεσμα του OCR (οπτική αναγνώριση χαρακτήρων). Όπως δείχνει η παρακάτω κίνηση, κάποιος που χρησιμοποιεί το VLO μπορεί να διερευνήσει τις επιλογές επεξεργασίας επιλέγοντας έναν σύνδεσμο προς ένα μεμονωμένο αρχείο και επεξεργάζοντάς το με τον πίνακα γλωσσικών πόρων. Για την καταγραφή αυτή, διατίθενται διάφορα ενδιαφέροντα εργαλεία επεξεργασίας φυσικής γλώσσας, τα περισσότερα από τα οποία παρέχονται από την πολωνική κοινοπραξία CLARIN-PL.
Οι υπολογιστικοί γλωσσολόγοι μπορεί να θέλουν να δουν το αποτέλεσμα των διαφόρων τύπων γλωσσικών αναλύσεων που είναι διαθέσιμες, ενώ οι μελετητές των ανθρωπιστικών επιστημών μπορεί να βρουν ενδιαφέρον να διερευνήσουν το αποτέλεσμα του εξαγωγέα λέξεων-κλειδιών, ο οποίος παρέχει μια λίστα κατάταξης θεμάτων που ανιχνεύονται αυτόματα ως συναφή με το κείμενο. Το εργαλείο που προσφέρει αυτό το είδος ανάλυσης για τα πολωνικά είναι το ReSpa. Μπορεί να ξεκινήσει απευθείας από το Switchboard και με αυτόν τον τρόπο οι ερευνητές μπορούν γρήγορα να κατανοήσουν το περιεχόμενο ενός έργου χωρίς καν να το ανοίξουν! Αυτό μπορεί επίσης να είναι χρήσιμο για όσους δεν διαβάζουν πολωνικά, καθώς ο κατάλογος θεμάτων μπορεί εύκολα να μεταφραστεί χρησιμοποιώντας ένα γενικό εργαλείο μετάφρασης κειμένου, όπως το Google Translate. Για παράδειγμα, μπορούμε να διαπιστώσουμε μέσα σε λίγα λεπτά ότι, με βάση το περιεχόμενο του βιβλίου, το κύριο θέμα του είναι τα μνημεία.

«Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland»
Το δεύτερο παράδειγμά μας είναι ένα ψηφιοποιημένο παιδικό βιβλίο του 19ου αιώνα που παρέχεται από την Εθνική Βιβλιοθήκη των Κάτω Χωρών: «Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland»(στα αγγλικά). Ένας άμεσος σύνδεσμος προς ένα PDF είναι διαθέσιμος για αυτόν τον πόρο. Εκτός από τις σαρώσεις των πλούσιων εικονογραφήσεων και της ιστορίας, κωδικοποιεί επίσης το πλήρες περιεχόμενο του βιβλίου ως μηχανικά αναγνώσιμο κείμενο.
Εικόνα
Χρησιμοποιώντας το Language Resource Switchboard, ο χρήστης μπορεί να ανακαλύψει ότι το εργαλείο μακρινής ανάγνωσης Voyant είναι μια διαθέσιμη επιλογή επεξεργασίας. Μόλις ο πόρος φορτωθεί στο Voyant, το κείμενο παρουσιάζεται δίπλα σε διάφορες μετρήσεις και ένα σύνολο εργαλείων που επιτρέπουν σε έναν μελετητή να πραγματοποιήσει ποσοτικές αναλύσεις των όρων μέσα στο κείμενο, όπως στο παρακάτω παράδειγμα.
Εικόνα
Αυτό το σώμα έχει 1 έγγραφο με 2.836 συνολικές λέξεις και 1.010 μοναδικές φόρμες λέξεων. Δημιουργήθηκε πριν από 3 δευτερόλεπτα. Πυκνότητα λεξιλογίου: 0.356. Μέσος όρος λέξεων ανά πρόταση: 32.2. Οι πιο συχνές λέξεις στο σώμα: μεβρούη (49)· poes (38)· δεσποινίς (18)· theepartijtje (17)· μεσιέ (14).
Μάθετε περισσότερα
Ορισμένες άλλες ενδιαφέρουσες συλλογές που προστέθηκαν μετά την τελευταία έκθεσή μας που μπορείτε τώρα να εξερευνήσετε μέσω του VLO περιλαμβάνουν:
Ψηφιοποιημένες εφημερίδες και περιοδικά από την Ψηφιακή Βιβλιοθήκη της Σλοβενίας, τη Federacja Bibliotek Cyfrowych (Πολωνία) και τη Δημόσια Βιβλιοθήκη της Βάρνας (Βουλγαρία)
Ταξιδιωτικά βιβλία από την Ψηφιακή Βιβλιοθήκη της Σλοβενίας
Χειρόγραφα της εποχής της Αναγέννησης από την Opera del Vocabolario Italiano του Εθνικού Συμβουλίου Έρευνας της Ιταλίας
Αρχεία προφορικής ιστορίας από το Συμβούλιο της Κομητείας Monaghan και το Πανεπιστημιακό Κολλέγιο του Κορκ (Ιρλανδία)
Εάν είστε περίεργοι για αυτές και τις πολλές άλλες συλλογές που είναι διαθέσιμες στο Παρατηρητήριο Εικονικής Γλώσσας και θέλετε να εξερευνήσετε τα διαθέσιμα εργαλεία για την ανάλυση και την επεξεργασία τους, επισκεφθείτε το vlo.clarin.eu, πληκτρολογήστε ορισμένους όρους αναζήτησης και αρχίστε να εξερευνάτε!
