Βιβλία, χειρόγραφα, ιστορικές εφημερίδες και πολλά άλλα είδη αντικειμένων πολιτιστικής κληρονομιάς (CHOs) παρέχουν πολύτιμη συμβολή για ένα ευρύ φάσμα ερευνητικών θεμάτων. Η αποστολή της CLARIN είναι να καταστήσει τους ψηφιακούς γλωσσικούς πόρους διαθέσιμους σε μελετητές, ερευνητές, φοιτητές και πολίτες-επιστήμονες από όλους τους κλάδους. Ως εταίροι στην υποδομή ψηφιακών υπηρεσιών της Europeana (DSI), η Europeana και η CLARIN συνεργάστηκαν για την ενσωμάτωση υλικού πολιτιστικής κληρονομιάς στις υποδομές της CLARIN. Με βάση την πείρα που αποκτήθηκε κατά τη διάρκεια του πιλοτικού προγράμματος και με βάση τη βελτίωση των υπηρεσιών διάδοσης και της ποιότητας των μεταδεδομένων που προσφέρει η Europeana, η CLARIN διενήργησε πρόσφατα νέα αξιολόγηση των διαθέσιμων συνόλων δεδομένων και προέβη σε νέα επιλογή. Η διαδικασία επιλογής επικεντρώθηκε σε πλήρες περιεχόμενο κειμένου, όπως ψηφιοποιημένα βιβλία, περιοδικά και εφημερίδες με περιεχόμενο κειμένου που αποκτήθηκε μέσω οπτικής αναγνώρισης χαρακτήρων (OCR). Άλλοι τύποι αντικειμένων που εξετάστηκαν επίσης είναι σαρώσεις υψηλής ανάλυσης χειρογράφων και ήχου ομιλίας. Για να είναι επιλέξιμοι, οι πόροι έπρεπε να είναι άμεσα διαθέσιμοι στην ακατέργαστη μορφή τους και να μην έχουν νομικούς περιορισμούς για επαναχρησιμοποίηση. Επί του παρόντος, 22 συλλογές που περιέχουν περίπου 135.000 αντικείμενα πολιτιστικής κληρονομιάς έχουν προσδιοριστεί ότι πληρούν αυτά τα κριτήρια.
Συνδεδεμένα εργαλεία για απρόσκοπτη επεξεργασία
Μετά την ολοκλήρωση της επιλογής, η CLARIN δημιούργησε έναν μηχανισμό για την τακτική ανάκτηση μεταδεδομένων για τις επιλεγμένες συλλογές. Μόλις ανακτηθούν, τα μεταδεδομένα εισάγονται στον κατάλογο γλωσσικών πόρων της CLARIN, το Παρατηρητήριο Εικονικής Γλώσσας (VLO).
Κατ 'ευθείαν, μπορούμε να δούμε ότι οι νεοεισαχθέντες πόροι συμβάλλουν σημαντικά στον αριθμό των σχετικών αποτελεσμάτων αναζήτησης για ορισμένα ερωτήματα. Για παράδειγμα, αναζητώντας σλοβενικούς πόρους κειμένου, σχεδόν όλα τα 73.000+ αποτελέσματα προέρχονται από πάροχο δεδομένων της Europeana - στην προκειμένη περίπτωση από την Ψηφιακή Βιβλιοθήκη της Σλοβενίας. Ομοίως, η διαθεσιμότητα ουγγρικών και πολωνικών πόρων κειμένου έχει ενισχυθεί σημαντικά.
Εκτός από την προσφορά στους ερευνητές ενός οικείου τρόπου ανακάλυψης αντικειμένων πολιτιστικής κληρονομιάς που σχετίζονται με την έρευνά τους, η VLO παρέχει επίσης μια άμεση διαδρομή προς την ανάλυση των ανακαλυφθέντων πόρων. Για παράδειγμα, αυτό το φυλλάδιο του 18ου αιώνα, το οποίο προσφέρεται ως PDF με ενσωματωμένο πλήρες κείμενο από την Ιρλανδική Επιτροπή Χειρογράφων και τη Βιβλιοθήκη Oireachtas, διατίθεται πλέον μέσω του VLO.
Μεταβαίνοντας στην προβολή Πόρων και επιλέγοντας τη Διαδικασία με την επιλογή Πίνακας γλωσσικών πόρων, βλέπετε μια λίστα εργαλείων που μπορούν να προσφερθούν - εννέα κατά τη στιγμή της γραφής. Μεταξύ των επιλογών είναι η γραμματική ανάλυση μέσω της αλυσίδας Weblicht Dependency Parsing και της σουίτας Voyant για ανάλυση κειμένου με τη βοήθεια υπολογιστή. Σημειώστε ότι, παρόλο που το LRS μπορεί να χρησιμοποιηθεί για οποιονδήποτε πόρο, δεν διαθέτει συνδεδεμένα εργαλεία για όλους τους τύπους γλώσσας ή πόρων και ότι στην τρέχουσα έκδοση ισχύει περιορισμός μεγέθους αρχείου. Μια επερχόμενη έκδοση θα δει αυτόν τον περιορισμό να αίρεται.

Το πρόσφατα ενσωματωμένο περιεχόμενο θα αξιοποιήσει περαιτέρω τις δυνατότητες
Τώρα που έχει επιτευχθεί η ενσωμάτωση μιας σημαντικής επιλογής καλής ποιότητας και καλά περιγραφόμενων πόρων, μπορούμε να δούμε το περίγραμμα των δυνατοτήτων αυτής της ενσωμάτωσης σε μεγαλύτερη κλίμακα. Οι τρέχουσες προσπάθειες για τη διάθεση περιεχομένου πλήρους κειμένου για μεγάλες συλλογές ψηφιοποιημένων εφημερίδων στο πλαίσιο του έργου Europeana Newspapers καθιστούν πιθανή την περαιτέρω αξιοποίηση αυτού του δυναμικού σε σημαντική κλίμακα στο εγγύς μέλλον. Επιπλέον, η CLARIN θα προχωρήσει στην αξιολόγηση πρόσθετων συλλογών πέραν των «χαμηλών καρπών» και θα επιδιώξει να συνεχίσει να επεκτείνει τον όγκο των πόρων πολιτιστικής κληρονομιάς στα χέρια των ερευνητών.
Αναζητήστε, βρείτε και επεξεργαστείτε πόρους πολιτιστικής κληρονομιάς πλήρους κειμένου με την VLO τώρα!
Εάν ενδιαφέρεστε για τις συλλογές που είναι διαθέσιμες στο Παρατηρητήριο Εικονικών Γλωσσών και θέλετε να μάθετε ποια εργαλεία είναι διαθέσιμα για την επεξεργασία τους, μεταβείτε απλώς στο vlo.clarin.eu, πληκτρολογήστε ορισμένους όρους αναζήτησης και αρχίστε να εξερευνάτε.
