Η πλατφόρμα Transcribathon, η οποία εγκαινιάστηκε το 2016, αναπτύχθηκε περαιτέρω από δύο έργα γενικών υπηρεσιών: Enrich Europeana (2018-2020) και Enrich Europeana Plus (2021-2023). Η πλατφόρμα επιτρέπει στους εθελοντές να μεταγράφουν χειρόγραφα ιστορικά κείμενα σε διαφορετικές γλώσσες και από διαφορετικές ιστορικές περιόδους, χρησιμοποιώντας μόνο τον υπολογιστή τους. Από την έναρξη των έργων, πάνω από 372.000 έγγραφα έχουν μεταγραφεί από εθελοντές και έχουν μετατραπεί σε ψηφιακά αρχεία κειμένου, συμβάλλοντας στην επέκταση και τον εμπλουτισμό των τεράστιων συλλογών αντικειμένων ψηφιακής πολιτιστικής κληρονομιάς της Europeana.
Το 2021, το έργο Enrich Europeana Plus άρχισε να επικαιροποιεί την πλατφόρμα Transcribathon με προηγμένη τεχνολογία αναγνώρισης γραφής, η οποία χρησιμοποιεί τεχνητή νοημοσύνη για την παροχή αυτόματων μεταγραφών που μπορούν στη συνέχεια να ελεγχθούν από εθελοντές. Ένας από τους μεγαλύτερους παρόχους τέτοιας τεχνολογίας είναι η READ-COOP, μια Ευρωπαϊκή Συνεταιριστική Εταιρεία που διαχειρίζεται το δημοφιλές λογισμικό Transkribus. Η Enrich Europeana Plus πέρασε αρκετούς μήνες δουλεύοντας με το READ-COOP και ενσωματώνοντας την τεχνολογία τους στην πλατφόρμα Transcribathon.
Σύνδεση του Transcribathon με το API «metagrapho»
Το λογισμικό Transkribus, το οποίο αναπτύχθηκε στο πλαίσιο ενός χρηματοδοτούμενου από την ΕΕ έργου με επικεφαλής το Πανεπιστήμιο του Ίνσμπρουκ, επιτρέπει την αυτόματη μεταγραφή ιστορικών χειρόγραφων εγγράφων σε μαζική κλίμακα. Η τεχνολογία χρησιμοποιεί την ΤΝ για να «μάθει» πώς να διαβάζει συγκεκριμένους τύπους γραφής και, στη συνέχεια, εφαρμόζει αυτές τις γνώσεις για τη δημιουργία αυτόματων μεταγραφών κειμένων. Αυτό επιταχύνει δραματικά τη διαδικασία μεταγραφής: ο μεταγραφέας δεν χρειάζεται πλέον να ξοδεύει ώρες γράφοντας μια μεταγραφή από το μηδέν, καθώς μπορεί να διορθώσει την αυτόματη μεταγραφή.
Η τεχνολογία αναγνώρισης γραφής όπως η Transkribus είναι ιδιαίτερα ιδανική για επιστημονικά προγράμματα πολιτών. Όσο πιο εύκολη είναι η μεταγραφή αυτών των εγγράφων, τόσο περισσότερα έγγραφα μπορούν να επεξεργαστούν οι εθελοντές σε ένα ορισμένο χρονικό πλαίσιο και τόσο πιο γρήγορα μπορεί να εμπλουτιστεί ο ιστότοπος της Europeana. Ως εκ τούτου, η ομάδα του Transcribathon ήταν πρόθυμη να εφαρμόσει αυτή την τεχνολογία στην πλατφόρμα.
Για τον σκοπό αυτό, αποφάσισαν να χρησιμοποιήσουν το metagrapho API της READ-COOP για να επιτρέψουν στο Transcribathon να έχει πρόσβαση στην τεχνολογία Transkribus. Ένα API είναι ένα λογισμικό που λειτουργεί ως αγγελιοφόρος μεταξύ δύο διαφορετικών πλατφορμών. Κάποιος ζητά πληροφορίες σε μια πλατφόρμα και η πλατφόρμα στέλνει αυτό το αίτημα στο API μιας άλλης πλατφόρμας. Μόλις αυτή η δεύτερη πλατφόρμα έχει απάντηση στο αίτημα, το API το φέρνει πίσω στην πρώτη πλατφόρμα και το άτομο παίρνει τις πληροφορίες που χρειάζεται.
Η πλατφόρμα Transcribathon χρησιμοποιεί το metagrapho API ακριβώς με αυτόν τον τρόπο. Όταν ένας εθελοντής θέλει να πάρει μια αυτόματη μεταγραφή ενός κειμένου,ζητούν αυτό στην πλατφόρμα Transcribathon. Στη συνέχεια, το Transcribathon στέλνει αυτό το αίτημα στο metagrapho API, το οποίο χρησιμοποιεί τεχνολογία αναγνώρισης γραφής για την επεξεργασία της εικόνας και τη δημιουργία αυτόματης μεταγραφής. Τέλος, μόλις ολοκληρωθεί η επεξεργασία, η πλατφόρμα Transcribathon μπορεί να έχει πρόσβαση στη μεταγραφή και να την δείξει στον εθελοντή, και πάλι μέσω του metagrapho API.
Το metagrapho API παρέχει όχι μόνο τη μεταγραφή αλλά και τις συντεταγμένες για κάθε γραμμή ή ακόμα και λέξη που βρίσκεται στην εικόνα - κάτι που δεν ήταν δυνατό στην παλιά έκδοση του Transcribathon. Αυτό το χαρακτηριστικό καθιστά δυνατή στη συνέχεια τη χρήση των μεταγραφών για περαιτέρω εφαρμογές, όπως η επισήμανση λέξεων-κλειδιών που ταιριάζουν στο κείμενο κατά τη διάρκεια μιας αναζήτησης πλήρους κειμένου.
Ένας βελτιωμένος επεξεργαστής μεταγραφής
Η ενημέρωση της τεχνολογίας πίσω από το Transcribathon σήμαινε ότι ο επεξεργαστής μεταγραφής - το μέρος που ένας εθελοντής χρησιμοποιεί για να εισάγει τις μεταγραφές του - δεν ήταν πλέον σε θέση να αντιμετωπίσει την πλουσιότερη μορφή δεδομένων που λάμβανε πίσω από το API metagrapho. Ως εκ τούτου, το READ-COOP δημιούργησε έναν προσαρμοσμένο επεξεργαστή μεταγραφής για το Transcribathon. Αυτό επιτρέπει στους χρήστες να κάνουν κλικ σε μια γραμμή της μεταγραφής και να δουν την αντίστοιχη γραμμή στην εικόνα του κειμένου.
Για να επιταχυνθεί η διαδικασία, το READ-COOP πήρε τον υπάρχοντα επεξεργαστή στο λογισμικό Transkribus, τον τροποποίησε για να ταιριάζει στις απαιτήσεις του Transcribathon και τον μετέτρεψε σε widget. Το widget στη συνέχεια απλώς εισήχθη στην πλατφόρμα Transcribathon, επιτρέποντας στους χρήστες να έχουν πρόσβαση και να επεξεργάζονται τις μεταγραφές που δημιουργούνται από το metagrapho API. Η χρήση του υπάρχοντος επεξεργαστή Transkribus και η απλή τροποποίησή του εξοικονόμησε επίσης πολύτιμο χρόνο και κόστος ανάπτυξης.
Η δύναμη της συνεργασίας
Αυτές οι τεχνολογικές ενημερώσεις μεταφέρουν το Transcribathon στο επόμενο επίπεδο. Αντί να δημιουργούν χρονοβόρες μεταγραφές από το μηδέν, οι εθελοντές μπορούν τώρα απλά να διορθώσουν αυτόματα τις μεταγραφές που δημιουργούνται στον νέο επεξεργαστή μεταγραφών, βοηθώντας τους να επεξεργαστούν πολλά περισσότερα έγγραφα κατά τη διάρκεια μιας εκτέλεσης.
Η READ-COOP εκπαιδεύει επί του παρόντος τα χειρόγραφα μοντέλα ΤΝ αναγνώρισης κειμένου με βάση υλικό που έχει ήδη μεταγραφεί ή για υλικό που πρόκειται σύντομα να μεταγραφεί στο Transcribathon. Όσο καλύτερα προσαρμόζεται το μοντέλο ΤΝ στο υλικό που εστιάζει, τόσο πιο ακριβείς θα είναι οι αυτόματες μεταγραφές.
Για παράδειγμα, ένα επερχόμενο Transcribathon Run θα περιλαμβάνει σαρώσεις καρτών τροφίμων από τα Κρατικά Αρχεία στο Ζάγκρεμπ, οι οποίες χρησιμοποιήθηκαν κατά τη διάρκεια του Β 'Παγκοσμίου Πολέμου (από το 1941 1945.) ως μορφή διανομής τροφίμων και άλλων πόρων. Οι κάρτες περιέχουν δημογραφικούς και κοινωνικοοικονομικούς δείκτες για άτομα και/ή νοικοκυριά, όπως τίτλους, θέσεις εργασίας και, ως εκ τούτου, αποτελούν πλούσια πηγή ερευνητικού υλικού.
Στο πλαίσιο της προετοιμασίας αυτής, το READ-COOP διοργάνωσε διαδικτυακό σεμινάριο με υπαλλήλους του αρχείου, για να τους δείξει πώς να προετοιμάσουν τα δεδομένα κατάρτισης. Αυτά τα δεδομένα κατάρτισης θα χρησιμοποιηθούν στη συνέχεια για την εκπαίδευση ενός μοντέλου γραφής ή για να «διδάξουν» στον κινητήρα πώς να διαβάζει έγγραφα αυτού του τύπου, ώστε να μπορεί να παρέχει ακριβέστερες μεταγραφές κατά τη διάρκεια της διαδρομής. Αυτό, σε συνδυασμό με τις δεξιότητες διόρθωσης των εθελοντών, θα επιτρέψει στο αρχείο του Ζάγκρεμπ να ψηφιοποιήσει μεγαλύτερο αριθμό εγγράφων από ποτέ.
Μάθετε περισσότερα
Μπορείτε να εξετάσετε το διαδικτυακό σεμινάριο σχετικά με τον τρόπο προετοιμασίας των δεδομένων κατάρτισης σε αυτό το βίντεο. Θα βρείτε την ενσωμάτωση του συντάκτη για αυτόματη αναγνώριση χειρόγραφου κειμένου στην πλατφόρμα Transcribathon και μπορείτε να δείτε τα πρώτα αποτελέσματα από τα έγγραφα του Δουβλίνου.
Αυτή η ανάρτηση γράφτηκε από τη Fiona Park, Content Manager READ-COOP SCE, και τον Philip Kahle, Προγραμματιστή Λογισμικού, READ COOP.
