Γεια σου Ματέο! Μπορείτε να μας πείτε για το έργο impresso;
Ματέο: Το Impresso (κυριολεκτικά «τι έχει τυπωθεί») είναι ένα συνεργατικό και διεπιστημονικό ερευνητικό έργο που χρηματοδοτείται από το Ελβετικό Εθνικό Ίδρυμα Επιστημών στο πλαίσιο του προγράμματος χρηματοδότησης Sinergia. Στόχος του έργου είναι η δημιουργία ενός τεχνολογικού πλαισίου για την εξαγωγή, την επεξεργασία, τη σύνδεση και τη διερεύνηση δεδομένων από αρχεία έντυπων μέσων σε μεγάλη κλίμακα.
Το έργο περιλαμβάνει υπολογιστικούς γλωσσολόγους, ψηφιακούς ανθρωπιστές, σχεδιαστές, ιστορικούς, βιβλιοθηκονόμους και αρχειονόμους, οι οποίοι αντιμετωπίζουν την πρόκληση του πώς να εμπλουτίσουν, να αναπαραστήσουν, να απεικονίσουν και να αναλύσουν ένα μεγάλο σώμα ιστορικών ψηφιοποιημένων εφημερίδων για ερευνητικούς σκοπούς. Εταίροι του έργου αυτού είναι η DHLAB του EPFL, το Κέντρο Σύγχρονης και Ψηφιακής Ιστορίας του Λουξεμβούργου (C2DH) και το Ινστιτούτο Υπολογιστικής Γλωσσολογίας του Πανεπιστημίου της Ζυρίχης. Ο διεπιστημονικός χαρακτήρας του impresso αντικατοπτρίζεται επίσης στην αρχή του από κοινού σχεδιασμού που εφαρμόζουμε σε όλο το έργο. Αυτό που σημαίνει στην πράξη είναι ότι τα δεδομένα που δημιουργούμε και τα εργαλεία για την εργασία με ψηφιοποιημένες εφημερίδες που αναπτύσσουμε διαμορφώνονται από έναν συνεχή διάλογο μεταξύ ιστορικών, σχεδιαστών, υπολογιστικών γλωσσολόγων και ψηφιακών ανθρωπιστών.
Όσον αφορά τη σύλληψη και το κίνητρο του impresso, πριν από αυτό, η DHLAB είχε συμμετάσχει σε ερευνητικό έργο στο οποίο συμμετείχε η ελβετική εφημερίδα Le Temps, με στόχο την παροχή πρόσβασης σε δύο ψηφιοποιημένες εφημερίδες - Journal de Geneve και Gazette de Lausanne (που συγχωνεύθηκαν το 1998 για να μετατραπούν σε Le Temps). Τα αποτελέσματα αυτού του έργου, καθώς και οι προκλήσεις που είχαν προκύψει, έθεσαν το έδαφος για impresso. Η ιδέα της δημιουργίας ενός αρχείου ψηφιοποιημένων εφημερίδων ήταν καλό να κλιμακωθεί ώστε να συμπεριλάβει περισσότερες πηγές, καθώς και να κοιτάξει πέρα από τα εθνικά σύνορα. Μια σειρά συναντήσεων σε συνέδρια και εργαστήρια μεταξύ της Maud Ehrmann (DHLAB), του Lars Wieneke (C2DH), του Marten Düring (C2DH) και του Simon Clematide (UZH) συνέβαλαν στην ενίσχυση και τη διατύπωση αυτής της ιδέας σε μια επιτυχημένη πρόταση χρηματοδότησης.
Πώς ασχοληθήκατε με το έργο;
Η συνάδελφός μου και συντονίστρια του έργου Maud Ehrmann μου ζήτησε να συμμετάσχω στο έργο το καλοκαίρι του 2017, όταν μια απροσδόκητη αλλαγή στην ομάδα του έργου άνοιξε τη δυνατότητα να έχει μια άλλη μεταδιδακτορική ερευνήτρια για να την υποστηρίξει στα καθήκοντα που ηγείτο η DHLAB. Εκείνη την εποχή, δούλευα στο Linked Books, ένα άλλο έργο που χρηματοδοτήθηκε από το ΙΣΝ για την εξόρυξη παραπομπών της ακαδημαϊκής λογοτεχνίας σχετικά με την ιστορία της Βενετίας. Η εργασία για την επεξεργασία και αποσαφήνιση ονοματισμένων οντοτήτων που διεξάγουμε στο impresso βρίσκεται στον πυρήνα των ερευνητικών μου ενδιαφερόντων. Υπάρχει επίσης μια συνέχεια με τα Συνδεδεμένα Βιβλία και την προηγούμενη έρευνά μου σχετικά με την εξαγωγή πληροφοριών από ψηφιακά αρχεία μεγάλης κλίμακας στις Ανθρωπιστικές Επιστήμες, με τις παραπομπές (και γενικότερα τις ονομαστικές οντότητες) να αποτελούν έναν από τους κύριους τομείς ενδιαφέροντός μου.
Ποια είναι η σημασία των συνόλων δεδομένων εφημερίδων για την ιστορική έρευνα;
Οι ιστορικές εφημερίδες είναι ανεκτίμητες πρωτογενείς πηγές για τους μελετητές των ανθρωπιστικών επιστημών γενικότερα, όχι μόνο για τους ιστορικούς. Στην πραγματικότητα, περιέχουν και διατηρούν ένα είδος απολιθωμένου ίχνους των σημερινών και προηγούμενων κοινωνιών μας. Καταγράφουν όλα τα είδη των γεγονότων, από τις πολεμικές διακηρύξεις μέχρι τους χορούς του Σαββάτου στην ύπαιθρο και καταγράφουν πολλές πτυχές της καθημερινής ζωής και του πολιτισμού. Περιέχουν εξαιρετικά πλούσιες και πυκνές πληροφορίες, οι οποίες είναι επίσης συνεχείς, καθώς σε πολλές περιπτώσεις αυτές οι εφημερίδες λειτουργούν εδώ και πολύ καιρό και δημοσιεύονται σε πολύ τακτική βάση.
Μια κρίσιμη πρόκληση που αντιμετωπίζουμε στο impresso είναι ο τρόπος με τον οποίο θα επινοήσουμε ένα εργαλείο που θα υποστηρίζει τους ερευνητές να συνεργάζονται με μεγάλα αρχεία ψηφιοποιημένων εφημερίδων. Το εργαλείο ενσωματώνει τεχνολογίες επεξεργασίας φυσικής γλώσσας (π.χ. επεξεργασία ονοματοδοσίας ή μοντελοποίηση θέματος) για την καταγραφή της σημασιολογίας του περιεχομένου των εφημερίδων, προκειμένου να καταστούν αυτές οι (ενισχυμένες) πηγές χρησιμοποιήσιμες για έρευνα. Μια σημαντική αρχή που ακολουθούμε στο σχεδιασμό του είναι η διαφάνεια, που σημαίνει ότι προσπαθούμε να καταστήσουμε σαφείς και ορατές στους χρήστες όλες τις πτυχές των δεδομένων - ή της επεξεργασίας που πραγματοποιούμε στα δεδομένα - που συχνά κινδυνεύουν να παραμείνουν κρυμμένες στις διεπαφές αναζήτησης. Οι πτυχές πληροφοριών που θέλουμε να καταστήσουμε πιο διαφανείς περιλαμβάνουν, για παράδειγμα, την ποιότητα OCR, καθώς και κενά στα δεδομένα λόγω κατεστραμμένων ψηφιακών αρχείων.
Πώς χρησιμοποιούνται τα εργαλεία impresso;
Παρά το γεγονός ότι το έργο impresso είναι ακόμα στα σκαριά, το σώμα και τα εργαλεία του χρησιμοποιούνται ενεργά τόσο για την έρευνα όσο και για τη διδασκαλία.
Estelle Bunout (C2DH) - ένας από τους (ψηφιακούς) ιστορικούς του έργου μας - εκπονεί περιπτωσιολογική μελέτη με τίτλο «Αντίσταση στην Ευρώπη», η οποία περιλαμβάνει την ανάλυση των συζητήσεων σχετικά με την ευρωπαϊκή ιδέα σε ψηφιοποιημένες εφημερίδες από το Λουξεμβούργο, την Ελβετία και πέραν αυτού, με στόχο τον εντοπισμό των εντάσεων γύρω από την ευρωπαϊκή ιδέα από τα τέλη του 19ου αιώνα έως το 1945. Και ερευνητές από τους συνδεδεμένους εταίρους μας, την ένωση Infoclio και το Τμήμα Ιστορίας του Πανεπιστημίου της Λωζάνης, συμβάλλουν στον προβληματισμό σχετικά με τον τρόπο εφαρμογής εργαλείων impresso σε ζητήματα ιστορικής έρευνας στο πλαίσιο συγκεκριμένων περιπτώσεων χρήσης.
Τέλος, δημοσιεύσαμε πρόσκληση για συνεργαζόμενους ερευνητές κατά τη διάρκεια του πρώτου έτους του έργου, προκειμένου να επεκταθεί ο κύκλος των ιστορικών που συνδέονται με το έργο. Ως αποτέλεσμα, περίπου 20 ιστορικοί κυρίως από την Μπενελούξ, τη Γαλλία, τη Γερμανία και την Ελβετία εξέφρασαν το ενδιαφέρον τους τόσο για τα εργαλεία όσο και για τις συλλογές που συγκέντρωσε η impresso και συμμετείχαν στο έργο. Η σύνδεσή τους συνεπάγεται όχι μόνο τη χρήση των αποτελεσμάτων του έργου, αλλά και τακτικό διάλογο με την ομάδα impresso, μέσω εργαστηρίων και ενός τελικού συνεδρίου με στόχο τη συλλογή παρατηρήσεων σχετικά με τη χρήση εργαλείων impresso και την έρευνά τους, καθώς και τη συζήτηση επιστημολογικών ζητημάτων που εγείρονται από ψηφιοποιημένες εφημερίδες.
Η ποικιλομορφία των θεμάτων και των μεθόδων των συνεργαζόμενων ερευνητών αντικατοπτρίζει τη γοητεία των (ψηφιοποιημένων) εφημερίδων της Ελβετίας και του Λουξεμβούργου ως ιστορικών πηγών. Περιλαμβάνουν προσωπογραφική έρευνα σχετικά με εμπειρογνώμονες και γυναίκες πολεμικές ανταποκρίτριες, καθώς και σχετικά με την «ιστορία των σκέψεων», όπως η άνοδος του φιλελεύθερου διεθνισμού στα τέλη του 19ου αιώνα, ή την τραπεζική ιστορία. Κάθε ένα από αυτά τα ερευνητικά θέματα απαιτεί μια συγκεκριμένη χρήση των εφημερίδων, έναν συγκεκριμένο τρόπο για να τα ρωτήσετε που συμβάλλει στην τροφοδότηση της αντίληψης της αλληλεπίδρασης με τη συλλογή impresso. Ωστόσο, οι ποικίλες χρήσεις διατίθενται για όλους τους ερευνητές στην ίδια διεπαφή, σε μια προσπάθεια να προσφέρουν διαφοροποίηση αυτών των αλληλεπιδράσεων και να εμπλουτίσουν κάθε τύπο ερευνητικής πρακτικής, συμπεριλαμβανομένων και των διδακτικών πρακτικών, στο πνεύμα των γενναιόδωρων διεπαφών.
Από την πλευρά της διδασκαλίας, ο Martin Grandjean και η Sandra Bott χρησιμοποιούν μέρος του σώματος impresso για τη διδασκαλία ενός μαθήματος ψηφιακών ανθρωπιστικών επιστημών/ψηφιακής ιστορίας, το οποίο αποτελεί μέρος του προγράμματος κοινωνικών και ανθρωπιστικών επιστημών του EPFL. Το μάθημα επικεντρώνεται στον τρόπο με τον οποίο τα μεγάλα γεγονότα του 20ού αιώνα καλύφθηκαν από τον Τύπο. Τα ψηφιακά αρχεία εφημερίδων παρέχουν στους φοιτητές μια πλούσια πηγή υλικού πάνω στο οποίο μπορεί να δοκιμαστεί μια σειρά ψηφιακών μεθόδων και εργαλείων. Το ίδιο μάθημα έχει προγραμματιστεί για το επόμενο έτος και θα βασίζεται στη διεπαφή και τα εργαλεία impresso, επιτρέποντάς μας έτσι να δοκιμάσουμε τη δύναμη και τις αδυναμίες αυτών των εργαλείων ειδικά σε ένα διδακτικό (και όχι ερευνητικό) πλαίσιο.
Στο πλαίσιο του Ranke2, της πλατφόρμας που προετοιμάστηκε στο C2DH και προσφέρει διδακτικό υλικό σχετικά με τον τρόπο άσκησης κριτικής ψηφιακών πηγών, το έργο impresso συμβάλλει στην προετοιμασία μιας ενότητας αφιερωμένης στη χρήση ψηφιοποιημένων εφημερίδων. Αυτή η ενότητα συγκεντρώνει τα διδάγματα που αντλήθηκαν με την προετοιμασία μιας διαφανούς διεπαφής, προσαρμοσμένης στο επίπεδο πτυχίου και στη διδασκαλία της δευτεροβάθμιας εκπαίδευσης, φέρνοντας τις τελευταίες τάσεις των ερευνητικών πρακτικών στις τάξεις.
Πού βρίσκεστε στο έργο - και ποιο είναι το επόμενο βήμα;
Η beta έκδοση του impresso interface κυκλοφόρησε τον Μάιο του 2019. Προς το παρόν πρόκειται για ιδιωτική έκδοση, η οποία αποσκοπεί κυρίως στη λήψη ανατροφοδότησης σχετικά με τον σχεδιασμό και τις λειτουργίες της διεπαφής από τους συνδεδεμένους ιστορικούς μας. Όσον αφορά τα δεδομένα, η διεπαφή παρέχει πρόσβαση σε 22 ελβετικές εφημερίδες για συνολικά σχεδόν 3,2 εκατομμύρια σελίδες, 360.000 τεύχη εφημερίδων και πάνω από 26 εκατομμύρια στοιχεία περιεχομένου (π.χ. άρθρα, διαφημίσεις κ.λπ.), κυρίως στα γαλλικά και τα γερμανικά.
Όσον αφορά τις λειτουργίες διεπαφής, η έκδοση beta περιέχει όλα τα βασικά χαρακτηριστικά που περιμένετε από μια διεπαφή εφημερίδας: αναζητήστε, αναζητήστε πτυχές και έναν θεατή που σας επιτρέπει να διαβάσετε και να εξερευνήσετε άρθρα εφημερίδων. Επιπλέον, παρέχει ορισμένα πιο προηγμένα χαρακτηριστικά, όπως τη δυνατότητα αναζήτησης ονομαστικών οντοτήτων, τη χρήση μοντέλων θέματος ως φίλτρων για τον περιορισμό των αποτελεσμάτων αναζήτησης και τη δυνατότητα του χρήστη να δημιουργεί και να αποθηκεύει συλλογές στοιχείων. Οι νέες λειτουργίες που προστέθηκαν στην τελευταία έκδοση περιλαμβάνουν την πρώτη έκδοση της οπτικής αναζήτησης (δυνατότητα φιλτραρίσματος όλων των διαθέσιμων εικόνων, ανά ημερομηνία και εφημερίδα) και τη μαζική λήψη μεταδεδομένων.
Τι θα συμβεί στη συνέχεια; Τον Ιούλιο θα κυκλοφορήσουμε τη δημόσια έκδοση της διεπαφής, με νέες λειτουργίες καθώς και νέες πηγές εφημερίδων (κυρίως το ψηφιοποιημένο υλικό της Εθνικής Βιβλιοθήκης του Λουξεμβούργου). Ο καλύτερος τρόπος για να παρακολουθήσετε το έργο καθώς συνεχίζει να αναπτύσσεται είναι να συμμετάσχετε στη λίστα αλληλογραφίας impresso - και στη σχετική ομάδα ιστορικών μας - ή να μας ακολουθήσετε στο Twitter, καθώς θα υπάρξουν μερικές συναρπαστικές νέες εξελίξεις τους επόμενους μήνες!
