Hoi Matteo! Kun je ons iets vertellen over het impresso project?
Matteo: Impresso (letterlijk “wat is gedrukt”) is een collaboratief en interdisciplinair onderzoeksproject dat wordt gefinancierd door de Zwitserse National Science Foundation in het kader van de financieringsregeling Sinergia. Het project heeft tot doel een technologisch kader te creëren voor het op grote schaal extraheren, verwerken, koppelen en verkennen van gegevens uit gedrukte mediaarchieven.
Het project omvat computationele taalkundigen, digitale humanisten, ontwerpers, historici, bibliothecarissen en archivarissen, die de uitdaging aangaan om een groot corpus van historische gedigitaliseerde kranten te verrijken, te vertegenwoordigen, te visualiseren en te analyseren voor onderzoeksdoeleinden. Partners in dit project zijn DHLAB van EPFL, het Luxembourg Center for Contemporary and Digital History (C2DH) en het Institute of Computational Linguistics van de Universiteit van Zürich. Het interdisciplinaire karakter van impresso komt ook tot uiting in het principe van co-design dat we gedurende het hele project toepassen. Wat het in de praktijk betekent, is dat de gegevens die we creëren en de tools voor het werken met gedigitaliseerde kranten die we ontwikkelen, worden gevormd door een constante dialoog tussen historici, ontwerpers, computationele linguïsten en digitale humanisten.
Wat het concept en de motivatie van impresso betreft, was DHLAB voordien betrokken geweest bij een onderzoeksproject waarbij de Zwitserse krant Le Temps betrokken was, met als doel toegang te verlenen tot twee gedigitaliseerde kranten - Journal de Geneve en Gazette de Lausanne (die in 1998 fuseerden tot Le Temps). De resultaten van dit project, evenals de uitdagingen die waren ontstaan, legden de basis voor impresso. Het idee om een archief van gedigitaliseerde kranten te creëren leende zich goed om te worden opgeschaald naar meer bronnen en om over de nationale grenzen heen te kijken. Een reeks ontmoetingen op conferenties en workshops tussen Maud Ehrmann (DHLAB), Lars Wieneke (C2DH), Marten Düring (C2DH) en Simon Clematide (UZH) hielp dit idee te versterken en te verwoorden in wat een succesvol financieringsvoorstel werd.
Hoe ben je betrokken geraakt bij het project?
Mijn collega en projectcoördinator Maud Ehrmann vroeg me om deel te nemen aan het project in de zomer van 2017, toen een onverwachte verandering in het projectteam de mogelijkheid opende om een andere postdoc-onderzoeker te hebben om haar te ondersteunen bij de taken die de DHLAB leidde. Op dat moment werkte ik aan Linked Books, een ander SNF-gefinancierd project over citatiewinning van wetenschappelijke literatuur over de geschiedenis van Venetië. Het werk aan named entity processing en disambiguation dat we in impresso uitvoeren, vormt de kern van mijn onderzoeksinteresses. Er is ook een continuïteit met Linked Books en mijn eerdere onderzoek naar informatie-extractie uit grootschalige digitale archieven in de geesteswetenschappen, waarbij citaties (en meer in het algemeen genoemde entiteiten) een van mijn belangrijkste interessegebieden zijn.
Wat is het belang van krantendatasets voor historisch onderzoek?
Historische kranten zijn onschatbare primaire bronnen voor geesteswetenschappers in het algemeen, niet alleen historici. In feite bevatten en bewaren ze een soort gefossiliseerd spoor van onze huidige en vroegere samenlevingen. Ze registreren allerlei evenementen, van oorlogsverklaringen tot zaterdagavonddansballen op het platteland, en ze documenteren veel aspecten van het dagelijks leven en de cultuur. Ze bevatten zeer rijke en dichte informatie, die ook continu is, omdat deze kranten in veel gevallen al lang bestaan en zeer regelmatig worden gepubliceerd.
Een cruciale uitdaging die we in impresso aanpakken, is het bedenken van een tool die onderzoekers ondersteunt bij het werken met grote archieven van gedigitaliseerde kranten. De tool integreert natuurlijke taalverwerkingstechnologieën (bijvoorbeeld benoemde entiteitsverwerking of onderwerpmodellering) om de semantiek van kranteninhoud vast te leggen, om deze (verbeterde) bronnen bruikbaar te maken voor onderzoek. Een belangrijk principe dat we volgen in het ontwerp is transparantie, wat betekent dat we ernaar streven om alle aspecten van de gegevens - of van de verwerking die we op de gegevens uitvoeren - die vaak verborgen dreigen te blijven in zoekinterfaces, expliciet en zichtbaar te maken voor gebruikers. Informatieaspecten die we transparanter willen maken, zijn bijvoorbeeld OCR-kwaliteit en gaten in de gegevens als gevolg van beschadigde digitale archieven.
Hoe worden impresso tools gebruikt?
Ondanks het feit dat het impresso-project nog in de maak is, worden het corpus en de hulpmiddelen ervan actief gebruikt voor zowel onderzoek als onderwijs.
Aan de onderzoekszijde werkt Dr. Estelle Bunout (C2DH) - een van de (digitale) historici in ons project - aan een casestudy getiteld “Resistance to Europe”, die de analyse omvat van debatten over het Europese idee in gedigitaliseerde kranten uit Luxemburg, Zwitserland en daarbuiten, met als doel spanningen rond het Europese idee van de late 19e eeuw tot 1945 in kaart te brengen. En onderzoekers van onze geassocieerde partners, de vereniging Infoclio en de afdeling Geschiedenis van de Universiteit van Lausanne dragen bij aan de reflectie over de toepassing van impresso-instrumenten op historische onderzoeksvragen in het kader van concrete use cases.
Ten slotte hebben we in het eerste jaar van het project een oproep gedaan voor geassocieerde onderzoekers om de kring van historici die bij het project zijn aangesloten, uit te breiden. Als gevolg hiervan hebben ongeveer 20 historici, voornamelijk uit de Benelux, Frankrijk, Duitsland en Zwitserland, hun interesse geuit in zowel de gereedschappen als de collecties die door impresso zijn samengebracht en zijn betrokken geraakt bij het project. Hun associatie omvat niet alleen het gebruik van de output van het project, maar ook een regelmatige dialoog met het impresso-team, via workshops en een slotconferentie om feedback te verzamelen over hun gebruik van impresso-instrumenten en hun onderzoek, en om epistemologische kwesties te bespreken die door gedigitaliseerde kranten aan de orde worden gesteld.
De diversiteit aan onderwerpen en methoden van de geassocieerde onderzoekers weerspiegelt de allure van de Zwitserse en Luxemburgse (gedigitiseerde) kranten als historische bronnen. Zij omvatten prosopografisch onderzoek naar deskundigen en vrouwelijke oorlogscorrespondenten, alsook naar “gedachtengeschiedenis”, zoals de opkomst van het liberale internationalisme aan het einde van de 19e eeuw, of de bankgeschiedenis. Elk van deze onderzoeksthema's vereist een bepaald gebruik van de kranten, een bepaalde manier om ze te bevragen die bijdraagt aan het concept van de interactie met de impresso-collectie. De diverse toepassingen worden echter beschikbaar gesteld voor alle onderzoekers in dezelfde interface, in een poging om een diversificatie van deze interacties aan te bieden en elk type onderzoekspraktijk te verrijken, inclusief ook onderwijspraktijken, in de geest van de genereuze interfaces.
Wat het onderwijs betreft, hebben Martin Grandjean en Sandra Bott een deel van het impresso corpus gebruikt voor het geven van een cursus Digital Humanities/Digital History, onderdeel van het programma Sociale en Menswetenschappen van de EPFL. De cursus richt zich op hoe de grote gebeurtenissen van de 20e eeuw in de pers werden behandeld; digitale archieven van kranten bieden de studenten een rijke bron van materialen waarop een reeks digitale methoden en hulpmiddelen kunnen worden getest. Dezelfde cursus is gepland voor volgend jaar en zal gebaseerd zijn op de impresso-interface en tools, waardoor we de kracht en zwaktes van deze tools specifiek in een onderwijscontext (in plaats van onderzoek) kunnen testen.
In het kader van Ranke2, het platform dat op het C2DH is voorbereid en lesmateriaal biedt over het oefenen van digitale bronkritiek, draagt het impresso-project bij aan de voorbereiding van een module die gewijd is aan het gebruik van gedigitaliseerde kranten. Deze module oogst de geleerde lessen met het voorbereiden van een transparante interface, aangepast aan het bachelorniveau en het voortgezet onderwijs, waardoor de nieuwste trends van onderzoekspraktijken naar de klaslokalen worden gebracht.
Waar ben je mee bezig in het project - en wat is de volgende stap?
De beta-versie van de impresso-interface werd uitgebracht in mei 2019. Voorlopig is het een privé-release, die vooral bedoeld is om feedback te krijgen van onze geassocieerde historici over het interface-ontwerp en de functionaliteiten. In termen van gegevens geeft de interface toegang tot 22 Zwitserse kranten voor een totaal van bijna 3,2 miljoen pagina's, 360.000 krantenuitgiften en meer dan 26 miljoen inhoudsartikelen (bijv. artikelen, advertenties, enz.), meestal in het Frans en Duits.
Wat de interfacefunctionaliteiten betreft, bevat de bètaversie alle basisfuncties die u van een kranteninterface verwacht: zoek, zoek facetten en een kijker waarmee je krantenartikelen kunt lezen en verkennen. Daarnaast biedt het een aantal meer geavanceerde functies, zoals de mogelijkheid om te zoeken naar benoemde entiteiten, om onderwerpmodellen te gebruiken als filters om zoekresultaten te verfijnen en de mogelijkheid voor de gebruiker om verzamelingen van items te maken en op te slaan. Nieuwe functionaliteiten die in de nieuwste release zijn toegevoegd, zijn de eerste versie van visueel zoeken (mogelijkheid om alle beschikbare afbeeldingen te filteren, op datum en krant) en het bulksgewijze downloaden van metadata.
Wat gaat er nu gebeuren? In de maand juli zullen we de openbare versie van de interface vrijgeven, met nieuwe functionaliteiten en nieuwe krantenbronnen (met name het gedigitaliseerde materiaal van de Luxemburgse Nationale Bibliotheek). De beste manier om het project te volgen terwijl het zich blijft ontwikkelen, is door lid te worden van de impresso-mailinglijst - en de groep van onze geassocieerde historici - of ons te volgen op Twitter, aangezien er de komende maanden een paar spannende nieuwe ontwikkelingen zullen zijn!
