Sveiki Matteo! Vai jūs varat pastāstīt mums par impresso projektu?
Mateo: Impresso (burtiski “kas ir izdrukāts”) ir sadarbības un starpdisciplinārs pētniecības projekts, ko finansē Šveices Nacionālais zinātnes fonds saskaņā ar Sinerģijas finansēšanas shēmu. Projekta mērķis ir izveidot tehnoloģisku satvaru, lai plašā mērogā izgūtu, apstrādātu, sasaistītu un izpētītu datus no drukāto mediju arhīviem.
Projektā ir iesaistīti skaitļošanas lingvisti, digitālie humānisti, dizaineri, vēsturnieki, bibliotekāri un arhivāri, kuri risina problēmu, kā pētniecības nolūkos bagātināt, pārstāvēt, vizualizēt un analizēt lielu skaitu vēsturisku digitalizētu laikrakstu. Šā projekta partneri ir EPFL DHLAB, Luksemburgas Laikmetīgās un digitālās vēstures centrs (C2DH) un Cīrihes Universitātes Skaitļošanas lingvistikas institūts. Impresso starpdisciplinārais raksturs atspoguļojas arī kopizstrādes principā, ko piemērojam visā projektā. Praksē tas nozīmē, ka datus, ko mēs radām, un rīkus darbam ar digitalizētiem laikrakstiem, kurus mēs izstrādājam, veido pastāvīgs dialogs starp vēsturniekiem, dizaineriem, skaitļošanas lingvistiem un digitālajiem humānistiem.
Attiecībā uz impresso koncepciju un motivāciju DHLAB pirms tam bija iesaistīts pētniecības projektā, kurā bija iesaistīts Šveices laikraksts Le Temps, kura mērķis bija nodrošināt piekļuvi diviem digitalizētiem laikrakstiem – Journal de Geneve un Gazette de Lausanne (kas 1998. gadā apvienojās, kļūstot par Le Temps). Šā projekta rezultāti, kā arī radušās problēmas lika pamatus impresso. Ideja izveidot digitalizētu laikrakstu arhīvu ļāva to paplašināt, iekļaujot vairāk avotu, kā arī palūkoties ārpus valstu robežām. Vairākas tikšanās konferencēs un darbsemināros, kurās piedalījās Maud Ehrmann (DHLAB), Lars Wieneke (C2DH), Marten Düring (C2DH) un Simon Clematide (UZH), palīdzēja stiprināt un formulēt šo ideju par veiksmīgu finansējuma priekšlikumu.
Kā jūs iesaistījāties projektā?
Mana kolēģe un projekta koordinatore Maud Ehrmann lūdza mani pievienoties projektam 2017. gada vasarā, kad negaidītas izmaiņas projekta komandā pavēra iespēju iegūt vēl vienu pēcdoktorantūras pētnieku, lai atbalstītu viņu DHLAB vadītajos uzdevumos. Tajā laikā es strādāju pie Saistītajām grāmatām, kas ir vēl viens SNF finansēts projekts par citēšanas ieguvi zinātniskajā literatūrā par Venēcijas vēsturi. Manu pētniecības interešu pamatā ir darbs pie nosaukto vienību apstrādes un noliegšanas, ko mēs veicam impresso. Pastāv arī nepārtrauktība ar Saistītajām grāmatām un manu iepriekšējo pētījumu par informācijas iegūšanu no liela mēroga digitālajiem arhīviem humanitārajās zinātnēs, un citāti (un vispārīgāk nosauktas vienības) ir viena no manām galvenajām interešu jomām.
Kāda ir laikrakstu datu kopu nozīme vēstures pētījumos?
Vēsturiskie laikraksti ir nenovērtējami primārie avoti humanitāro zinātņu zinātniekiem kopumā, ne tikai vēsturniekiem. Faktiski tie satur un saglabā sava veida fosilizētas pēdas no mūsu pašreizējās un pagātnes sabiedrības. Viņi reģistrē visu veidu notikumus, sākot no kara deklarācijām līdz sestdienas vakara deju bumbām laukos, un viņi dokumentē daudzus ikdienas dzīves un kultūras aspektus. Tie satur ārkārtīgi bagātu un blīvu informāciju, kas ir arī nepārtraukta, jo daudzos gadījumos šie laikraksti darbojas jau ilgu laiku un tiek publicēti ļoti regulāri.
Būtisks izaicinājums, ko mēs risinām impresso, ir tas, kā izstrādāt rīku, kas atbalsta pētniekus darbā ar lieliem digitalizētu laikrakstu arhīviem. Rīks integrē dabiskās valodas apstrādes tehnoloģijas (piemēram, nosaukto vienību apstrādi vai tēmu modelēšanu), lai attēlotu laikraksta satura semantiku nolūkā padarīt šos (uzlabotos) avotus izmantojamus pētniecībai. Svarīgs princips, ko mēs ievērojam tā izstrādē, ir pārredzamība, kas nozīmē, ka mēs cenšamies padarīt skaidrus un redzamus lietotājiem visus datu vai datu apstrādes aspektus, kas bieži vien var palikt paslēpti meklēšanas saskarnēs. Informācijas aspekti, kurus mēs vēlamies padarīt pārredzamākus, ietver, piemēram, OCR kvalitāti, kā arī datu caurumus bojātu digitālo arhīvu dēļ.
Kā tiek izmantoti impresso rīki?
Neskatoties uz to, ka impresso projekts joprojām tiek veidots, tā korpuss un instrumenti tiek aktīvi izmantoti gan pētniecībai, gan mācīšanai.
Pētniecības jomā Dr. Estelle Bunout (C2DH), kas ir viena no mūsu projekta (digitālajām) vēsturniecēm, strādā pie gadījuma izpētes ar nosaukumu “Pretošanās Eiropai”, kas ietver diskusiju analīzi par Eiropas ideju digitalizētos laikrakstos Luksemburgā, Šveicē un citur, lai apzinātu spriedzi saistībā ar Eiropas ideju no 19. gadsimta beigām līdz 1945. gadam. Pētnieki no mūsu asociētajiem partneriem, asociācijas Infoclio un Lozannas Universitātes Vēstures departamenta, piedalās pārdomās par to, kā izmantot impresso rīkus vēstures pētniecības jautājumos saistībā ar konkrētiem izmantošanas gadījumiem.
Visbeidzot, mēs izsludinājām uzaicinājumu asociētajiem pētniekiem projekta pirmajā gadā, lai paplašinātu ar projektu saistīto vēsturnieku loku. Tā rezultātā aptuveni 20 vēsturnieki galvenokārt no Beniluksa, Francijas, Vācijas un Šveices pauda interesi gan par instrumentiem, gan par impresso apkopotajām kolekcijām un iesaistījās projektā. To asociēšana ietver ne tikai projekta rezultātu izmantošanu, bet arī regulāru dialogu ar impresso komandu, izmantojot darbseminārus un noslēguma konferenci, kuras mērķis ir apkopot atsauksmes par impresso rīku izmantošanu un pētījumiem un apspriest digitalizēto laikrakstu radītos epistemoloģiskos jautājumus.
Iesaistīto pētnieku tēmu un metožu daudzveidība atspoguļo Šveices un Luksemburgas (digitalizēto) laikrakstu kā vēsturisku avotu pievilcību. Tie ietver prosopogrāfiskus pētījumus par ekspertiem un kara korespondentēm sievietēm, kā arī par “domu vēsturi”, piemēram, liberālā internacionālisma pieaugumu 19. gadsimta beigās vai banku vēsturi. Katrai no šīm pētniecības tēmām ir nepieciešama īpaša laikrakstu izmantošana, īpašs veids, kā tos vaicāt, kas veicina izpratni par mijiedarbību ar impresso kolekciju. Tomēr dažādie lietojumi ir pieejami visiem pētniekiem vienā un tajā pašā saskarnē, lai piedāvātu šo mijiedarbību dažādošanu un bagātinātu visu veidu pētniecības praksi, tostarp arī mācīšanas praksi, dāsno saskarņu garā.
Runājot par mācīšanu, Martin Grandjean un Sandra Bott ir izmantojuši daļu no impresso korpusa, lai mācītu digitālās humanitārās zinātnes / digitālās vēstures kursu, kas ir daļa no EPFL sociālo un humanitāro zinātņu programmas. Kursā galvenā uzmanība pievērsta tam, kā 20. gadsimta lielie notikumi tika atspoguļoti presē; digitālie laikrakstu arhīvi nodrošina skolēniem bagātīgu materiālu avotu, uz kura var pārbaudīt dažādas digitālās metodes un rīkus. Tas pats kurss ir plānots nākamajam gadam, un tā pamatā būs impresso saskarne un rīki, tādējādi ļaujot mums pārbaudīt šo rīku stiprās un vājās puses tieši mācību (nevis pētniecības) kontekstā.
C2DH sagatavotās platformas Ranke2 ietvaros, kas piedāvā mācību materiālus par to, kā praktizēt digitālo avotu kritiku, impresso projekts palīdz sagatavot moduli, kas paredzēts digitalizētu laikrakstu izmantošanai. Šis modulis apkopo gūtās mācības, sagatavojot pārredzamu saskarni, kas pielāgota bakalaura līmeņa un vidusskolas mācīšanai, iepazīstinot klases ar jaunākajām pētniecības prakses tendencēm.
Kur jūs esat līdz projektā - un kāds ir nākamais solis?
Impresso saskarnes beta versija tika izlaista 2019. gada maijā. Pašlaik tas ir privāts laidiens, kura galvenais mērķis ir saņemt atsauksmes par saskarnes dizainu un funkcijām no mūsu saistītajiem vēsturniekiem. Datu ziņā saskarne nodrošina piekļuvi 22 Šveices laikrakstiem par gandrīz 3,2 miljoniem lappušu, 360 000 laikrakstu izdevumu un vairāk nekā 26 miljoniem satura vienību (piemēram, rakstiem, reklāmām utt.), galvenokārt franču un vācu valodā.
Kas attiecas uz interfeisa funkcijām, beta laidienā ir visas pamatfunkcijas, ko sagaidāt no laikraksta saskarnes: meklēt, meklēt šķautnes un skatītāju, kas ļauj lasīt un izpētīt avīžu rakstus. Turklāt tas nodrošina dažas papildu funkcijas, piemēram, iespēju meklēt nosauktas vienības, izmantot tematiskos modeļus kā filtrus, lai sašaurinātu meklēšanas rezultātus, un iespēju lietotājam izveidot un saglabāt vienumu kolekcijas. Jaunākajā laidienā tika pievienotas jaunas funkcijas, tostarp vizuālās meklēšanas pirmā versija (spēja filtrēt visus pieejamos attēlus pēc datuma un laikraksta) un metadatu lielapjoma lejupielāde.
Kas notiks tālāk? Jūlijā mēs publiskosim saskarnes publisko versiju ar jaunām funkcijām, kā arī jauniem laikrakstu avotiem (jo īpaši Luksemburgas Nacionālās bibliotēkas digitalizētajiem materiāliem). Labākais veids, kā sekot līdzi projekta attīstībai, ir pievienoties impresso adresātu sarakstam un ar to saistītajai vēsturnieku grupai vai sekot mums Twitter, jo tuvākajos mēnešos būs dažas aizraujošas jaunas norises!
