Sveikas, Mateo! Gal galite papasakoti apie "Impreso" projektą?
Matteo: Impresso (pažodžiui „kas atspausdinta“) yra bendradarbiavimu grindžiamas tarpdisciplininis mokslinių tyrimų projektas, kurį pagal Sinergia finansavimo schemą finansuoja Šveicarijos nacionalinis mokslo fondas. Projekto tikslas – sukurti technologinę sistemą, pagal kurią būtų dideliu mastu išgaunami, apdorojami, susiejami ir tiriami duomenys iš spausdintinės žiniasklaidos archyvų.
Projekte dalyvauja skaičiavimo lingvistai, skaitmeniniai humanistai, dizaineriai, istorikai, bibliotekininkai ir archyvarai, kurie ieško būdų, kaip mokslinių tyrimų tikslais praturtinti, reprezentuoti, vizualizuoti ir analizuoti didelį istorinių suskaitmenintų laikraščių rinkinį. Šio projekto partneriai yra EPFL DHLAB, Liuksemburgo šiuolaikinės ir skaitmeninės istorijos centras (C2DH) ir Ciuricho universiteto Kompiuterinės lingvistikos institutas. Tarpdisciplininį impresso pobūdį atspindi ir bendro projektavimo principas, kurį taikome visame projekte. Praktiškai tai reiškia, kad mūsų kuriami duomenys ir mūsų kuriamos darbo su skaitmeniniais laikraščiais priemonės formuojamos palaikant nuolatinį dialogą tarp istorikų, dizainerių, skaičiavimo lingvistų ir skaitmeninių humanistų.
Kalbant apie impresso koncepciją ir motyvaciją, prieš tai DHLAB dalyvavo mokslinių tyrimų projekte, kuriame dalyvavo Šveicarijos laikraštis Le Temps, kurio tikslas – suteikti prieigą prie dviejų suskaitmenintų laikraščių – Journal de Geneve ir Gazette de Lausanne (kuris 1998 m. susijungė ir tapo Le Temps). Šio projekto rezultatai, taip pat iškilę iššūkiai sudarė įspūdį. Idėja sukurti suskaitmenintų laikraščių archyvą pasiteisino, kad ją būtų galima išplėsti įtraukiant daugiau šaltinių ir žvelgiant už nacionalinių sienų ribų. Keletas susitikimų Maud Ehrmann (DHLAB), Lars Wieneke (C2DH), Marten Düring (C2DH) ir Simon Clematide (UZH) konferencijose ir praktiniuose seminaruose padėjo sustiprinti ir suformuluoti šią idėją, kuri tapo sėkmingu finansavimo pasiūlymu.
Kaip įsitraukėte į projektą?
Mano kolega ir projekto koordinatorius Maud Ehrmann paprašė manęs prisijungti prie projekto 2017 m. vasarą, kai netikėtas projekto komandos pasikeitimas atvėrė galimybę turėti kitą podoktorantūros tyrinėtoją, kuris padėtų jai atlikti užduotis, kurioms vadovavo DHLAB. Tuo metu dirbau prie „Linked Books“ – kito SNF finansuojamo projekto, skirto mokslinės literatūros apie Venecijos istoriją citavimo kasybai. Darbas, susijęs su įvardytų subjektų apdorojimu ir dviprasmiškumu, kurį mes atliekame impresso, yra mano mokslinių interesų pagrindas. Taip pat yra tęstinumas su susietomis knygomis ir mano ankstesniais informacijos išgavimo iš didelio masto skaitmeninių archyvų humanitariniuose moksluose tyrimais, o citatos (ir apskritai įvardyti subjektai) yra viena iš pagrindinių mano interesų sričių.
Kokia yra laikraščių duomenų rinkinių svarba istoriniams tyrimams?
Istoriniai laikraščiai yra neįkainojami pirminiai šaltiniai humanitarinių mokslų mokslininkams apskritai, ne tik istorikams. Tiesą sakant, juose yra ir išsaugomas tam tikras suakmenėjęs mūsų dabartinės ir buvusios visuomenės pėdsakas. Jie fiksuoja įvairius įvykius, nuo karo deklaracijų iki šeštadienio vakaro šokių kamuoliukų kaime, ir dokumentuoja daugelį kasdienio gyvenimo ir kultūros aspektų. Juose yra labai turtinga ir tanki informacija, kuri taip pat yra nuolatinė, nes daugeliu atvejų šie laikraščiai veikia ilgą laiką ir skelbiami labai reguliariai.
Esminis iššūkis, kurį sprendžiame in impresso, yra tai, kaip sukurti įrankį, kuris padėtų tyrėjams dirbti su dideliais suskaitmenintų laikraščių archyvais. Priemonėje integruotos natūraliosios kalbos apdorojimo technologijos (pvz., nurodytų subjektų apdorojimas arba temų modeliavimas), kad būtų galima užfiksuoti laikraščių turinio semantiką, kad šiuos (patobulintus) šaltinius būtų galima naudoti moksliniams tyrimams. Svarbus principas, kuriuo vadovaujamės rengdami duomenis, yra skaidrumas, t. y. siekiame, kad naudotojams būtų aiškūs ir matomi visi duomenų arba duomenų tvarkymo, kurį atliekame, aspektai, kurie dažnai gali likti paslėpti paieškos sąsajose. Informaciniai aspektai, kuriuos norime padaryti skaidresnius, apima, pavyzdžiui, OCR kokybę, taip pat duomenų spragas dėl pažeistų skaitmeninių archyvų.
Kaip naudojami impresso įrankiai?
Nepaisant to, kad impresso projektas vis dar kuriamas, jo korpusas ir įrankiai aktyviai naudojami tiek moksliniams tyrimams, tiek mokymui.
Kalbant apie mokslinius tyrimus, Dr. Estelle Bunout (C2DH) – viena iš (skaitmeninių) mūsų projekto istorikų – rengia atvejo tyrimą „Atsparumas Europai“, kuriame analizuojamos diskusijos apie Europos idėją skaitmeniniuose Liuksemburgo, Šveicarijos ir kitų šalių laikraščiuose, siekiant nustatyti įtampą, susijusią su Europos idėja nuo XIX a. pabaigos iki 1945 m. Mūsų asocijuotųjų partnerių, asociacijos „Infoclio“ ir Lozanos universiteto Istorijos departamento tyrėjai prisideda prie svarstymų, kaip taikyti impresso priemones istoriniams mokslinių tyrimų klausimams konkrečių naudojimo atvejų kontekste.
Galiausiai per pirmuosius projekto metus paskelbėme kvietimą asocijuotiems tyrėjams, kad išplėstume su projektu susijusių istorikų ratą. Dėl to apie 20 istorikų, daugiausia iš Beniliukso, Prancūzijos, Vokietijos ir Šveicarijos, išreiškė susidomėjimą impresso surinktais įrankiais ir kolekcijomis ir įsitraukė į projektą. Jų asociacija apima ne tik projekto rezultatų panaudojimą, bet ir reguliarų dialogą su „Impreso“ komanda, rengiant praktinius seminarus ir baigiamąją konferenciją, kurių tikslas – surinkti grįžtamąją informaciją apie jų naudojimąsi „Impreso“ priemonėmis ir jų mokslinius tyrimus, taip pat aptarti suskaitmenintų laikraščių iškeltus epistemologinius klausimus.
Susijusių mokslininkų temų ir metodų įvairovė atspindi Šveicarijos ir Liuksemburgo (skaitmeninių) laikraščių, kaip istorinių šaltinių, patrauklumą. Jie apima prosopografinius tyrimus, susijusius su ekspertais ir karo korespondentėmis moterimis, taip pat su „mąstymų istorija“, pavyzdžiui, liberaliojo internacionalizmo iškilimu XIX a. pabaigoje arba bankų istorija. Kiekviena iš šių mokslinių tyrimų temų reikalauja tam tikro laikraščių naudojimo, tam tikro jų užklausų būdo, kuris prisideda prie sąveikos su impresso kolekcija koncepcijos. Tačiau įvairūs naudojimo būdai yra prieinami visiems tyrėjams toje pačioje sąsajoje, stengiantis pasiūlyti šių sąveikų įvairinimą ir praturtinti kiekvieno tipo mokslinių tyrimų praktiką, įskaitant mokymo praktiką, atsižvelgiant į dosnias sąsajas.
Kalbant apie mokymą, Martin Grandjean ir Sandra Bott naudojo dalį įspūdingo teksto mokydami skaitmeninių humanitarinių mokslų / skaitmeninės istorijos kursą, kuris yra EPFL socialinių ir humanitarinių mokslų programos dalis. Kursas orientuotas į tai, kaip spaudoje buvo aptariami didieji XX a. įvykiai; skaitmeniniai laikraščių archyvai suteikia studentams turtingą medžiagos šaltinį, kuriame galima išbandyti įvairius skaitmeninius metodus ir priemones. Tas pats kursas planuojamas kitais metais ir jis bus grindžiamas impresso sąsaja ir įrankiais, tokiu būdu leidžiant mums išbandyti šių įrankių stiprumą ir silpnybes konkrečiai mokymo (o ne mokslinių tyrimų) kontekste.
Vykdant projektą „Rade2“, C2DH parengtą platformą, kurioje siūloma mokomoji medžiaga apie tai, kaip praktikuoti skaitmeninių šaltinių kritiką, „impresso“ projektas padeda parengti modulį, skirtą skaitmenizuotų laikraščių naudojimui. Šiame modulyje surenkamos pamokos, įgytos rengiant skaidrią sąsają, pritaikytą bakalauro lygiui ir vidurinių mokyklų mokymui, klasėms pateikiant naujausias mokslinių tyrimų praktikos tendencijas.
Kur jūs esate iki projekto - ir kas yra kitas žingsnis?
Impresso sąsajos beta versija buvo išleista 2019 m. Kol kas tai privatus leidinys, kuriuo daugiausia siekiama gauti grįžtamosios informacijos apie sąsajos dizainą ir funkcijas iš mūsų susijusių istorikų. Kalbant apie duomenis, sąsaja suteikia prieigą prie 22 Šveicarijos laikraščių iš viso beveik 3,2 mln. puslapių, 360 000 laikraščių numerių ir daugiau kaip 26 mln. turinio elementų (pvz., straipsnių, reklamos ir kt.), daugiausia prancūzų ir vokiečių kalbomis.
Kalbant apie sąsajos funkcijas, beta versijoje yra visos pagrindinės funkcijos, kurių tikitės iš laikraščio sąsajos: paieška, paieškos aspektai ir žiūrovas, kuris leidžia jums skaityti ir tyrinėti laikraščių straipsnius. Be to, ji suteikia kai kurias pažangesnes funkcijas, pvz., galimybę ieškoti įvardytų subjektų, naudoti temų modelius kaip filtrus, kad susiaurintų paieškos rezultatus, ir galimybę vartotojui kurti ir išsaugoti elementų rinkinius. Naujos funkcijos, kurios buvo įtrauktos į naujausią versiją, apima pirmąją vaizdinės paieškos versiją (galimybę filtruoti visus turimus vaizdus pagal datą ir laikraštį) ir masinį metaduomenų atsisiuntimą.
Kas bus toliau? Liepos mėn. išleisime viešą sąsajos versiją su naujomis funkcijomis ir naujais laikraščių šaltiniais (visų pirma Liuksemburgo nacionalinės bibliotekos suskaitmeninta medžiaga). Geriausias būdas sekti projektą, kai jis toliau plėtojamas, – prisijungti prie įspūdingo adresatų sąrašo ir mūsų susijusios istorikų grupės arba sekti mus tinkle „Twitter“, nes ateinančiais mėnesiais bus keletas įdomių naujų pokyčių!
