Hi Matteo! Tista 'tgħidilna dwar il-proġett impresso?
Matteo: Impresso (litteralment “dak li ġie stampat”) huwa proġett ta’ riċerka kollaborattiv u interdixxiplinari ffinanzjat mill-Fondazzjoni Nazzjonali Żvizzera tax-Xjenza taħt l-iskema ta’ finanzjament ta’ Sinergia. L-għan tal-proġett huwa li joħloq qafas teknoloġiku għall-estrazzjoni, l-ipproċessar, ir-rabta u l-esplorazzjoni ta’ data mill-arkivji tal-media stampata fuq skala kbira.
Il-proġett jinvolvi lingwisti komputazzjonali, umanisti diġitali, disinjaturi, storiċi, librara u arkivisti, li qed jindirizzaw l-isfida ta’ kif jarrikkixxu, jirrappreżentaw, jivviżwalizzaw u janalizzaw korpus kbir ta’ gazzetti diġitalizzati storiċi għal skopijiet ta’ riċerka. Is-sħab f’dan il-proġett huma d-DHLAB tal-EPFL, iċ-Ċentru tal-Lussemburgu għall-Istorja Kontemporanja u Diġitali (C2DH) u l-Istitut tal-Lingwistika Komputazzjonali fl-Università ta’ Zurich. In-natura interdixxiplinari tal-impresso hija riflessa wkoll fil-prinċipju tal-kodisinn li aħna napplikaw matul il-proġett. Dak li jfisser fil-prattika huwa li d-data li noħolqu u l-għodod biex naħdmu ma’ gazzetti diġitalizzati li qed niżviluppaw huma ffurmati minn djalogu kostanti bejn l-istoriċi, id-disinjaturi, il-lingwisti komputazzjonali u l-umanisti diġitali.
Fir-rigward tal-konċepiment u l-motivazzjoni għal impresso, qabel dan, id-DHLAB kienet involuta fi proġett ta’ riċerka li jinvolvi l-gazzetta Żvizzera Le Temps, li kellu l-għan li jipprovdi aċċess għal żewġ gazzetti diġitalizzati - Journal de Geneve u Gazette de Lausanne (li ngħaqdu fl-1998 biex saru Le Temps). L-eżiti ta’ dan il-proġett, kif ukoll l-isfidi li kienu ħarġu, wittew it-triq għall-impresso. L-idea li jinħoloq arkivju ta’ gazzetti diġitalizzati siltet lilha nnifisha tajjeb biex tiżdied biex tinkludi aktar sorsi kif ukoll biex tħares lil hinn mill-fruntieri nazzjonali. Serje ta’ laqgħat f’konferenzi u workshops bejn Maud Ehrmann (DHLAB), Lars Wieneke (C2DH), Marten Düring (C2DH) u Simon Clematide (UZH) għenu biex din l-idea tissaħħaħ u tiġi artikolata f’dik li saret proposta ta’ finanzjament ta’ suċċess.
Kif involvejt ruħek fil-proġett?
Il-kollega tiegħi u l-koordinatur tal-proġett Maud Ehrmann talbuni ningħaqad mal-proġett fis-sajf tal-2017, meta bidla mhux mistennija fit-tim tal-proġett fetħet il-possibbiltà li jkun hemm riċerkatur post-doc ieħor biex jappoġġaha fil-kompiti li d-DHLAB kien qed imexxi. F'dak iż-żmien, kont qed naħdem fuq Linked Books, proġett ieħor iffinanzjat mill-SNF dwar l-estrazzjoni taċ-ċitazzjoni tal-letteratura akkademika dwar l-istorja ta 'Venezja. Ix-xogħol fuq l-ipproċessar u d-diżambigwazzjoni tal-entità msemmija li qed inwettqu f'impresso huwa fil-qalba tal-interessi tar-riċerka tiegħi. Hemm ukoll kontinwità mal-Kotba Linked u r-riċerka preċedenti tiegħi dwar l-estrazzjoni tal-informazzjoni minn arkivji diġitali fuq skala kbira fl-Istudji Umanistiċi, fejn il-kwotazzjonijiet (u b’mod aktar ġenerali l-entitajiet imsemmija) huma wieħed mill-oqsma ewlenin ta’ interess tiegħi.
X’inhi l-importanza tas-settijiet tad-data tal-gazzetti għar-riċerka storika?
Il-gazzetti storiċi huma sorsi primarji imprezzabbli għall-istudjużi tal-istudji umanistiċi inġenerali, mhux biss għall-istoriċi. Fil-fatt, dawn fihom u jippreservaw tip ta’ traċċa fossilizzata tas-soċjetajiet attwali u tal-passat tagħna. Huma jirreġistraw kull tip ta 'avvenimenti, minn dikjarazzjonijiet tal-gwerra sa blalen taż-żfin tas-Sibt filgħaxija fil-kampanja, u jiddokumentaw ħafna aspetti tal-ħajja u l-kultura ta' kuljum. Fihom informazzjoni estremament rikka u densa, li hija wkoll kontinwa peress li f'ħafna każijiet dawn il-gazzetti ilhom għaddejjin għal żmien twil u ppubblikati fuq bażi regolari ħafna.
Sfida kruċjali li qed nindirizzaw f’impresso hija kif għandha titfassal għodda li tappoġġa lir-riċerkaturi biex jaħdmu b’arkivji kbar ta’ gazzetti diġitalizzati. L-għodda tintegra t-teknoloġiji tal-ipproċessar tal-lingwi naturali (eż. l-ipproċessar tal-entità msemmija jew l-immudellar tas-suġġett) biex tkopri s-semantika tal-kontenut tal-gazzetti, sabiex dawn is-sorsi (mtejba) ikunu jistgħu jintużaw għar-riċerka. Prinċipju importanti li qed insegwu fid-disinn tiegħu huwa t-trasparenza, li jfisser li nistinkaw biex nagħmlu espliċiti u viżibbli għall-utenti l-aspetti kollha tad-data - jew tal-ipproċessar li nwettqu fuq id-data - li spiss jirriskjaw li jibqgħu moħbija fl-interfaċċi tat-tiftix. Aspetti ta’ informazzjoni li rridu nagħmlu aktar trasparenti jinkludu, pereżempju, il-kwalità tal-OCR, kif ukoll toqob fid-data minħabba ħsara fl-arkivji diġitali.
Kif qed jintużaw l-għodod impresso?
Minkejja l-fatt li l-proġett impresso għadu qed jagħmel, il-corpus u l-għodod tiegħu qed jintużaw b'mod attiv kemm għar-riċerka kif ukoll għat-tagħlim.
Min-naħa tar-riċerka, Dr Estelle Bunout (C2DH) - wieħed mill-istoriċi (diġitali) fil-proġett tagħna - qed taħdem fuq studju ta’ każ intitolat “Reżistenza għall-Ewropa” li jinvolvi l-analiżi ta’ dibattiti dwar l-idea Ewropea f’gazzetti diġitalizzati mil-Lussemburgu, l-Iżvizzera u lil hinn, bil-għan li jiġu identifikati tensjonijiet madwar l-idea Ewropea mill-aħħar tas-seklu 19 sal-1945. U riċerkaturi mis-sħab assoċjati tagħna, l-assoċjazzjoni Infoclio u d-Dipartiment tal-Istorja tal-Università ta’ Lausanne, qed jikkontribwixxu għar-riflessjoni dwar kif għandhom jiġu applikati għodod impresso għal mistoqsijiet ta’ riċerka storika fil-kuntest ta’ każijiet ta’ użu konkret.
Fl-aħħar nett, ħriġna Sejħa għal Riċerkaturi Assoċjati matul l-ewwel sena tal-proġett sabiex nestendu ċ-ċirku tal-istoriċi affiljati mal-proġett. B’riżultat ta’ dan, madwar 20 storiku prinċipalment mill-Benelux, Franza, il-Ġermanja u l-Iżvizzera esprimew l-interess tagħhom kemm fl-għodod kif ukoll fil-kollezzjonijiet miġbura flimkien minn impresso u involvew ruħhom fil-proġett. L-assoċjazzjoni tagħhom tinvolvi mhux biss l-użu tal-output tal-proġett iżda djalogu regolari mat-tim impresso, permezz ta’ workshops u konferenza finali li għandha l-għan li tiġbor feedback dwar l-użu tagħhom ta’ għodod impresso u r-riċerka tagħhom, u li tiddiskuti kwistjonijiet epistemoloġiċi mqajma minn gazzetti diġitalizzati.
Id-diversità tas-suġġetti u l-metodi tar-riċerkaturi assoċjati tirrifletti l-attrazzjoni tal-gazzetti (diġitalizzati) Żvizzeri u Lussemburgiżi bħala sorsi storiċi. Dawn jinkludu riċerka prosopgrafika dwar esperti u korrispondenti tal-gwerra nisa, kif ukoll dwar “l-istorja tal-ħsibijiet” bħaż-żieda fl-internazzjonaliżmu liberali fi tmiem is-seklu 19, jew l-istorja bankarja. Kull wieħed minn dawn is-suġġetti ta 'riċerka jeħtieġ użu partikolari tal-gazzetti, mod partikolari biex tistaqsihom li jikkontribwixxi għall-konċepiment tal-interazzjoni mal-kollezzjoni impresso. L-użi differenti huma madankollu disponibbli għar-riċerkaturi kollha fl-istess interface, fi sforz biex joffru diversifikazzjoni ta 'dawn l-interazzjonijiet u jarrikkixxu kull tip ta' prattika ta 'riċerka, inklużi wkoll prattiki ta' tagħlim, fl-ispirtu tal-interfaces ġenerużi.
Min-naħa tat-tagħlim, Martin Grandjean u Sandra Bott kienu qed jużaw parti mill-corpus impresso fit-tagħlim ta’ kors dwar l-Istudji Umanistiċi Diġitali/l-Istorja Diġitali, parti mill-programm tax-Xjenzi Soċjali u Umani tal-EPFL. Il-kors jiffoka fuq kif l-avvenimenti l-kbar tas-seklu 20 ġew koperti fl-istampa; l-arkivji diġitali tal-gazzetti jipprovdu lill-istudenti b’sors rikk ta’ materjali li fuqhom tista’ tiġi ttestjata firxa ta’ metodi u għodod diġitali. L-istess kors huwa ppjanat għas-sena d-dieħla u se jkun ibbażat fuq l-interface u l-għodod impresso, u b'hekk jippermettilna nittestjaw is-saħħa u d-dgħufijiet ta 'dawn l-għodod speċifikament f'kuntest ta' tagħlim (aktar milli riċerka).
Fil-qafas ta’ Ranke2, il-pjattaforma mħejjija fis-C2DH li toffri materjali tat-tagħlim dwar kif tiġi pprattikata l-kritika tas-sors diġitali, il-proġett impresso jikkontribwixxi bit-tħejjija ta’ modulu ddedikat għall-użu ta’ gazzetti diġitalizzati. Dan il-modulu jiġbor it-tagħlimiet meħuda bit-tħejjija ta’ interfaċċa trasparenti, adattata għal-livell ta’ baċellerat u t-tagħlim fl-iskejjel sekondarji, li ġġib l-aħħar xejriet ta’ prattiki ta’ riċerka fil-klassijiet.
Fejn tinsab fil-proġett - u x'inhu l-pass li jmiss?
Il-verżjoni beta tal-interface impresso ġiet rilaxxata f'Mejju 2019. Għalissa huwa rilaxx privat, immirat l-aktar biex jikseb feedback dwar id-disinn u l-funzjonalitajiet tal-interfaċċa mill-istoriċi assoċjati tagħna. F’termini ta’ data, l-interfaċċa tagħti aċċess għal 22 gazzetta Żvizzera għal total ta’ kważi 3.2 miljun paġna, 360,000 ħarġa ta’ gazzetti, u aktar minn 26 miljun oġġett ta’ kontenut (eż. artikli, reklami, eċċ.), l-aktar bil-Franċiż u bil-Ġermaniż.
Fir-rigward tal-funzjonalitajiet tal-interface, ir-rilaxx beta fih il-karatteristiċi bażiċi kollha li tistenna minn interface tal-gazzetta: fittex, fittex faċċetti u telespettatur li jippermettilek taqra u tesplora artikli tal-gazzetti. Barra minn hekk, jipprovdi xi karatteristiċi aktar avvanzati, bħall-abbiltà li tfittex għal entitajiet imsemmija, biex tuża mudelli topiċi bħala filtri biex tnaqqas ir-riżultati tat-tfittxija, u l-possibbiltà għall-utent li joħloq u jiffranka kollezzjonijiet ta 'oġġetti. Funzjonalitajiet ġodda li ġew miżjuda fl-aħħar rilaxx jinkludu l-ewwel verżjoni tat-tiftix viżwali (il-kapaċità li jiġu ffiltrati l-immaġnijiet kollha disponibbli, skont id-data u l-gazzetta) u t-tniżżil massiv tal-metadata.
X'se jiġri wara? Fix-xahar ta’ Lulju se noħorġu l-verżjoni pubblika tal-interfaċċa, b’funzjonalitajiet ġodda kif ukoll sorsi ġodda ta’ gazzetti (b’mod partikolari l-materjali diġitalizzati tal-Librerija Nazzjonali tal-Lussemburgu). L-aħjar mod biex issegwi l-proġett hekk kif ikompli jiżviluppa huwa li tingħaqad mal-lista postali impresso - u l-grupp tal-istoriċi assoċjati tagħna - jew issegwina fuq Twitter, peress li se jkun hemm ftit żviluppi ġodda eċċitanti fix-xhur li ġejjin!
