Nieuwe bronnen verkennen in het waarnemingscentrum voor virtuele talen van CLARIN

Gepubliceerd 15 oktober 2020 door

Twan Goosen (CLARIN ERIC)

Het Virtuele Taal Observatorium

CLARIN is een onderzoeksinfrastructuur die onderzoekers in de geesteswetenschappen en sociale wetenschappen wil ondersteunen door digitale taalhulpmiddelen en -hulpmiddelen uit heel Europa en daarbuiten toegankelijk te maken via één online-aanmeldomgeving. Als partners in de digitale diensteninfrastructuur van Europeana (DSI) werken Europeana en CLARIN samen om inhoud van cultureel erfgoed in de infrastructuur van CLARIN te verankeren. Sinds een eerste proefintegratie in 2017 heeft CLARIN de selectie van cultureel erfgoedobjecten die het in zijn Virtual Language Observatory (VLO) opneemt, regelmatig bijgewerkt en uitgebreid. Deze online zoek- en ontdekkingsdienst richt zich op de behoeften van wetenschappers die op zoek zijn naar taalbronnen en is geïntegreerd in de bredere CLARIN-infrastructuur.

Nieuwe middelen voor onderzoekers

Een belangrijk onderdeel van deze integratie is het verbeteren van de toegang van gebruikers tot online analyse- en verwerkingsmogelijkheden voor alle bronnen die via de VLO worden gevonden. Dergelijke functies zijn beschikbaar voor een breed scala aan cultureel erfgoedbronnen die via Europeana worden "geoogst", variërend van manuscripten uit het renaissancetijdperk en gedigitaliseerde kranten tot historische kinderboeken en mondelinge geschiedenisopnamen.

In april 2019 schreven we over de eerste integratie van hulpbronnen. We lieten een krachtig voorbeeld zien van hoe mensen een taalbron direct vanuit hun browser kunnen verwerken met een paar klikken nadat ze deze hebben ontdekt. Op dat moment waren ongeveer 135.000 records afkomstig van Europeana en opgenomen in de VLO. Sindsdien hebben we twee extra iteraties van selectie en integratie uitgevoerd, wat resulteert in meer dan 275.000 records van Europeana, wat meer is dan elke andere individuele aanbieder van metadatarecords die momenteel in de VLO is. Hieronder presenteren we twee extra voorbeelden van bronnen die momenteel beschikbaar zijn en laten we zien hoe ze verder kunnen worden verwerkt.

“O kimmeryjskich pomnikach w Krymie”

'O kimmeryjskich pomnikach w Krymie', is een Pools boek uit 1882, geleverd door de Federacja Bibliotek Cyfrowych als PDF, met de volledige tekstinhoud beschikbaar als gevolg van OCR (optische tekenherkenning). Zoals de onderstaande animatie laat zien, kan iemand die de VLO gebruikt verwerkingsopties verkennen door een koppeling naar een individueel bestand te selecteren en deze te verwerken met het Language Resource Switchboard. Voor dit record zijn een verscheidenheid aan interessante natuurlijke taalverwerkingstools beschikbaar, waarvan de meeste worden geleverd door het Poolse CLARIN-PL-consortium.

Computationele linguïsten willen misschien het resultaat zien van de verschillende soorten taalkundige analyses die beschikbaar zijn, terwijl geesteswetenschappers het misschien interessant vinden om de uitvoer van de trefwoordextractor te verkennen, die een gerangschikte lijst biedt van onderwerpen die automatisch worden gedetecteerd als relevant voor de tekst. De tool die dit soort analyses voor Pools aanbiedt, is ReSpa. Het kan direct vanaf het Switchboard worden gestart, en door dit te doen kunnen onderzoekers snel inzicht krijgen in de inhoud van een werk zonder het zelfs maar te openen! Dit kan ook nuttig zijn voor degenen die geen Pools lezen, aangezien de lijst met onderwerpen gemakkelijk kan worden vertaald met behulp van een generieke tool voor tekstvertaling zoals Google Translate. Voor dit voorbeeld kunnen we binnen een paar minuten ontdekken dat, op basis van de inhoud van het boek, het belangrijkste onderwerp monumenten zijn.

“Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland”

Ons tweede voorbeeld is een gedigitaliseerd 19e-eeuws kinderboek van de Nationale Bibliotheek: 'Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland'. Een directe link naar een PDF is beschikbaar voor deze bron. Naast de scans van de rijke illustraties en het verhaal, codeert het ook de volledige inhoud van het boek als machineleesbare tekst.

Afbeelding

Door het Language Resource Switchboard te gebruiken, kan een gebruiker erachter komen dat de Voyant-tool voor lezen op afstand een beschikbare verwerkingsoptie is. Zodra de bron in Voyant is geladen, wordt de tekst gepresenteerd naast verschillende statistieken en een reeks hulpmiddelen waarmee een geleerde kwantitatieve analyses van de termen in de tekst kan uitvoeren, zoals in het onderstaande voorbeeld.

Afbeelding

Dit corpus heeft 1 document met in totaal 2.836 woorden en 1.010 unieke woordvormen. Gecreëerd 3 seconden geleden. Woordenschatdichtheid: 0.356. Gemiddelde woorden per zin: 32.2. Meest voorkomende woorden in het corpus: mevrouw (49); poes (38); mademoiselle (18); theepartijtje (17); monsieur (14).

Meer informatie

Enkele andere interessante collecties toegevoegd sinds ons laatste rapport dat u nu kunt verkennen via de VLO zijn:

Gedigitaliseerde kranten en tijdschriften van de digitale bibliotheek van Slovenië, Federacja Bibliotek Cyfrowych (Polen) en de openbare bibliotheek van Varna (Bulgarije)
Reisboeken uit de Digitale Bibliotheek van Slovenië
manuscripten uit het renaissancetijdperk van de Opera del Vocabolario Italiano van de Italiaanse Nationale Onderzoeksraad
Mondelinge geschiedenis van de Monaghan County Council en University College Cork (Ierland)

Als u nieuwsgierig bent naar deze en de vele andere collecties die beschikbaar zijn in het waarnemingscentrum voor virtuele talen, en de beschikbare hulpmiddelen voor het analyseren en verwerken ervan wilt verkennen, bezoek dan vlo.clarin.eu, voer enkele zoektermen in en begin met verkennen!