An Fhaireachlann um Theanga Fhíorúil
Is bonneagar taighde é CLARIN a bhfuil sé mar aidhm aige tacú le taighdeoirí sna daonnachtaí agus sna heolaíochtaí sóisialta trí acmhainní agus uirlisí digiteacha teanga ó gach cearn den Eoraip agus níos faide i gcéin a dhéanamh inrochtana trí thimpeallacht aonair sínithe ar líne. Mar chomhpháirtithe i mBonneagar Seirbhísí Digiteacha Europeana (DSI), tá Europeana agus CLARIN ag obair le chéile chun ábhar oidhreachta cultúrtha a leabú i mbonneagar CLARIN. Ó cuireadh tús le comhtháthú píolótach in 2017, tá CLARIN tar éis nuashonrú agus leathnú rialta a dhéanamh ar roghnú na réad oidhreachta cultúrtha atá san áireamh ina Fhaireachlann um Theanga Fhíorúil (VLO). Díríonn an tseirbhís cuardaigh agus fionnachtana ar líne seo ar riachtanais scoláirí atá ag lorg acmhainní teanga, agus tá sí comhtháite i mbonneagar níos leithne CLARIN.
Acmhainní nua do thaighdeoirí
Cuid lárnach den chomhtháthú sin is ea feabhas a chur ar rochtain úsáideoirí ar anailís ar líne agus ar dheiseanna próiseála d’aon acmhainn a fhaightear tríd an VLO. Tá feidhmiúlachtaí den sórt sin ar fáil le haghaidh réimse leathan acmhainní oidhreachta cultúrtha a ‘bhuaintear’ trí Europeana, ó lámhscríbhinní ré na hathbheochan agus nuachtáin dhigitithe go leabhair stairiúla do leanaí agus taifeadtaí staire béil.
I mí Aibreáin 2019, scríobhamar faoin gcéad chomhtháthú acmhainní. Thaispeánamar sampla cumhachtach den chaoi ar féidir le daoine acmhainn teanga a phróiseáil go díreach óna mbrabhsálaí le cúpla cad a tharlaíonn tar éis dóibh í a aimsiú. Ag an bpointe sin, fuarthas thart ar 135,000 taifead ó Europeana agus cuireadh san áireamh iad sa VLO. Ó shin i leith, tá dhá leagan bhreise de roghnú agus comhtháthú déanta againn, rud a d’fhág go raibh os cionn 275,000 taifead ó Europeana, atá níos mó ná aon soláthraí aonair eile taifead meiteashonraí atá sa VLO faoi láthair. Anseo thíos, cuirimid dhá shampla bhreise d’acmhainní atá ar fáil faoi láthair i láthair na huaire, agus léirímid conas is féidir iad a phróiseáil a thuilleadh.
‘O kimmeryjskich pomnikach w Krymie’
Is leabhar Polannach é 'O kimmeryjskich pomnikach w Krymie', a chuir an Federacja Bibliotek Cyfrowych ar fáil mar PDF, lena ábhar téacs iomlán ar fáil mar thoradh ar OCR (aitheantas carachtar optúil). Mar a léirítear sa bheochan thíos, is féidir le duine a úsáideann an VLO roghanna próiseála a fhiosrú trí nasc chuig sainchomhad a roghnú agus é a phróiseáil leis an Lascchlár Acmhainní Teanga. Maidir leis an taifead seo, tá éagsúlacht uirlisí próiseála teanga nádúrtha suimiúla ar fáil, agus soláthraíonn cuibhreannas CLARIN-PL na Polainne an chuid is mó díobh.
B'fhéidir gur mhaith le teangeolaithe ríomhaireachta toradh na gcineálacha éagsúla anailíse teanga atá ar fáil a fheiceáil, agus b'fhéidir go mbeadh sé suimiúil do scoláirí na ndaonnachtaí aschur an eastóscóra eochairfhocal a iniúchadh, a sholáthraíonn liosta rangaithe d'ábhair a bhraitear go huathoibríoch mar ábhair a bhaineann leis an téacs. Is é ReSpa an uirlis a chuireann anailís den chineál seo ar fáil don Pholainnis. Is féidir é a thosú go díreach ón Switchboard, agus trí sin a dhéanamh is féidir le taighdeoirí tuiscint a fháil go tapa ar ábhar oibre gan é a oscailt fiú! D’fhéadfadh sé sin a bheith ina chuidiú freisin dóibh siúd nach léann Polainnis, ós rud é gur féidir liosta na n-ábhar a aistriú go héasca trí úsáid a bhaint as uirlis chineálach aistriúcháin téacs amhail Google Translate. Mar shampla, is féidir linn a fháil amach laistigh de chúpla nóiméad, bunaithe ar ábhar an leabhair, gurb é séadchomharthaí a phríomhábhar.

‘Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland’
Is é an dara sampla atá againn leabhar digitithe do leanaí ón 19ú haois a chuir Leabharlann Náisiúnta na hÍsiltíre ar fáil: 'Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland'. Tá nasc díreach chuig PDF ar fáil don acmhainn seo. Chomh maith le scanadh na léaráidí saibhir agus an scéal, ionchódaíonn sé ábhar iomlán an leabhair mar théacs meaisín-inléite.
Íomhá
Trí úsáid a bhaint as an Lascchlár Acmhainne Teanga, is féidir le húsáideoir a fháil amach gur rogha phróiseála atá ar fáil í uirlis léitheoireachta i bhfad i gcéin Voyant. Nuair a bheidh an acmhainn luchtaithe isteach i Voyant, cuirtear an téacs i láthair in aice le méadrachtaí éagsúla agus sraith uirlisí a ligeann do scoláire anailísí cainníochtúla a dhéanamh ar na téarmaí laistigh den téacs, mar atá sa sampla thíos.
Íomhá
Tá doiciméad amháin ag an gcorpas seo le 2,836 focal iomlán agus 1,010 foirm focal uathúil. Cruthaithe 3 nóiméad ó shin. Dlús an fhoclóra: 0.356. Meánfhocail in aghaidh na habairte: 32.2. Na focail is minice sa chorpas: mevrouw (49); poes (38); mademoiselle (18); theepartijtje (17); monsieur (14).
Tuilleadh eolais
I measc roinnt bailiúchán spéisiúil eile a cuireadh leis ón tuarascáil dheireanach uainn ar féidir leat iniúchadh a dhéanamh orthu anois tríd an VLO tá:
Nuachtáin agus tréimhseacháin dhigitithe ó Leabharlann Dhigiteach na Slóivéine, Federacja Bibliotek Cyfrowych (an Pholainn) agus Varna Public Library (an Bhulgáir)
Leabhair taistil ó Leabharlann Dhigiteach na Slóivéine
Lámhscríbhinní ré na hAthbheochana ó Opera del Vocabolario Italiano de chuid Chomhairle Náisiúnta Taighde na hIodáile
Taifid staire ó bhéal ó Chomhairle Contae Mhuineacháin agus ó Choláiste na hOllscoile, Corcaigh (Éire)
Má tá tú fiosrach fúthu seo agus faoin iliomad bailiúchán eile atá ar fáil san Fhaireachlann um Theanga Fhíorúil, agus más mian leat na huirlisí atá ar fáil chun anailís agus próiseáil a dhéanamh orthu a fhiosrú, tabhair cuairt ar vlo.clarin.eu, cuir isteach roinnt téarmaí cuardaigh agus tosú ag iniúchadh!
