Mae prosiect diweddar rhwng Prifysgolion Caerdydd (John Morris, Elin Arfon a Dawn Knight) a Chaerhirfryn (Nouran Khallaf a Mo El-Haj) wedi ceisio awtomeiddio’r broses o greu thesawrws y Gymraeg.

Mae’r ymchwilwyr wedi defnyddio adnoddau sy’n bodoli eisoes yn ogystal â defnyddio siaradwyr yr iaith er mwyn creu’r adnodd a allai fod yn dempled i ieithoedd lleiafrifol eraill.

Mae creu adnodd iaith fel thesawrws yn ymdrech sylweddol sy’n dibynnu ar nifer o bobl. Roedden ni am gyfrannu at eu gwaith nhw drwy weld a oes modd defnyddio datblygiadau ym maes Prosesu Iaith Naturiol (Natural Language Processing, NLP) er mwyn cyflymu’r broses. Mae Thesawrws Ar-lein Cymraeg Cyfoes (ThACC), a ariannwyd gan Lywodraeth Cymru, yn dibynnu’n bennaf ar ddau adnodd iaith sydd wedi cael eu datblygu yn y blynyddoedd diwethaf, sef mewnblaniadau geiriau (word-embeddings) yn y Gymraeg ac ieithoedd eraill a thagiwr rhan ymadrodd (parts-of-speech tagger). Y cwestiwn sy’n codi yw i ba raddau mae modd defnyddio’r adnoddau hyn i greu thesawrws dibynadwy?

Mae maes Prosesu Iaith Naturiol yn defnyddio mewnblaniadau geiriau (word-embeddings) er mwyn dangos i ba raddau mae geiriau yn debyg i’w gilydd. Mae’r mewnblaniadau hyn yn cael eu creu drwy ddefnyddio technoleg i ddadansoddi casgliadau mawr o destun ac i werthuso’r berthynas rhwng geiriau gwahanol. Gwneir hyn drwy newid y geiriau yn fector (neu sgôr sy’n dangos y berthynas rhwng dau beth). Mae geiriau sy’ debycaf o ran ystyr (cyfystyron neu led-gyfystyron), neu sy’n ymddangos gyda’i gilydd yn aml, yn agosach yn y gofod fector ac felly gellir defnyddio mewnosodiadau i fapio’r cysylltiadau amrywiol rhwng geiriau unigol. Mae’r dull hwn wedi cael ei ddefnyddio ar gyfer ieithoedd sy’n cael eu siarad gan fwy o bobl, megis Ffrangeg, ond nid oes llawer o waith ar ieithoedd lleiafrifol lle mae adnoddau’n brinnach.

Cafodd mewnblaniadau geiriau Cymraeg eu creu yn ddiweddar fel rhan o brosiect CorCenCC (Corpws Cenedlaethol Cymraeg Cyfoes). Fel cam cyntaf, ceision ni fireinio’r mewnblaniadau fel y byddent yn gallu gweithio fel thesawrws ac yn dangos cyfystyron yn unig (yn hytrach na geiriau sy’n ymddangos gyda’i gilydd, fel ‘y gath ddu’). Gwnaethpwyd hyn drwy ddefnyddio’r tagiwr rhan ymadrodd. Mae CyTag yn labelu geiriau mewn corpws yn ôl rhan ymadrodd felly byddai ‘cath’ yn cael ei labelu fel ‘enw benywaidd unigol’. Gwnaethpwyd hyn er mwyn sicrhau bod ThACC yn dangos yr un math o eiriau (e.e. enwau) yn hytrach na phob gair sy’n gysylltiedig â gair arall. Trwy wneud hyn, mae modd bod yn fwy hyderus mai cyfystyron sy’n ymddangos yn yr allbwn.

Yr ail gam oedd cymharu allbwn y mewnblaniadau geiriau a’r tagiwr rhan ymadrodd â thesawrws enghreifftiol a grëwyd gan siaradwyr Cymraeg. Cawson ni gymorth gan saith myfyriwr israddedig i greu’r thesawrws hwn. Rhoddwyd rhestr o 250 gair bob dydd i’r myfyrwyr a gofynnwyd iddyn nhw ysgrifennu rhwng pump a deg cyfystyr ar gyfer pob gair. Ar ôl gwneud hyn, gofynnwyd i’r myfyrwryr wirio’r holl eiriau gan nodi a oedd y cyfystyron yn berthnasol ai peidio er mwyn sicrhau ansawdd. Llwyddon nhw i greu thesawrws 7000 gair ar ôl inni sicrhau mai’r geiriau y cytunwyd arnynt amlach a gafodd eu cynnwys yn y fersiwn derfynol. Aethon ni ati wedyn i gymharu cyfystyron y 250 gair yn y thesawrws bach â’r cyfystyron sy’n cael eu cynhyrchu’n awtomatig drwy ddefnyddio’r mewnblaniadau geiriau Cymraeg.

A oes modd defnyddio mewnblaniadau i greu thesawrws felly? Yn sicr, mae mewnblaniadau yn ffynhonnell gyfoethog ond, yn ein profiad ni, mae angen bodau dynol i wirio’r allbwn. Gwiriwyd dros 5,000 gair fel rhan o’r broses ‘ôl-olygu’ er mwyn dileu gwallau a geiriau nad oedd yn gwneud synnwyr. Fel rhan o’r broses hon crëwyd ffynhonnell arall inni ei defnyddio.

Felly, mae ThACC yn creu rhestri o eiriau tebyg (cyfystyron) sy’n seiliedig ar nifer o ffynonellau gwahanol. Yn gyntaf, mae’r feddalwedd yn chwilio am y gair yn y thesawrws a gafodd ei greu gan fodau dynol a’r mewnblaniadau a gafodd eu golygu. Os nad yw’r gair yn ymddangos yn y ffynonellau hyn, yna mae’r algorithm yn chwilio yn y mewnblaniadau heb eu golygu gan gyfyngu’r allbwn i’r pum gair sy’n sgorio’n agosaf at y gair gwreiddiol.

Mae fersiwn beta’r adnodd ar gael nawr drwy wefan DigiGrid Cymru. Golyga hyn fod y feddalwedd yn ddibynadwy ond bod angen edrych eto ar y mewnblaniadau er mwyn gwneud gwaith mireinio pellach. Yn ogystal â hyn, mae modd defnyddio’r cod a luniwyd i greu’r thesawrws ar ein tudalen GitHub a’i addasu er mwyn ehangu ar y gwaith.