Špansko ministrstvo za industrijo je zamudilo nedavno napako avtomatiziranega prevajalnika, ki je na svoji spletni strani objavila sporočilo za javnost, na katerem so prevedli špansko ministrstvo za industrijo Dolores del Campo, v angleško različico, ki je zmedena. polje. ”
Vendar pa je zabavno in smešno, kot se zdi prevod, v resnici pa bolj razkriva oči kot preprosta računalniška napaka. Absurdna napačna prevedba, ki jo je izvedel motor, je izhajala iz njene nezmožnosti, da bi razumela ali priznala, da je bila Dolores del Campo dejansko samostalnik. Ironično je, da je Euronews, ko je poročal o nezgodi s curlingom, pokazal tudi čudno napako pri prevajanju, povezano z ministrovimi zaimki. Ko se sklicuje na Dolores del Campo, je članek (prikazan spodaj) navedel, da je »videla svoje ime, prevedeno v angleško različico, ker je« bolečina polja »v nasprotju z njenim imenom.
to je bolečina poljskega ravnanja z lastnimi imeni in pravilno odkrivanje spola so temeljni tehnološki izzivi za strojno prevajanje (MT). Tipični MT sistemi se osredotočajo na natančnost in tekočnost, saj lahko številni algoritmi služijo prevodom kompleksnih idiomov in pogovornega jezika. tj. Google Prevajalnik »¿Qué pasa tío?« v španščini v angleški prevod »Kaj je, človek?« (čeprav ni dosegel obrnjenega). Vendar, kjer tradicionalni sistemi MT ponavadi padejo ravno, je pri obravnavi besed, ki vsebujejo pomembne informacije, kot so imena. Neustrezno ime se zgodi, ko algoritem naleti na neznano besedo, se usposablja na hrupnih paralelnih podatkih ali napake imena, kot je Dolores Del Campo, za skupno samostalnik. Pravzaprav prevajanje lastnih imen pogosto zahteva različne metode in pristope do tistih, ki se uporabljajo za prevajanje drugih vrst besed.
Prvi korak k reševanju tega vprašanja je pogled na prepoznavanje imenovanih entitet (NNR). NER je tehnika ekstrakcije informacij, ki lahko označuje zaporedja besed v besedilu, ki se štejejo za “subjekte resničnega sveta”, kot so ljudje, organizacije ali mesta. Samodejno zaznavanje in označevanje subjektov je lahko koristno za podjetja, ki ustvarjajo velike količine podatkov, na primer novice in založniške hiše. Hierarhično kategoriziranje novic in gladko odkrivanje vsebin, ki temelji na priporočilih, je mogoče doseči z NER. Priznavanje imenovanih entitet in njegova zmožnost izločanja lastnih imen se lahko uporabita tudi v procesu prevajanja.
Z zamenjavo lastnega imena z začasnim ogradnim mestom (simbol, ki ga pozneje nadomesti vrednost ali niz), se lahko MT sistem usposobi za zaznavanje ograda in njeno vzdrževanje. Med postopkom se ogrado nadomesti z izvirnim imenom. Na PangeaMT-ju naša tehnična raziskovalna skupina uporablja Named Entity Recognition za odkrivanje številk in numeričnih izrazov v kitajščini, da jih nato pretvorijo v arabske številke. Naša ekipa se ukvarja tudi z anonimizacijo lastnih imen in lokacij v skladu z zahtevami GDPR in strank, kar lahko dosežemo tudi z NER.
Vendar pa prepoznavanje imenovanih entitet ne zagotavlja odgovora na vprašanje odkrivanja spola s strojnim prevajanjem. Trenutno motorji MT določajo spol glede na kontekst besede v stavku. Vendar je to lahko težavno, saj večina sedanjih sistemov prevaja stavke v izolacijo. To pomeni, da je mogoče iz preostalega besedila izpustiti pomembne napotke, povezane s spolom. Še več, če ni mogoče razjasniti stavka, bo sistem MT privzeto določil najverjetnejši rezultat, ki temelji na podatkih, na katerih se usposablja.
To je povzročilo zaskrbljenost zaradi avtomatiziranih sistemov, ki odražajo določene asimetrije in predsodke v družbi. Na primer, pri prevajanju nevtralne besede, kot je „medicinska sestra“, iz angleščine v jezik, ki je izraziteje izražen glede na spol, kot je španščina, je samodejni rezultat bolj nagnjen k izbiri ženske „enfermera“. To je zato, ker pogostost »enfermera« v besedilnih korpusih običajno presega moško obliko »enfermero«.
bolečina polja je bolečina polja. Poleg tega je še en problem, ki povečuje pristranost stroja, da algoritmi večinoma privzamejo moške zaimke, saj so ti preveč zastopani v velikih tekstovnih korpusih, na katerih so usposobljeni. Univerza Cornell je izdelala dokument, ki je naštel vrsto delovnih mest iz ameriškega urada za statistiko dela (BLS). Z oblikovanjem seznama stavkov, kot je »On / ona je inženir« na nevtralnih jezikih, kot sta kitajščina in madžarščina, so uporabili API prevajalnika Google Translate za prevajanje stavkov v angleščino. Rezultat je pokazal močno nagnjenost k moškim napakam, zlasti na posameznih področjih, povezanih z neuravnoteženo porazdelitvijo spolov, kot so delovna mesta STEM.