Abstract
Para a tradução automática baseada em corpus, seja estatística ou neuronal, são necessários grandes volumes de traduções
humanas entre duas línguas. Algumas línguas com poucos recursos não têm volumes suficientemente grandes, mas poderá
haver acesso a recursos de línguas ou variedades vizinhas. Contudo, se existem entre ambas relações de parentesco
controversas de uma perspetiva sociolinguística, reforçadas por quadros legais, poderão existir entraves institucionais ao
desenvolvimento de tradutores automáticos oficialmente reconhecidos pelas autoridades linguísticas da língua com menos
recursos. Neste artigo veremos como uma lei, que descongela as polémicas relações linguísticas galego-portuguesas (Lei
Paz-Andrade), facilita legalmente o desenvolvimento de tradutores automáticos neuronais (NMT) com bons resultados para
o galego, graças à utilização de corpora de português. Finalmente, propõe-se, a partir desta experiência, um método que
pode ser aplicado a outras línguas com relações de parentesco controversas para o desenvolvimento de tradutores neuronais.
In order to obtain high-quality corpus-based, statistical and neural machine translation, large volumes of human
translations are needed between the two languages. Some low-resource languages do not have this volume of resources,
but resources may be accessible from close-related languages or variants. Nevertheless, it is difficult to develop machine
translation systems that are officially recognized by the language authorities of the language with fewer resources if
there are sociolinguistic controversies with respect to their relatedness, further strengthened by legal frameworks. In
this article, we will see how a law that untangles the controversial Galician-Portuguese linguistic relations (i.e., PazAndrade Law) legally facilitates the development of neural machine translation (NMT) systems with good results for
Galician, thanks to the use of Portuguese corpora. Finally, based on this experience, we propose a method to develop
neural translation systems that can be applied in the context of other low-resource languages that, despite being
controversial, have a close relation with a language with greater resources.
humanas entre duas línguas. Algumas línguas com poucos recursos não têm volumes suficientemente grandes, mas poderá
haver acesso a recursos de línguas ou variedades vizinhas. Contudo, se existem entre ambas relações de parentesco
controversas de uma perspetiva sociolinguística, reforçadas por quadros legais, poderão existir entraves institucionais ao
desenvolvimento de tradutores automáticos oficialmente reconhecidos pelas autoridades linguísticas da língua com menos
recursos. Neste artigo veremos como uma lei, que descongela as polémicas relações linguísticas galego-portuguesas (Lei
Paz-Andrade), facilita legalmente o desenvolvimento de tradutores automáticos neuronais (NMT) com bons resultados para
o galego, graças à utilização de corpora de português. Finalmente, propõe-se, a partir desta experiência, um método que
pode ser aplicado a outras línguas com relações de parentesco controversas para o desenvolvimento de tradutores neuronais.
In order to obtain high-quality corpus-based, statistical and neural machine translation, large volumes of human
translations are needed between the two languages. Some low-resource languages do not have this volume of resources,
but resources may be accessible from close-related languages or variants. Nevertheless, it is difficult to develop machine
translation systems that are officially recognized by the language authorities of the language with fewer resources if
there are sociolinguistic controversies with respect to their relatedness, further strengthened by legal frameworks. In
this article, we will see how a law that untangles the controversial Galician-Portuguese linguistic relations (i.e., PazAndrade Law) legally facilitates the development of neural machine translation (NMT) systems with good results for
Galician, thanks to the use of Portuguese corpora. Finally, based on this experience, we propose a method to develop
neural translation systems that can be applied in the context of other low-resource languages that, despite being
controversial, have a close relation with a language with greater resources.
Translated title of the contribution | The paz-andrade law and the use of portuguese for automated translation in galego |
---|---|
Original language | Portuguese |
Pages (from-to) | 35-55 |
Number of pages | 20 |
Journal | Revista de Llengua i Dret |
Issue number | 78 |
DOIs | |
Publication status | Published - 2022 |
Keywords
- Lei Paz-Andrade
- Legislação linguística
- Tradução automática
- Política linguística
- Galego
- Português
- Paz-Andrade Law
- Linguistic legislation
- Automatic translation
- Language policy
- Galician
- Portuguese