Abstract
Automatização no diagnóstico de nível de língua: anotação e versatilidade dos recursos
O diagnóstico e a análise automáticos da produção de aprendentes de língua estrangeira são atualmente um tópico de investigação muito relevante na medida em que permitem responder diretamente e de forma mais imediata a necessidades decorrentes das migrações de populações. As técnicas de automatização deste diagnóstico estão em pleno desenvolvimento desde há já alguns anos (Meurers, 2009) e inserem-se, grosso modo, em dois grandes grupos – análise de erro e análise de complexidade –, servindo-se de sistemas mais ou menos complexos do ponto de vista computacional e de processamento (Ripley, 2009; Amaral et al., 2006; Curto et al., 2014; Chen & Meurers, 2019).
No entanto, quer as técnicas baseadas em métodos de aprendizagem automática (supervisionada ou não) que extraem/identificam traços relevantes a partir de dados anotados, quer as técnicas de análise multidimensional de vetores de medida de complexidade linguística pressupõem a análise e a anotação manual de dados, seja para construir os corpora de treino e teste necessários aos sistemas de aprendizagem automática, seja para testar e indiretamente informar os sistemas de análise no que respeita aos vetores de complexidade. Apesar disso, os fenómenos e as tipologias de anotação necessárias são distintas:
i) anotação de erro: e.g., Ortografia: nasalidade, acentuação; Morfossintaxe: flexão verbal, concordância nominal (projeto Por Nível, CLUNL; COPLE2, Mendes et al., 2016 ).
ii) anotação de complexidade: e.g., dimensão média da oração; constituintes coordenados por
oração; nomes complexos por oração; rácio de orações subordinadas (projeto SyB, EKUT).
Por outro lado, a análise de dados linguísticos de aprendizagem de língua estrangeira, e respetiva compilação e construção de corpora de aprendizagem, pela riqueza e complexidade dos fenómenos que abrangem e pela multiplicidade de objetivos que servem, são em si temas de estudo produtivos e, mais importante ainda, dependentes da(s) língua(s) em análise (por exemplo, Alexandre & Pinto, 2014; Alexandre & Gonçalves, 2015; Antunes & Mendes, 2015; Cabrera & Zubizarreta, 2005; Castelo et al., 2015; Mendes et al., 2016, Talhadas, 2016). É essencialmente a partir desta investigação que os sistemas de anotação são desenhados (Tono, 2003; Nicholls, 2003; Dagneaux et al., 2005).
Esta conjugação de fatores demonstra-nos, por um lado, a inevitabilidade da anotação humana dos dados, um processo moroso e dispendioso, e por outro, a importância de garantir a versatilidade dos recursos criados, de modo a maximizar a sua usabilidade e o investimento realizado. A análise dos sistemas de anotação de corpora de aprendizagem e das necessidades dos sistemas automáticos é essencial e implica perceber que formato terá uma anotação que permita viabilizar ambas as técnicas, ou seja, como desenhar o sistema de modo a que este permita uma anotação de erro e de estruturas associadas à complexidade e que permita também associar os dados de produção a níveis de proficiência, de modo a permitir o diagnóstico de nível.
A presente comunicação visa, assim, o contraste das necessidades dos sistemas de diagnóstico automático e a análise dos fenómenos refletidos nas atuais anotações para o Português, tendo como base o COPLE2 (Mendes et al., 2016) e os resultados da análise conduzida no âmbito do projeto POR Nível (Gramacho et al., 2018), propondo um sistema de anotação que contemple a anotação de erro (negativa) e a anotação de estruturas associadas à complexidade (positiva). Para além de sistematizar os fenómenos em causa em ambas as estratégias de diagnóstico, o trabalho pretende também potenciar a usabilidade dos recursos, valorizando-os e fomentando o tão necessário investimento no seu desenvolvimento.
Translated title of the contribution | Automatization in language proficiency diagnosis: annotation and resource versatility |
---|---|
Original language | Portuguese |
Pages | 1-2 |
Number of pages | 2 |
Publication status | Published - 2019 |
Event | XXXV Encontro Nacional da Associação Portuguesa de Linguística - Universidade do Minho, Braga, Portugal Duration: 9 Oct 2019 → 11 Oct 2019 http://enapl2019v2.apl.pt/?fbclid=IwAR3X_emOSBUo6H7H0RSVzb8FCl7axWOSc6Jcq5NP_HhGTmcPCin7WxNdFR4 |
Conference
Conference | XXXV Encontro Nacional da Associação Portuguesa de Linguística |
---|---|
Abbreviated title | XXXV ENAPL |
Country/Territory | Portugal |
City | Braga |
Period | 9/10/19 → 11/10/19 |
Internet address |