Automatização no diagnóstico de nível de língua: anotação e versatilidade dos recursos

Amaro, R. (Speaker), Correia, S. (Speaker), Carolina Gramacho (Speaker), Amália Mendes (Speaker)

Activity: Talk or presentationOral presentation

Description

O diagnóstico e a análise automáticos da produção de aprendentes de língua estrangeira são atualmente um tópico de investigação muito relevante na medida em que permitem responder diretamente e de forma mais imediata a necessidades decorrentes das migrações de populações. As técnicas de automatização deste diagnóstico estão em pleno desenvolvimento desde há já alguns anos (Meurers, 2009) e inserem-se, grosso modo, em dois grandes grupos – análise de erro e análise de complexidade –, servindo-se de sistemas mais ou menos complexos do ponto de vista computacionale de processamento (Ripley, 2009; Amaral et al., 2006; Curto et al., 2014; Chen & Meurers, 2019). No entanto, quer as técnicas baseadas em métodos de aprendizagem automática (supervisionada ou não) que extraem/identificam traços relevantes a partir de dados anotados, quer as técnicas de análise multidimensional de vetores de medida de complexidade linguística pressupõem a análise e a anotação manual de dados, seja para construir os corpora de treino e teste necessários aos sistemas de aprendizagem automática, seja para testar e indiretamente informar os sistemas de análise no que respeita aos vetores de complexidade. Apesar disso, os fenómenos e as tipologias de anotação necessárias são distintas: i) anotação de erro: e.g., Ortografia: nasalidade, acentuação; Morfossintaxe: flexão verbal,concordância nominal (projeto Por Nível, CLUNL; COPLE2, Mendes et al., 2016 ). ii) anotação de complexidade: e.g., dimensão média da oração; constituintes coordenados por oração; nomes complexos por oração; rácio de orações subordinadas (projeto SyB, EKUT). Por outro lado, a análise de dados linguísticos de aprendizagem de língua estrangeira, e respetiva compilação e construção de corpora de aprendizagem, pela riqueza e complexidade dos fenómenos que abrangem e pela multiplicidade de objetivos que servem, são em si temas de estudo produtivos e, mais importante ainda, dependentes da(s) língua(s) em análise (por exemplo, Alexandre & Pinto, 2014; Alexandre & Gonçalves, 2015; Antunes & Mendes, 2015; Cabrera & Zubizarreta, 2005; Castelo et al., 2015; Mendes et al., 2016, Talhadas, 2016). É essencialmente a partir desta investigação que os sistemas de anotação são desenhados (Tono, 2003; Nicholls, 2003; Dagneaux et al., 2005). Esta conjugação de fatores demonstra-nos, por um lado, a inevitabilidade da anotação humana dos dados, um processo moroso e dispendioso, e por outro, a importância de garantir a versatilidade dos recursos criados, de modo a maximizar a sua usabilidade e o investimento realizado. A análise dos sistemas de anotação de corpora de aprendizagem e das necessidades dos sistemas automáticos é essencial e implica perceber que formato terá uma anotação que permita viabilizar ambas as técnicas, ou seja, como desenhar o sistema de modo a que este permita uma anotação de erro e de estruturas associadas à complexidade e que permita também associar os dados de produção a níveis de proficiência, de modo a permitir o diagnóstico de nível. A presente comunicação visa, assim, o contraste das necessidades dos sistemas de diagnóstico automático e a análise dos fenómenos refletidos nas atuais anotações para o Português, tendo como base o COPLE2 (Mendes et al., 2016) e os resultados da análise conduzida no âmbito do projeto PORNível (Gramacho et al., 2018), propondo um sistema de anotação que contemple a anotação de erro (negativa) e a anotação de estruturas associadas à complexidade (positiva). Para além de sistematizar os fenómenos em causa em ambas as estratégias de diagnóstico, o trabalho pretende também potenciar a usabilidade dos recursos, valorizando-os e fomentando o tão necessário investimento no seu desenvolvimento.
Period9 Oct 2019
Event titleXXXV Encontro Nacional da APL
Event typeConference
Conference number35
LocationBraga, Portugal
Degree of RecognitionNational