Automatização no diagnóstico de nível de língua: anotação e versatilidade dos recursos

Translated title of the contribution: Automatization in language proficiency diagnosis: annotation and resource versatility

Raquel Amaro, Susana Correia, Carolina Gramacho, Amália Mendes

Research output: Contribution to conferenceAbstract

3 Downloads (Pure)

Abstract

Automatização no diagnóstico de nível de língua: anotação e versatilidade dos recursos O diagnóstico e a análise automáticos da produção de aprendentes de língua estrangeira são atualmente um tópico de investigação muito relevante na medida em que permitem responder diretamente e de forma mais imediata a necessidades decorrentes das migrações de populações. As técnicas de automatização deste diagnóstico estão em pleno desenvolvimento desde há já alguns anos (Meurers, 2009) e inserem-se, grosso modo, em dois grandes grupos – análise de erro e análise de complexidade –, servindo-se de sistemas mais ou menos complexos do ponto de vista computacional e de processamento (Ripley, 2009; Amaral et al., 2006; Curto et al., 2014; Chen & Meurers, 2019). No entanto, quer as técnicas baseadas em métodos de aprendizagem automática (supervisionada ou não) que extraem/identificam traços relevantes a partir de dados anotados, quer as técnicas de análise multidimensional de vetores de medida de complexidade linguística pressupõem a análise e a anotação manual de dados, seja para construir os corpora de treino e teste necessários aos sistemas de aprendizagem automática, seja para testar e indiretamente informar os sistemas de análise no que respeita aos vetores de complexidade. Apesar disso, os fenómenos e as tipologias de anotação necessárias são distintas: i) anotação de erro: e.g., Ortografia: nasalidade, acentuação; Morfossintaxe: flexão verbal, concordância nominal (projeto Por Nível, CLUNL; COPLE2, Mendes et al., 2016 ). ii) anotação de complexidade: e.g., dimensão média da oração; constituintes coordenados por oração; nomes complexos por oração; rácio de orações subordinadas (projeto SyB, EKUT). Por outro lado, a análise de dados linguísticos de aprendizagem de língua estrangeira, e respetiva compilação e construção de corpora de aprendizagem, pela riqueza e complexidade dos fenómenos que abrangem e pela multiplicidade de objetivos que servem, são em si temas de estudo produtivos e, mais importante ainda, dependentes da(s) língua(s) em análise (por exemplo, Alexandre & Pinto, 2014; Alexandre & Gonçalves, 2015; Antunes & Mendes, 2015; Cabrera & Zubizarreta, 2005; Castelo et al., 2015; Mendes et al., 2016, Talhadas, 2016). É essencialmente a partir desta investigação que os sistemas de anotação são desenhados (Tono, 2003; Nicholls, 2003; Dagneaux et al., 2005). Esta conjugação de fatores demonstra-nos, por um lado, a inevitabilidade da anotação humana dos dados, um processo moroso e dispendioso, e por outro, a importância de garantir a versatilidade dos recursos criados, de modo a maximizar a sua usabilidade e o investimento realizado. A análise dos sistemas de anotação de corpora de aprendizagem e das necessidades dos sistemas automáticos é essencial e implica perceber que formato terá uma anotação que permita viabilizar ambas as técnicas, ou seja, como desenhar o sistema de modo a que este permita uma anotação de erro e de estruturas associadas à complexidade e que permita também associar os dados de produção a níveis de proficiência, de modo a permitir o diagnóstico de nível. A presente comunicação visa, assim, o contraste das necessidades dos sistemas de diagnóstico automático e a análise dos fenómenos refletidos nas atuais anotações para o Português, tendo como base o COPLE2 (Mendes et al., 2016) e os resultados da análise conduzida no âmbito do projeto POR Nível (Gramacho et al., 2018), propondo um sistema de anotação que contemple a anotação de erro (negativa) e a anotação de estruturas associadas à complexidade (positiva). Para além de sistematizar os fenómenos em causa em ambas as estratégias de diagnóstico, o trabalho pretende também potenciar a usabilidade dos recursos, valorizando-os e fomentando o tão necessário investimento no seu desenvolvimento.
Original languagePortuguese
Pages1-2
Number of pages2
Publication statusPublished - 2019
EventXXXV Encontro Nacional da Associação Portuguesa de Linguística - Braga, Portugal
Duration: 9 Oct 201911 Oct 2019

Conference

ConferenceXXXV Encontro Nacional da Associação Portuguesa de Linguística
Abbreviated titleXXXV ENAPL
CountryPortugal
CityBraga
Period9/10/1911/10/19

Fingerprint Dive into the research topics of 'Automatization in language proficiency diagnosis: annotation and resource versatility'. Together they form a unique fingerprint.

  • Cite this

    Amaro, R., Correia, S., Gramacho, C., & Mendes, A. (2019). Automatização no diagnóstico de nível de língua: anotação e versatilidade dos recursos. 1-2. Abstract from XXXV Encontro Nacional da Associação Portuguesa de Linguística, Braga, Portugal.