O CUTIA nasce para preencher uma lacuna reconhecida por pesquisadores da área: embora existam diversos corpora textuais disponíveis, são raras as coleções cuidadosamente anotadas que incluam redações de estudantes da educação básica — um tipo de produção com padrões próprios, marcado por especificidades de desenvolvimento, estratégias discursivas emergentes e erros característicos da etapa escolar. Ao reunir e estruturar esses dados, o projeto pretende fomentar investigações mais realistas, promover a criação de recursos tecnológicos alinhados às necessidades educacionais e apoiar práticas de ensino fundamentadas em evidências.
O projeto está organizado em etapas rigorosamente definidas. Primeiro, as redações são coletadas em contextos escolares a partir de propostas de escrita induzida, inclusive inspiradas em exames como ENEM e PAS. Em seguida, passam por anonimização total conforme os parâmetros da LGPD, garantindo a remoção de qualquer dado identificável. Os manuscritos são então digitalizados e digitados, preservando a fidelidade ao original, e começam a fase mais trabalhosa: a anotação linguística.
As camadas de anotação abrangem desde ortografia e morfossintaxe até marcas de coesão, coerência, estrutura argumentativa, categorias de gênero textual, erros típicos e padrões discursivos. Para isso, são elaborados guias de anotação, e a equipe de anotadores recebe treinamento especializado. A consistência é monitorada por medidas de confiabilidade interanotador e revisões periódicas. Após validados, os dados são armazenados em repositório seguro e disponibilizados publicamente em versões controladas, acompanhados de documentação e metadados.
Entre os resultados esperados, estão a criação de um corpus robusto e representativo de redações escolares, a publicação de estudos que ampliem o entendimento sobre processos de escrita e o desenvolvimento de modelos de aprendizado de máquina para correção automática e assistência textual, treinados com dados realistas e obtidos de maneira ética. O CUTIA também se propõe a formar pesquisadores e especialistas em anotação linguística, contribuindo para a consolidação de práticas mais rigorosas no campo.
O projeto adota a licença Creative Commons CC BY-NC 4.0, permitindo compartilhamento e adaptação do material para fins não comerciais, desde que atribuída a autoria. Também publica um disclaimer que esclarece limitações e reforça que os conteúdos são disponibilizados “no estado em que se encontram”, sem garantias de exatidão ou adequação específica. Tudo é conduzido com rigor em proteção de dados, com anonimização integral e sem coleta de informações pessoais dos usuários.
O CUTIA é um projeto aberto a colaborações. Pesquisadores, docentes, estudantes, desenvolvedores e interessados podem participar por meio de parcerias institucionais, atuação como anotadores treinados ou utilização do corpus em estudos e aplicações tecnológicas.
Para contato, sugestões ou propostas de parceria, a equipe está disponível pelo e-mail