Un corpus de bigramas utilizado como corrector ortográfico y gramatical destinado a hablantes nativos de español Reportar como inadecuado




Un corpus de bigramas utilizado como corrector ortográfico y gramatical destinado a hablantes nativos de español - Descarga este documento en PDF. Documentación en PDF para descargar gratis. Disponible también para leer online.

Revista Signos 2016, 49 90

Autor: Alicia San Mateo

Fuente: http://www.redalyc.org/


Introducción



Revista Signos ISSN: 0035-0451 revista.signos@ucv.cl Pontificia Universidad Católica de Valparaíso Chile San Mateo, Alicia Un corpus de bigramas utilizado como corrector ortográfico y gramatical destinado a hablantes nativos de español Revista Signos, vol.
49, núm.
90, marzo, 2016, pp.
94-118 Pontificia Universidad Católica de Valparaíso Valparaíso, Chile Disponible en: http:--www.redalyc.org-articulo.oa?id=157044553005 Cómo citar el artículo Número completo Más información del artículo Página de la revista en redalyc.org Sistema de Información Científica Red de Revistas Científicas de América Latina, el Caribe, España y Portugal Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto R evista Signos.
Estudios de Lingüística ISSN 0718-0934 © 2016 PUCV, Chile • DOI: 10.4067-S0718-09342016000100005 • 49(90) 94-118 Un corpus de bigramas utilizado como corrector ortográfico y gramatical destinado a hablantes nativos de español A bigram corpus used as a grammar checker for Spanish native speakers Alicia San Mateo Universidad Nacional de Educación a Distancia España asanmateo@flog.uned.es Recibido: 04-I-2014 - Aceptado: 19-VI-2015 Resumen Este artículo describe el funcionamiento de un algoritmo de corrección ortográfica y gramatical para textos escritos en español, destinado a hablantes nativos competentes que realizan labores de corrección de textos.
Los posibles errores se identifican por medio de análisis estadísticos (en vez de emplear el sistema de ‘etiquetado’ y análisis sintáctico que utiliza la mayor parte de correctores), comparando las combinaciones de palabras utilizadas con un corpus de referencia de cien millones de vocablos.
De esa manera, se señalan los pares de palabras (bigramas) poco o muy poco frecuentes, y que, en muchas ocasiones, lo son porque contienen algún error.
La limitación fundamental es que no se detectan errores que no puedan ser deducidos del análisi...





Documentos relacionados