DETECCIÓN DE ERRORES ORTOGRÁFICOS PARA LA VALIDACIÓN DE LA CALIDAD EN DATOS ABIERTOS GUBERNAMENTALES PARA LA MÉTRICA DEL FACTOR SYNTACTIC CORRECTNESS
Este trabajo se enfoca en la importancia de la calidad de los datos abiertos gubernamentales, que se encuentran en los portales de sitios web públicos. Se realiza un estudio comparativo de las distintas herramientas actuales para la detección de corrección de errores ortográficos, y luego, se trabaja con la mejor opción analizada en el desarrollo de un prototipo de software que permite la validación de aspectos de calidad de datos en este contexto. El aporte de este trabajo es el estudio comparativo de herramientas, como así también, un software para efectuar la validación automática de los archivos gubernamentales (datasets). Cabe destacar que la verificación de la calidad del dato se realiza a través de la métrica para la detección de errores ortográficos, utilizando el concepto del factor Syntactic Correctness en los campos del tipo cadena de texto que conforman al dataset analizado. El diseño del prototipo permitió una mejor identificación de falencias en un dataset (esto se explica en la sección de análisis de resultados), como así también, permite que los usuarios logren un estudio rápido y detallado de los errores ortográficos identificando el número de registro y el nombre del campo en el que se encuentran. Detectar estas falencias a tiempo, permitirá evitar análisis erróneos con los datos gubernamentales publicados a los ciudadanos, y, además, mejorar la interpretación de los datos brindados por el gobierno para obtener informes con un valor agregado a la población. Por todo esto, es necesario efectuar una mayor concientización en dichos aspectos de calidad.
DETECCIÓN DE ERRORES ORTOGRÁFICOS PARA LA VALIDACIÓN DE LA CALIDAD EN DATOS ABIERTOS GUBERNAMENTALES PARA LA MÉTRICA DEL FACTOR SYNTACTIC CORRECTNESS
-
DOI: 10.37572/EdArt_2905225838
-
Palavras-chave: Calidad de Datos Abiertos. Herramienta de Validación. Ortografía en datos abiertos. Gobierno Abierto.
-
Keywords: Open Data Quality. Validation Tool. Spelling in open data. Open Government.
-
Abstract:
This work focuses on the importance of the quality of open government data, found in public website portals. A comparative study of the different tools for the detection of spelling errors is carried out, and then, the best option analyzed is worked on in the development of a software prototype that allows the validation of data quality aspects in this context. The contribution of this work is the comparative study of tools and the development of software to perform the automatic validation of government files (datasets). It should be noted that the verification of the quality of the data is carried out through the metric for the detection of spelling errors, using the concept of the Syntactic Correctness factor in the fields of the text string type that make up the analyzed dataset. The design of the prototype allowed a better identification in a dataset (this is explained in the results analysis section), as well as allowing users to achieve a quick and detailed study of spelling errors by identifying the record number and the name of the field of these. Detecting these shortcomings in time will make it possible to avoid erroneous analyzes with the government data published to citizens, and, in addition, improve the interpretation of the data provided by the government to obtain reports with added value to the population. For all this, it is necessary to make a greater awareness of these quality aspects.
-
Número de páginas: 15
- Roxana Martínez
- Christian Parkinson