Análisis taxonómico numérico de bancos de geoplasma
Archivos
Fecha
2012-07-02
Autores
García Rodríguez, Raisa Leslie
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación. Departamento Ciencias de la Computación
Resumen
En la taxonomía numérica existe actualmente un conocimiento limitado de los diferentes tipos de análisis, técnicas y herramientas estadísticas que se disponen para un procesamiento más confiable en la clasificación de genotipos, lo que es de vital importancia para su aplicación en procesos agrícolas en el cumplimiento de los objetivos de investigadores, genetistas y botánicos. Para solucionar esta problemática se diseñó e implementó un prototipo de software con un sistema de asistencia constante que facilita la ejecución de los métodos de ordenamiento y clasificación, así como la validación de los resultados. La programación se efectuó en el lenguaje y software estadístico denominado R, que tiene entre sus principales ventajas poder integrar con facilidad varios métodos estadísticos, además es libre y de código abierto. El usuario dispone de la posibilidad de formar variantes combinando diferentes representaciones de los datos, parámetros, algoritmos de agrupamiento e índices de validación. Se demostró que los métodos empleados arrojan diferentes clasificaciones según el pre-procesamiento de los datos, las medidas de distancias y las técnicas de aglomeración utilizadas; por lo que se desarrolló un nuevo modelo multiclasificador no supervisado estructurado por etapas, que permite combinar las potencialidades de los métodos y definir en cada momento del análisis la mejor variante a aplicar. Se validó la calidad del agrupamiento de las accesiones que conforman los bancos de germoplasma, contrastando hipótesis estadísticas. Además, esta aplicación permite a los curadores de bancos de germoplasma realizar los análisis multivariados, sin necesidad de poseer amplios conocimientos ni en las técnicas estadísticas ni las computacionales.
In numerical taxonomy, there is currently limited knowledge on different analysis types, techniques and statistical tools that are available for a more reliable processing for genotypes classification which is of vital importance for its application on agricultural processes in fulfilling the objectives of researchers, geneticists, and botanists. To solve this problem, a software prototype was designed and implemented with a constant support system to facilitate the implementation of clustering and classification methods; as well as, validation of results. The programming was done in a language and statistical software named R, which has among its main advantages to integrate easily various statistical methods; besides, it is also free software of open source. The user has the possibility to form strategies combining different data representations, parameters, clustering algorithms and validity indices. Methods used resulted in different classifications according to the data pre-processing, distance measures and clustering techniques applied; so, a new non-supervised multi-classifier structured per stages that combines the potential of the methods and defines the best alternative at each time during the analysis was developed. The clustering quality of accessions that belong to the germplasm collection, contrasting statistical hypotheses was validated. Besides, this application also allows crop breeders to carry out multivariate analysis, without extensive knowledge in statistics or computational techniques.
In numerical taxonomy, there is currently limited knowledge on different analysis types, techniques and statistical tools that are available for a more reliable processing for genotypes classification which is of vital importance for its application on agricultural processes in fulfilling the objectives of researchers, geneticists, and botanists. To solve this problem, a software prototype was designed and implemented with a constant support system to facilitate the implementation of clustering and classification methods; as well as, validation of results. The programming was done in a language and statistical software named R, which has among its main advantages to integrate easily various statistical methods; besides, it is also free software of open source. The user has the possibility to form strategies combining different data representations, parameters, clustering algorithms and validity indices. Methods used resulted in different classifications according to the data pre-processing, distance measures and clustering techniques applied; so, a new non-supervised multi-classifier structured per stages that combines the potential of the methods and defines the best alternative at each time during the analysis was developed. The clustering quality of accessions that belong to the germplasm collection, contrasting statistical hypotheses was validated. Besides, this application also allows crop breeders to carry out multivariate analysis, without extensive knowledge in statistics or computational techniques.
Descripción
Palabras clave
Análisis Multivariados, Clasificación No Supervisada, Multiclasificador, Software, Taxonomía Numérica