Desarrollo eficiente de algoritmos de clasificación difusa en entornos Big Data

Timón Pérez, Isabel María

dc.contributor.advisor	Cecilia Canales, José María
dc.contributor.advisor	Soto Espinosa, Jesús Antonio
dc.contributor.author	Timón Pérez, Isabel María
dc.date.accessioned	2019-03-25T10:15:22Z
dc.date.available	2019-03-25T10:15:22Z
dc.date.created	2018
dc.date.issued	2018
dc.date.submitted	2018-12-05
dc.identifier.uri	http://hdl.handle.net/10952/3840
dc.description.abstract	Estamos presenciando una época de transición donde los “datos” son los principales protagonistas. En la actualidad, cada día se genera una ingente cantidad de información en la conocida como era del Big Data. La toma de decisiones basada en estos datos, su estructuración, organización, así como su correcta integración y análisis, constituyen un factor clave para muchos sectores estratégicos de la sociedad. En el tratamiento de cantidades grandes de datos, las técnicas de almacenamiento y análisis asociadas al Big Data nos proporcionan una gran ayuda. Entre estas técnicas predominan los algoritmos conocidos como machine learning, esenciales para el análisis predictivo a partir de grandes cantidades de datos. Dentro del campo del machine learning, los algoritmos de clasificación difusa son empleados con frecuencia para la resolución de una gran variedad de problemas, principalmente, los relacionados con control de procesos industriales complejos, sistemas de decisión en general, la resolución y la compresión de datos. Los sistemas de clasificación están también muy extendidos en la tecnología cotidiana, por ejemplo, en cámaras digitales, sistemas de aire acondicionado, etc. El éxito del uso de las técnicas de machine learning está limitado por las restricciones de los recursos computacionales actuales, especialmente, cuando se trabaja con grandes conjuntos de datos y requisitos de tiempo real. En este contexto, dichos algoritmos necesitan ser rediseñados e, incluso, repensados con la finalidad de aprovechar al máximo las arquitecturas masivamente paralelas que ofrecen el máximo rendimiento en la actualidad. Esta tesis doctoral se centra dentro de este contexto, analizando computacionalmente el actual panorama de algoritmos de clasificación y proponiendo algoritmos de clasificación paralelos que permitan ofrecer soluciones adecuadas en un intervalo de tiempo reducido. En concreto, se ha realizado un estudio en profundidad de técnicas bien conocidas de machine learning mediante un caso de aplicación práctica. Esta aplicación predice el nivel de ozono en diferentes áreas de la Región de Murcia. Dicho análisis se fundamentó en la recogida de distintos parámetros de contaminación para cada día durante los años 2013 y 2014. El estudio reveló que la técnica que obtenía mejores resultados fue Random Forest y se obtuvo una regionalización en dos grandes zonas, atendiendo a los datos procesados. A continuación, se centró el objetivo en los algoritmos de clasificación difusa. En este caso, se utilizó una modificación del algoritmo Fuzzy C-Means (FCM), mFCM, como técnica de discretización con el objetivo de convertir los datos de entrada de continuos a discretos. Este proceso tiene especial importancia debido a que hay determinados algoritmos que necesitan valores discretos para poder trabajar, incluso técnicas que sí trabajan con datos continuos, obtienen mejores resultados con datos discretos. Esta técnica fue validada a través de la aplicación al bien conocido conjunto de Iris Data de Anderson, donde se comparó estadísticamente con la técnica de K-Means (KM), proporcionando mejores resultados. Una vez realizado el estudio de los algoritmos de clasificación difusa, se detecta que dichas técnicas son sensibles a la cantidad de datos, incrementando su tiempo computacional. De modo que la eficiencia en la programación de estos algoritmos es un factor crítico para su posible aplicabilidad al Big Data. Por lo tanto, se propone la paralización de un algoritmo de clasificación difusa a fin de conseguir que la aplicación sea más rápida conforme aumente el grado de paralelismo del sistema. Para ello, se propuso el algoritmo de clasificación difusa Parallel Fuzzy Minimals (PFM) y se comparó con los algoritmos FCM y Fuzzy Minimals (FM) en diferentes conjuntos de datos. En términos de calidad, la clasificación era similar a la obtenida por los tres algoritmos, sin embargo, en términos de escalabilidad, el algoritmo paralelizado PFM obtenía una aceleración lineal con respecto al número de procesadores empleados. Habiendo identificado la necesidad de que dichas técnicas tengan que ser desarrolladas en entornos masivamente paralelos, se propone una infraestructura de hardware y software de alto rendimiento para procesar, en tiempo real, los datos obtenidos de varios vehículos en relación a variables que analizan problemas de contaminación y tráfico. Los resultados mostraron un rendimiento adecuado del sistema trabajando con grandes cantidades de datos y, en términos de escalabilidad, las ejecuciones fueron satisfactorias. Se visualizan grandes retos a la hora de identificar otras aplicaciones en entornos Big Data y ser capaces de utilizar dichas técnicas para la predicción en áreas tan relevantes como la contaminación, el tráfico y las ciudades inteligentes.	es
dc.language.iso	es	es
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Minería de datos	es
dc.subject	Aprendizaje automático	es
dc.subject	Clasificación difusa	es
dc.subject	Computación de alto rendimiento	es
dc.subject	Contaminación	es
dc.subject	Sistemas de transporte inteligentes	es
dc.subject	Ciudades inteligentes	es
dc.title	Desarrollo eficiente de algoritmos de clasificación difusa en entornos Big Data	es
dc.type	doctoralThesis	es
dc.rights.accessRights	openAccess	es
dc.description.discipline	Ingeniería, Industria y Construcción	es

Ficheros en el ítem

Nombre:: Tesis.pdf
Tamaño:: 8.414Mb
Formato:: PDF
Descripción:: Tesis

Este ítem aparece en la(s) siguiente(s) colección(ones)

Tesis Doctorales

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional