Análisis comparativo del desempeño y costo computacional de una infraestructura de almacenamiento y procesamiento distribuido para el procesamiento de colecciones de texto

Calderon Moreno, RogerCruz Roa, Ángel AlfonsoPorras García, Yerson Ferney2024-10-222024-10-222017Porras García, Yerson F. (2017).Análisis comparativo del desempeño y costo computacional de una infraestructura de almacenamiento y procesamiento distribuido para el procesamiento de colecciones de texto [Trabajo de grado, Universidad de los Llanos]. Repositorio digital Universidad de los Llanos.https://repositorio.unillanos.edu.co/handle/001/4531Incluye figuras y tablas.La computación distribuida para el procesamiento en paralelo sobre un clúster de computadores ofrece un rendimiento computacional mayor con tiempos de respuesta mucho menores que si se realizara el mismo procesamiento en una sola máquina. Si se toma en cuenta que cada computador por sí solo implica una serie de recursos y costos para su funcionamiento (económicos, humanos, etc.), y además se considera que cuanto más computadores se incluyan al clúster representará un aumento en tiempos de transmisión de información entre ellos, no es difícil inferir que habrá un punto en el cual se deberá hacer un balance entre las ventajas que ofrecen la inclusión de más computadores (en términos de capacidad de cómputo) y el costo que representan (en energía, dinero y transferencia de datos). Por lo tanto, el presente trabajo tuvo como objetivo realizar un análisis comparativo de la implementación de una plataforma de procesamiento distribuido de una colección de documentos de texto para la construcción de un sistema para la búsqueda de información y relevancia de resultados, usando representaciones como Bag of Words (BoW) y producto punto por medio de algoritmos de procesamiento distribuido, los cuales permitieron identificar la relación entre mejora de la capacidad de cómputo cuando se incrementa el número de computadores en el clúster como apoyo a la toma de decisiones en unidades de computación de alto desempeño para el análisis masivo de datos.The distributed computing for parallel processing on a computer cluster offers greater computational performance with less response times in comparison to the secuencial processing. If it is taken into account that each computer alone by itself implies a series of resources and costs for its operation (economic, human, etc.), and it is also considered that the more computers are included to the cluster, it will represent an increase in information transmission times among them, it is not hard to infer that there will be a point at which a balance should be made between the advantages offered by the inclusion of more computers (in terms of computing capacity) and the cost that they represent (energy, money and data transfer). Therefore, the present work aimed to perform a comparative analysis of the implementation of a distributed processing platform of a collection of text documents for the construction of a system to search for information and result relevance, using representations like Bag of Words (BoW) and dot product by means of distributed processing algorithms, which allowed to identify the relation between improvement of the computing capacity when the number of computers in the cluster is increased as support to the decision making in high performance computing units for the massive analysis of data.1 Resumen. -- 2 Abstract. -- 3 Introducción. -- 4 Objetivos. -- 4.1 Objetivo general (og). -- 4.2 Objetivos específicos (oe). -- 5 Marco de referencia. -- 5.1 Big Data. -- 5.2 Almacenamiento de datos. -- 5.2.1 Bases de datos no sql. -- 5.3 Procesamiento distribuido. -- 5.4 Apache hadoop5.4.1 Apache hbase. -- 5.4.2 Apache hadoop distributed file system – hdfs. -- 5.4.3 Algoritmo mapreduce. -- 5.5 Apache spark. -- 5.6 Procesamiento de documentos de texto. -- 5.6.1 Bolsa de palabras - bag of words (bow). -- 5.6.2 Búsqueda de documentos por relevancia. -- 5.7 Feature driven development – fdd. -- 5.8 Desempeño computacional. -- 5.8.1 Speed up. -- 5.8.2 Ley de amdahl. -- 6 Desarrollo de la metodología. -- 6.1 Metodología de investigación. -- 6.2 Metodología de desarrollo de software. -- 6.2.1 Modelo general del proyecto. -- 7 Aplicación búsqueda de documentos por relevancia. -- 7.1 Módulos de la bolsa de palabras. -- 7.1.1 Etapa 1: creación de bag of words. -- 7.1.2 Etapa 2: procesamiento y comparación de documentos. -- 7.1.3 Etapa 3: búsqueda y relevancia de documentos. -- 7.2 Implementación bow en apache spark. -- 7.2.1 Core (scriptcore.py). -- 7.2.2 Corpus (scriptcorpus.py). -- 7.2.3 Bowgral (scriptbowgral.py) 7.2.4 Diccionariogral (scriptdiccionariogral.py). -- 7.2.5 BoWIndividual (scriptBoWIndividual.py). -- 7.2.6 Histogramas (scripthistogramas.py). -- 7.2.7 Iddoc (scriptiddoc.py). -- 7.2.8 Idword (scriptidword.py). -- 7.2.9 Sparsematrix (scriptsparsematrix.py). -- 7.2.10 Tfidfmatrix (scripttfidfmatrix.py). -- 7.2.11 Producto punto (scriptproductopunto.py). -- 8 Resultados. -- 8.1 Conjunto de datos. -- 8.2 Diseño experimental. -- 8.3 Resultados preliminares. -- 8.4 Resultados finales. -- 8.5 Análisis de resultados. -- 8.5.1 Desviación estándar. -- 8.5.2 Speedup descendente. -- 8.5.3 Speedup ascendente. -- 9 Conclusiones. -- 10 Recomendaciones. -- 11 Anexos y repositorios. -- 11.1 Plataforma proyecto:. -- 11.2 Plataforma apache spark:. -- 11.3 Plataforma apache hadoop:. -- 12 Referencias bibliográficas62 páginasapplication/pdfspaDerechos reservados-Universidad de los Llanos, 2017Análisis comparativo del desempeño y costo computacional de una infraestructura de almacenamiento y procesamiento distribuido para el procesamiento de colecciones de textoTrabajo de grado - PregradoAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)info:eu-repo/semantics/openAccessProcesamiento distribuidoApache sparkBolsa de palabrasClústerBalance costo-beneficioBúsqueda de InformaciónDistributed processingApache sparkBag of wordsClusterTrade-offInformation retrievalUniversidad de los LlanosRepositorio digital Universidad de los Llanoshttps://repositorio.unillanos.edu.cohttp://purl.org/coar/access_right/c_abf2