Publicación: Análisis comparativo del desempeño y costo computacional de una infraestructura de almacenamiento y procesamiento distribuido para el procesamiento de colecciones de texto
dc.contributor.advisor | Calderon Moreno, Roger | |
dc.contributor.advisor | Cruz Roa, Angel Alfonso | |
dc.contributor.author | Porras García, Yerson Ferney | |
dc.date.accessioned | 2024-10-22T16:42:47Z | |
dc.date.available | 2024-10-22T16:42:47Z | |
dc.date.issued | 2017 | |
dc.description | Incluye figuras y tablas. | spa |
dc.description.abstract | La computación distribuida para el procesamiento en paralelo sobre un clúster de computadores ofrece un rendimiento computacional mayor con tiempos de respuesta mucho menores que si se realizara el mismo procesamiento en una sola máquina. Si se toma en cuenta que cada computador por sí solo implica una serie de recursos y costos para su funcionamiento (económicos, humanos, etc.), y además se considera que cuanto más computadores se incluyan al clúster representará un aumento en tiempos de transmisión de información entre ellos, no es difícil inferir que habrá un punto en el cual se deberá hacer un balance entre las ventajas que ofrecen la inclusión de más computadores (en términos de capacidad de cómputo) y el costo que representan (en energía, dinero y transferencia de datos). Por lo tanto, el presente trabajo tuvo como objetivo realizar un análisis comparativo de la implementación de una plataforma de procesamiento distribuido de una colección de documentos de texto para la construcción de un sistema para la búsqueda de información y relevancia de resultados, usando representaciones como Bag of Words (BoW) y producto punto por medio de algoritmos de procesamiento distribuido, los cuales permitieron identificar la relación entre mejora de la capacidad de cómputo cuando se incrementa el número de computadores en el clúster como apoyo a la toma de decisiones en unidades de computación de alto desempeño para el análisis masivo de datos. | spa |
dc.description.abstract | The distributed computing for parallel processing on a computer cluster offers greater computational performance with less response times in comparison to the secuencial processing. If it is taken into account that each computer alone by itself implies a series of resources and costs for its operation (economic, human, etc.), and it is also considered that the more computers are included to the cluster, it will represent an increase in information transmission times among them, it is not hard to infer that there will be a point at which a balance should be made between the advantages offered by the inclusion of more computers (in terms of computing capacity) and the cost that they represent (energy, money and data transfer). Therefore, the present work aimed to perform a comparative analysis of the implementation of a distributed processing platform of a collection of text documents for the construction of a system to search for information and result relevance, using representations like Bag of Words (BoW) and dot product by means of distributed processing algorithms, which allowed to identify the relation between improvement of the computing capacity when the number of computers in the cluster is increased as support to the decision making in high performance computing units for the massive analysis of data. | eng |
dc.description.degreelevel | Pregrado | |
dc.description.degreename | Ingeniero(a) de Sistemas | |
dc.description.notes | Trabajo de grado presentado como requisito parcial para optar al título de Ingeniero de sistemas. | spa |
dc.description.tableofcontents | 1 Resumen. -- 2 Abstract. -- 3 Introducción. -- 4 Objetivos. -- 4.1 Objetivo general (og). -- 4.2 Objetivos específicos (oe). -- 5 Marco de referencia. -- 5.1 Big Data. -- 5.2 Almacenamiento de datos. -- 5.2.1 Bases de datos no sql. -- 5.3 Procesamiento distribuido. -- 5.4 Apache hadoop5.4.1 Apache hbase. -- 5.4.2 Apache hadoop distributed file system – hdfs. -- 5.4.3 Algoritmo mapreduce. -- 5.5 Apache spark. -- 5.6 Procesamiento de documentos de texto. -- 5.6.1 Bolsa de palabras - bag of words (bow). -- 5.6.2 Búsqueda de documentos por relevancia. -- 5.7 Feature driven development – fdd. -- 5.8 Desempeño computacional. -- 5.8.1 Speed up. -- 5.8.2 Ley de amdahl. -- 6 Desarrollo de la metodología. -- 6.1 Metodología de investigación. -- 6.2 Metodología de desarrollo de software. -- 6.2.1 Modelo general del proyecto. -- 7 Aplicación búsqueda de documentos por relevancia. -- 7.1 Módulos de la bolsa de palabras. -- 7.1.1 Etapa 1: creación de bag of words. -- 7.1.2 Etapa 2: procesamiento y comparación de documentos. -- 7.1.3 Etapa 3: búsqueda y relevancia de documentos. -- 7.2 Implementación bow en apache spark. -- 7.2.1 Core (scriptcore.py). -- 7.2.2 Corpus (scriptcorpus.py). -- 7.2.3 Bowgral (scriptbowgral.py) 7.2.4 Diccionariogral (scriptdiccionariogral.py). -- 7.2.5 BoWIndividual (scriptBoWIndividual.py). -- 7.2.6 Histogramas (scripthistogramas.py). -- 7.2.7 Iddoc (scriptiddoc.py). -- 7.2.8 Idword (scriptidword.py). -- 7.2.9 Sparsematrix (scriptsparsematrix.py). -- 7.2.10 Tfidfmatrix (scripttfidfmatrix.py). -- 7.2.11 Producto punto (scriptproductopunto.py). -- 8 Resultados. -- 8.1 Conjunto de datos. -- 8.2 Diseño experimental. -- 8.3 Resultados preliminares. -- 8.4 Resultados finales. -- 8.5 Análisis de resultados. -- 8.5.1 Desviación estándar. -- 8.5.2 Speedup descendente. -- 8.5.3 Speedup ascendente. -- 9 Conclusiones. -- 10 Recomendaciones. -- 11 Anexos y repositorios. -- 11.1 Plataforma proyecto:. -- 11.2 Plataforma apache spark:. -- 11.3 Plataforma apache hadoop:. -- 12 Referencias bibliográficas | spa |
dc.format.extent | 62 páginas | |
dc.format.mimetype | application/pdf | |
dc.identifier.citation | Porras García, Yerson F. (2017).Análisis comparativo del desempeño y costo computacional de una infraestructura de almacenamiento y procesamiento distribuido para el procesamiento de colecciones de texto [Trabajo de grado, Universidad de los Llanos]. Repositorio digital Universidad de los Llanos. | |
dc.identifier.instname | Universidad de los Llanos | |
dc.identifier.reponame | Repositorio digital Universidad de los Llanos | |
dc.identifier.repourl | https://repositorio.unillanos.edu.co | |
dc.identifier.uri | https://repositorio.unillanos.edu.co/handle/001/4531 | |
dc.language.iso | spa | |
dc.publisher | Universidad de los Llanos | |
dc.publisher.branch | Sede Barcelona | |
dc.publisher.faculty | Facultad de Ciencias Básicas e Ingeniería | |
dc.publisher.place | Villavicencio | |
dc.publisher.program | Ingeniería de Sistemas | |
dc.relation.references | K. Shvachko, “HDFS Scalability: The limits to growth,” Login, pp. 6–16, 2010 | |
dc.relation.references | D. Borthakur, “HDFS architecture guide,” Hadoop Apache Proj., vol. 53, pp. 1–13, 2008. | |
dc.relation.references | F. J. Salinas Dezerega, “EVALUACIÓN DE ALGORITMOS DE AGRUPAMIENTO UTILIZANDO APACHE SPARK,” 2016. | |
dc.relation.references | C. Gómez Martinez, “Procesamiento de grandes volúmenes de datos en entornos Cloud Computing utilizando Hadoop MapReduce,” Universidad de Almería, 2013. | |
dc.relation.references | M. Weihua, Z. Hong, L. Qianmu, and X. Bin, “Analysis of information management and scheduling technology in Hadoop,” vol. 12, no. 2, pp. 133–138, 2014. | |
dc.relation.references | M. A. Murazzo, N. R. Rodriguez, M. Guevara, and F. G. Tinetti, “Identificación de Algoritmos de Cómputo Intensivo para Big Data y su Implementación en Clouds,” 2016. | |
dc.relation.references | R. Leira, P. Roquero, C. Vega, I. González, and J. Aracil, “HPSEngine: Motor de alto rendimiento y baja latencia para el procesamiento distribuido en tiempo real,” research.cvega.es. | |
dc.relation.references | D. Ramírez Sánchez, “Data Mining sobre logs procesados con Hadoop,” BARCELONATECH, 2014. | |
dc.relation.references | S. García, S. Ramírez-Gallego, J. Luengo, and F. Herrera, “Big Data : Preprocesamiento,” novática, pp. 17–23, 2016. | |
dc.relation.references | S. J. Valbuena and J. M. Londoño, “SISTEMAS PARA ALMACENAR GRANDES VOLÚMENES DE DATOS,” Rev. GTI, vol. 13, no. 37, 2015. | |
dc.relation.references | A. Hernández Dominguez and A. Hernández Yeja, “Acerca de la aplicación de MapReduce + Hadoop en el tratamiento de Big Data,” Rev. Cuba. Ciencias Informáticas, vol. 9, no. 3, pp. 49–62, 2015. | |
dc.relation.references | S. Moon, J. Lee, X. Sun, and Y. suk Kee, “Optimizing the Hadoop MapReduce Framework with high-performance storage devices,” J. Supercomput., vol. 71, no. 9, pp. 3525–3548, Sep. 2015 | |
dc.relation.references | A. F. Rojas Hernandez and N. Y. Gelvez Garcia, “Distributed processing using cosine similarity for mapping Big Data in Hadoop,” IEEE Lat. Am. Trans., vol. 14, no. 6, pp. 2857–2861, 2016. | |
dc.relation.references | E. Ruiz García, “ESTUDIO Y EVALUACIÓN DE SISTEMAS ‘BIG DATA’ DE TRATAMIENTO DE INFORMACIÓN,” Universidad Politécnica de Madrid, 2016. | |
dc.relation.references | E. F. Silva Balocchi, “Análisis y comparación entre el motor de bases de datos orientado a columnas Infobright y el framework de aplicaciones distribuidas Hadoop en escenarios de uso de bases de datos analíticas.” Universidad de Chile, 2014. | |
dc.relation.references | M. Alcívar, E. Espinoza, and V. Cedeño, “Análisis de la información de una Base de Datos Transaccional usando Hive sobre Hadoop,” 2011. | |
dc.relation.references | L. F. Tabares and J. F. Hernández, “Big Data Analytics : Oportunidades , Retos y Tendencias,” Univ. San Buenaventura, p. 20, 2014. | |
dc.relation.references | R. Ramos Pollán, A. Cruz Roa, and F. A. González, “A Framework for High Performance Image Analysis Pipelines over Cloud Resources,” in 7th Colombian Computing Congress, CCC 2012 - Conference Proceedings, 2012. | |
dc.relation.references | M. Trigila and R. Di Pasquale, “ENSEÑANDO COMPUTACIÓN PARALELA CON CLUSTERES DE BAJO COSTO - TEACHING PARALLEL COMPUTING WITH LOWCOST CLUSTER,” XIV Int. Conf. Eng. Technol. Educ., 2016. | |
dc.relation.references | A. N. Cadavid, J. D. Fernández Martínez, and J. Morales Vélez, “Revisión de metodologías ágiles para el desarrolldo de software A review of agile methoologies for software development,” Univ. Icesi, vol. 11 No. 2, pp. 30–39, 2013. | |
dc.relation.references | A. Firdaus, I. Ghani, and N. I. M. Yasin, “Developing Secure Websites Using Feature Driven Development (FDD): A Case Study,” J. Clean Energy Technol., vol. 1, no. 4, pp. 322–326, 2013. | |
dc.relation.references | A. Molpeceres, “Procesos de desarrollo: RUP, XP y FDD,” javaHispano org, 2003. | |
dc.relation.references | F. Alvarez Goikoetxea, “Estudio de un entorno de computación distribuida con Hadoop,” 2016 | |
dc.relation.references | T. Lee, H. Lee, K. H. Rhee, and S. U. Shin, “The efficient implementation of distributed indexing with hadoop for digital investigations on big data,” Comput. Sci. Inf. Syst., vol. 11, no. 3, pp. 1037–1054, 2014. | |
dc.relation.references | A. Plasencia Salgueiro and B. de los M. Ballagas Flores, “Análisis comparativo de herramientas de recuperación y análisis de información de acceso libre desde una concepción docente,” Transinformação, vol. 26, no. 3, pp. 315–326, Dec. 2014. | |
dc.relation.references | V. I. Rosa Urrutia and J. G. Rivera Pleitez, “Big Data , análisis de datos en la nube,” Entorno, pp. 17–24, 2016. | |
dc.relation.references | J. J. Camargo Vega, J. F. Camargo Ortega, and L. Joyanes Aguilar, “Conociendo Big Data,” Rev. Fac. Ing. (Fac. Ing.), Enero-Abril, vol. 24, no. 38, pp. 63–77, 2015. | |
dc.relation.references | M. Niño and A. Illarramendi, “ENTENDIENDO EL BIG DATA: ANTECEDENTES, ORIGEN Y DESARROLLO POSTERIOR,” DYNA NEW Technol., vol. 2, no. 3, pp. 1–8, 2015. | |
dc.relation.references | D. Laney, “3D Data Management: Controlling Data Volumen, Velocity, and Variety,” Appl. Deliv. Strateg., vol. 949, no. February 2001, p. 4, 2001. | |
dc.relation.references | A. Ghaffar Shoro and T. Rahim Soomro, “Big Data Analysis: Ap Spark Perspective,” Glob. J. Comput. Sci. Technol., vol. 15, no. 1, pp. 7–14, 2015. | |
dc.relation.references | A. Martín, S. Chavez, N. Rodriguez, A. Valenzuela, and M. Murazzo, “Bases de datos NoSql en cloud computing,” XV Work. Investig. EN CIENCIAS LA Comput., pp. 166–170, 2013. | |
dc.relation.references | M. N. Vora, “Hadoop-HBase for large-scale data,” Proc. 2011 Int. Conf. Comput. Sci. Netw. Technol. ICCSNT 2011, vol. 1, pp. 601–605, 2011. | |
dc.relation.references | C. M. Pérez Ibarra, S. A. Mendez, and N. M. Pérez Otero, “Restauración de imágenes y metaheurísticas en Hadoop,” 2015. | |
dc.relation.references | O. O’Malley, “Terabyte sort on apache hadoop,” Yahoo, pp. 1–3, 2008 | |
dc.relation.references | J. Maillo, I. Triguero, and F. Herrera, “Un enfoque MapReduce del algoritmo k-vecinos más cercanos para Big Data,” ACM, 2003. | |
dc.relation.references | E. Izaguirre Equiza, “Trabajo Fin de Grado: Sistemas de recomendación en Apache Spark,” 2015. | |
dc.relation.references | J. M. García Sánchez, “Sparkanalyzer: Instrumentación de Apache Spark,” 2016. | |
dc.relation.references | A. Romero Rodríguez, “Extracción de Información Semántica a Partir de Categorías de Texto Estado del Arte.” | |
dc.relation.references | L. A. López Rodríguez, J. M. Quinteiro González, and P. Hernández Morera, “Clasificador basado en Análisis de Sentimiento.” | |
dc.relation.references | T. Deselaers, L. Pimenidis, and H. Ney, “Bag-of-visual-words models for adult image classification and filtering,” 2008 19th Int. Conf. Pattern Recognit., pp. 1–4, 2008. | |
dc.relation.references | Y. Zhang, R. Jin, and Z. H. Zhou, “Understanding bag-of-words model: A statistical framework,” Int. J. Mach. Learn. Cybern., vol. 1, no. 1–4, pp. 43–52, 2010. | |
dc.relation.references | L. Wu, S. C. H. Hoi, and N. Yu, “Semantics-preserving bag-of-words models and applications,” IEEE Trans. Image Process., vol. 19, no. 7, pp. 1908–1920, 2010. | |
dc.relation.references | C. A. Cobos Lozada, E. E. Mendoza, M. E. Mendoza Becerra, L. C. Gómez Flórez, and E. L. Guzmán, “Algoritmos de expansión de consulta basados en una nueva función discreta de relevancia. (Spanish),” UIS Ing., vol. 10, no. 1, pp. 7–20, 2011. | |
dc.relation.references | S. Jaramillo Valbuena and J. M. Londoño, BÚSQUEDA DE DOCUMENTOS BASADA EN EL USO DE ÍNDICES ONTOLÓGICOS CREADOS CON MAPREDUCE, vol. 24, no. 1. Bogotá: Universidad Militar, Nueva Granada, 2014. | |
dc.relation.references | S. Vázquez-Reyes, M. de León-Sigg, P. Velasco-Elizondo, J. Villa-Cisneros, and S. Briceño-Muro, “Recuperación de información a través del índice invertido en Be Intelligent,” RISTI - Rev. Iber. Sist. e Tecnol. Inf., no. 21, pp. 85–98, 2017. | |
dc.relation.references | S. D. Amaro Calderón and J. C. Valverde Rebaza, “Metodologías Ágiles,” Esc. Informatica., pp. 1–37, 2007. | |
dc.relation.references | K. Mendes Calo, E. C. Estevez, and P. R. Fillottrani, “Evaluación de metodologías ágiles para desarrollo de software,” XII Workshop de Investigadores en Ciencias de la Computación. 2010. | |
dc.relation.references | D. D. Lewis, “Reuters-21578 text categorization test collection.” AT&T Labs - Research, 2004. | |
dc.relation.references | A. L. Maas, R. E. Daly, P. T. Pham, D. Huang, A. Y. Ng, and C. Potts, “Learning Word Vectors for Sentiment Analysis,” Proc. 49th Annu. Meet. Assoc. Comput. Linguist. Hum. Lang. Technol., pp. 142–150, 2011. | |
dc.relation.references | K. Lang, “NewsWeeder: Learning to Filter Netnews,” Proc. 12th Int. Mach. Learn. Conf., pp. 331–339, 1995. | |
dc.relation.references | F. Galgani and A. Hoffmann, “LEXA: Towards Automatic Legal Citation Classification,” in AI 2010: Advances in Artificial Intelligence, 2010, vol. 6464, pp. 445–454. | |
dc.relation.references | F. Galgani, P. Compton, and A. Hoffmann, “Towards automatic generation of catchphrases for legal case reports,” in the 13th International Conference on Intelligent Text Processing and Computational Linguistics, 2012, vol. 7182, pp. 415–426. | |
dc.relation.references | F. Galgani, P. Compton, and A. Hoffmann, “Knowledge Acquisition for Categorization of Legal Case Reports,” in PKAW 2012, 2012, vol. LNAI 7457, pp. 118–132. | |
dc.relation.references | F. Galgani, P. Compton, and A. Hoffmann, “Citation Based Summarisation of Legal Texts,” in PRICAI 2012, 2012, vol. LNCS 7458, pp. 40–52. | |
dc.relation.references | B. Pang, L. Lee, and S. Vaithyanathan, “Thumbs up? Sentiment Classification using Machine Learning Techniques,” in Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2002. | |
dc.rights | Derechos reservados-Universidad de los Llanos, 2017 | spa |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
dc.rights.coar | http://purl.org/coar/access_right/c_abf2 | |
dc.rights.license | Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) | |
dc.rights.uri | https://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject.proposal | Procesamiento distribuido | spa |
dc.subject.proposal | Apache spark | spa |
dc.subject.proposal | Bolsa de palabras | spa |
dc.subject.proposal | Clúster | spa |
dc.subject.proposal | Balance costo-beneficio | spa |
dc.subject.proposal | Búsqueda de Información | spa |
dc.subject.proposal | Distributed processing | eng |
dc.subject.proposal | Apache spark | eng |
dc.subject.proposal | Bag of words | eng |
dc.subject.proposal | Cluster | eng |
dc.subject.proposal | Trade-off | eng |
dc.subject.proposal | Information retrieval | eng |
dc.title | Análisis comparativo del desempeño y costo computacional de una infraestructura de almacenamiento y procesamiento distribuido para el procesamiento de colecciones de texto | spa |
dc.type | Trabajo de grado - Pregrado | |
dc.type.category | Proyectos de investigación | |
dc.type.coar | http://purl.org/coar/resource_type/c_7a1f | |
dc.type.coarversion | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |
dc.type.content | Text | |
dc.type.driver | info:eu-repo/semantics/bachelorThesis | |
dc.type.version | info:eu-repo/semantics/publishedVersion | |
dspace.entity.type | Publication | |
person.identifier.cvlac | https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000629650 | |
person.identifier.orcid | 0000-0003-3389-8913 | |
relation.isDirectorOfPublication | d0bc1d74-eceb-4ddd-9df7-0d4ad521b2d3 | |
relation.isDirectorOfPublication.latestForDiscovery | d0bc1d74-eceb-4ddd-9df7-0d4ad521b2d3 |
Archivos
Bloque de licencias
1 - 1 de 1
Cargando...

- Nombre:
- license.txt
- Tamaño:
- 15.18 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción: