Diseño e implementación de un sistema para el análisis y categorización en Twitter mediante técnicas de clasificación automática de textosReportar como inadecuado




Diseño e implementación de un sistema para el análisis y categorización en Twitter mediante técnicas de clasificación automática de textos - Descarga este documento en PDF. Documentación en PDF para descargar gratis. Disponible también para leer online.

Advisors: Congosto Martínez, María LuzSánchez Fernández, Luis tutor

Department-Institute: Universidad Carlos III de Madrid. Departamento de Ingeniería Telemática

Degree: Ingeniería Técnica en Telemática

Issued date: 2013

Defense date: 2013-10-18

Keywords: Ingeniería del conocimiento , Redes sociales , Twitter , Minería de datos , Categorización

Rights: Atribución-NoComercial-SinDerivadas 3.0 España

Abstract: 

Los SNS o servicios de redes sociales constituyen una de las mayores fuentes deinformación en tiempo real de Internet. Entre ellas destaca Twitter, tercera red social pornúmero de usuarios en continuo crecimiento, cuyas características la hacen ideal para laLos SNS o servicios de redes sociales constituyen una de las mayores fuentes deinformación en tiempo real de Internet. Entre ellas destaca Twitter, tercera red social pornúmero de usuarios en continuo crecimiento, cuyas características la hacen ideal para laretransmisión y propagación de información de manera instant ánea.Son los usuarios, repartidos por todo el mundo, los que contribuyen con sus tweets—mensajes de texto de hasta 140 caracteres— a crear esta ingente cantidad de datos,siendo necesario aplicar procesos automatizados de búsqueda y categorización de lainformación para conocer cuáles son las conversaciones que se dan entre los miembrosde esta red social.Sin embargo, es el contenido de los tweets el que plantea mayores retos a los investigadores,pues su clasificación automática e incluso manual resulta bastante difícil.Ante el valor que supone conocer la opinión de la sociedad, universidades y empresasestán dedicando gran cantidad de recursos al estudio y desarrollo de nuevos métodos deanálisis automático de la información, haciendo de la minería de datos y especialmente,de la minería de opinión, uno de los campos con mayor proyección de esta década.Este proyecto pretende arrojar algo de luz al problema mediante el diseño e implementación de un prototipo para la captura y el análisis de los tweets, empleando técnicas deprocesamiento del lenguaje natural y evaluando alguno de los algoritmos más empleadosen clasificación automática de documentos.+- 

The SNS or social networking services are a major source of real-time information onthe Internet. Amongst them, Twitter stands out. The third social network by number of usersis still growing and its unique features shape the proper channel to broadcast infoThe SNS or social networking services are a major source of real-time information onthe Internet. Amongst them, Twitter stands out. The third social network by number of usersis still growing and its unique features shape the proper channel to broadcast informationalmost instantly.Are its users, spread all over the world, those who create this huge amount of data withtheir tweets, text-based messages of up to 140 characters, making it necessary to developautomated search and categorization processes in order to disclose which conversationsare taking place between the members of this social network.However, the content of these messages poses a great challenge to researchers due tothe difficulty of their classification even using manual procedures. Given the value of suchopinions representing the views of the society, universities and companies are devotingsignificant resources to the research and development of new methods of informationanalysis, making data mining and especially, opinion mining, one of the fastest-growingand most promising fields of this decade.This project aims to shed some light on that problem by designing and implementinga prototype to capture and analyse tweets using natural language processing techniquesand evaluating some of the algorithms used in automatic document classification.+- 







Autor: Alcázar Jaén, Samuel

Fuente: http://e-archivo.uc3m.es


Introducción



Universidad Carlos III de Madrid Repositorio institucional e-Archivo http:--e-archivo.uc3m.es Trabajos académicos Proyectos Fin de Carrera 2013 Diseño e implementación de un sistema para el análisis y categorización en Twitter mediante técnicas de clasificación automática de textos Alcázar Jaén, Samuel http:--hdl.handle.net-10016-18085 Descargado de e-Archivo, repositorio institucional de la Universidad Carlos III de Madrid Universidad Carlos III de Madrid E SCUELA P OLIT ÉCNICA S UPERIOR Ingenierı́a Técnica de Telecomunicación: Telemática Diseño e implementación de un sistema para el análisis y categorización en Twitter mediante técnicas de clasificación automática de textos Autor: Samuel Alcázar Jaén Tutor: Luis Sánchez Fernández Directora: Marı́a Luz Congosto Martı́nez Este trabajo se encuentra bajo la licencia Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España. This work is licensed under the Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Spain License. http:--creativecommons.org-licenses-by-nc-sa-3.0-deed.es IV Resumen Los SNS o servicios de redes sociales constituyen una de las mayores fuentes de información en tiempo real de Internet.
Entre ellas destaca Twitter, tercera red social por número de usuarios en continuo crecimiento, cuyas caracterı́sticas la hacen ideal para la retransmisión y propagación de información de manera instantánea. Son los usuarios, repartidos por todo el mundo, los que contribuyen con sus tweets —mensajes de texto de hasta 140 caracteres— a crear esta ingente cantidad de datos, siendo necesario aplicar procesos automatizados de búsqueda y categorización de la información para conocer cuáles son las conversaciones que se dan entre los miembros de esta red social. Sin embargo, es el contenido de los tweets el que plantea mayores retos a los investigadores, pues su clasificación automática e incluso manual r...





Documentos relacionados