7 de febrero de 2014

Identificación y Estructuración de Antecedentes

Investigación
Semana 3

La tercera reunión con mi asesora de tesis la lleve a cabo el 30 de Enero del 2014 desde el CIIDIT donde se dio la revisión al trabajo realizado en la semana anterior, así como explicación de las tareas generales a realizar para la semana tres. Nuevamente hubo sugerencias y correcciones por hacer en el documento de mi tesis, esta vez se mencionó todo lo necesario en cuanto código de LaTeX que había que agregar para poder continuar con el capítulo de antecedentes.

Tareas generales realizadas

  • Fue necesario cambiar a quién estaba contemplado como coasesor de tesis debido a que esta persona era externa a la facultad, y decidí colocar como un revisor más a la Dra. Sara Elena Garza Villarreal, quién forma parte del grupo de investigadores involucrados en el proyecto de toma de decisiones ecológicas, en el cual participo de manera voluntaria.
  • Se agregaron dos comandos para aplicar colores a ciertos textos en el documento de LaTeX con el fin de resaltar aquellos contenidos que están pendientes de revisión o que aún se trabaja en corregir algunos textos.
  • El orden de algunas secciones dentro de los capítulos fueron cambiados, con el fin de que todo lleve una secuencia lógica y entendible, como el caso de la introducción donde ahora los motivos y justificación serán mencionados antes de iniciar con la hipótesis y objetivos del proyecto.
  • Se añadieron los archivos necesarios y faltantes para la inclusión de la bibliografía al final del documento.
  • También se hizo una reestructuración más "limpia" de la carpeta con todos los contenidos, ya que eran muchos archivos que se mezclaban con los autogenerados por LaTeX.
  • Se creó un script de bash simple para automatizar la generación del pdf de salida, ya que siempre había que ejecutar los mismos comandos una y otra vez cada que se quería ver el resultado.

Identificación de antecedentes

Para el capítulo de antecedentes se buscaron aquellos temas y conceptos de los cuales hay que tener conocimiento previo para lograr entender completamente que es lo que se esta realizando y desarrollando junto con el trabajo de tesis.

Debido a que hay que contemplar todo aquello que puede no ser de conocimiento general, se listaron algunos conceptos y definiciones de palabras que seguramente todo aquel que esta involucrado con temas de tecnología y desarrollo de software son de uso cotidiano.

Entre algunos de los conceptos que incluí fueron pixel, resolución y filtro, que si bien parecen muy simples, es necesario definirlos para evitar confusión al lector.

Módulo básico para análisis de información

En cuanto a código esta semana trabajé en un módulo encargado únicamente de procesar información básica que se puede encontrar en la etiqueta o empaque de un producto. Entre la información clave será necesario identificar:
  • Lugar de origen.
  • Empresa quien elabora el producto.
  • Información de contacto.
  • Información nutrimental/ingredientes o material con que se fabrica.
  • Información que previene al consumidor de cierta acción o uso del producto.
  • Etcétera.

Por el momento hice pruebas para detección de lugar en base a un diccionario de lugares conocidos.

También se hizo una prueba para reconocer si un texto parece ser positivo o negativo, con el fin de estar preparados en su momento para un módulo que busque tuits relacionados al uso de un producto y conocer si la impresión es positiva o negativa.

El programa tiene incluido una serie de lineas de texto con la información a analizar.
fragments = [
    "Nueva Wal-Mart de Mexico",
    "PEPSI-COLA",
    "COCA-COLA",
    "Smart product",
    "Tastes horrible",
    "the 28th of december",
    "the ticket is 212-323-1239",
    "from Mexico",
    "number 1 800 567-4321",
    "costs $23 per person",
    "website http://theevent.com",
    "some comments at #coolevent",
    "David david32@gmail.com"
]
La ejecución de prueba resulto como se ve a continuación.
memories:research ramongonzalez$ python language_processor.py 
mexico is a known place
<<Nueva Wal-Mart de Mexico>> contains a place
****************************
smart is positive word
so <<Smart product>> is a positive text
****************************
horribleis negative word
so <<Tastes horrible>> is a negative text
****************************
mexico is a known place
<<from Mexico>> contains a place
****************************
<<some comments at #coolevent>> has a hashtag
****************************
memories:research ramongonzalez$
Para tener una idea de a donde se puede llegar con la implementación de este módulo, analicé el funcionamiento de esta herramienta creada en Javascript, que es un acercamiento a un procesador de lenguaje natural, el cual identifica información proveniente de un texto.

Esta herramienta se encuentra disponible en Knwl.js.

La meta será llegar a tener algo muy parecido implementado en Python. Mientras tanto el código implementado se encuentra en el repositorio.

Trabajo por realizar

  • Mejorar los textos redactados hasta el momento y ampliar algunos contenidos.
  • Continuar con el escrito de los antecedentes en donde solo se mencionó la referencia bibliográfica.
  • Iniciar con la creación del modelo encargado de la escritura en una base de datos.
  • Prueba de una API sencilla de donde se pueda consultar información almacenada en el servidor.
  • Investigar sobre proyectos y trabajos relacionados.

No hay comentarios:

Publicar un comentario

Nota: solo los miembros de este blog pueden publicar comentarios.