28 de febrero de 2014

Diseño de la Solución Propuesta

Investigación
Semana 6

La sexta reunión con mi asesora de tesis la lleve a cabo en línea el 21 de Febrero del 2014 donde se dio revisión a mi avance de tesis de acuerdo a lo contemplado para la semana, se pidieron hacer correcciones en el documento de la tesis, se pidió completar los primeros capítulos por completo, y por último se explicó de forma general lo que había que hacer para esta semana.

Tareas realizadas

De forma general las tareas realizadas fueron las que se listan a continuación:
  • Corrección de errores.
  • Se cambio el diseño de la matriz de características.
  • Agregar más contenido a algunos párrafos.
  • Terminar los primeros capítulos.
  • Redactar la autobiografía.
  • Proponer la metodología.
  • Estructurar el contenido que se hará para la solución propuesta
  • Avance de código en el pre-procesamiento de la imagen.

Metodología y solución propuesta

En el capítulo de solución propuesta se agregará todo lo que contribuimos. En forma general se explica qué y cómo hicimos el proyecto. Algunas secciones pueden ser:
  • El diseño para la interfaz de usuario.
  • El diseño de la arquitectura.
  • La implementación de algoritmos.
  • Especificaciones.
  • Casos de uso.
  • Características, funcionalidades y módulos.
En el capítulo de metodología se incluyen una explicación de como se hace lo que haremos en términos de fases y técnicas. Se agregan secciones como:
  • La planeación del proyecto.
  • La selección de herramientas.
  • Las fases de desarrollo.
  • Requisitos del sistema.
Para esta semana la tarea asignada fue comenzar la estructura de estos capítulos, y comenzar la redacción en caso de ser posible.

Mejora del pre-procesamiento de la imagen

Se realizaron cambios en el módulo encargado de procesar la imagen antes de pasarlo al módulo de reconocimiento de texto.

En esta ocasión se tomó la siguiente imagen como muestra y se probó la nueva secuencia de filtros para conocer el resultado. Como se puede ver en esta imagen original, el texto es menos visible que en ejemplos usados anteriormente, lo cual dificulta mucho el reconocimiento de texto ya que se pierde con el color de fondo.


En este caso usando binarización invertida se logró el siguiente resultado.

memories:research ramongonzalez$ python improvement.py

Tesseract Open Source OCR Engine v3.02.02 with Leptonica
RESPONSABLE DE LA FABRICACION: UNILEVER DE MEXICO, 3.
P: E2: DL cv. IEPALCAPA ND. 2. COL. RANCHO STO. DOMINGO,
mg‘: AN. EDO. DE MEXICO. C.P. 54900. HECHO EN MEXICO.

:mWD=.uxDLw v DISTRIBUIDO POR UNILEVER DE CENTROAMERLCA,
SA, EN GUATEMALA, 24 AVENIDA CALZADA ATANASIO TZUL
356?. ZONA 12 , REG. D.G.R.V.C.S.-D.R.C.A. A-40091; EL
SALVADOR, BLVD. DEL EJERCITO NAC. KM 3 1/2, SAN

SWADOR, RLEG.19849D.G.S.; HONDURAS, ANILLO PERLEERLCD.
TEGUCIGALPA, REGRSA; NICARAGUA CARRETERA NUEVA A LEON
  KM 10 1/2, MANAGUA. REG. No.; COSTA RLCA, DEL CRUCEDE I
1 SAN ANTONIO DE BELEN, 400 m OE _  800 g.- E
L LEREDLA, REGLSIRD SANDADLD     L   ,  

:1-:“:¢\:.;¥€9‘

memories:research ramongonzalez$
También inicié con pruebas para aplicar otra buena práctica para el pre-procesamiento de la imagen, que es recortar la imagen dejando únicamente el área donde se tiene texto, pero para esto primero se necesita conocer donde recortar. Entonces usando detección de líneas podemos encontrar zonas donde debería de haber texto.

El resultado en la misma imagen fue el siguiente, y como podemos ver el trazo de las líneas verdes coinciden con la ubicación de líneas de texto.


Después de esto faltará crear un cuadro delimitador que encierre sólo el texto, recortarlo y probar nuevamente con el reconocimiento de texto.

Avances para la siguiente semana

  • Implementación de la solución propuesta.
  • Hacer cambios sugeridas a la tesis.
  • Implementar el modelo de la base de datos.

No hay comentarios:

Publicar un comentario

Nota: solo los miembros de este blog pueden publicar comentarios.