jueves, 28 de abril de 2011

Artículo sobre Visión por Computadora en el New York Times ...

Que las aplicaciones por Visión por Computadora nos rodean sin que nos demos mucha cuenta es un hecho (lectura de matrículas en el parking de la esquina es un ejemplo claro). El NYT ha publicado un artículo muy interesante sobre el particular: Computers That See You and Keep Watch Over You.

martes, 26 de abril de 2011

Computer Vision Fact and Fiction

Todos los que nos dedicamos de alguna forma a la técnología hemos visto como en las películas o series de TV se "pueden hacer" cosas que pasan por encima de las leyes de la física, aparecen tecnologías inexistentes, se puede "hackear" un sistema "programando en tiempo real" y viendo cómo el código pasa a toda velocidad por la pantalla, etc.

Por otro lado los que nos dedicamos a la Visión por Computadora sabemos qué se puede hacer hoy en día y qué es probable que se pueda hacer. ¿Se puede identificar a una persona por el Iris como en Minority Report? ¿Se puede seguir un vehículo sobre imágenes de satélite? ¿Se puede "mirar" ampliando la resolución de una imagen como en Blade Runner?

Existe una magnífica serie de reportajes sobre diferentes aplicaciones de Visión que han aparecido en películas comentadas por expertos en cada tema. La serie se llama "Computer Vision Facts and Fiction":

Web de Computer Vision Facts and Fiction


Creo que es muy interesante para que cualquiera sepa qué se puede y qué no se puede hacer hoy en día en Visión por Computadora.

domingo, 17 de abril de 2011

Lenguajes para Visión Artificial

Hasta el año 2000, los sistemas de Visión Artificial se programaban habitualmente en lenguajes de bajo nivel, sobre todo en C. Esto casi siempre se debía a que los algoritmos de Visión Artificial suelen requerir cálculos intensivos, y C permitía ejecutarlos con máxima celeridad.

Evidentemente, si un programador domina el lenguaje ensamblador de una máquina y programa un algoritmo de manera nativa para la misma, el resultado puede ser óptimo. Sin embargo, para programar de manera eficiente en ensamblador se requieren unos conocimientos muy avanzados (y mucha paciencia). Un programador menos instruido puede implementar el mismo algoritmo en C y obtener seguramente un rendimiento mayor. Además, tardará menos y su solución servirá para un amplio abanico de máquinas. Esto se debe a que C provee de herramientas de abstracción de las que el lenguaje ensamblador adolece, y a que en C se pueden encontrar miles de bibliotecas que facilitan mucho la labor del programador (entre las que podemos destacar OpenCV para visión). De hecho, casi todos los fabricantes suministran bibliotecas en C para el manejo de su hardware (por ejemplo, los fabricantes de tarjetas gráficas proporcionan APIs propietarias como CUDA o abiertas como OpenCL).

Creo que lo comentado hasta ahora justifica suficientemente el paso de ensamblador a C. Pero se debe observar que, de la misma forma, podría justificar el paso de C a otros lenguajes de más alto nivel, como Matlab, Python o Java. De hecho, desde principios de siglo, cada vez más sistemas de Visión Artificial se implementan en lenguajes de más alto nivel como Matlab. Este cambio hacia una abstracción aún mayor, simplifica de nuevo las labores de programación. Además, esto está ocurriendo sin que se note un decremento en el rendimiento de los sistemas, lo cual se debe a dos hechos: por un lado los ordenadores de hoy son lo suficientemente rápidos para que la ejecución sobre lenguajes más lentos no plantee demasiados problemas, y por otro lado, la mayoría de las funciones de cálculo intensivo de Matlab están implementadas en C, por lo que si Matlab se usa de manera adecuada, la perdida de rendimiento respecto a programar directamente en C podría ser despreciable.

Uno de los problemas de Matlab estriba en que no es una solución gratuita, y por tanto la documentación y el software tiene un coste que, sobre todo, el aprendiz no desea pagar. Es quizás por ello que, en los últimos años, en el entorno educativo han aparecido alternativas gratuitas como Octave, R, Scilab, o Scipy sobre Python. Estas herramientas han evolucionado suficiente para abandonar su origen educativo y ser usadas en aplicaciones reales. En particular, Scipy sobre Python se está siendo elegido por muchos como su entorno para procesamiento de imagen.

Entornos QtOctave (sobre Octave) y Spyder (sobre Python y Scipy)

En Java, también se pueden encontrar bibliotecas para trabajar en Visión (como las JAI, ImageJ o JavaCV), pero en general es más raro que un sistema de Visión Artificial se programe en Java. Esto quizás se deba a la ausencia de una gran biblioteca de Visión Artificial para Java, o a que como la complejidad de programar en Java es similar a la de programar en C, simplemente no se suela optar por esta alternativa. Sin embargo, Java ofrece muy buenas perspectivas para el desarrollo de aplicaciones de Visión Artificial. Por un lado, no hay lenguaje que disponga de más bibliotecas que Java, no por nada es el lenguaje más utilizado en el mundo, con un 20% de cuota de mercado. Por otro lado, es multiplataforma, y esto puede ser determinante, por ejemplo en el mundo de los móviles de última generación (de hecho Java es el lenguaje nativo del sistema operativo Android). Además, una implementación eficiente en Java, desde el punto de vista de velocidad de ejecución, puede llegar a ofrecer un rendimiento similar a una realizada en C.

Se puede concluir diciendo que Matlab y las alternativas libres (como Octave o Scipy) son los entornos preferidos para programar aplicaciones de Visión Artificial en ambientes académicos, mientras que C sigue siendo el lenguaje de programación preferido para este tipo de aplicaciones en entornos industriales, aunque la distancia entre ambos se está reduciendo en los últimos años en detrimento de C.