¿Qué es Yolo? (You Only Look Once)

YOLO (You Only Look Once) es un algoritmo de detección de objetos en imágenes y videos. Fue propuesto por Joseph Redmon, et al., en 2015, y se ha convertido en uno de los enfoques más populares y eficientes para la detección en tiempo real.

La característica principal de YOLO es su capacidad para realizar la detección de objetos en una sola pasada a través de la red neuronal convolucional. A diferencia de otros métodos que utilizan regiones de interés (region proposal), YOLO divide la imagen en una cuadrícula y asigna cada celda de la cuadrícula a diferentes clases y cajas delimitadoras (bounding boxes) que contienen los objetos detectados.

En lugar de predecir las cajas delimitadoras de los objetos directamente, YOLO predice offsets o desplazamientos relativos a ciertas ubicaciones predefinidas en cada celda de la cuadrícula. Estas ubicaciones predefinidas se conocen como anchor boxes, y ayudan a capturar objetos de diferentes tamaños y formas.

YOLO también es conocido por su velocidad. Al realizar la detección de objetos en una sola pasada, es capaz de lograr altas tasas de fotogramas por segundo (FPS), lo que lo hace adecuado para aplicaciones en tiempo real, como la detección de objetos en videos y sistemas de vigilancia. 

Desde su versión inicial, se han desarrollado varias iteraciones de YOLO, como YOLOv2, YOLOv3 y YOLOv4, que mejoran el rendimiento y la precisión de la detección. Cada versión ha introducido diversas mejoras, como el uso de capas de convolución adicionales, tamaños de cuadrícula más finos y estrategias para abordar problemas de desvanecimiento del gradiente y falta de detalles en objetos pequeños. 

En resumen, YOLO es un algoritmo de detección de objetos en tiempo real que divide la imagen en una cuadrícula y asigna celdas a diferentes clases y cajas delimitadoras. Es conocido por su velocidad y eficiencia, y ha sido ampliamente utilizado en aplicaciones de visión por computadora.

Comentarios