INTRODUCCIÓN
El desarrollo de tecnologías emergentes ha transformado significativamente la forma en que los
sistemas productivos gestionan la información y optimizan sus procesos. Entre estas tecnologías,
la inteligencia artificial (IA) se ha consolidado como una herramienta fundamental para la
automatización de tareas complejas mediante algoritmos capaces de analizar grandes volúmenes de
datos y reconocer patrones en imágenes y videos. Dentro de este campo, la visión artificial y la
detección automática de objetos han adquirido una relevancia creciente, ya que permiten que los
sistemas computacionales interpreten información visual y ejecuten procesos de monitoreo en tiempo
real en diversos sectores, entre ellos la agricultura y la producción pecuaria.
En el ámbito pecuario, la producción de especies menores, que incluye la crianza de cuyes (Cavia
porcellus), conejos (Oryctolagus cuniculus) y diversas especies avícolas como codornices y patos,
constituye una actividad productiva de gran importancia económica y nutricional en América Latina,
particularmente en países andinos como Ecuador, Perú y Bolivia. Estos sistemas contribuyen a
la seguridad alimentaria y al desarrollo económico de las comunidades rurales, ya que proporcionan
fuentes accesibles de proteína animal y representan una alternativa productiva para pequeños y
medianos productores (Chauca, 2020). Sin embargo, a pesar de su relevancia, estos sistemas
productivos presentan un bajo nivel de adopción tecnológica, especialmente en actividades
relacionadas con el monitoreo y control de los animales dentro de las granjas.
En la mayoría de los sistemas de producción de especies menores, el conteo y seguimiento de los
animales se realiza de forma manual, lo que genera limitaciones importantes en la gestión productiva.
Entre los principales problemas se encuentran errores en los registros de inventario, dificultades para
detectar de manera temprana eventos de mortalidad o enfermedad, ausencia de monitoreo continuo y
una elevada dependencia de mano de obra especializada. Investigaciones recientes señalan que, en
condiciones de alta densidad animal, los métodos manuales pueden presentar errores de conteo
superiores al 15 %, lo que afecta la eficiencia en la toma de decisiones dentro de las explotaciones
pecuarias (Cominotte et al., 2021). Ante estas limitaciones, los avances en aprendizaje profundo y
visión por computador han permitido el desarrollo de modelos capaces de identificar y localizar
múltiples objetos dentro de una escena, facilitando la automatización de tareas de monitoreo animal
mediante sistemas basados en cámaras y algoritmos de inteligencia artificial (Liu et al., 2024; Zhao et
al., 2024).
Diversos estudios han analizado el uso de modelos de detección de objetos en aplicaciones
relacionadas con la producción animal. Entre las arquitecturas más utilizadas se encuentran los
modelos pertenecientes a la familia YOLO (You Only Look Once), reconocidos por su capacidad para
realizar detecciones en tiempo real con altos niveles de precisión y eficiencia computacional. En
particular, YOLOv11, desarrollado por Ultralytics en 2024, introdujo mejoras arquitectónicas como los
bloques C3k2 y mecanismos de atención espacial que permiten optimizar el uso de parámetros y
mejorar el rendimiento del modelo (Khanam & Hussain, 2025). Posteriormente, YOLOv12 incorporó un
enfoque centrado en mecanismos de atención que busca superar algunas limitaciones de las redes
convolucionales tradicionales en escenarios con alta densidad de objetos (Tian et al., 2025).
De manera paralela, otras arquitecturas han explorado enfoques alternativos para mejorar el
desempeño de los sistemas de detección de objetos. El modelo RT-DETR, presentado en la conferencia
CVPR 2024, introdujo una arquitectura basada en transformadores que elimina la necesidad de aplicar
supresión no máxima durante el proceso de postprocesamiento de detecciones, lo que permite
identificar múltiples objetos de forma más eficiente en una misma escena (Zhao et al., 2024). Su
versión posterior, RT-DETRv2, incorporó optimizaciones adicionales destinadas a mejorar la precisión
y la estabilidad del modelo (Lv et al., 2024). Asimismo, el modelo Grounding DINO, presentado en ECCV
2024, introdujo el concepto de detección de vocabulario abierto, permitiendo identificar objetos
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 306.