Evaluación comparativa de frameworks de visión artificial  
para el conteo automatizado y monitoreo de especies  
menores en sistemas pecuarios  
Comparative evaluation of artificial vision frameworks for automated  
counting and monitoring of minor species in livestock systems  
Tania Alexandra Rodriguez Llerena  
Universidad Estatal Amazónica  
Puyo Ecuador  
Alexandra Nicole Muñoz Vinueza  
Universidad Estatal Amazónica  
Puyo Ecuador  
Marla Yajaira Valencia Simisterra  
marlayajaiara@gmailcom  
Universidad Estatal Amazónica  
Puyo Ecuador  
Mileysha Maria Quintero Cortez  
Universidad Estatal Amazónica  
Puyo Ecuador  
Artículo recibido: 01 de diciembre de 2025. Aceptado para publicación: 06 de abril de 2026.  
Conflictos de Interés: Ninguno que declarar.  
Resumen  
Las tecnologías emergentes han transformado la forma en que la sociedad interactúa con la  
información y su entorno. Entre ellas, la inteligencia artificial se ha consolidado como una herramienta  
clave para el desarrollo de soluciones tecnológicas en diversos sectores científicos y productivos.  
Dentro de este campo, la visión artificial permite analizar imágenes y reconocer objetos, lo que facilita  
la automatización de procesos de monitoreo y análisis visual. Este estudio evalúa y compara el  
desempeño de cuatro frameworks de visión artificial: YOLOv11, YOLOv12, RT-DETRv2 y Grounding  
DINO, aplicados al conteo automatizado y monitoreo de especies menores en sistemas de producción  
pecuaria. Se empleó un enfoque cuantitativo comparativo basado en una revisión sistemática de la  
literatura. Se analizaron estudios empíricos, reportes de benchmark y publicaciones científicas  
indexadas entre 2020 y 2025 en bases de datos como Scopus, Web of Science, Elsevier, MDPI,  
Springer e IEEE. La selección de estudios incluyó investigaciones que evaluaron estos modelos en  
tareas de detección, conteo y monitoreo animal en entornos pecuarios reales o simulados. Los  
resultados muestran que YOLOv11 alcanza el mejor equilibrio entre precisión y velocidad, con 54.7 %  
de mAP@50-95 y 11.3 ms de latencia en GPU T4, lo que lo convierte en una alternativa adecuada para  
aplicaciones en tiempo real. YOLOv12, basado en mecanismos de atención, mejora el rendimiento en  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 304.  
escenarios con alta densidad de animales pequeños al alcanzar 40.6 % de mAP con 1.64 ms de  
latencia en su versión nano. RT-DETRv2 facilita la detección de múltiples individuos sin supresión no  
máxima, mientras que Grounding DINO permite detección de vocabulario abierto sin entrenamiento  
específico. El estudio concluye que la elección del framework depende del escenario productivo, la  
densidad animal  
y
los recursos computacionales disponibles. En sistemas pecuarios  
latinoamericanos, YOLOv11 y YOLOv12 presentan mayor viabilidad para su implementación en  
granjas de cuyes, conejos y aves de corral.  
Palabras clave: visión artificial, aprendizaje profundo, conteo automatizado, especies  
menores, sistemas pecuarios  
Abstract  
Emerging technologies have transformed the way society interacts with information and its  
environment. Among these, artificial intelligence has established itself as a key tool for developing  
technological solutions across various scientific and industrial sectors. Within this field, computer  
vision enables the analysis of images and the recognition of objects, facilitating the automation of  
monitoring and visual analysis processes. This study evaluates and compares the performance of four  
computer vision frameworksYOLOv11, YOLOv12, RT-DETRv2, and Grounding DINOapplied to the  
automated counting and monitoring of small livestock in livestock production systems. A quantitative  
comparative approach based on a systematic literature review was employed. Empirical studies,  
benchmark reports, and scientific publications indexed between 2020 and 2025 in databases such as  
Scopus, Web of Science, Elsevier, MDPI, Springer, and IEEE were analyzed. The selection of studies  
included research that evaluated these models in animal detection, counting, and monitoring tasks in  
real or simulated livestock environments. The results show that YOLOv11 achieves the best balance  
between accuracy and speed, with 54.7% mAP@50-95 and 11.3 ms latency on a T4 GPU, making it a  
suitable alternative for real-time applications. YOLOv12, based on attention mechanisms, improves  
performance in scenarios with high animal density.  
Keywords: artificial vision, deep learning, automated counting, minor species, livestock  
systems  
Todo el contenido de LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades,  
publicado en este sitio está disponibles bajo Licencia Creative Commons.  
Cómo citar: Rodriguez Llerena, T. A., Muñoz Vinueza, A. N., Valencia Simisterra, M. Y., & Quintero  
Cortez, M. M. (2026). Evaluación comparativa de frameworks de visión artificial para el conteo  
automatizado y monitoreo de especies menores en sistemas pecuarios. LATAM Revista  
Latinoamericana de Ciencias Sociales y Humanidades 7 (2), 304 323.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 305.  
INTRODUCCIÓN  
El desarrollo de tecnologías emergentes ha transformado significativamente la forma en que los  
sistemas productivos gestionan la información y optimizan sus procesos. Entre estas tecnologías,  
la inteligencia artificial (IA) se ha consolidado como una herramienta fundamental para la  
automatización de tareas complejas mediante algoritmos capaces de analizar grandes volúmenes de  
datos y reconocer patrones en imágenes y videos. Dentro de este campo, la visión artificial y la  
detección automática de objetos han adquirido una relevancia creciente, ya que permiten que los  
sistemas computacionales interpreten información visual y ejecuten procesos de monitoreo en tiempo  
real en diversos sectores, entre ellos la agricultura y la producción pecuaria.  
En el ámbito pecuario, la producción de especies menores, que incluye la crianza de cuyes (Cavia  
porcellus), conejos (Oryctolagus cuniculus) y diversas especies avícolas como codornices y patos,  
constituye una actividad productiva de gran importancia económica y nutricional en América Latina,  
particularmente en países andinos como Ecuador, Perú y Bolivia. Estos sistemas contribuyen a  
la seguridad alimentaria y al desarrollo económico de las comunidades rurales, ya que proporcionan  
fuentes accesibles de proteína animal y representan una alternativa productiva para pequeños y  
medianos productores (Chauca, 2020). Sin embargo, a pesar de su relevancia, estos sistemas  
productivos presentan un bajo nivel de adopción tecnológica, especialmente en actividades  
relacionadas con el monitoreo y control de los animales dentro de las granjas.  
En la mayoría de los sistemas de producción de especies menores, el conteo y seguimiento de los  
animales se realiza de forma manual, lo que genera limitaciones importantes en la gestión productiva.  
Entre los principales problemas se encuentran errores en los registros de inventario, dificultades para  
detectar de manera temprana eventos de mortalidad o enfermedad, ausencia de monitoreo continuo y  
una elevada dependencia de mano de obra especializada. Investigaciones recientes señalan que, en  
condiciones de alta densidad animal, los métodos manuales pueden presentar errores de conteo  
superiores al 15 %, lo que afecta la eficiencia en la toma de decisiones dentro de las explotaciones  
pecuarias (Cominotte et al., 2021). Ante estas limitaciones, los avances en aprendizaje profundo y  
visión por computador han permitido el desarrollo de modelos capaces de identificar y localizar  
múltiples objetos dentro de una escena, facilitando la automatización de tareas de monitoreo animal  
mediante sistemas basados en cámaras y algoritmos de inteligencia artificial (Liu et al., 2024; Zhao et  
al., 2024).  
Diversos estudios han analizado el uso de modelos de detección de objetos en aplicaciones  
relacionadas con la producción animal. Entre las arquitecturas más utilizadas se encuentran los  
modelos pertenecientes a la familia YOLO (You Only Look Once), reconocidos por su capacidad para  
realizar detecciones en tiempo real con altos niveles de precisión y eficiencia computacional. En  
particular, YOLOv11, desarrollado por Ultralytics en 2024, introdujo mejoras arquitectónicas como los  
bloques C3k2 y mecanismos de atención espacial que permiten optimizar el uso de parámetros y  
mejorar el rendimiento del modelo (Khanam & Hussain, 2025). Posteriormente, YOLOv12 incorporó un  
enfoque centrado en mecanismos de atención que busca superar algunas limitaciones de las redes  
convolucionales tradicionales en escenarios con alta densidad de objetos (Tian et al., 2025).  
De manera paralela, otras arquitecturas han explorado enfoques alternativos para mejorar el  
desempeño de los sistemas de detección de objetos. El modelo RT-DETR, presentado en la conferencia  
CVPR 2024, introdujo una arquitectura basada en transformadores que elimina la necesidad de aplicar  
supresión no máxima durante el proceso de postprocesamiento de detecciones, lo que permite  
identificar múltiples objetos de forma más eficiente en una misma escena (Zhao et al., 2024). Su  
versión posterior, RT-DETRv2, incorporó optimizaciones adicionales destinadas a mejorar la precisión  
y la estabilidad del modelo (Lv et al., 2024). Asimismo, el modelo Grounding DINO, presentado en ECCV  
2024, introdujo el concepto de detección de vocabulario abierto, permitiendo identificar objetos  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 306.  
mediante descripciones en lenguaje natural sin requerir entrenamiento específico para cada categoría  
(Liu et al., 2024).  
A pesar de los avances registrados en la literatura científica, la mayoría de estas investigaciones se ha  
concentrado en aplicaciones relacionadas con la producción bovina, porcina y avícola a gran escala.  
En contraste, la aplicación de estas tecnologías en sistemas de producción de especies  
menores continúa siendo limitada, especialmente en el contexto latinoamericano. Esta situación  
evidencia una brecha de conocimiento relacionada con la falta de estudios comparativos que analicen  
el desempeño de diferentes frameworks de visión artificial en estos sistemas productivos. La  
disponibilidad de múltiples arquitecturas de detección y la ausencia de evaluaciones sistemáticas en  
entornos pecuarios específicos generan incertidumbre en la selección de tecnologías adecuadas para  
productores e investigadores, lo que limita la adopción de herramientas de automatización en este  
sector.  
El objetivo principal de la presente investigación es evaluar y comparar el desempeño de diferentes  
frameworks de visión artificial aplicados al y monitoreo de especies menores en sistemas de  
producción pecuaria. Para ello, se analizan y contrastan empíricamente las capacidades de los  
modelos YOLOv11, YOLOv12, RT-DETRv2 y Grounding DINO, considerando métricas de rendimiento  
reportadas en la literatura científica reciente, tales como precisión (mAP), velocidad de procesamiento  
(FPS), latencia de inferencia y número de parámetros del modelo. La evaluación propuesta se  
desarrolla mediante una revisión sistemática de estudios publicados entre 2020 y 2025, en los cuales  
se examinan aplicaciones de detección de objetos en entornos pecuarios reales o simulados, con el  
propósito de identificar las arquitecturas más adecuadas para su implementación en sistemas de  
monitoreo automatizado en granjas latinoamericanas dedicadas a la producción de cuyes, conejos y  
aves de corral.  
La pregunta de investigación que guió el estudio fue la siguiente:  
¿Cuál de los frameworks de visión artificial YOLOv11, YOLOv12, RT-DETRv2 o Grounding DINO  
presenta mejores condiciones de rendimiento para aplicaciones de conteo automatizado y  
monitoreo de especies menores en sistemas de producción pecuaria?  
METODOLOGÍA  
La presente investigación se desarrolló mediante una revisión sistemática de literatura científica con  
enfoque cuantitativo-comparativo, orientada al análisis del desempeño de diferentes frameworks de  
visión artificial aplicados al conteo automatizado y monitoreo de especies menores en sistemas de  
producción pecuaria. Este enfoque metodológico permite integrar resultados provenientes de  
múltiples estudios empíricos y benchmarks técnicos con el fin de identificar tendencias en el  
rendimiento de modelos de detección de objetos basados en aprendizaje profundo. La revisión se  
fundamenta en metodologías ampliamente utilizadas para sintetizar evidencia científica en campos  
tecnológicos emergentes como la inteligencia artificial y la agricultura de precisión.  
Diseño del estudio y contexto  
El diseño adoptado fue comparativo y documental, basado en el análisis sistemático de publicaciones  
científicas indexadas que evalúan arquitecturas modernas de detección de objetos. El estudio se  
centró en el análisis comparativo de cuatro frameworks de visión artificial: YOLOv11, YOLOv12, RT-  
DETRv2 y Grounding DINO, debido a su relevancia reciente en aplicaciones de detección de objetos en  
tiempo real y su creciente utilización en sistemas de monitoreo automatizado.  
El contexto de análisis corresponde a aplicaciones de visión artificial orientadas al monitoreo de  
animales en sistemas pecuarios, particularmente en granjas de especies menores como cuyes,  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 307.  
conejos y aves de corral. Este escenario se seleccionó debido a la necesidad creciente de implementar  
tecnologías de automatización que permitan mejorar la gestión productiva, reducir errores en el conteo  
de animales y facilitar la detección temprana de eventos sanitarios o de mortalidad.  
Selección de fuentes de información  
Las fuentes de información utilizadas en el estudio corresponden a artículos científicos revisados por  
pares y benchmarks técnicos publicados en bases de datos académicas internacionales. Para la  
búsqueda bibliográfica se utilizaron las siguientes plataformas:  
Scopus  
Web of Science  
ScienceDirect (Elsevier)  
IEEE Xplore  
SpringerLink  
MDPI  
PubMed Central  
Se emplearon combinaciones de palabras clave relacionadas con el tema de estudio, entre ellas: object  
detection, computer vision, deep learning, YOLO, livestock monitoring, precision livestock  
farming y animal detection.  
El proceso de selección de estudios se desarrolló en tres fases. En la primera fase se realizó  
una búsqueda inicial en bases de datos científicas, identificando un total de 847  
registros potencialmente relevantes. En la segunda fase se efectuó un proceso de cribado mediante la  
revisión de títulos y resúmenes, lo que permitió reducir el conjunto de documentos a 124 estudios  
relacionados con la temática de investigación. Finalmente, en la tercera fase se llevó a cabo  
la evaluación completa del texto de los artículos, aplicando criterios de inclusión y exclusión  
previamente definidos, lo que resultó en 58 estudios seleccionados para el análisis final.  
Criterios de inclusión y exclusión  
Los criterios de inclusión considerados en la investigación fueron los siguientes:  
Estudios que evaluaran al menos uno de los frameworks analizados.  
Publicaciones científicas revisadas por pares.  
Estudios con reporte cuantitativo de métricas de desempeño como precisión (mAP), velocidad  
de procesamiento (FPS) o latencia.  
Artículos publicados entre los años 2020 y 2026.  
Investigaciones relacionadas con aplicaciones de detección de objetos en agricultura,  
ganadería o monitoreo animal.  
Por otro lado, se excluyeron publicaciones sin revisión por pares, documentos sin métricas  
cuantitativas verificables y estudios que analizaran únicamente versiones antiguas de modelos de  
detección de objetos.  
Diseño del análisis  
El análisis de los estudios seleccionados se realizó mediante la extracción sistemática de información  
relevante de cada artículo. Para ello se registraron variables relacionadas con la arquitectura del  
modelo, el contexto de aplicación, los conjuntos de datos utilizados y las métricas de rendimiento  
reportadas.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 308.  
Los datos recopilados se organizaron en matrices comparativas estructuradas, lo que permitió analizar  
el desempeño relativo de los frameworks evaluados. Posteriormente se aplicó un análisis estadístico  
descriptivo para sintetizar métricas cuantitativas como precisión de detección (mAP), velocidad de  
inferencia (FPS) y latencia del modelo. Asimismo, se realizó un análisis cualitativo comparativo para  
evaluar características técnicas adicionales, tales como complejidad computacional, escalabilidad y  
adaptabilidad a distintos entornos productivos.  
Variables y medidas  
La variable independiente considerada en el estudio corresponde al framework de visión artificial  
utilizado (YOLOv11, YOLOv12, RT-DETRv2 y Grounding DINO). Como variables dependientes se  
analizaron diferentes métricas de rendimiento reportadas en la literatura científica, entre ellas:  
Precisión de detección (mAP): métrica utilizada para evaluar la exactitud del modelo en la  
identificación de objetos dentro de una imagen.  
Velocidad de procesamiento (FPS): número de imágenes procesadas por segundo, indicador clave  
para aplicaciones de detección en tiempo real.  
Latencia de inferencia (ms): tiempo requerido por el modelo para procesar una imagen y generar una  
predicción.  
Número de parámetros del modelo: indicador asociado a la complejidad computacional del  
framework.  
Estas métricas permitieron establecer comparaciones entre los frameworks evaluados y determinar su  
idoneidad para aplicaciones de monitoreo automatizado en sistemas de producción pecuaria.  
Consideraciones éticas  
La investigación se basó exclusivamente en fuentes documentales provenientes de publicaciones  
científicas revisadas por pares, por lo que no implicó experimentación directa con animales ni la  
recolección de datos de sujetos humanos. En consecuencia, no fue necesario obtener aprobación de  
un comité de ética. Asimismo, se declara la ausencia de conflictos de interés con los desarrolladores  
de los frameworks analizados o con las instituciones responsables de las publicaciones revisadas.  
RESULTADOS  
El análisis comparativo de los frameworks de detección de objetos permitió identificar diferencias  
significativas en términos de precisión, latencia de inferencia, requerimientos computacionales y  
viabilidad de despliegue. Los resultados obtenidos se presentan en diferentes dimensiones de análisis  
que permiten comprender el comportamiento de cada modelo en contextos de monitoreo animal.  
Caracterización técnica de los frameworks  
En primer lugar, se realizó una comparación técnica entre los frameworks seleccionados, considerando  
métricas de desempeño ampliamente utilizadas en visión computacional, tales como precisión  
promedio (mAP), latencia de inferencia, número de parámetros y complejidad computacional.  
Los resultados obtenidos muestran que los modelos de la familia YOLO presentan una relación  
equilibrada entre precisión y velocidad de procesamiento, mientras que los modelos basados  
en transformers ofrecen niveles de precisión ligeramente superiores, aunque con mayores  
requerimientos computacionales.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 309.  
Tabla 1  
Comparación técnica de frameworks evaluados en dataset COCO val2017  
Framework  
Versión  
mAP@50-  
95(%)  
mAP@50(%)  
Lat.  
GPU  
(ms)  
1.55  
Params  
(M)  
FLOPs  
(G)  
Arquitectura  
base  
YOLOv11  
YOLOv11  
YOLOv11  
YOLOv12  
YOLOv11n  
39.5  
56.1  
68.9  
72.1  
57.8  
2.6  
6.5  
CNN + C3k2  
+ C2PSA  
CNN + C3k2  
+ C2PSA  
CNN + C3k2  
+ C2PSA  
Attention-  
centric + R-  
ELAN  
YOLOv11m 51.5  
4.70  
11.31  
1.64  
20.1  
56.9  
2.6  
68.0  
194.9  
6.5  
YOLOv11x  
YOLOv12n  
54.7  
40.6  
YOLOv12  
YOLOv12  
YOLOv12m 52.5  
70.1  
73.0  
4.86  
20.2  
59.1  
67.5  
Attention-  
centric + R-  
ELAN  
Attention-  
centric + R-  
ELAN  
YOLOv12x  
55.2  
11.78  
199.0  
RT-DETRv2  
RT-DETRv2  
G-DINO  
R50  
53.4  
54.8  
52.5*  
71.6  
73.2  
70.2*  
9.20  
42.0  
76.0  
172.0  
136.0  
259.0  
690.0  
ViT Híbrido +  
Def. Attn.  
ViT Híbrido +  
Def. Attn.  
DINO + Text  
Encoder  
R101  
Base  
13.50  
45.20  
(BERT)  
G-DINO  
Large  
56.9*  
75.0*  
68.00  
341.0  
1340.0  
DINO + Text  
Encoder  
(BERT)  
Nota: *Métricas en modalidad zero-shot (sin entrenamiento específico en COCO).  
Fuente: Adaptado de benchmarks oficiales reportados por cada framework en el dataset COCO  
val2017. Fuentes: Tian, Y., Ye, Q., & Doermann, D. (2025). YOLOv12: Attention-centric real-time object  
detectors. Advances in Neural Information Processing Systems (NeurIPS 2025; Lv, W., Zhao, Y., Chang,  
Q., Huang, K., Wang, G., & Liu, Y. (2024). RT-DETRv2: Improved baseline with bag-of-freebies for real-  
time detection transformer. arXiv preprint; Liu, S., Zeng, Z., Ren, T., Li, F., Zhang, H., Yang, J., Jiang, Q.,  
Li, C., Yang, J., Su, H., Zhu, J., & Zhang, L. (2024). Grounding DINO: Marrying DINO with grounded pre-  
training for open-set object detection. En A. Leonardis et al. (Eds.), Computer Vision ECCV 2024  
(LNCS 15074, pp. 3855). Springer; Khanam, R., & Hussain, M. (2025). YOLO advances to its genesis:  
A decadal and comprehensive review of the YOLO series. Artificial Intelligence Review, 58, 253; YOLO  
Evolution Benchmark. (2024). YOLO evolution: A comprehensive benchmark and architectural review.  
arXiv preprint.  
De acuerdo con los resultados presentados en la Tabla 1, el modelo YOLOv12x alcanzó el mayor valor  
de precisión (55.2 % mAP@5095), seguido por RT-DETRv2-R101 (54.8 %) y YOLOv11x (54.7 %). Sin  
embargo, estos modelos presentan un incremento considerable en la latencia de inferencia y en el  
número de parámetros, lo cual implica mayores requerimientos de hardware para su ejecución.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 310.  
Desempeño en contextos de monitoreo animal  
La revisión de estudios publicados entre 2023 y 2025 evidencia una amplia adopción de algoritmos de  
detección de objetos para aplicaciones relacionadas con conteo, seguimiento y monitoreo de animales  
en sistemas productivos.  
La Tabla 2 resume los principales resultados reportados en investigaciones recientes que emplean  
técnicas de visión computacional para el análisis automatizado de animales en entornos pecuarios y  
naturales.  
Tabla 2  
Desempeño reportado en estudios de detección y conteo animal (2023-2025)  
Estudio  
Framework  
YOLOv8-L  
YOLOv11n  
YOLOv9c  
YOLOv8  
Especie /  
Aplicación  
Conteo pollos  
enjaulados  
Detección  
mortalidad pollos  
Detección  
mortalidad pollos  
Actividad broilers  
mAP@50  
(%)  
Precisión  
(%)  
Recall  
(%)  
96.3  
FPS  
42  
89  
65  
38  
71  
94  
58  
32  
38  
45  
Animals, 2025  
97.1  
95.8  
Poultry Sci.,  
2025  
Poultry Sci.,  
2025  
Campbell et al.,  
2024  
AI in Agric.,  
2025  
AI in Agric.,  
2025  
Sci. Reports,  
2025  
Sci. Reports,  
2025  
Agriculture,  
2024  
94.3  
91.8  
93.1  
88.4  
86.2  
90.4  
92.1  
93.1  
88.6  
93.7  
90.4  
93.1  
87.9  
85.7  
89.7  
91.3  
93.1  
87.4  
91.2  
89.5  
93.0  
88.1  
86.4  
90.1  
91.8  
93.0  
89.1  
YOLOv12  
YOLOv11  
YOLOv11  
RT-DETR  
YOLOv8  
Identificación  
bovinos  
Identificación  
bovinos  
Detección fauna  
silvestre  
Detección fauna  
silvestre  
Gestión parvada  
avícola  
Detec. patol. broiler  
(térmico)  
Agriculture,  
2023  
YOLO  
Fuente: elaboración propia. Adaptado de métricas de desempeño reportadas en estudios empíricos de  
detección y conteo animal indexados entre 2023 y 2025. Fuentes: Caged Chicken Counting YOLOv8.  
(2025). Enhanced methodology and experimental research for caged chicken counting based on  
YOLOv8. Animals, 15(6), 85.; Deep Learning Poultry Farming YOLO. (2025). Deep learning in poultry  
farming: Comparative analysis of YOLOv8, YOLOv9, YOLOv10, and YOLOv11 for dead chickens  
detection. Poultry Science. Advance online publication; Campbell, W., Noorman, J., & Steibel, J. P.  
(2024). A computer vision approach to monitor activity in commercial broiler chickens using trajectory-  
based clustering analysis. Computers and Electronics in Agriculture, 206, 10859; PLF Benchmarking  
YOLOv9-v12. (2025). Computer vision in precision livestock farming: Benchmarking YOLOv9YOLOv12  
for individual cattle identification. Artificial Intelligence in Agriculture. Advance online publication; CNN-  
YOLO Transformer Animal Detection. (2025). Analyzing the enhancement of CNN-YOLO and  
transformer based; AI Monitoring Poultry Flock Management. (2024). AI-based monitoring for  
enhanced poultry flock management. Agriculture, 14(12), 218;; YOLO Broiler Pathological. (2023).  
YOLO-based model for automatic detection of broiler pathological phenomena. Agriculture, 13(8),  
1527.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 311.  
Los resultados muestran que la mayoría de los modelos evaluados alcanzan valores de precisión  
superiores al 90 %, particularmente en aplicaciones relacionadas con la producción avícola. Asimismo,  
se observa que los modelos basados en YOLO pueden operar con velocidades superiores a 40 FPS, lo  
que los convierte en una alternativa adecuada para sistemas de monitoreo en tiempo real.  
Gráfico 1  
Desempeño mAP@50 reportado en estudios de detección y conteo animal (20232025)  
Nota: *Compara el mAP@50 (%) obtenido en 10 estudios empíricos de detección y conteo animal  
publicados entre 2023 y 2025, coloreados por familia de framework. Los valores oscilan entre 86.2% y  
97.1%. 'YOLOv11' agrupa estudios con variantes YOLO (v8, v9, v11) distintas a YOLOv12.  
Fuente: elaboración propia: Adaptado de métricas de mAP@50 reportadas en los estudios incluidos en  
la revisión sistemática. Fuentes: Caged Chicken Counting YOLOv8. (2025). Animals, 15(6), 853.; Deep  
Learning Poultry Farming YOLO. (2025). Poultry Science; Campbell, W., Noorman, J., & Steibel, J. P.  
(2024). Computers and Electronics in Agriculture, 206, 108591; PLF Benchmarking YOLOv9-v12. (2025).  
Artificial Intelligence in Agriculture; CNN-YOLO Transformer Animal Detection. (2025). Scientific  
Reports, 15, Article 11232; AI Monitoring Poultry Flock Management. (2024). Agriculture, 14(12), 2187;  
YOLO Broiler Pathological. (2023). Agriculture, 13(8), 1527.  
Requerimientos de hardware y viabilidad de despliegue  
Otro aspecto relevante analizado fue la capacidad de ejecución de los modelos en diferentes  
plataformas de hardware, especialmente en dispositivos de computación en el borde (edge  
computing), los cuales son frecuentemente utilizados en sistemas de monitoreo agrícola.  
La Tabla 3 presenta la viabilidad de despliegue de los modelos evaluados en diferentes plataformas de  
procesamiento.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 312.  
Tabla 3  
Viabilidad de despliegue según plataforma hardware  
Framework  
YOLOv11  
YOLOv11  
YOLOv11  
YOLOv12  
YOLOv12  
RT-DETRv2  
RT-DETRv2  
G-DINO  
Versión  
Nano  
CPU (i7)  
GPU T4  
Jetson  
Nano  
Viable (12  
FPS)  
Limitado  
(5)  
No viable  
Jetson  
Orin  
Excl. (35  
FPS)  
Viable (18  
FPS)  
Limitado  
(8)  
Excl. (33  
FPS)  
Viable (16  
FPS)  
Limitado  
(7)  
No viable  
RPi 4  
RAM  
mín.  
2 GB  
Viable (8  
FPS)  
Limitado  
Excelente  
>60  
Excelente  
>30  
Viable (12  
FPS)  
Excelente  
>60  
Excelente  
>30  
Viable (18  
FPS)  
Limitado  
(10)  
Limitado (4  
FPS)  
Limitado  
Medium  
XLarge  
Nano  
No viable 4 GB  
No viable 8 GB  
No viable  
Viable (7  
FPS)  
Limitado  
Viable (11  
FPS)  
Limitado  
(4)  
Limitado  
2 GB  
Medium  
R50  
No viable 4 GB  
No viable 8 GB  
No viable 12 GB  
No viable 16 GB  
No viable 32 GB  
No viable  
No viable  
No viable  
No viable  
No viable  
R101  
No viable  
No viable  
No viable  
Base  
No viable  
No viable  
G-DINO  
Large  
No viable  
Fuente: elaboración propia: Adaptado de benchmarks oficiales de los repositorios de cada framework  
y estudios de evaluación en dispositivos de borde. Fuentes: Tian, Y., Ye, Q., & Doermann, D. (2025).  
YOLOv12: Attention-centric real-time object detectors. Advances in Neural Information Processing  
Systems (NeurIPS 2025).; Lv, W., Zhao, Y., Chang, Q., Huang, K., Wang, G., & Liu, Y. (2024). RT-DETRv2:  
Improved baseline with bag-of-freebies for real-time detection transformer. arXiv preprint.; Liu, S., Zeng,  
Z., Ren, T., Li, F., Zhang, H., Yang, J., Jiang, Q., Li, C., Yang, J., Su, H., Zhu, J., & Zhang, L. (2024). Grounding  
DINO: Marrying DINO with grounded pre-training for open-set object detection. En A. Leonardis et al.  
(Eds.), Computer Vision ECCV 2024 (LNCS 15074, pp. 3855). Springer.; Khanam, R., & Hussain, M.  
(2025). YOLO advances to its genesis. Artificial Intelligence Review, 58, 253.; PLF Benchmarking  
YOLOv9-v12. (2025). Computer vision in precision livestock farming. Artificial Intelligence in  
Agriculture. Advance online publication.  
Los resultados indican que las versiones YOLOv11n y YOLOv12n presentan un mejor desempeño en  
dispositivos de bajo consumo energético, como Jetson Nano, alcanzando velocidades superiores a 10  
FPS. En contraste, modelos más complejos como Grounding DINO requieren mayores recursos de  
memoria y procesamiento, lo cual limita su implementación en dispositivos de hardware reducido.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 313.  
Gráfico 2  
Viabilidad de despliegue por plataforma hardware según FPS estimados  
Nota: *Muestra los FPS estimados para cinco variantes de frameworks (YOLOv11n, YOLOv12n,  
YOLOv11m, RT-DETRv2-R50, G-DINO Base) en cuatro plataformas hardware. Las líneas de referencia  
indican el umbral mínimo de tiempo real (10 FPS) y mínimo viable (5 FPS). El valor 0 FPS indica  
hardware no viable (<5 FPS).  
Fuente: elaboración propia: Adaptado de benchmarks oficiales y estimaciones de despliegue  
reportadas en los repositorios de los frameworks y estudios de implementación en dispositivos de  
borde. Fuentes: Tian, Y., Ye, Q., & Doermann, D. (2025). YOLOv12: Attention-centric real-time object  
detectors. Advances in Neural Information Processing Systems (NeurIPS 2025); Lv, W., et al. (2024).  
RT-DETRv2. arXiv preprint; Liu, S., et al. (2024). Grounding DINO. Computer Vision ECCV 2024 (LNCS  
15074, pp. 3855). Springer; Khanam, R., & Hussain, M. (2025). Artificial Intelligence Review, 58, 253;  
Deep Learning for Visual Animal Monitoring. (2025). Artificial Intelligence in Agriculture.  
Evaluación de idoneidad para el conteo de especies menores  
Con el propósito de identificar el framework más adecuado para aplicaciones de conteo automático  
de especies menores, se realizó una evaluación multicriterio basada en nueve criterios técnicos  
relacionados con precisión, eficiencia computacional y facilidad de implementación.  
Los resultados de esta evaluación se presentan en la Tabla 4, utilizando una escala de valoración de 1  
a 5, donde valores más altos indican mayor nivel de idoneidad.  
Tabla 4  
Evaluación de idoneidad para conteo de especies menores (escala 1-5)  
Criterio de evaluación  
Precisión en objetos pequeños  
Manejo de alta densidad animal  
Procesamiento en tiempo real  
Detección en oclusión parcial  
Viabilidad en hardware bajo costo  
YOLOv11  
YOLOv12  
RT-DETRv2  
G-DINO  
4
3
5
3
5
5
4
5
4
4
4
5
3
5
2
4
4
1
4
1
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 314.  
Facilidad de entrenamiento/ajuste  
fino  
Documentación y soporte  
comunitario  
5
5
4
4
3
3
4*  
3
Costo de implementación  
Detección sin entrenamiento  
previo  
5
2
5
2
3
2
2
5
PUNTUACIÓN TOTAL /45  
PUNTUACIÓN PONDERADA  
37  
38.2  
37  
39.1  
30  
29.5  
28  
24.8  
Nota: *Grounding DINO no requiere entrenamiento específico gracias a su arquitectura de vocabulario  
abierto. La puntuación ponderada asigna mayor peso a: precisión en objetos pequeños (×2), tiempo  
real (×2) y viabilidad hardware (×2).  
Fuente: Elaboración propia: Adaptado de características técnicas y desempeño empírico de cada  
framework en contextos de monitoreo pecuario; la escala de valoración (15) fue construida por los  
autores con base en la evidencia revisada. Fuentes: Tian, Y., Ye, Q., & Doermann, D. (2025). YOLOv12:  
Attention-centric real-time object detectors. Advances in Neural Information Processing Systems  
(NeurIPS 2025).; Lv, W., Zhao, Y., Chang, Q., Huang, K., Wang, G., & Liu, Y. (2024). RT-DETRv2: Improved  
baseline with bag-of-freebies for real-time detection transformer. arXiv preprint.; Liu, S., Zeng, Z., Ren,  
T., Li, F., Zhang, H., Yang, J., Jiang, Q., Li, C., Yang, J., Su, H., Zhu, J., & Zhang, L. (2024). Grounding DINO:  
Marrying DINO with grounded pre-training for open-set object detection. En A. Leonardis et al. (Eds.),  
Computer Vision ECCV 2024 (LNCS 15074, pp. 3855). Springer.; Zhao, Y., Lv, W., Xu, S., Wei, J., Wang,  
G., Dang, Q., Liu, Y., & Chen, J. (2024). DETRs beat YOLOs on real-time object detection. En Proceedings  
of the IEEE/CVF CVPR 2024 (pp. 1696516974). IEEE.; Borwarnginn, P., Sriswasdi, S., & Charoenkwan,  
P. (2024). A systematic survey of public computer vision datasets for precision livestock farming.  
Computers and Electronics in Agriculture, 222, 109718.; Khanam, R., & Hussain, M. (2025). YOLO  
advances to its genesis. Artificial Intelligence Review, 58, 253.  
Los resultados obtenidos muestran que YOLOv12 obtuvo la mayor puntuación ponderada (39.1/45),  
seguido por YOLOv11 (38.2/45). Ambos modelos destacan por su equilibrio entre precisión, capacidad  
de procesamiento en tiempo real y compatibilidad con hardware de bajo costo.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 315.  
Gráfico 3  
Evaluación multidimensional de idoneidad para el conteo de especies menores  
Nota: *Gráfico de radar (araña) con nueve dimensiones de evaluación en escala 15, que permite  
visualizar comparativamente el perfil de idoneidad de cada framework para el conteo de especies  
menores en sistemas pecuarios.  
Fuente: elaboración propia: Adaptado de la síntesis de características técnicas, benchmarks de  
rendimiento y evidencia empírica revisada; las puntuaciones fueron asignadas por los autores con base  
en los criterios definidos en la Tabla 4. Fuentes: Tian, Y., Ye, Q., & Doermann, D. (2025). YOLOv12:  
Attention-centric real-time object detectors. Advances in Neural Information Processing Systems  
(NeurIPS 2025); Lv, W., Zhao, Y., Chang, Q., Huang, K., Wang, G., & Liu, Y. (2024). RT-DETRv2: Improved  
baseline with bag-of-freebies for real-time detection transformer. arXiv preprint; Liu, S., et al. (2024).  
Grounding DINO. Computer Vision ECCV 2024 (LNCS 15074, pp. 3855). Springer; Zhao, Y., Lv, W.,  
Xu, S., Wei, J., Wang, G., Dang, Q., Liu, Y., & Chen, J. (2024). DETRs beat YOLOs on real-time object  
detection. Proceedings of the IEEE/CVF CVPR 2024 (pp. 1696516974). IEEE.  
Relación entre precisión y latencia  
Finalmente, se analizó la relación entre precisión de detección y latencia de inferencia, con el fin de  
identificar los modelos más adecuados para aplicaciones en tiempo real.  
Los resultados permitieron identificar tres zonas principales de desempeño:  
Zona de tiempo real: Incluye los modelos YOLOv11n/m y YOLOv12n/m, caracterizados por latencias  
inferiores a 15 ms.  
Zona de alto rendimiento con GPU dedicada: Incluye RT-DETRv2 y las versiones de mayor tamaño de  
YOLO, que ofrecen mayor precisión, aunque con mayor costo computacional.  
Zona de detección abierta: Representada por Grounding DINO, cuyo enfoque de vocabulario abierto  
permite detectar objetos sin entrenamiento previo, aunque con latencias más elevadas.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 316.  
Gráfico 4  
Relación entre precisión (mAP@5095) y latencia de inferencia en GPU T4  
Nota: *Gráfico de dispersión que representa la relación entre el mAP@50-95 (%) y la latencia de  
inferencia en GPU T4 (ms) para las 10 variantes de los cuatro frameworks evaluados. La zona  
sombreada azul indica la región de tiempo real viable para monitoreo continuo (<15 ms).  
Fuente: elaboración propia: Adaptado de benchmarks oficiales de los cuatro frameworks en el dataset  
COCO val2017, medidos sobre GPU NVIDIA T4. Fuentes: Tian, Y., Ye, Q., & Doermann, D. (2025).  
YOLOv12: Attention-centric real-time object detectors. Advances in Neural Information Processing  
Systems (NeurIPS 2025); Lv, W., Zhao, Y., Chang, Q., Huang, K., Wang, G., & Liu, Y. (2024). RT-DETRv2:  
Improved baseline with bag-of-freebies for real-time detection transformer. arXiv preprint; Liu, S., Zeng,  
Z., Ren, T., Li, F., Zhang, H., Yang, J., Jiang, Q., Li, C., Yang, J., Su, H., Zhu, J., & Zhang, L. (2024). Grounding  
DINO: Marrying DINO with grounded pre-training for open-set object detection. En A. Leonardis et al.  
(Eds.), Computer Vision ECCV 2024 (LNCS 15074, pp. 3855). Springer; Khanam, R., & Hussain, M.  
(2025). YOLO advances to its genesis. Artificial Intelligence Review, 58, 253.  
DISCUSIÓN  
Interpretación de los resultados  
Los resultados obtenidos en este estudio evidencian diferencias relevantes en el desempeño de los  
frameworks de detección de objetos evaluados, particularmente en términos de precisión de detección,  
latencia de inferencia y requerimientos computacionales. En general, los modelos pertenecientes a la  
familia YOLO demostraron un equilibrio adecuado entre velocidad de procesamiento y precisión, lo que  
los posiciona como alternativas viables para aplicaciones de monitoreo animal en tiempo real.  
Los hallazgos obtenidos coinciden con tendencias reportadas en investigaciones previas. Por ejemplo,  
Borwarnginn et al. (2024) señalan que uno de los principales desafíos en el desarrollo de sistemas de  
visión computacional aplicados a la producción animal es la escasa disponibilidad de datasets  
públicos especializados en especies menores. Esta situación explica la mayor cantidad de estudios  
centrados en especies como bovinos o aves de corral, mientras que investigaciones relacionadas con  
cuyes o conejos aún son limitadas.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 317.  
Asimismo, el desempeño observado en YOLOv12 para la detección de animales pequeños en  
contextos de alta densidad coincide con los resultados reportados por Tian et al. (2025), quienes  
destacan que la incorporación de mecanismos de atención de largo alcance mejora la capacidad de  
los modelos para manejar escenarios con oclusión parcial entre individuos.  
De manera similar, el rendimiento de RT-DETRv2 en escenarios con alta densidad de objetos,  
documentado por Lv et al. (2024), también se confirma en estudios recientes relacionados con la  
detección de fauna silvestre. Sin embargo, los resultados del presente análisis muestran que los  
requerimientos computacionales de este tipo de arquitecturas pueden representar una barrera  
importante para su implementación en sistemas productivos de pequeña escala.  
Por otra parte, el modelo Grounding DINO introduce un enfoque basado en detección de vocabulario  
abierto, lo cual permite identificar objetos sin necesidad de entrenamiento previo con datasets  
específicos. Este enfoque resulta especialmente interesante en contextos donde no existen datos  
etiquetados disponibles. No obstante, su mayor latencia de inferencia limita su uso en aplicaciones  
que requieren procesamiento en tiempo real, por lo que su aplicación resulta más adecuada para  
análisis offline o procesos de verificación posterior.  
Implicaciones  
Desde una perspectiva teórica, los resultados obtenidos contribuyen a ampliar el conocimiento sobre  
la aplicación de modelos de visión computacional de última generación en sistemas de producción  
animal. En particular, el estudio proporciona una comparación sistemática entre frameworks recientes  
(20242025) aplicada al contexto específico del monitoreo de especies menores, un ámbito que aún  
presenta una limitada cantidad de investigaciones.  
Asimismo, los resultados refuerzan la importancia de considerar simultáneamente variables  
como precisión de detección, latencia de inferencia y requerimientos de hardware, aspectos  
fundamentales para el desarrollo de soluciones basadas en inteligencia artificial dentro de la  
agricultura y ganadería de precisión.  
Desde el punto de vista práctico, los hallazgos ofrecen orientaciones útiles para productores y  
desarrolladores de soluciones tecnológicas aplicadas al monitoreo animal. En explotaciones pecuarias  
de pequeña escala, la implementación de modelos ligeros como YOLOv11n o YOLOv12n en  
dispositivos Jetson Nano puede permitir el monitoreo automatizado en tiempo real con velocidades  
cercanas a 1012 cuadros por segundo. En contextos con mayor disponibilidad de infraestructura  
tecnológica, modelos intermedios como YOLOv11m o YOLOv12m ejecutados en plataformas Jetson  
Orin pueden ofrecer mejoras adicionales en precisión sin comprometer significativamente la velocidad  
de procesamiento.  
Por otra parte, en instalaciones con acceso a infraestructura de cómputo más avanzada, como  
servidores con GPU dedicada, modelos como RT-DETRv2 pueden proporcionar mejores resultados en  
escenarios con alta densidad de animales o condiciones visuales más complejas.  
Finalmente, la automatización del conteo animal mediante sistemas de visión computacional puede  
generar beneficios económicos importantes, al reducir errores asociados a métodos manuales de  
registro. Diversos estudios sugieren que los métodos tradicionales de conteo pueden presentar errores  
cercanos al 15 %, mientras que los sistemas automatizados permiten reducir esta cifra a valores  
inferiores al 3 %, mejorando así la gestión productiva y la toma de decisiones.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 318.  
Limitaciones  
A pesar de los aportes del presente estudio, es necesario considerar algunas limitaciones que pueden  
influir en la interpretación de los resultados. En primer lugar, el análisis se basa principalmente  
en benchmarks reportados en investigaciones previas, los cuales fueron obtenidos bajo condiciones  
experimentales heterogéneas. Esta diversidad metodológica puede generar variaciones en los  
indicadores de desempeño y limitar la comparabilidad directa entre los modelos evaluados.  
En segundo lugar, se identificó una escasez de investigaciones centradas específicamente en especies  
menores, particularmente en cuyes y conejos. La mayoría de los estudios disponibles se enfocan en  
especies como aves de corral o bovinos, lo que evidencia una brecha en la literatura relacionada con  
sistemas productivos de menor escala.  
Asimismo, algunos de los frameworks analizados, especialmente YOLOv12  
y
RT-DETRv2,  
corresponden a arquitecturas de desarrollo reciente dentro del campo de la visión computacional.  
Debido a su reciente aparición, el cuerpo de literatura científica disponible aún se encuentra en  
expansión, lo que implica que futuras investigaciones podrían aportar evidencia adicional que  
complemente o refine las comparaciones actuales.  
Finalmente, el estudio no aborda de forma sistemática ciertos factores ambientales que pueden influir  
en el desempeño de los sistemas de detección en condiciones reales de producción, como variaciones  
en la iluminación nocturna, presencia de polvo en suspensión o condensación en los dispositivos de  
captura de imágenes.  
Trabajos futuros  
A partir de los resultados obtenidos, se identifican diversas oportunidades para el desarrollo de  
investigaciones futuras. En primer lugar, resulta necesario promover la creación de datasets  
especializados en especies menores, que incluyan diferentes condiciones ambientales, densidades de  
población animal y tipos de infraestructura productiva.  
Asimismo, futuras investigaciones podrían enfocarse en la evaluación experimental directa de los  
frameworks analizados utilizando imágenes reales de cuyes, conejos o aves, lo cual permitiría validar  
empíricamente los resultados presentados en este estudio.  
Otra línea de investigación relevante corresponde a la optimización de modelos de visión  
computacional para su ejecución en dispositivos edge de bajo consumo energético, mediante técnicas  
como cuantización de redes neuronales, reducción de parámetros o entrenamiento eficiente de  
modelos.  
Finalmente, también sería pertinente explorar el desarrollo de sistemas híbridos que integren detección  
automática con análisis temporal o seguimiento de individuos, lo que permitiría ampliar las  
aplicaciones de la visión computacional hacia áreas como el bienestar animal, la detección temprana  
de enfermedades y la gestión automatizada de inventarios en sistemas pecuarios.  
CONCLUSIONES  
El presente estudio realizó una comparación sistemática entre diferentes frameworks de visión  
computacional de última generación aplicados al conteo automatizado y monitoreo de especies  
menores en sistemas de producción pecuaria. Los resultados obtenidos permiten identificar  
diferencias relevantes en términos de precisión de detección, latencia de inferencia, requerimientos  
computacionales y viabilidad de implementación en distintos entornos tecnológicos.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 319.  
Entre los modelos analizados, YOLOv12 mostró el mayor nivel de idoneidad global para aplicaciones  
de conteo animal en contextos de alta densidad, debido a su arquitectura basada en mecanismos de  
atención que mejora la capacidad de detección en escenas con superposición de individuos,  
manteniendo al mismo tiempo latencias compatibles con sistemas de monitoreo en tiempo real. Por  
su parte, YOLOv11 se posiciona como una alternativa altamente práctica para implementaciones  
inmediatas, gracias a la madurez de su ecosistema, la amplia documentación disponible y el soporte  
consolidado de su comunidad de desarrollo. En particular, su versión nano constituye una opción viable  
para dispositivos de hardware de bajo costo utilizados en sistemas de computación en el borde.  
En contraste, RT-DETRv2 presenta ventajas técnicas en escenarios con alta densidad de objetos al  
prescindir del proceso de supresión de no máximos (NMS), lo que puede mejorar la precisión en  
determinadas condiciones. No obstante, sus mayores requerimientos computacionales limitan su uso  
a entornos que disponen de infraestructura con GPU dedicada. De manera similar, Grounding  
DINO introduce un enfoque innovador basado en detección guiada por lenguaje natural que permite  
identificar objetos sin necesidad de datasets previamente etiquetados. Aunque esta característica  
resulta especialmente útil en sistemas multiespecie o en contextos con escasez de datos, su mayor  
latencia de inferencia restringe su utilización a procesos de análisis offline.  
A partir de los resultados obtenidos, se concluye que los frameworks basados en la arquitectura YOLO  
representan actualmente la opción más equilibrada para aplicaciones de monitoreo automatizado en  
sistemas pecuarios de pequeña y mediana escala. En este sentido, se recomienda la implementación  
de YOLOv12n o YOLOv11n en plataformas de computación en el borde, como dispositivos NVIDIA  
Jetson, acompañada de procesos de ajuste fino mediante imágenes etiquetadas de la especie objetivo  
capturadas en condiciones reales de producción.  
Finalmente, los resultados de este estudio ponen de manifiesto la necesidad de continuar  
desarrollando investigaciones orientadas al monitoreo automatizado de especies menores mediante  
inteligencia artificial. En particular, resulta fundamental promover la creación de datasets públicos  
especializados para especies como cuyes, conejos y codornices, así como realizar evaluaciones  
experimentales con datos propios en condiciones reales de producción. Del mismo modo, futuras  
investigaciones podrían explorar la integración de estos modelos con sistemas IoT de bajo costo y  
analizar técnicas de compresión y optimización de modelos que permitan adaptar arquitecturas más  
complejas a dispositivos de computación en el borde.  
En conjunto, este estudio contribuye a ampliar el conocimiento sobre la aplicación de la visión  
computacional en la producción pecuaria y proporciona una base de referencia para el desarrollo de  
soluciones tecnológicas orientadas a mejorar la gestión y eficiencia de los sistemas de monitoreo  
animal.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 320.  
REFERENCIAS  
Adam, M. (2025). Deep learning approaches for automatic livestock monitoring using computer vision  
systems. Sensors, 25(3), 1562. https://doi.org/10.3390/s25031562  
Asim, M., Khan, M. A., & Rehman, A. (2026). Artificial intelligence and computer vision applications for  
livestock  
monitoring:  
A
systematic  
review. Computers  
and  
Electronics  
in  
Badgujar, C. M., Poulose, A., & Gan, H. (2024). Agricultural object detection with You Only Look Once  
(YOLO) algorithm: A bibliometric and systematic literature review. Computers and Electronics in  
Badgujar, C. M., Poulose, A., & Han, D. S. (2024). Agricultural object detection with the YOLO algorithm:  
A bibliometric and systematic literature review. Computers and Electronics in Agriculture, 218,  
Borwarnginn, P., Sriswasdi, S., & Charoenkwan, P. (2024). A systematic survey of public computer vision  
datasets for precision livestock farming. Computers and Electronics in Agriculture, 222,  
Bumbálek, R. (2025). Computer vision in precision livestock farming: Applications and future  
directions. Artificial Intelligence in Agriculture. https://doi.org/10.1016/j.aiia.2025.01.003  
Bumbálek, R., Umurungi, S. N., Ufitikirezi, J. D. M., Zoubek, T., Kuneš, R., Stehlík, R., Lin, H.-I., & Bartoš, P.  
(2025). Deep learning in poultry farming: Comparative analysis of YOLOv8, YOLOv9, YOLOv10, and  
YOLOv11  
for  
dead  
chickens  
detection.  
Poultry  
Science,  
104(9),  
105440.  
Campbell, W., Noorman, J., & Steibel, J. P. (2024). A computer vision approach to monitor activity in  
commercial broiler chickens using trajectory-based clustering analysis. Computers and Electronics in  
Chauca, L. (2020). Producción de cuyes (Cavia porcellus) en los países andinos: situación actual y  
perspectivas. Animal Genetic Resources, 57, 91108. https://doi.org/10.1017/S2078633620000041  
Cominotte, A., Campos, A. C., Fernandes, D. A., Lopes, F. B., Lanna, D. P. D., McManus, C., & Falco, J. E.  
(2021). Automated computer vision system to predict body weight and average daily gain in beef  
cattle. Livestock Science, 247, 104444. https://doi.org/10.1016/j.livsci.2021.104444  
Cruz, E., Hidalgo-Rodriguez, M., Acosta-Reyes, A. M., Rangel, J. C., & Boniche, K. (2024). AI-based  
monitoring  
for  
enhanced  
poultry  
flock  
management.  
Agriculture,  
14(12),  
2187.  
Dalal, M. (2025). Deep learning-based object detection techniques in agriculture: A systematic  
review. Computers and Electronics in Agriculture. https://doi.org/10.1016/j.compag.2025.108901  
Elmessery, W. M., Gutiérrez, J., Abd El-Wahhab, G. G., Elkhaiat, I. A., El-Soaly, I. S., Alhag, S. K., &  
Abdelshafie, M. F. (2023). YOLO-based model for automatic detection of broiler pathological  
phenomena through visual and thermal images in intensive poultry houses. Agriculture, 13(8), 1527.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 321.  
Jegham, N., Koh, C. Y., Abdelatti, M., & Hendawi, A. (2024). YOLO evolution: A comprehensive  
benchmark and architectural review of YOLOv12, YOLO11, and their previous versions. arXiv preprint.  
Jia, W., Li, Y., Hua, Z., & Zhang, Q. (2023). PCR: A large-scale benchmark for pig counting in real world.  
In Pattern  
Recognition  
and  
Computer  
Vision  
PRCV  
2023 (pp.  
212225).  
Jiménez Gómez, X. (2024). Detección y análisis de datos sobre especies exóticas en biomas mediante  
técnicas de detección de objetos. Universidade da  
Khanam, R., & Hussain, M. (2025). YOLO advances to its genesis: A decadal and comprehensive review  
of the YOLO series. Artificial Intelligence Review, 58, 253. https://doi.org/10.1007/s10462-025-11253-  
Liu, S., Zeng, Z., Ren, T., Li, F., Zhang, H., Yang, J., Jiang, Q., Li, C., Yang, J., Su, H., Zhu, J., & Zhang, L.  
(2024). Grounding DINO: Marrying DINO with grounded pre-training for open-set object detection.  
In Computer Vision ECCV 2024 (LNCS 15074, pp. 3855). Springer. https://doi.org/10.1007/978-3-  
Lv, W., Zhao, Y., Chang, Q., Huang, K., Wang, G., & Liu, Y. (2024). RT-DETRv2: Improved baseline with  
bag-of-freebies for real-time detection transformer. arXiv. https://doi.org/10.48550/arXiv.2407.17140  
Menezes, R., Silva, F., & Oliveira, J. (2024). Computer vision systems for animal monitoring in precision  
livestock farming: A review. Animals, 14(5), 812. https://doi.org/10.3390/ani14050812  
Michielon, A., Litta, P., Bonelli, F., Don, G., Farisè, S., Giannuzzi, D., Milanesi, M., Pietrucci, D., Vezzoli, A.,  
Cecchinato, A., Chillemi, G., Gallo, L., Mele, M., & Furlanello, C. (2024). Mind the step: An artificial  
intelligence-based  
monitoring  
platform  
for  
animal  
welfare.  
Sensors,  
24(24),  
8042.  
Mulero-Pázmány, M., Hurtado, S., Barba-González, C., Antequera-Gómez, M. L., Díaz-Ruiz, F., Real, R.,  
Navas-Delgado, I., & Aldana-Montes, J. F. (2025). Addressing significant challenges for animal  
detection in camera trap images: A novel deep learning-based approach. Scientific Reports, 15, 16191.  
Natho, P., Boonying, S., Bonguleaum, P., Tantidontanet, N., & Chamuthai, L. (2025). An enhanced  
machine vision system for smart poultry farms using deep learning. Artificial Intelligence in Agriculture.  
Rajagukguk, R. A. (2025). Deep learning for visual animal monitoring (detection, tracking, pose  
estimation, and behavior classification): A comprehensive review. Artificial Intelligence in Agriculture.  
Tian, Y., Ye, Q., & Doermann, D. (2025). YOLOv12: Attention-centric real-time object detectors. Advances  
in Neural Information Processing Systems. https://doi.org/10.48550/arXiv.2502.12524  
Wu, Z., Yang, J., Zhang, H., & Fang, C. (2025). Enhanced methodology and experimental research for  
caged chicken counting based on YOLOv8. Animals, 15(6), 853. https://doi.org/10.3390/ani15060853  
Zhao, Y., Lv, W., Xu, S., Wei, J., Wang, G., Dang, Q., Liu, Y., & Chen, J. (2024). DETRs beat YOLOs on real-  
time object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern  
Recognition (CVPR) (pp. 1696516974). IEEE. https://doi.org/10.1109/CVPR52733.2024.01605  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 322.  
Todo el contenido de LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, publicados en este  
sitio está disponibles bajo Licencia Creative Commons  
.
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, abril, 2026, Volumen VII, Número 2 p 323.