confirma que cada modelo posee un nicho de aplicación específico y que no existe un modelo
universalmente superior para todas las tareas de ingeniería de software.
La Tabla 5 introduce una dimensión metodológica que permite contextualizar los resultados obtenidos.
El enfoque mixto utilizado en el estudio, que combina métricas cuantitativas con validación cualitativa
experta, ofrece una visión más completa del desempeño de los modelos. La inclusión de artefactos
diversos, como requisitos, casos de uso y documentación técnica, permite evaluar no solo la capacidad
de los modelos para generar texto coherente, sino también su habilidad para mantener trazabilidad y
consistencia entre artefactos relacionados. Esta tabla muestra que la metodología aplicada es
adecuada para capturar las fortalezas y limitaciones de cada modelo, y que la combinación de análisis
estructural y revisión experta es esencial para evitar conclusiones basadas únicamente en métricas
automáticas, las cuales pueden sobreestimar la calidad real de los artefactos generados.
El análisis conjunto de las tres tablas permite identificar patrones relevantes. GPT‑4 sobresale en
calidad y consistencia, lo que lo convierte en el modelo más adecuado para tareas críticas de ingeniería
de software, aunque su eficiencia computacional es menor. Llama‑3 ofrece un equilibrio entre
rendimiento y estructura, siendo especialmente útil en tareas formales y repetitivas. Mistral, aunque
menos preciso, aporta ventajas en velocidad y eficiencia, lo que lo hace atractivo para aplicaciones de
bajo costo o para etapas tempranas del desarrollo. Desde una perspectiva metodológica, los
resultados confirman que la evaluación de modelos de lenguaje en ingeniería de software debe
considerar simultáneamente dimensiones técnicas, funcionales y procedimentales, ya que cada una
aporta información complementaria sobre la utilidad real de los modelos en contextos profesionales.
En síntesis, las Tablas 3, 4 y 5 muestran que la elección del modelo adecuado depende del tipo de
artefacto, la complejidad de la tarea y los recursos disponibles. La comparación crítica evidencia que
GPT‑4 es el más robusto para tareas complejas, Llama‑3 es el más estable para tareas estructuradas
y Mistral es el más eficiente para aplicaciones rápidas y de bajo costo. Esta diferenciación aporta
claridad sobre el rol que cada modelo puede desempeñar en la automatización de la ingeniería de
software y refuerza la necesidad de enfoques metodológicos rigurosos para evaluar su desempeño.
CONCLUSIÓN
El análisis comparativo realizado en este estudio demuestra que los modelos de lenguaje de gran
escala representan un avance significativo para la automatización de artefactos en ingeniería de
software, pero también evidencia que su desempeño es heterogéneo y depende de la complejidad de
la tarea, la estructura del artefacto y las capacidades técnicas de cada modelo. Los resultados
muestran que GPT‑4 es el modelo con mayor solidez global, especialmente en tareas que requieren
coherencia semántica, precisión técnica y manejo de artefactos extensos. Su rendimiento confirma lo
señalado en investigaciones previas sobre la superioridad de los modelos de mayor escala en tareas
de razonamiento y generación estructurada. Llama‑3, por su parte, ofrece un equilibrio entre calidad y
eficiencia, destacándose en tareas altamente estructuradas como casos de uso y pruebas unitarias,
donde la claridad formal es más determinante que la profundidad conceptual. Mistral se posiciona
como una alternativa eficiente y de bajo costo, adecuada para prototipado y generación rápida de
contenido, aunque sus limitaciones en precisión y consistencia reducen su utilidad en contextos donde
la trazabilidad y la exactitud son esenciales.
La comparación funcional y técnica evidencia que no existe un modelo universalmente superior, sino
que cada uno presenta fortalezas específicas que deben ser consideradas según el tipo de artefacto y
los requisitos del proceso de desarrollo. Esta conclusión refuerza la importancia de adoptar un enfoque
selectivo y contextualizado al integrar modelos de lenguaje en la ingeniería de software, evitando su
uso indiscriminado y reconociendo que su producción requiere supervisión experta para garantizar la
calidad y la confiabilidad de los artefactos generados. Asimismo, la metodología empleada en este
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.
ISSN en línea: 2789-3855, marzo, 2026, Volumen VII, Número 2 p 180.