Evaluación empírica de modelos de lenguaje en la generación  
automática de artefactos de ingeniería de software  
Empirical evaluation of language models in the automatic generation of  
software engineering artifacts  
Maria Teodolinda Ortega Ovalle  
Universidad de Panamá  
Panamá  
Artículo recibido: 11 de noviembre de 2025. Aceptado para publicación: 18 de marzo de 2026.  
Conflictos de Interés: Ninguno que declarar.  
Resumen  
Este estudio evalúa empíricamente la capacidad de los modelos de lenguaje de gran escala para  
generar artefactos formales de ingeniería de software, considerando la creciente incorporación de  
inteligencia artificial generativa en procesos de desarrollo. El objetivo es analizar la calidad,  
coherencia y utilidad de los artefactos producidos por GPT‑4, Llama‑3 y Mistral en tareas como la  
elaboración de requisitos, casos de uso, documentación técnica y pruebas unitarias. La investigación  
adopta un enfoque cuantitativo y cualitativo, con un diseño comparativo y observacional, en el que se  
generan artefactos mediante cada modelo y se evalúan mediante métricas de coherencia semántica,  
completitud, adecuación técnica y trazabilidad, complementadas con validación por expertos. Los  
resultados muestran que los modelos presentan un desempeño heterogéneo según la tarea: GPT‑4  
destaca en coherencia y completitud, Llama‑3 ofrece mayor estabilidad en tareas estructuradas y  
Mistral presenta limitaciones en precisión técnica. Se identifican patrones de error recurrentes,  
especialmente en la interpretación de requisitos y en la consistencia interna de los artefactos. Los  
hallazgos evidencian el potencial de los modelos de lenguaje como herramientas de apoyo, pero  
también subrayan la necesidad de supervisión humana y de marcos metodológicos que mitiguen  
riesgos asociados a su uso en entornos profesionales.  
Palabras clave: modelos de lenguaje, ingeniería de software, generación automática,  
artefactos de software, evaluación empírica, inteligencia artificial generativa  
Abstract  
This study empirically evaluates the ability of large language models to generate formal software  
engineering artifacts, considering the increasing integration of generative artificial intelligence into  
development processes. The objective is to analyze the quality, coherence, and practical usefulness  
of artifacts produced by GPT‑4, Llama‑3, and Mistral in tasks such as requirements specification, use  
case creation, technical documentation, and unit test generation. The research adopts a quantitative  
and qualitative approach, using a comparative and observational design in which artifacts are  
generated by each model and assessed through semantic coherence metrics, completeness, technical  
adequacy, and traceability, complemented by expert validation. The results show heterogeneous  
performance across tasks: GPT‑4 excels in coherence and completeness, Llama‑3 demonstrates  
greater stability in structured tasks, and Mistral exhibits limitations in technical precision. Recurrent  
error patterns were identified, particularly in requirement interpretation and internal consistency. The  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, marzo, 2026, Volumen VII, Número 2 p 170.  
findings highlight the potential of language models as support tools while underscoring the need for  
human oversight and methodological frameworks that mitigate risks associated with their use in  
professional environments.  
Keywords: language models, software engineering, automatic generation, software artifacts,  
empirical evaluation, generative artificial intelligence  
Todo el contenido de LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades,  
publicado en este sitio está disponibles bajo Licencia Creative Commons.  
Cómo citar: Ortega Ovalle, M. T. (2026). Evaluación empírica de modelos de lenguaje en la  
generación automática de artefactos de ingeniería de software. LATAM Revista Latinoamericana de  
Ciencias Sociales y Humanidades 7 (2), 170 183. https://doi.org/10.56712/latam.v7i2.5536  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, marzo, 2026, Volumen VII, Número 2 p 171.  
INTRODUCCIÓN  
La rápida evolución de los modelos de lenguaje de gran escala ha transformado de manera significativa  
los procesos de automatización en la ingeniería de software, un campo históricamente caracterizado  
por la necesidad de precisión, trazabilidad y rigurosidad metodológica. En los últimos años,  
herramientas basadas en inteligencia artificial generativa han comenzado a intervenir en tareas  
tradicionalmente realizadas por ingenieros humanos, tales como la redacción de requisitos, la  
generación de casos de uso, la documentación técnica, la creación de pruebas unitarias y el análisis  
de código. Este fenómeno ha abierto un debate profundo sobre la capacidad real de estos modelos  
para producir artefactos válidos, consistentes y alineados con estándares formales, así como sobre su  
impacto en la productividad y la calidad del software.  
A pesar del entusiasmo generado por estas tecnologías, persisten interrogantes fundamentales sobre  
su fiabilidad y sobre los riesgos asociados a su adopción. Diversos estudios han señalado que los  
modelos de lenguaje pueden generar contenido técnicamente plausible pero conceptualmente  
incorrecto, presentar inconsistencias internas o reproducir sesgos derivados de los datos con los que  
fueron entrenados, lo que coincide con las advertencias de Ozkaya (2023) sobre los riesgos y  
limitaciones de aplicar modelos de lenguaje en tareas de ingeniería de software. Estas limitaciones  
plantean un problema de investigación claro: determinar en qué medida los modelos de lenguaje  
pueden apoyar efectivamente la generación automática de artefactos de ingeniería de software sin  
comprometer la calidad, la coherencia semántica ni la trazabilidad requerida en entornos profesionales  
y académicos. La relevancia de este estudio radica en la necesidad de comprender con rigor científico  
el alcance y las limitaciones de estas herramientas emergentes. En un contexto donde la industria del  
software enfrenta crecientes demandas de eficiencia, reducción de costos y aceleración de ciclos de  
desarrollo, la automatización inteligente se presenta como una oportunidad estratégica. Sin embargo,  
su adopción sin evidencia empírica sólida podría introducir riesgos significativos, especialmente en  
sistemas críticos o de alta complejidad. Por ello, evaluar de manera sistemática el desempeño de los  
modelos de lenguaje en tareas específicas de ingeniería de software constituye un aporte necesario  
tanto para la comunidad académica como para la industria.  
Los antecedentes investigativos muestran un creciente interés por analizar el rol de los modelos de  
lenguaje en actividades relacionadas con la programación, la documentación y la asistencia al  
desarrollador. Investigaciones recientes han explorado su capacidad para generar código, detectar  
errores o responder preguntas técnicas, pero aún existe una brecha importante en la evaluación integral  
de su desempeño en la producción de artefactos formales de ingeniería de software. La literatura  
coincide en señalar que, aunque estos modelos pueden producir resultados útiles, su desempeño varía  
según la tarea, el dominio y el nivel de estructuración requerido, lo que refuerza la necesidad de  
estudios empíricos comparativos.  
Desde el punto de vista teórico, este estudio se fundamenta en marcos conceptuales relacionados con  
la ingeniería de requisitos, la calidad del software, la automatización inteligente y la evaluación de  
modelos de lenguaje. La ingeniería de software establece criterios claros para la elaboración de  
artefactos formales, mientras que la teoría de modelos de lenguaje aporta elementos para comprender  
cómo se generan las respuestas y cuáles son sus limitaciones estructurales. La convergencia de  
ambos campos permite analizar de manera crítica la pertinencia de utilizar inteligencia artificial  
generativa en procesos que requieren precisión técnica y coherencia lógica.  
El contexto de esta investigación se sitúa en la evaluación comparativa de tres modelos de lenguaje  
ampliamente utilizados en la actualidad: GPT‑4, Llama‑3 y Mistral. Estos modelos representan  
diferentes arquitecturas, tamaños y enfoques de entrenamiento, lo que permite analizar variaciones en  
su desempeño. La evaluación se realiza mediante la generación de artefactos específicos requisitos,  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, marzo, 2026, Volumen VII, Número 2 p 172.  
casos de uso, documentación técnica y pruebas unitarias y su posterior análisis mediante métricas  
cuantitativas y validación cualitativa por expertos en ingeniería de software.  
El objetivo general de este estudio es evaluar empíricamente la calidad, coherencia y utilidad de los  
artefactos de ingeniería de software generados por modelos de lenguaje de gran escala, con el fin de  
determinar su potencial y sus limitaciones en procesos de automatización. Los objetivos específicos  
incluyen: (1) comparar el desempeño de diferentes modelos en tareas específicas; (2) identificar  
patrones de error y limitaciones recurrentes; y (3) analizar la alineación de los artefactos generados  
con estándares formales de ingeniería de software.  
METODOLOGÍA  
La presente investigación adopta un enfoque mixto que integra procedimientos cuantitativos y  
cualitativos con el propósito de evaluar de manera integral la capacidad de los modelos de lenguaje de  
gran escala para generar artefactos formales de ingeniería de software. El enfoque cuantitativo permite  
medir la coherencia, completitud y adecuación técnica de los artefactos mediante métricas objetivas,  
mientras que el enfoque cualitativo posibilita analizar la pertinencia semántica, la consistencia interna  
y la alineación con estándares profesionales a través de la validación por expertos. Esta combinación  
resulta adecuada para un fenómeno que involucra tanto dimensiones medibles como interpretaciones  
especializadas.  
El tipo de investigación es de carácter descriptivo y comparativo, dado que busca caracterizar el  
desempeño de distintos modelos de lenguaje y establecer diferencias entre ellos en tareas específicas  
de generación de artefactos. Asimismo, posee un componente explicativo, en la medida en que se  
analizan los patrones de error y las posibles causas de las variaciones observadas entre los modelos  
evaluados. Este tipo de estudio permite comprender no solo qué tan bien funcionan los modelos, sino  
también por qué presentan determinados comportamientos en contextos de ingeniería de software.  
El diseño metodológico es observacional y transversal. Es observacional porque no se manipulan los  
modelos ni sus parámetros internos, sino que se analizan sus respuestas tal como son generadas bajo  
condiciones controladas. Es transversal porque la recolección de datos se realiza en un único momento  
temporal, evaluando simultáneamente a los modelos GPT‑4, Llama‑3 y Mistral. Este diseño permite  
comparar su desempeño bajo las mismas tareas, instrucciones y criterios de evaluación, garantizando  
condiciones homogéneas para el análisis.  
La población de estudio está constituida por los artefactos de ingeniería de software que los modelos  
de lenguaje pueden generar a partir de instrucciones específicas. La muestra se compone de cuatro  
tipos de artefactos ampliamente utilizados en la práctica profesional: especificaciones de requisitos,  
casos de uso, documentación técnica y pruebas unitarias. Estos artefactos fueron seleccionados por  
su relevancia en las etapas iniciales y medias del ciclo de desarrollo de software, así como por su nivel  
de estructuración formal. La selección de los artefactos se realizó mediante un muestreo intencional,  
orientado a incluir aquellos que permiten evaluar con mayor claridad la coherencia, la precisión técnica  
y la trazabilidad.  
La recolección de datos se llevó a cabo mediante la generación controlada de artefactos utilizando  
cada uno de los modelos seleccionados. Para ello se elaboraron instrucciones estandarizadas que  
describen el tipo de artefacto requerido, el dominio funcional y el nivel de detalle esperado. Estas  
instrucciones fueron aplicadas de manera idéntica a los tres modelos con el fin de garantizar la  
comparabilidad. Los datos cuantitativos se obtuvieron mediante métricas de coherencia semántica,  
completitud, adecuación técnica y trazabilidad, evaluadas mediante herramientas de análisis textual y  
revisión estructurada. Los datos cualitativos se produjeron a través de la revisión experta realizada por  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, marzo, 2026, Volumen VII, Número 2 p 173.  
tres profesionales con experiencia en ingeniería de requisitos, diseño de software y aseguramiento de  
calidad, quienes analizaron la pertinencia, claridad y consistencia de los artefactos generados.  
El procedimiento metodológico se desarrolló en cuatro fases. En la primera fase se definieron las  
tareas, los artefactos y las instrucciones estandarizadas. En la segunda fase se generaron los  
artefactos utilizando cada modelo de lenguaje. En la tercera fase se aplicaron las métricas  
cuantitativas mediante herramientas de análisis automático y revisión manual. En la cuarta fase se  
realizó la validación cualitativa por parte de los expertos, quienes emitieron juicios fundamentados  
sobre la calidad de los artefactos y registraron observaciones sobre patrones de error y limitaciones.  
Finalmente, se integraron los resultados cuantitativos y cualitativos para obtener una visión global del  
desempeño de los modelos.  
Las consideraciones éticas del estudio se centran en el uso responsable de tecnologías de inteligencia  
artificial y en la transparencia metodológica. Todos los artefactos generados provienen de modelos  
accesibles públicamente y no se utilizaron datos sensibles, privados o protegidos. Asimismo, se  
respetaron los principios de integridad académica, evitando manipular o alterar los resultados  
producidos por los modelos. Los expertos participantes fueron informados sobre los objetivos del  
estudio y su participación fue voluntaria.  
Los criterios de inclusión se limitaron a artefactos generados directamente por los modelos bajo las  
instrucciones definidas, mientras que se excluyeron respuestas incompletas, artefactos que no  
correspondían al formato solicitado y producciones que presentaban fallas técnicas atribuibles a  
interrupciones del sistema. Entre las imitaciones del estudio se reconoce que los resultados dependen  
de las versiones específicas de los modelos evaluados y de las instrucciones utilizadas, por lo que  
futuras investigaciones podrían explorar variaciones en los prompts, dominios funcionales o niveles de  
complejidad.  
DESARROLLO  
El desarrollo reciente de modelos de lenguaje de gran escala ha redefinido las posibilidades de  
automatización en tareas tradicionalmente asociadas a la ingeniería de software. Estos modelos,  
basados en arquitecturas de tipo transformer, han demostrado una notable capacidad para generar  
texto coherente, código fuente y explicaciones técnicas a partir de instrucciones en lenguaje natural.  
Chen et al. (2021) introducen Codex como un modelo de lenguaje entrenado específicamente sobre  
grandes volúmenes de código, mostrando que es capaz de resolver problemas de programación con  
niveles de precisión significativamente superiores a modelos previos, lo que evidencia el potencial de  
esta tecnología para asistir en actividades de desarrollo de software.  
En el ámbito específico de la ingeniería de software, se ha observado un creciente interés por evaluar  
el desempeño de los modelos de lenguaje en tareas como generación de código, documentación y  
soporte al desarrollador. Dakhel, Abdalkareem y Shihab (2023) analizan el uso de ChatGPT en tareas  
de ingeniería de software y reportan que, si bien el modelo puede producir respuestas útiles para  
actividades como explicación de código o generación de fragmentos, también incurre en errores sutiles  
que requieren revisión experta. Este tipo de hallazgos refuerza la necesidad de estudios empíricos que  
no solo midan la utilidad percibida, sino también la calidad estructural y semántica de los artefactos  
generados.  
MacNeil et al. (2023) discuten de manera más amplia las oportunidades y desafíos asociados con la  
automatización de tareas de ingeniería de software mediante modelos de lenguaje, destacando que  
estas herramientas pueden apoyar actividades como la generación de pruebas, la refactorización y la  
documentación, pero que su integración responsable exige marcos de evaluación rigurosos y  
mecanismos de supervisión humana. En este sentido, la literatura coincide en que los modelos de  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, marzo, 2026, Volumen VII, Número 2 p 174.  
lenguaje no deben considerarse sustitutos directos del ingeniero de software, sino instrumentos de  
apoyo cuya producción debe ser validada y contextualizada.  
La calidad de los artefactos de ingeniería de software ha sido tradicionalmente evaluada a partir de  
criterios como completitud, consistencia, corrección, trazabilidad y adecuación al dominio. En el caso  
de los requisitos, por ejemplo, se espera que sean claros, no ambiguos, verificables y consistentes  
entre sí. Cuando estos artefactos son generados por modelos de lenguaje, surge la necesidad de  
adaptar y aplicar estos criterios para determinar en qué medida los productos generados cumplen con  
los estándares profesionales. La evaluación de la coherencia semántica, la completitud de la  
información y la alineación con el dominio funcional se vuelve central para valorar la utilidad real de los  
modelos en contextos de ingeniería de software.  
Por otra parte, la investigación en predicción de defectos y calidad del software basada en métricas de  
código y modelos de aprendizaje automático ofrece un antecedente metodológico relevante.  
Radjenović et al. (2013) realizan una revisión sistemática de métricas utilizadas para la predicción de  
fallos, mostrando que la combinación de indicadores estructurales y de historial de cambios permite  
construir modelos predictivos robustos. Hosseini, Turhan y Gunarathna (2017) profundizan en la  
predicción de defectos entre proyectos, evidenciando que la calidad de los datos y la selección de  
características son factores críticos para el desempeño de los modelos. De manera complementaria,  
Wang, Liu y Tan (2016) demostraron que es posible aprender automáticamente características  
semánticas relevantes para la predicción de defectos, lo que aporta un marco conceptual útil para  
comprender cómo los modelos automatizados pueden capturar patrones complejos en artefactos de  
software.  
En el contexto de la generación automática de artefactos, la noción de trazabilidad adquiere una  
relevancia particular. La trazabilidad se refiere a la capacidad de vincular requisitos, diseños,  
implementaciones y pruebas de manera consistente, permitiendo seguir el rastro de decisiones y  
cambios a lo largo del ciclo de vida del software. Cuando un modelo de lenguaje genera requisitos o  
casos de uso, es necesario evaluar si estos artefactos pueden integrarse en cadenas de trazabilidad  
existentes o si introducen ambigüedades que dificultan su uso en procesos formales. La literatura  
sobre gestión de requisitos y trazabilidad sugiere que la falta de claridad o consistencia en los  
artefactos puede derivar en errores costosos en etapas posteriores del desarrollo.  
Finalmente, la discusión sobre el uso responsable de modelos de lenguaje en ingeniería de software  
incluye consideraciones sobre seguridad, confiabilidad y ética. Chen et al. (2021) advierten que los  
modelos de generación de código pueden producir soluciones que, aunque funcionales, incorporan  
vulnerabilidades de seguridad o prácticas de programación deficientes. MacNeil et al. (2023) señalan  
que la adopción de estas herramientas debe acompañarse de políticas claras sobre revisión, validación  
y documentación de los artefactos generados. En consecuencia, cualquier evaluación empírica de  
modelos de lenguaje aplicada a la ingeniería de software debe contemplar no solo métricas de  
desempeño, sino también implicaciones prácticas y riesgos asociados a su uso en entornos reales.  
Tabla 1  
Características generales de estudios previos sobre modelos de lenguaje y software  
Estudio  
Chen et al.  
(2021)  
Foco principal  
Generación de código con  
modelos de lenguaje.  
Dominio evaluado  
Problemas de  
programación (Human  
Eval).  
Tipo de evaluación  
Métricas de  
corrección  
funcional.  
Dakhel et al.  
(2023)  
Uso de ChatGPT en tareas de  
ingeniería de software.  
Tareas variadas de SE.  
Análisis empírico y  
cualitativo.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, marzo, 2026, Volumen VII, Número 2 p 175.  
MacNeil et al. Automatización de tareas de  
(2023) SE con LLM.  
Actividades de desarrollo  
y pruebas.  
Revisión conceptual  
y empírica.  
Fuente: elaboración propia.  
Tabla 2  
Relación entre este estudio y la literatura previa  
Dimensión  
Literatura previa  
Aporte del presente estudio  
Tipo de artefactos  
Principalmente código fuente.  
Requisitos, casos de uso, documentación  
y pruebas unitarias.  
Enfoque de  
evaluación  
Corrección funcional y utilidad  
general.  
Calidad formal, coherencia, trazabilidad y  
validación experta.  
Modelos analizados  
Modelos individuales (Codex,  
ChatGPT)  
Comparación entre GPT‑4, Llama‑3 y  
Mistral.  
Perspectiva  
metodológica  
Estudios aislados o centrados  
en una tarea.  
Diseño comparativo mixto con métricas  
y revisión experta.  
Fuente: elaboración propia.  
Análisis crítico y comparativo de las tablas  
El examen comparativo de los estudios presentados en la primera tabla permite identificar una  
evolución clara en la forma en que la comunidad científica ha abordado la relación entre los modelos  
de lenguaje y la ingeniería de software. El trabajo de Chen et al. (2021) se centra en la generación de  
código y en la evaluación funcional de los resultados, lo que refleja una primera etapa en la que el  
interés principal era determinar si los modelos podían producir soluciones correctas desde el punto de  
vista sintáctico y operativo. Este enfoque, aunque fundamental, resulta limitado para comprender la  
complejidad de los artefactos formales utilizados en ingeniería de software, los cuales requieren no  
solo corrección funcional, sino también coherencia semántica, trazabilidad y adecuación al dominio.  
En contraste, Dakhel et al. (2023) amplían el espectro al analizar tareas más diversas, incluyendo  
explicación de código, documentación y soporte técnico, lo que evidencia un desplazamiento hacia una  
visión más integral del rol de los modelos de lenguaje en el ciclo de desarrollo. Finalmente, MacNeil et  
al. (2023) adoptan una perspectiva conceptual que reconoce tanto las oportunidades como los riesgos  
de la automatización, subrayando la necesidad de marcos metodológicos rigurosos para evaluar la  
calidad de los artefactos generados. Esta progresión muestra que la literatura ha avanzado desde  
evaluaciones centradas en la funcionalidad hacia análisis más amplios que consideran la complejidad  
estructural y semántica de los artefactos.  
La segunda tabla permite profundizar en esta evolución al contrastar directamente los enfoques de la  
literatura previa con los aportes del presente estudio. Mientras que los trabajos anteriores se han  
concentrado principalmente en la generación de código o en tareas aisladas, este estudio incorpora  
artefactos más complejos y estructurados, como requisitos, casos de uso y documentación técnica.  
Esta ampliación es significativa porque estos artefactos constituyen la base conceptual del desarrollo  
de software y requieren un nivel de precisión y coherencia que va más allá de la generación de código.  
Asimismo, la literatura previa ha privilegiado evaluaciones centradas en la corrección funcional o en la  
utilidad general, mientras que este estudio introduce criterios más estrictos, como la trazabilidad y la  
alineación con estándares formales, lo que permite una valoración más profunda de la calidad de los  
artefactos generados por los modelos de lenguaje.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, marzo, 2026, Volumen VII, Número 2 p 176.  
Otro aspecto crítico que emerge del análisis comparativo es la diversidad de modelos evaluados. Los  
estudios previos suelen centrarse en un único modelo o en versiones específicas, lo que limita la  
capacidad de generalizar los hallazgos. En cambio, este estudio adopta un enfoque comparativo entre  
GPT‑4, Llama‑3 y Mistral, lo que permite identificar patrones de desempeño diferenciados y  
comprender mejor las fortalezas y debilidades de cada arquitectura. Esta comparación es  
especialmente relevante en un contexto donde los modelos evolucionan rápidamente y donde las  
diferencias en tamaño, entrenamiento y diseño pueden influir de manera significativa en la calidad de  
los artefactos generados.  
Finalmente, la perspectiva metodológica también muestra diferencias importantes. Mientras que los  
estudios previos tienden a utilizar enfoques aislados, ya sea cuantitativos o cualitativos, el presente  
estudio integra ambos, lo que permite una evaluación más completa y rigurosa. La combinación de  
métricas objetivas con validación experta ofrece una visión más equilibrada y reduce el riesgo de  
sobreestimar la capacidad de los modelos basándose únicamente en indicadores automáticos. Esta  
integración metodológica constituye uno de los aportes más relevantes del estudio, ya que responde a  
las recomendaciones de MacNeil et al. (2023) sobre la necesidad de marcos de evaluación robustos y  
multidimensionales.  
En conjunto, el análisis crítico de las tablas evidencia que el presente estudio no solo se alinea con las  
tendencias actuales de investigación, sino que también amplía el alcance de la evaluación de los  
modelos de lenguaje en ingeniería de software, incorporando artefactos más complejos, criterios más  
rigurosos y un enfoque metodológico más robusto. Esta contribución resulta especialmente pertinente  
en un momento en que la adopción de inteligencia artificial generativa en la industria exige evidencia  
empírica sólida y análisis comparativos que permitan comprender sus implicaciones prácticas y  
teóricas.  
RESULTADOS Y DISCUSIÓN  
Los resultados obtenidos a partir de la evaluación comparativa de los modelos GPT‑4, Llama‑3 y Mistral  
muestran diferencias significativas en la calidad de los artefactos generados, lo que confirma la  
heterogeneidad reportada en estudios previos sobre el desempeño de modelos de lenguaje en tareas  
de ingeniería de software. En términos generales, GPT‑4 produjo artefactos con mayor coherencia  
semántica, completitud y adecuación técnica, especialmente en la generación de requisitos y  
documentación técnica. Este comportamiento coincide con lo observado por Chen et al. (2021),  
quienes demostraron que los modelos de mayor escala tienden a ofrecer respuestas más precisas y  
estructuradas debido a su mayor capacidad de representación contextual.  
Llama‑3 mostró un desempeño estable en tareas altamente estructuradas, como la generación de  
casos de uso y pruebas unitarias. Sus artefactos presentan menos variabilidad interna y una mayor  
consistencia formal, aunque con menor profundidad conceptual en comparación con GPT‑4. Este  
patrón se alinea con las observaciones de Dakhel et al. (2023), quienes señalaron que algunos modelos  
pueden producir resultados aceptables en tareas bien definidas, pero presentan limitaciones cuando  
se requiere interpretación profunda del dominio o razonamiento complejo.  
Por su parte, Mistral evidenció limitaciones más marcadas, especialmente en la precisión técnica y en  
la consistencia interna de los artefactos. Los requisitos generados por este modelo tendieron a  
presentar ambigüedades, omisiones y contradicciones, lo que afecta directamente su utilidad en  
procesos formales de ingeniería de software. Este tipo de errores coincide con las advertencias de  
MacNeil et al. (2023), quienes subrayan que los modelos de lenguaje pueden generar contenido  
plausible pero incorrecto, lo que exige mecanismos de supervisión humana para evitar la propagación  
de errores en etapas posteriores del desarrollo.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, marzo, 2026, Volumen VII, Número 2 p 177.  
El análisis cuantitativo mostró que GPT4 obtuvo los puntajes más altos en coherencia semántica y  
completitud, mientras que Llama‑3 destacó en estabilidad estructural y Mistral presentó el desempeño  
más bajo en todas las métricas evaluadas. Estos resultados sugieren que la capacidad de un modelo  
para generar artefactos útiles depende no solo de su tamaño o arquitectura, sino también de su  
entrenamiento y de su capacidad para mantener consistencia a lo largo de estructuras complejas. Este  
hallazgo se relaciona con los estudios de Radjenović et al. (2013) y Hosseini et al. (2017), quienes  
demostraron que la calidad de los artefactos y modelos predictivos depende de la combinación  
adecuada de características estructurales y semánticas.  
La validación cualitativa realizada por expertos permitió identificar patrones de error recurrentes. En el  
caso de GPT‑4, los errores se relacionaron principalmente con interpretaciones excesivamente  
detalladas o con la inclusión de información no solicitada, lo que puede afectar la trazabilidad. Llama‑3  
mostró dificultades para mantener coherencia entre secciones de un mismo artefacto, especialmente  
cuando se requería vincular requisitos con casos de uso. Mistral presentó errores más fundamentales,  
como contradicciones internas y falta de alineación con el dominio funcional. Estos patrones  
confirman la necesidad de marcos de evaluación robustos, tal como lo plantean MacNeil et al. (2023),  
y refuerzan la importancia de la supervisión humana en la adopción de modelos de lenguaje en  
ingeniería de software.  
La discusión de estos resultados permite identificar varias implicaciones teóricas y prácticas. Desde  
una perspectiva teórica, los hallazgos sugieren que la generación automática de artefactos de  
ingeniería de software requiere modelos capaces de integrar coherencia semántica, precisión técnica  
y consistencia estructural, elementos que no siempre están presentes en los modelos actuales. Desde  
una perspectiva práctica, los resultados indican que los modelos de lenguaje pueden ser herramientas  
valiosas para apoyar tareas específicas, pero no pueden sustituir el juicio experto ni los procesos  
formales de validación. La novedad científica de este estudio radica en la evaluación comparativa de  
artefactos complejos, más allá del código fuente, lo que amplía el alcance de la investigación existente  
y abre nuevas líneas de estudio sobre la integración responsable de inteligencia artificial generativa en  
la ingeniería de software.  
Tablas de comparación  
Tabla 3  
Comparación técnica general entre GPT‑4, Llama‑3 y Mistral  
Modelo  
Ventana de  
contexto  
128k  
Calidad promedio  
Velocidad  
(tokens/s)  
130.4  
Latencia (s)  
(índice)  
GPT‑4  
Llama‑3.1 (70B)  
Llama‑3.1  
71  
65  
72  
0.41  
0.46  
0.66  
128k  
128k  
51.5  
28.8  
(405B)  
Mistral 8x22B  
65k  
61  
58.4  
0.36  
Fuente: elaboración propia.  
Tabla 4  
Capacidades funcionales comparadas  
Dimensión  
Rendimiento en  
tareas complejas  
GPT‑4  
Llama‑3  
Mistral  
Muy alto  
Alto  
Medio  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, marzo, 2026, Volumen VII, Número 2 p 178.  
Precisión en  
ingeniería de  
software  
Alta  
Media‑alta  
Media  
Eficiencia  
Baja‑media  
Media  
Alta  
Alta  
computacional  
Consistencia en  
respuestas largas  
Aplicaciones  
recomendadas  
Muy alta  
Media  
Tareas críticas,  
documentación  
compleja  
Casos de uso, pruebas,  
documentación  
Prototipado,  
respuestas rápidas,  
bajo costo  
Fuente: elaboración propia.  
Tabla 5  
Síntesis metodológica comparativa  
Elemento metodológico  
Aplicación en el estudio  
Enfoque  
Mixto: cuantitativo y cualitativo  
Tipo de investigación  
Diseño  
Descriptiva, comparativa y parcialmente explicativa  
Observacional y transversal  
Muestra  
Técnicas de análisis  
Requisitos, casos de uso, documentación técnica y pruebas unitarias  
Métricas de coherencia, completitud, adecuación técnica y validación  
experta  
Modelos evaluados  
Criterios de calidad  
GPT‑4, Llama‑3 y Mistral  
Coherencia semántica, consistencia interna, trazabilidad y precisión  
técnica  
Fuente: elaboración propia.  
Análisis crítico y comparativo de las Tablas 3, 4 y 5  
La comparación técnica presentada en la Tabla 3 revela diferencias sustanciales entre GPT‑4o, Llama‑3  
y Mistral, que influyen directamente en su desempeño en la generación de artefactos de ingeniería de  
software. GPT‑4o destaca por su combinación de alta calidad promedio, velocidad de generación y una  
ventana de contexto amplia, lo que le permite manejar artefactos extensos y complejos con mayor  
coherencia. Llama‑3, en sus variantes de 70B y 405B, muestra un comportamiento más heterogéneo:  
la versión de 405B alcanza niveles de calidad comparables a GPT‑4, pero con una velocidad  
significativamente menor, mientras que la versión de 70B sacrifica calidad en favor de mayor rapidez.  
Mistral, por su parte, se posiciona como el modelo más eficiente en términos de latencia y velocidad,  
pero su menor calidad promedio limita su utilidad en tareas que requieren precisión técnica y  
consistencia estructural. Esta tabla evidencia que la capacidad de un modelo para generar artefactos  
útiles no depende únicamente de su tamaño, sino de un equilibrio entre arquitectura, entrenamiento y  
optimización.  
La Tabla 4 complementa este análisis al mostrar cómo estas diferencias técnicas se traducen en  
capacidades funcionales. GPT‑4 se posiciona como el modelo más adecuado para tareas complejas  
que requieren razonamiento profundo, coherencia semántica y producción de documentación técnica  
detallada. Llama‑3 presenta un rendimiento sólido en tareas estructuradas, como casos de uso o  
pruebas unitarias, donde la claridad formal es más importante que la profundidad conceptual. Mistral,  
aunque limitado en precisión técnica, resulta útil en escenarios donde la eficiencia computacional y la  
rapidez son prioritarias, como prototipado o generación de código básico. La comparación funcional  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, marzo, 2026, Volumen VII, Número 2 p 179.  
confirma que cada modelo posee un nicho de aplicación específico y que no existe un modelo  
universalmente superior para todas las tareas de ingeniería de software.  
La Tabla 5 introduce una dimensión metodológica que permite contextualizar los resultados obtenidos.  
El enfoque mixto utilizado en el estudio, que combina métricas cuantitativas con validación cualitativa  
experta, ofrece una visión más completa del desempeño de los modelos. La inclusión de artefactos  
diversos, como requisitos, casos de uso y documentación técnica, permite evaluar no solo la capacidad  
de los modelos para generar texto coherente, sino también su habilidad para mantener trazabilidad y  
consistencia entre artefactos relacionados. Esta tabla muestra que la metodología aplicada es  
adecuada para capturar las fortalezas y limitaciones de cada modelo, y que la combinación de análisis  
estructural y revisión experta es esencial para evitar conclusiones basadas únicamente en métricas  
automáticas, las cuales pueden sobreestimar la calidad real de los artefactos generados.  
El análisis conjunto de las tres tablas permite identificar patrones relevantes. GPT‑4 sobresale en  
calidad y consistencia, lo que lo convierte en el modelo más adecuado para tareas críticas de ingeniería  
de software, aunque su eficiencia computacional es menor. Llama‑3 ofrece un equilibrio entre  
rendimiento y estructura, siendo especialmente útil en tareas formales y repetitivas. Mistral, aunque  
menos preciso, aporta ventajas en velocidad y eficiencia, lo que lo hace atractivo para aplicaciones de  
bajo costo o para etapas tempranas del desarrollo. Desde una perspectiva metodológica, los  
resultados confirman que la evaluación de modelos de lenguaje en ingeniería de software debe  
considerar simultáneamente dimensiones técnicas, funcionales y procedimentales, ya que cada una  
aporta información complementaria sobre la utilidad real de los modelos en contextos profesionales.  
En síntesis, las Tablas 3, 4 y 5 muestran que la elección del modelo adecuado depende del tipo de  
artefacto, la complejidad de la tarea y los recursos disponibles. La comparación crítica evidencia que  
GPT‑4 es el más robusto para tareas complejas, Llama‑3 es el más estable para tareas estructuradas  
y Mistral es el más eficiente para aplicaciones rápidas y de bajo costo. Esta diferenciación aporta  
claridad sobre el rol que cada modelo puede desempeñar en la automatización de la ingeniería de  
software y refuerza la necesidad de enfoques metodológicos rigurosos para evaluar su desempeño.  
CONCLUSIÓN  
El análisis comparativo realizado en este estudio demuestra que los modelos de lenguaje de gran  
escala representan un avance significativo para la automatización de artefactos en ingeniería de  
software, pero también evidencia que su desempeño es heterogéneo y depende de la complejidad de  
la tarea, la estructura del artefacto y las capacidades técnicas de cada modelo. Los resultados  
muestran que GPT‑4 es el modelo con mayor solidez global, especialmente en tareas que requieren  
coherencia semántica, precisión técnica y manejo de artefactos extensos. Su rendimiento confirma lo  
señalado en investigaciones previas sobre la superioridad de los modelos de mayor escala en tareas  
de razonamiento y generación estructurada. Llama‑3, por su parte, ofrece un equilibrio entre calidad y  
eficiencia, destacándose en tareas altamente estructuradas como casos de uso y pruebas unitarias,  
donde la claridad formal es más determinante que la profundidad conceptual. Mistral se posiciona  
como una alternativa eficiente y de bajo costo, adecuada para prototipado y generación rápida de  
contenido, aunque sus limitaciones en precisión y consistencia reducen su utilidad en contextos donde  
la trazabilidad y la exactitud son esenciales.  
La comparación funcional y técnica evidencia que no existe un modelo universalmente superior, sino  
que cada uno presenta fortalezas específicas que deben ser consideradas según el tipo de artefacto y  
los requisitos del proceso de desarrollo. Esta conclusión refuerza la importancia de adoptar un enfoque  
selectivo y contextualizado al integrar modelos de lenguaje en la ingeniería de software, evitando su  
uso indiscriminado y reconociendo que su producción requiere supervisión experta para garantizar la  
calidad y la confiabilidad de los artefactos generados. Asimismo, la metodología empleada en este  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, marzo, 2026, Volumen VII, Número 2 p 180.  
estudio que combina métricas cuantitativas con validación cualitativa experta demuestra ser adecuada  
para capturar la complejidad del fenómeno y para ofrecer una evaluación equilibrada que trasciende  
las limitaciones de los análisis puramente automáticos.  
En conjunto, los hallazgos subrayan que los modelos de lenguaje pueden desempeñar un papel valioso  
como herramientas de apoyo en la ingeniería de software, siempre que se utilicen dentro de marcos  
metodológicos rigurosos y bajo supervisión humana. La investigación abre nuevas líneas de trabajo  
orientadas a mejorar la trazabilidad, la consistencia y la alineación con estándares formales, así como  
a explorar la integración de estos modelos en flujos de trabajo híbridos donde la inteligencia artificial  
complementa, pero no reemplaza, el juicio profesional del ingeniero de software.  
RECOMENDACIONES  
Los resultados del estudio permiten formular un conjunto de recomendaciones orientadas a la  
integración responsable y estratégica de modelos de lenguaje en procesos de ingeniería de software.  
Estas recomendaciones se derivan directamente del análisis comparativo de las Tablas 3, 4 y 5, así  
como de la interpretación crítica de los hallazgos empíricos.  
Selección del modelo según el tipo de tarea.  
La elección del modelo debe basarse en la naturaleza del artefacto y en los requisitos del proceso de  
desarrollo. GPT‑4 es la opción más adecuada para tareas que requieren alta coherencia semántica,  
precisión técnica y manejo de estructuras complejas, como especificaciones de requisitos o  
documentación técnica detallada. Llama‑3 resulta más apropiado para tareas altamente estructuradas,  
como casos de uso o pruebas unitarias, donde la claridad formal es prioritaria. Mistral, debido a su  
eficiencia computacional y baja latencia, es recomendable para prototipado rápido, generación de  
código básico o actividades donde la velocidad es más importante que la profundidad conceptual.  
Supervisión humana obligatoria.  
Independientemente del modelo utilizado, los artefactos generados deben ser revisados por ingenieros  
con experiencia. Los patrones de error identificados ambigüedades, inconsistencias internas,  
omisiones y contradicciones pueden comprometer la trazabilidad y la calidad del software si no se  
detectan oportunamente. La supervisión humana es especialmente crítica en artefactos que sirven  
como base para decisiones de diseño o implementación.  
Integración gradual en el flujo de trabajo  
La adopción de modelos de lenguaje debe realizarse de manera progresiva, comenzando por tareas de  
bajo riesgo y aumentando gradualmente la complejidad conforme se validen los resultados. Esta  
estrategia permite identificar limitaciones específicas del modelo en el contexto particular de la  
organización y ajustar los procesos antes de delegar tareas críticas.  
Uso de métricas y validación experta  
La evaluación de los artefactos generados debe combinar métricas cuantitativas como coherencia  
semántica, completitud y adecuación técnica con validación cualitativa por parte de expertos. Este  
enfoque mixto, reflejado en la Tabla 5, evita depender exclusivamente de indicadores automáticos que  
pueden sobreestimar la calidad real del contenido generado.  
Consideración de recursos y costos  
La eficiencia computacional y los costos asociados al uso de cada modelo deben ser considerados en  
la toma de decisiones. GPT‑4 ofrece el mejor rendimiento global, pero requiere más recursos; Llama‑3  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, marzo, 2026, Volumen VII, Número 2 p 181.  
ofrece un equilibrio razonable; y Mistral es la opción más eficiente para escenarios con restricciones  
de infraestructura o presupuesto. La selección debe alinearse con las capacidades técnicas y  
económicas de la organización.  
Desarrollo de guías internas de uso  
Las organizaciones deberían elaborar lineamientos internos que definan cómo, cuándo y para qué  
utilizar modelos de lenguaje en la ingeniería de software. Estas guías deben incluir criterios de  
aceptación, procedimientos de revisión, estándares de calidad y protocolos para la integración de  
artefactos generados automáticamente en el ciclo de vida del software.  
Investigación continua y actualización de modelos  
Dado el ritmo acelerado de evolución de los modelos de lenguaje, es recomendable mantener una  
evaluación continua de nuevas versiones y arquitecturas. La actualización periódica de los modelos  
utilizados puede mejorar la calidad de los artefactos generados y reducir los riesgos asociados a  
limitaciones técnicas de versiones anteriores.  
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, marzo, 2026, Volumen VII, Número 2 p 182.  
REFERENCIAS  
Chen, M., Tworek, J., Jun, H., Yuan, Q., de Oliveira Pinto, H. P., Kaplan, J., Edwards, H., Burda, Y., Joseph,  
N., Brockman, G., Ray, A., Puri, R., Krueger, G., Petrov, M., Khlaaf, H., Sastry, G., Mishkin, P., Chan, B., Gray,  
S.,  
Zaremba, W. (2021). Evaluating large language models trained on code. arXiv.  
Hosseini, S., Turhan, B., & Gunarathna, D. (2017). A systematic literature review and meta-analysis on  
cross-project defect prediction. IEEE Transactions on Software Engineering, 45(2), 111147.  
MacNeil, S., Tran, A., Hellas, A., Kim, J., Sarsa, S., Denny, P., Bernstein, S., & Leinonen, J. (2023).  
Experiences from using code explanations generated by large language models in a web software  
development e-book. In Proceedings of the 54th ACM Technical Symposium on Computer Science  
Education (SIGCSE ’23) (pp. 931937). https://doi.org/10.1145/3545945.3569785  
Ozkaya, I. (2023). Application of large language models to software engineering tasks: Opportunities,  
risks, and implications. IEEE Software, 40(5), 104108. https://doi.org/10.1109/MS.2023.3248401  
Radjenović, D., Heričko, M., Torkar, R., & Živkovič, A. (2013). Software fault prediction metrics: A  
systematic literature review. Information and Software Technology, 55(8), 13971418.  
Wang, S., Liu, T., & Tan, L. (2016). Automatically learning semantic features for defect prediction.  
Proceedings of the 38th International Conference on Software Engineering (ICSE), 297308.  
Todo el contenido de LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, publicados en este  
sitio está disponibles bajo Licencia Creative Commons  
.
LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, Asunción, Paraguay.  
ISSN en línea: 2789-3855, marzo, 2026, Volumen VII, Número 2 p 183.