Evaluación empírica de modelos de lenguaje en la generación automática de artefactos de ingeniería de software

Empirical evaluation of language models in the automatic generation of software engineering artifacts

Autores/as

  • Maria Teodolinda Ortega Ovalle Universidad de Panamá

DOI:

https://doi.org/10.56712/latam.v7i2.5536

Palabras clave:

modelos de lenguaje, ingeniería de software, generación automática, artefactos de software, evaluación empírica, inteligencia artificial generativa

Resumen

Este estudio evalúa empíricamente la capacidad de los modelos de lenguaje de gran escala para generar artefactos formales de ingeniería de software, considerando la creciente incorporación de inteligencia artificial generativa en procesos de desarrollo. El objetivo es analizar la calidad, coherencia y utilidad de los artefactos producidos por GPT‑4, Llama‑3 y Mistral en tareas como la elaboración de requisitos, casos de uso, documentación técnica y pruebas unitarias. La investigación adopta un enfoque cuantitativo y cualitativo, con un diseño comparativo y observacional, en el que se generan artefactos mediante cada modelo y se evalúan mediante métricas de coherencia semántica, completitud, adecuación técnica y trazabilidad, complementadas con validación por expertos. Los resultados muestran que los modelos presentan un desempeño heterogéneo según la tarea: GPT‑4 destaca en coherencia y completitud, Llama‑3 ofrece mayor estabilidad en tareas estructuradas y Mistral presenta limitaciones en precisión técnica. Se identifican patrones de error recurrentes, especialmente en la interpretación de requisitos y en la consistencia interna de los artefactos. Los hallazgos evidencian el potencial de los modelos de lenguaje como herramientas de apoyo, pero también subrayan la necesidad de supervisión humana y de marcos metodológicos que mitiguen riesgos asociados a su uso en entornos profesionales.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Maria Teodolinda Ortega Ovalle, Universidad de Panamá

Citas

Chen, M., Tworek, J., Jun, H., Yuan, Q., de Oliveira Pinto, H. P., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., Ray, A., Puri, R., Krueger, G., Petrov, M., Khlaaf, H., Sastry, G., Mishkin, P., Chan, B., Gray, S., … Zaremba, W. (2021). Evaluating large language models trained on code. arXiv. https://doi.org/10.48550/arXiv.2107.03374

Hosseini, S., Turhan, B., & Gunarathna, D. (2017). A systematic literature review and meta-analysis on cross-project defect prediction. IEEE Transactions on Software Engineering, 45(2), 111–147. https://doi.org/10.1109/TSE.2017.2770124

MacNeil, S., Tran, A., Hellas, A., Kim, J., Sarsa, S., Denny, P., Bernstein, S., & Leinonen, J. (2023). Experiences from using code explanations generated by large language models in a web software development e-book. In Proceedings of the 54th ACM Technical Symposium on Computer Science Education (SIGCSE ’23) (pp. 931–937). https://doi.org/10.1145/3545945.3569785

Ozkaya, I. (2023). Application of large language models to software engineering tasks: Opportunities, risks, and implications. IEEE Software, 40(5), 104–108. https://doi.org/10.1109/MS.2023.3248401

Radjenović, D., Heričko, M., Torkar, R., & Živkovič, A. (2013). Software fault prediction metrics: A systematic literature review. Information and Software Technology, 55(8), 1397–1418. https://doi.org/10.1016/j.infsof.2013.02.009

Wang, S., Liu, T., & Tan, L. (2016). Automatically learning semantic features for defect prediction. Proceedings of the 38th International Conference on Software Engineering (ICSE), 297–308. https://doi.org/10.1145/2884781.2884804

Descargas

Publicado

2026-03-18

Cómo citar

Ortega Ovalle, M. T. (2026). Evaluación empírica de modelos de lenguaje en la generación automática de artefactos de ingeniería de software: Empirical evaluation of language models in the automatic generation of software engineering artifacts. LATAM Revista Latinoamericana De Ciencias Sociales Y Humanidades, 7(2), 170 – 183. https://doi.org/10.56712/latam.v7i2.5536

Número

Sección

Ingeniería y sus Tecnologías