Evaluación empírica de modelos de lenguaje en la generación automática de artefactos de ingeniería de software
Empirical evaluation of language models in the automatic generation of software engineering artifacts
DOI:
https://doi.org/10.56712/latam.v7i2.5536Palabras clave:
modelos de lenguaje, ingeniería de software, generación automática, artefactos de software, evaluación empírica, inteligencia artificial generativaResumen
Este estudio evalúa empíricamente la capacidad de los modelos de lenguaje de gran escala para generar artefactos formales de ingeniería de software, considerando la creciente incorporación de inteligencia artificial generativa en procesos de desarrollo. El objetivo es analizar la calidad, coherencia y utilidad de los artefactos producidos por GPT‑4, Llama‑3 y Mistral en tareas como la elaboración de requisitos, casos de uso, documentación técnica y pruebas unitarias. La investigación adopta un enfoque cuantitativo y cualitativo, con un diseño comparativo y observacional, en el que se generan artefactos mediante cada modelo y se evalúan mediante métricas de coherencia semántica, completitud, adecuación técnica y trazabilidad, complementadas con validación por expertos. Los resultados muestran que los modelos presentan un desempeño heterogéneo según la tarea: GPT‑4 destaca en coherencia y completitud, Llama‑3 ofrece mayor estabilidad en tareas estructuradas y Mistral presenta limitaciones en precisión técnica. Se identifican patrones de error recurrentes, especialmente en la interpretación de requisitos y en la consistencia interna de los artefactos. Los hallazgos evidencian el potencial de los modelos de lenguaje como herramientas de apoyo, pero también subrayan la necesidad de supervisión humana y de marcos metodológicos que mitiguen riesgos asociados a su uso en entornos profesionales.
Descargas
Citas
Chen, M., Tworek, J., Jun, H., Yuan, Q., de Oliveira Pinto, H. P., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., Ray, A., Puri, R., Krueger, G., Petrov, M., Khlaaf, H., Sastry, G., Mishkin, P., Chan, B., Gray, S., … Zaremba, W. (2021). Evaluating large language models trained on code. arXiv. https://doi.org/10.48550/arXiv.2107.03374
Hosseini, S., Turhan, B., & Gunarathna, D. (2017). A systematic literature review and meta-analysis on cross-project defect prediction. IEEE Transactions on Software Engineering, 45(2), 111–147. https://doi.org/10.1109/TSE.2017.2770124
MacNeil, S., Tran, A., Hellas, A., Kim, J., Sarsa, S., Denny, P., Bernstein, S., & Leinonen, J. (2023). Experiences from using code explanations generated by large language models in a web software development e-book. In Proceedings of the 54th ACM Technical Symposium on Computer Science Education (SIGCSE ’23) (pp. 931–937). https://doi.org/10.1145/3545945.3569785
Ozkaya, I. (2023). Application of large language models to software engineering tasks: Opportunities, risks, and implications. IEEE Software, 40(5), 104–108. https://doi.org/10.1109/MS.2023.3248401
Radjenović, D., Heričko, M., Torkar, R., & Živkovič, A. (2013). Software fault prediction metrics: A systematic literature review. Information and Software Technology, 55(8), 1397–1418. https://doi.org/10.1016/j.infsof.2013.02.009
Wang, S., Liu, T., & Tan, L. (2016). Automatically learning semantic features for defect prediction. Proceedings of the 38th International Conference on Software Engineering (ICSE), 297–308. https://doi.org/10.1145/2884781.2884804
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2026 Maria Teodolinda Ortega Ovalle

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.













