Influencia del formato y la complejidad de prompts en calidad de respuestas de modelos generativos

 

Wilmer Orley Zambrano Vera

Jessica Johanna Morales Carrillo

 Escuela Superior Politécnica Agropecuaria

de Manabí Manuel Félix López, ESPAM

 wilmer_zambrano_mdw@espam.edu.ec

jmorales@espam.edu.ec

Calceta, Ecuador

 

DOI: https://doi.org/10.56124/encriptar.v8i16.011

 

 

Resumen

 

El objetivo de la investigación fue analizar el impacto y la complejidad del los prompts en calidad de respuestas generadas por modelo de lenguaje generativo (MLG), también conocido como Large Language Model (LLM), empleando a DeepSeek-R1 como caso de prueba. Para ello se diseñaron 90 prompts, los mismos que se distribuyeron en tres formatos: declarativo, interrogativo y estructurado, y tres niveles de complejidad: sencillo, moderado y complejo, aplicados a preguntas de cultura general y objetos comunes respectivamente. Las respuestas fueron evaluadas a través de una rúbrica en escala Likert (1–5), por tres expertos en tecnologías del lenguaje, considerando aspectos como: precisión, coherencia y relevancia, complementada con métricas automáticas de: ROUGE, BLEU y BERTScore. Los resultados evidenciaron que los prompts estructurados generaron respuestas mucho más precisas, coherentes y relevantes que los formatos declarativo e interrogativo. En cambio, en la complejidad, los prompts moderados y complejos mostraron mejores resultados que aquellos que eran sencillos en coherencia y contenido semántico, pero no en precisión léxica. Se realizaron pruebas estadísticas de ANOVA y post hoc de Tukey que revelaron contrastes relevantes en gran parte de los criterios. Entre los errores hubo problemas de respuestas con sobreajuste provocado por prompts muy detallados y otros por prompts declarativos, por otro lado, los prompts estructurados mostraron mejores respuestas. Estos resultados ponen de manifiesto la importancia que tienen la optimización de los prompts como una variable critica que determina la calidad obtenida en las respuestas.

 

            Palabras clave: Inteligencia artificial, Tecnologías de la información, Aprendizaje en línea, Cognición.

 

Influence of prompt format and complexity on the quality of responses from generative models

 

ABSTRACT

 

The objective of the research was to analyze the impact and complexity of prompts on the quality of responses generated by a generative language model (GLM), also known as a Large Language Model (LLM), using DeepSeek-R1 as a case study. For this purpose, 90 prompts were designed and distributed across three formats—declarative, interrogative, and structured—and three levels of complexity: simple, moderate, and complex, applied respectively to general knowledge questions and common objects. The responses were evaluated using a Likert scale (1–5) rubric by three experts in language technologies, considering aspects such as accuracy, coherence, and relevance, complemented with automatic metrics including ROUGE, BLEU, and BERTScore. The results showed that structured prompts generated responses that were significantly more accurate, coherent, and relevant than declarative and interrogative formats. In terms of complexity, moderate and complex prompts yielded better results than simple ones in coherence and semantic content, but not in lexical precision. Statistical tests including ANOVA and Tukey’s post hoc analysis revealed significant contrasts in many of the criteria. Among the errors, some responses presented overfitting issues caused by overly detailed prompts, while others were linked to declarative prompts; on the other hand, structured prompts produced more consistent answers. These findings highlight the importance of prompt optimization as a critical variable determining the quality of generated responses.

 

            Keywords: Artificial intelligence, Information technology, Online learning, Cognition.

 

 

 

1. Introducción

Los modelos de lenguaje generativo (MLG), o Large Language Models (LLM), son herramientas cada vez más indispensables en diversas áreas, mostrando una gran eficacia en la obtención de resultados. Brown et al. (2020) enfatizaron su importancia en tareas que necesitan generar texto relevante y coherente a través de instrucciones humanas. La eficiencia de estos modelos está ligada a la forma en que se diseñan estas instrucciones, lo que ha generado un creciente interés por comprender la influencia del prompt en la calidad de las respuestas.

Un aspecto clave en la interacción con modelos de lenguaje es el formato del prompt. Arora et al. (2022) destacaron la importancia de formatos como el declarativo, interrogativo y estructurado para mejorar la coherencia y relevancia de las respuestas. Lee et al. (2024) y Wei et al. (2022) afirman que una correcta estructuración, como el encadenamiento de razonamiento en ingles Chain-of-Thought, puede optimizar la generación de datos y mejorar las respuestas, incluso en tareas complejas de inferencia.

La interacción entre el usuario y el MLG, así como la calidad de las respuestas, depende directamente del diseño de los prompts. Según Cheng et al. (2024), los prompts actúan como puente que traduce intenciones cognitivas en instrucciones comprensibles; si están mal estructurados pueden generar ambigüedades en la producción textual. Zhou et al. (2022) sostienen que en tareas de razonamiento multietapa son necesarios factores como claridad, especificidad y secuencialidad. Así, el diseño del prompt se infiere como un mecanismo estratégico de comunicación en el ecosistema humano- Inteligencia Artificial (IA) y no solo como entrada técnica.

Asimismo, el diseño de prompts influye en tareas especializadas como resolución de problemas matemáticos, preguntas de dominio o resúmenes. L. Wang et al. (2023) demostraron que prompts estructurados logran mayor precisión semántica que los genéricos en resúmenes legales. Según B. Wang et al. (2022), una mejor formulación posibilita respuestas adaptadas, con adecuada interpretación. Así, las variaciones en formato y complejidad del prompt pueden alterar significativamente los procesos del MLG, incluso en arquitecturas robustas.

Cuando se evalúan estos MLG en lenguajes diferentes al anglosajón son susceptibles a inconsistencias en su resolución de respuestas. Investigaciones como las de Moraes et al. (2024) afirman que las ambigüedades morfológicas tienden a presentarse con más frecuencia en el lenguaje español que en el inglés, lo cual influye directamente en su coherencia contextual. Tepe et al. (2024) expresan una crítica por el poco grado de atención que se brinda a modelos multilingües no anglocéntricos como lo es DeepSeek-R1, que, si bien es cierto está entrenado en lenguaje asiático, con una evaluación adecuada puede aportar ventajas significativas en tareas multilingües.

El uso de métricas como ROUGE y BLEU es una limitación frecuente, ya que no bastan para evaluar respuestas complejas. Newman et al. (2020) señalan que estas métricas tienden a favorecer coincidencias superficiales sobre el contenido semántico. Sattele et al. (2023) advierten que pueden dar puntuaciones bajas a respuestas creativas pero válidas. Para una mejor evaluación automática, se propone incorporar BERTScore, que permite una valoración más sensible al significado mediante comparaciones semánticas con representaciones contextuales (Zhang et al., 2020).

Esta investigación aborda ese vacío y, a diferencia de estudios previos con GPT-3 y GPT-4, toma como objeto de análisis al modelo generativo DeepSeek-R1, desarrollado en 2025. Se eligió por tres razones: (1) su arquitectura Transformer multilingüe que incluye español, favoreciendo su desempeño en contextos hispanohablantes; (2) su apertura y accesibilidad técnica, que facilita la reproductibilidad científica y la auditoría; (3) la ausencia de estudios prácticos sobre el efecto de variaciones en prompts sobre la calidad de respuestas. Este trabajo contrasta hallazgos previos en un entorno distinto con un modelo poco documentado, aportando una contribución original al estudio de modelos abiertos.

Con este objetivo, se aplicó una metodología mixta que combinó una evaluación manual, mediante una rúbrica semántica en escala de Likert, con una evaluación automática que usó las métricas de: ROUGE, BLEU y BERTScore. Se diseñó un conjunto balanceado de prompts, aplicados a 20 preguntas de cultura general y 10 objetos comunes, seleccionados por criterios de neutralidad cultural. Esto permitió analizar el desempeño general del MLG e identificar casos de éxito, errores frecuentes y sesgos lingüísticos.

El propósito principal del presente estudio es definir directrices mucho más sólidas para el diseño de prompts en español, encaminados a mejorar la precisión, coherencia y relevancia de las respuestas generadas por MLG. Con esta investigación se espera contribuir a futuras investigaciones sobre prompting multilingüe y sirvan como guía práctica en contextos educativos, comunicativos y tecnológicos hispanohablantes.

 

2. Metodología

En este estudio se empleó un diseño experimentar mixto el cual combinó un análisis cuantitativo y cualitativo que permitieron evaluar el impacto que tenía el formato y la complejidad del prompt en la calidad de respuestas generadas por el MLG DeepSeek-R1. Se elaboró un conjunto de 90 prompts distribuidos en dos dimensiones independientes las cuales eran, por un lado, él (1) formato prompts y por el otro él (2) nivel de complejidad. En ambos casos, se utilizaron contenidos neutros para minimizar sesgos temáticos, culturales o ideológicos.

 

2.1 Dimensión 1: Formato del prompt

Esta primera dimensión comprendía 20 preguntas de cultura general, elegidas por su presencia habitual en contextos educativos y por su neutralidad temática, las mismas que fueron desarrolladas en base a contenidos presentes en instructivos y simulacros vinculados al Examen Ser Bachiller del INEVAL (Ministerio de Educación del Ecuador/INEVAL, 2024), así como en evaluaciones estandarizadas aplicadas en la región andina (ICFES, 2020), con la finalidad de garantizar su relevancia y representatividad.

 A cada pregunta se le aplicaron tres formatos de prompt: declarativo, interrogativo y estructurado, lo que dio lugar a un total de 60 prompts, además cada prompt fue evaluado por medio de tres iteraciones, esto quiere decir, que se generaron tres diferentes respuestas para cada uno de los prompts, lo que dio un total de 180 respuestas en esta dimensión. Para poder captar posibles fluctuaciones del MLG estas iteraciones se ejecutaron en diferentes momentos del día.

 

2.2 Dimensión 2: Complejidad del prompt

Aquí se abordó el nivel de complejidad del prompt partiendo de las descripciones de 10 objetos comunes: silla, reloj, bolígrafo, espejo, mesa, lámpara, zapatos, gafas, llave y camisa, las cuales fueron recompiladas por su alta frecuencia de aparición en tareas de procesamiento de lenguaje natural, particularmente aquellas que se dan en el razonamiento basado en objetos y en la clasificación semántica (Gonen et al., 2023). Para estos objetos se priorizó su familiaridad en diferentes contextos lingüísticos y su baja carga cultural.

A cada objeto se le diseñaron tres niveles de complejidad: sencillo, moderado y complejo, dando un total de 30 prompts, a los cuales solo se le generó una respuesta por prompt, esta única iteración se realizó para evitar redundancias semánticas y controlar el volumen total de datos. En conjunto, el corpus de análisis final estuvo compuesto por 210 respuestas.

 

2.3 Evaluación de las respuestas

Cada una de las respuestas fueron evaluadas mediante dos criterios complementarios:

-       Evaluación automática: Para esta evaluación se emplearon las métricas de: ROUGE que mide la coherencia, BLEU la precisión léxica y BERTScore-F1 su similaridad semántica contextual, las mismas que fueron calculadas con relación a una respuesta de referencia redactada manualmente para cada prompt.

-       Evaluación manual: En esta etapa se aplicó una rúbrica semántica con escala Likert (1–5) para tres criterios: precisión, coherencia y relevancia, empleada por tres evaluadores independiente, expertos en lingüística computacional y tecnologías del lenguaje. Se consideró el cálculo de tres indicadores para validar la calidad de la evaluación: en primer lugar, el coeficiente de alfa de Cronbach que obtuvo α = 0.85, lo cual demostró una alta consistencia de la rúbrica, en segundo lugar, la confiabilidad interevaluador, determinada mediante el coeficiente de correlación intraclase que dio ICC = 0.84 y por último el índice de concordancia de Kendall con W = 0.74. Estos valores fueron un indicativo de la alta fiabilidad entre evaluadores y garantizaron la estabilidad en los juicios humanos a lo largo del corpus evaluado.

-        

2.4 Control de sesgos y análisis cualitativo

Para controlar la aparición de sesgos temáticos o de dominio se verificó que las preguntas de cultura general no estuvieran relacionadas con los objetos empleados en la dimensión de complejidad. Asimismo, se mantuvo una distribución balanceada de prompts en ambos criterios. Este control fue complementado con análisis cualitativos y estadísticos que permitieron identificar errores frecuentes y patrones atípicos en las respuestas.

En cuanto al control de sesgos culturales y lingüísticos, se observó que las preguntas de cultura general mantuvieron un equilibrio temático al no favorecer contenidos propios de un país específico, lo que evitó sesgos de localización geográfica. No obstante, se identificó que en prompts declarativos formulados en español surgieron ambigüedades morfológicas que afectaron la coherencia de las respuestas, mientras que en inglés el modelo mostró mayor estabilidad léxica.

Estas diferencias se evidencian en los análisis cualitativos (sección 3.4), donde se reportan respuestas más vagas en español ante instrucciones poco estructuradas. En contraste, el uso de prompts estructurados redujo considerablemente dichas inconsistencias, lo que sugiere que un adecuado diseño de instrucciones puede mitigar los sesgos lingüísticos y culturales en MLG multilingües.

 

3. Resultados

 

3.1 Diseño de prompts experimentales

Para este diseño experimental se elaboraron un conjunto de 90 prompts realizados de forma sistemática, los cuales fueron distribuidos de acuerdo a dos dimensiones: formato y nivel de complejidad. El diseño de los prompts se realizó en función de principios de control semántico, variación estructural y claridad. Con lo cual se busca provocar distintos niveles de carga cognitiva que permitan obtener respuestas variadas.

Se inició con la elaboración de los 60 prompts partiendo de 20 preguntas de cultura general los cuales se aplicaron a tres formatos: declarativo, interrogativo y estructurado. Cada formato tiene un nivel diferente de guía, desde preguntas abiertas hasta instrucciones paso a paso. La Tabla 1 muestra un ejemplo aplicado a una pregunta representativa:

 

Tabla 1. Ejemplo de prompts por formato aplicado a una pregunta de cultura general.

Pregunta de Cultura General

Tipo de Formato

Descripción Técnica del Prompt

Prompts Aplicado

¿Cuál es la capital de Ecuador?

Declarativo

Solicita una descripción o explicación directa sobre un tema.

Describe la capital de Ecuador.

Interrogativo

Plantea una pregunta directa para obtener una respuesta específica.

¿Qué ciudad es la capital de Ecuador?

Estructurado

Divide la solicitud en componentes específicos para guiar la respuesta.

"Identifica [Ecuador] | Menciona su capital | Proporciona información adicional relevante."

Fuente: Los autores (2025).

 

Seguidamente, se elaboraron 30 prompts los mismos que se aplicaron a 10 objetos comunes, con la finalidad de determinar el efecto de los niveles de complejidad de los prompts en la calidad de las respuestas. Para cada uno de estos objetos se emplearon tres criterios de complejidad: sencillo, moderado y complejo. La Tabla 2 muestra un ejemplo con el objeto “silla”:

 

Tabla 2. Ejemplo de prompts por nivel de complejidad aplicado al objeto “silla”.

Tipo de Formato

Descripción Técnica del Prompt

Prompts Aplicado

Sencillo

Solicita una descripción básica del objeto sin incluir detalles adicionales.

Describe qué es una silla.

Moderado

Requiere una explicación más detallada, incluyendo usos comunes y características generales.

Explica los usos comunes de una silla y los materiales de los que suele estar hecha.

Complejo

Propone un análisis profundo, abarcando aspectos históricos, técnicos o de diseño.

Analiza la evolución del diseño de sillas a lo largo del tiempo, centrándote en cómo la ergonomía y los materiales han influido en las sillas modernas.

Fuente: Los autores (2025).

 

Gracias a este enfoque experimental, se pudo observar como el formato y el nivel de complejidad afectan directamente la calidad de los resultados generados por el MLG. Fue posible asegurar una apropiada diferenciación de las categorías de los prompts dado que se contaba con expertos en evaluación de lenguaje natural, lo cual contribuyó a la validez interna del estudio.

 

3.2 Impacto del formato del prompt

Para analizar el efecto del formato del prompt en la calidad de las respuestas, se evaluaron tres formatos (declarativo, interrogativo y estructurado) en función de tres criterios: precisión, coherencia y relevancia. La Tabla 3 resume los promedios obtenidos a partir de las evaluaciones manuales de los tres expertos.

 

Tabla 3. Promedios de evaluación manual por formato de prompt.

Formato de Prompt

Precisión

Coherencia

Relevancia

Declarativo

4.40

3.72

4.05

Interrogativo

4.52

3.80

4.85

Estructurado

5.00

4.82

4.95

Fuente: Los autores (2025).

 

Se analizo las diferencias entre formatos para determinar si eran estadísticamente significativas mediante un ANOVA de una vía para cada variable. Los resultados mostraron diferencias significativas entre los tres formatos en los criterios de precisión, coherencia y relevancia (ANOVA, p < 0.001). El formato estructurado obtuvo consistentemente los puntajes más altos, seguido del interrogativo, mientras que el declarativo alcanzó los valores más bajos. En precisión y relevancia no se encontraron diferencias entre el formato interrogativo y el estructurado, pero ambos superaron al declarativo.

 

 

3.3 Impacto de la complejidad del prompt

De igual manera para medir el impacto en la dificultad del prompt en la precisión de las respuestas generadas del MLG, se analizaron tres niveles: sencillo, moderado y complejo, aplicando métricas automáticas de evaluación: ROUGE (coherencia), BLEU (precisión léxica) y BERTScore-F1 (similaridad semántica). La Tabla 4 resume los valores promedio obtenidos.

 

Tabla 4. Promedios de métricas automáticas por nivel de complejidad del prompt.

Nivel de Complejidad

ROUGE %

BLEU %

BERTScore-F1 %

Sencillo

32

22

76

Moderado

44

29

78

Complejo

40

28

76

Fuente: Los autores (2025).

 

En cuanto al nivel de complejidad, el ANOVA evidenció diferencias significativas en coherencia (ROUGE) y similaridad semántica (BERTScore, p < 0.05). Los prompts moderados y complejos presentaron un desempeño superior a los sencillos, aunque no se observaron diferencias relevantes entre moderados y complejos. En precisión léxica (BLEU), las diferencias no fueron significativas, lo que indica que la complejidad no influyó de manera notable en este criterio.

 

3.4 Análisis de errores y respuestas atípicas

Durante la revisión cualitativa de las respuestas generadas por el modelo se pudo apreciar ciertos patrones repetitivos de errores. Para empezar, en los prompts de formato declarativo especialmente las preguntas generales o abiertas, muchas respuestas adolecían de ambigüedad semántica, contenían repeticiones u ofrecían definiciones poco claras, influyendo de forma negativa en las puntuaciones de coherencia y relevancia, también se observaron respuestas que eludían el foco principal de la pregunta, sugiriendo limitaciones en la capacidad del modelo para inferir intención cuando el prompt carece de estructura.

Además de lo anterior mencionado, también se pudo apreciar que los prompts estructurados con complejidad moderada produjeron respuestas más precisas y coherentes, aunque en algunos casos resultaron demasiado técnicas o detalladas para usuarios no especializados.

En este punto se identificaron 4 respuestas atípicas con rendimientos relevantemente inferiores a los demás, todas generadas por prompts declarativos aplicados a preguntas de cultura general de carácter abstracto o general, en estos casos, el modelo tendió a ofrecer definiciones ambiguas, poco estructuradas o con un tono excesivamente vago que escapaba al propósito educativo del prompt.

Como contrapunto, los prompts estructurados sobre objetos comunes produjeron 6 respuestas sobresalientes (puntuación perfecta en todos los aspectos), distinguidas por su claridad meridiana, pertinencia contextual y ajuste perfecto a la intención original.

En estos casos de polaridad, tanto si eran negativos como si eran positivos el modelo se mostró sensible al diseño del prompt. Con lo cual se puede sugerir que cuando se equilibra una estructura clara y complejidad moderada, el sistema alcanza su máximo potencial generativo.

 

3.5 Discusión

Los hallazgos obtenidos permitieron evidenciar que tanto los prompts de formato como los de complejidad del prompt, influyen significativamente en la calidad de las respuestas generadas por DeepSeek-R1. En lo que respecta al formato los prompts estructurados mostraron tener respuestas más precisas, coherentes y relevantes, que coincide con los estudios de Wei et al. (2022), quienes expresan que las instrucciones que están segmentadas facilitan la comprensión del MLG en tareas complejas. Este efecto también fue reportado por White et al. (2023), que señalaron que los prompts con delimitadores explícitos mejoran la alineación semántica y reducen la ambigüedad.

El formato declarativo fue inferior en coherencia y precisión al interrogativo, mientras que el formato estructurado demostró ser significativamente más efectivo que ambos. Esto respalda lo expuesto por Arora et al. (2022) y D. Lee y Palmer (2025) que destacan que, para una mejor interpretación del modelo se deben suministrar preguntas directas en vez de preguntas formuladas de forma poco claras. La diferencia más relevante se obtuvo en el criterio de relevancia (p < 0.0001, η2 = 0.152), sugiriendo que el tipo de instrucción no solo afecta la exactitud sino también la pertinencia de la información proporcionada.

En cuanto a la complejidad del prompt, el nivel moderado y complejo obtuvieron los mejores resultados en lo que respecta a coherencia y similaridad semántica (ROUGE y BERTScore-F1); sin embargo, no fueron buenos en precisión léxica (BLEU). Estas pautas se correlacionan con estudios realizados por de J. Mu et al., 2023) y Gonen et al. (2023), quienes demostraron que los prompts con mayor complejidad estimulan procesos de inferencia y razonamiento contextualizado. En contraste, BLEU no captó variaciones significativas, tal como advierten Sattele et al. (2023), que expresan que existen obstáculos para medir bien la calidad semántica en procesos generativos.

Estos hallazgos fueron confirmados por el análisis cualitativo, los cuales mostraron que de los prompts declarativos se obtenían respuestas vagas, no obstante, los prompts estructurados daban una mayor claridad y especificidad en las respuestas. Sin embargo, se identificaron casos de sobreajuste semántico en prompts excesivamente detallados, tal como lo advierten Zhao et al. (2021). Finalmente, los hallazgos de Lin (2024) respaldan que los prompts con instrucciones claras y componentes segmentados activan de manera más eficiente las rutas de inferencia del modelo.

Desde un punto de vista metodológico, los resultados dejan clara la necesidad de un análisis en varias dimensiones de calidad textual al mismo tiempo. Estudios recientes como los de Patel et al. (2023) revelan que al usar estrategias de prompting unidimensionales se suele pasar por alto elementos clave como la coherencia discursiva y la adecuación al contexto. Al realizar la integración de métricas automáticas con evaluaciones humanas, este estudio logró una triangulación robusta, tal como sugieren Lu et al. (2024).

Además, la forma en que DeepSeek-R1 responde a instrucciones detalladas indica que, al igual que otros modelos avanzados como Claude o GPT-4, se ve favorecido por una preparación cognitiva previa. Esto se ve respaldado en investigaciones como la de Brown et al. (2020), que demostraron que prompts con instrucciones claras y bien estructuradas mejoran de forma relevante la precisión semántica y la coherencia en modelos generativos de lenguaje.

En términos cognitivos, los prompts bien diseñados pueden funcionar como apoyos instruccionales, reduciendo de esta manera la ambigüedad y dirigiendo la atención del MLG a aspectos más relevante. Esta hipótesis guarda relación con lo que se expone en investigaciones como las de Mischler et al. (2024), los cuales estudian como las representaciones semánticas en el MLG evolucionan a lo largo de sus capas jerárquicas y se alinean con los patrones de activación del cerebro humano.

En la parte teórica, estos hallazgos contribuyen a una comprensión del prompting como un mecanismo de interacción cognitiva entre los usuarios humanos y el MLG. Esto coincide con lo que dicen autores como Beurer-Kellner et al. (2023), que consideran el prompt como una especie de codificación funcional que dirige el comportamiento del modelo de manera análoga a una programación blanda.

Otro aspecto a tomar en consideración de los resultados obtenidos en este estudio, es que pueden ser aplicados al diseño de sistemas conversacionales que se adapten de manera dinámica a diferentes usuarios. Según lo que afirman autores como Swamy et al. (2023), el incorporar estrategias de prompting dinámico hacen que los MLG rindan mejor en tareas de resolución de ambigüedades y seguimiento de contexto. Esto pone de relieve el valor del diseño instruccional no solo para mejorar la precisión de las respuestas, sino también para fomentar interacciones más sostenidas en sistemas de IA conversacional.

Una limitación del presente estudio radica en que se evaluó exclusivamente al modelo DeepSeek-R1, lo que restringe la generalización de los hallazgos. Sin embargo, la elección de este modelo se fundamentó en su carácter multilingüe y su accesibilidad técnica, que lo convierten en un objeto de análisis relevante en contextos hispanohablantes.

Es importante señalar que investigaciones previas han reportado efectos similares del formato y la complejidad de los prompts en otros modelos de referencia como GPT-3, GPT-4 o Claude (Wei et al., 2022; White et al., 2023; Lin, 2024), lo que sugiere que las tendencias observadas no son exclusivas de DeepSeek-R1. No obstante, futuros trabajos deberían ampliar esta línea de investigación mediante comparaciones experimentales directas entre múltiples LLM, a fin de consolidar y contrastar los patrones identificados en el presente estudio.

Las implicaciones éticas son otro punto relevante a considerar en cuanto a lo que estas prácticas pueden suscitar. Estudios realizados por Feyza et al. (2022) dan alertas sobre los riesgos que pueden generar respuestas sesgadas al modificar el comportamiento del modelo generativo mediante del diseño de prompts, sobre todo cuando no se cuenta con mecanismos de monitoreo y control adecuados. Por todo lo expresado se vuelve indispensable complementar las buenas prácticas de prompting con lineamientos éticos y transparencia sobre el propósito y el tipo de interacción que se busca lograr.

En su conjunto la investigación realizada respalda la idea de que un adecuado diseño de los prompts influye de una forma decisiva en la calidad de las respuestas generadas. Así como hace una contribución para la definición de prácticas recomendadas para diseñar instrucciones dirigida a MLG, aplicables en entornos educativos, comunicativos y científicos.

 

4. Conclusiones

Los estudios realizados en el MLG DeepSeek-R1 revelaron que la calidad de las respuestas generadas está influenciada de manera decisiva por el diseño del prompt, especialmente en lo que respecta a su formato y nivel de complejidad. Las evaluaciones mostraron que los prompts estructurados y con un nivel de complejidad moderada favorecen respuestas más precisas, coherentes y relevantes. En contraste, los prompts declarativos, al no ofrecer una orientación clara, tendieron a generar respuestas ambiguas o poco enfocadas, particularmente en preguntas abstractas o generales.

En cuanto a la complejidad, se observó que los prompts intermedios o complejos activan de mejor manera las capacidades de razonamiento semántico del modelo. Sin embargo, los excesivamente detallados pueden producir sobreajuste, lo que resalta la necesidad de mantener un equilibrio entre claridad, accesibilidad y profundidad de la instrucción.

La integración de evaluaciones manuales, métricas automáticas y análisis estadístico permitió validar los resultados con robustez y detectar patrones de error frecuentes. Esto proporciona insumos valiosos tanto para la investigación académica como para el diseño de aplicaciones educativas, informativas y tecnológicas basadas en MLG.

Limitaciones del estudio: los hallazgos deben interpretarse con cautela por ciertas restricciones metodológicas. En primer lugar, se utilizó un único modelo (DeepSeek-R1), lo que limita la generalización a otros LLM. En segundo lugar, aunque el corpus fue balanceado, su tamaño y carácter experimental reducen la escalabilidad hacia contextos más amplios. Finalmente, se identificaron sesgos lingüísticos asociados al español frente al inglés, que pueden afectar la coherencia y precisión de las respuestas. Estas limitaciones abren líneas de trabajo futuro orientadas a comparar múltiples modelos, distintos idiomas y entornos de aplicación.

 

5. Referencias

Arora, S., Narayan, A., Chen, M., Orr, L., Guha, N., Bhatia, K., Chami, I., & Ré, C. (2022). Ask Me Anything: A simple strategy for prompting language models. 11th International Conference on Learning Representations, ICLR 2023. https://doi.org/https://doi.org/10.48550/arXiv.2210.02441

Beurer-Kellner, L., Fischer, M., & Vechev, M. (2023). Prompting Is Programming: A Query Language for Large Language Models. Proceedings of the ACM on Programming Languages, 7. https://doi.org/10.1145/3591300;TAXONOMY:TAXONOMY:ACM-PUBTYPE;PAGEGROUP:STRING:PUBLICATION

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., … Amodei, D. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 2020-December. https://doi.org/https://doi.org/10.48550/arXiv.2005.14165

Cheng, K., Ahmed, N. K., Willke, T. L., & Sun, Y. (2024). Structure Guided Prompt: Instructing Large Language Model in Multi-Step Reasoning by Exploring Graph Structure of the Text. Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, 9407–9430. https://doi.org/10.18653/V1/2024.EMNLP-MAIN.528

Feyza, A., Muhammed, A., Kocyigit, Y., Paik, S., & Wijaya, D. (2022). Challenges in Measuring Bias via Open-Ended Language Generation. Proceedings of the 4th Workshop on Gender Bias in Natural Language Processing (GeBNLP), Parte de Las Conferencias de La ACL, 76–76. https://doi.org/10.18653/v1/2022.gebnlp-1.9

Gonen, H., Iyer, S., Blevins, T., Smith, N. A., & Zettlemoyer, L. (2023). Demystifying Prompts in Language Models via Perplexity Estimation. Findings of the Association for Computational Linguistics: EMNLP 2023, 10136–10148. https://doi.org/10.18653/V1/2023.FINDINGS-EMNLP.679

ICFES. (2020). Informe nacional de resultados Saber 11: Educación media en Colombia. Instituto Colombiano para la Evaluación de la Educación. https://www.icfes.gov.co

Lee, D., & Palmer, E. (2025). Prompt engineering in higher education: a systematic review to help inform curricula. International Journal of Educational Technology in Higher Education, 22(1), 1–22. https://doi.org/10.1186/S41239-025-00503-7/TABLES/6

Lee, S. Y. Te, Bahukhandi, A., Liu, D., & Ma, K. L. (2024). Towards Dataset-scale and Feature-oriented Evaluation of Text Summarization in Large Language Model Prompts. IEEE Transactions on Visualization and Computer Graphics. https://doi.org/10.1109/TVCG.2024.3456398

Lin, Z. (2024). Prompt Engineering for Applied Linguistics: Elements, Examples, Techniques, and Strategies. English Language Teaching, 17(9), p14. https://doi.org/10.5539/ELT.V17N9P14

Lu, Q., Qiu, B., Ding, L., Zhang ♠, K., Kocmi, T., & Tao, D. (2024). Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models. Findings of the Association for Computational Linguistics ACL 2024, 8801–8816. https://doi.org/10.18653/V1/2024.FINDINGS-ACL.520

Mischler, G., Li, Y. A., Bickel, S., Mehta, A. D., & Mesgarani, N. (2024). Contextual feature extraction hierarchies converge in large language models and the brain. Nature Machine Intelligence 2024 6:12, 6(12), 1467–1477. https://doi.org/10.1038/s42256-024-00925-4

Ministerio de Educación del Ecuador/INEVAL. (2024). Instructivos de pruebas y pruebas modelo para bachillerato. Quito: Ministerio de Educación del Ecuador. https://educacion.gob.ec/instructivos-de-pruebas-y-pruebas-modelo/

Moraes, L. de C., Silvério, I. C., Marques, R. A. S., Anaia, B. de C., de Paula, D. F., de Faria, M. C. S., Cleveston, I., Correia, A. de S., & Freitag, R. M. K. (2024). Análise de ambiguidade linguística em modelos de linguagem de grande escala (LLMs). https://doi.org/https://doi.org/10.48550/arXiv.2404.16653

Mu, J., Li, X. L., & Goodman, N. (2023). Learning to Compress Prompts with Gist Tokens. Advances in Neural Information Processing Systems, 36. https://doi.org/https://doi.org/10.48550/arXiv.2304.08467

Newman, B., Cohn-Gordon, R., & Potts, C. (2020). Communication-based Evaluation for Natural Language Generation (G. J. J. P. Allyson Ettinger, Ed.; pp. 116–126). Association for Computational Linguistics. https://aclanthology.org/2020.scil-1.16/

Patel, D., Kadbhane, S., Sameed, M., Chandorkar, A., & Rumale, A. S. (2023). Prompt Engineering Using Artificial Intelligence. IJARCCE, 12(10). https://doi.org/10.17148/IJARCCE.2023.121018

Sattele, V., Reyes, M., & Fonseca, A. (2023). La Inteligencia Artificial Generativa en el Proceso Creativo y en el Desarrollo de Conceptos de Diseño. UMÁTICA. Revista Sobre Creación y Análisis de La Imagen, 6, 53–73. https://doi.org/10.24310/UMATICA.2023.V5I6.17153

Swamy, S., Tabari, N., Chen, C., & Gangadharaiah, R. (2023). Contextual Dynamic Prompting for Response Generation in Task-oriented Dialog Systems. EACL 2023 - 17th Conference of the European Chapter of the Association for Computational Linguistics, Proceedings of the Conference, 3102–3111. https://doi.org/10.18653/V1/2023.EACL-MAIN.226

Tepe, M., Emekli, E., Tepe, M., & Emekli, E. (2024). Assessing the Responses of Large Language Models (ChatGPT-4, Gemini, and Microsoft Copilot) to Frequently Asked Questions in Breast Imaging: A Study on Readability and Accuracy. Cureus, 16(5). https://doi.org/10.7759/CUREUS.59960

Wang, B., Min, S., Deng, X., Shen, J., Wu, Y., Zettlemoyer, L., & Sun, H. (2022). Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters. Proceedings of the Annual Meeting of the Association for Computational Linguistics, 1, 2717–2739. https://doi.org/10.18653/v1/2023.acl-long.153

Wang, L., Xu, W., Lan, Y., Hu, Z., Lan, Y., Lee, R. K. W., & Lim, E. P. (2023). Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models. Proceedings of the Annual Meeting of the Association for Computational Linguistics, 1, 2609–2634. https://doi.org/10.18653/v1/2023.acl-long.147

Wei, J., Wang, X., Schuurmans, D., Bosma, M., ichter, brian, Xia, F., Chi, E. H., Le, Q. V, & Zhou, D. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. Advances in Neural Information Processing Systems, 35. https://doi.org/https://doi.org/10.48550/arXiv.2201.11903

White, J., Fu, Q., Hays, S., Sandborn, M., Olea, C., Gilbert, H., Elnashar, A., Spencer-Smith, J., & Schmidt, D. C. (2023). A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT. Proceedings of the 30th Conference on Pattern Languages of Programs. https://arxiv.org/pdf/2302.11382

Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., & Artzi, Y. (2020). BERTScore: Evaluating Text Generation with BERT. 8th International Conference on Learning Representations, ICLR 2020. https://doi.org/https://doi.org/10.48550/arXiv.1904.09675

Zhao, T. Z., Wallace, E., Feng, S., Klein, D., & Singh, S. (2021). Calibrate Before Use: Improving Few-Shot Performance of Language Models. Proceedings of Machine Learning Research, 139, 12697–12706. https://doi.org/https://doi.org/10.48550/arXiv.2102.09690

Zhou, D., Schärli, N., Hou, L., Wei, J., Scales, N., Wang, X., Schuurmans, D., Cui, C., Bousquet, O., Le, Q., & Chi, E. (2022). Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. 11th International Conference on Learning Representations, ICLR 2023. https://doi.org/https://doi.org/10.48550/arXiv.2205.10625