Redes generativas para balanceo de datos en imágenes agrícolas: una revisión sistemática de la literatura

Luis Jesús Montesdeoca Espinoza

luis.montesdeoca.41@espam.edu.ec

Escuela Superior Politécnica Agropecuaria

de Manabí Manuel Félix López

Calceta, Ecuador

 

Stalin Joel Zambrano Rojas

stalin.zambrano@espam.edu.ec

Escuela Superior Politécnica Agropecuaria

de Manabí Manuel Félix López

Calceta, Ecuador

 

Victor Joel Pinargote-Bravo

vpinargote@espam.edu.ec

Escuela Superior Politécnica Agropecuaria

de Manabí Manuel Félix López

Calceta, Ecuador

 

Luis Cedeño-Valarezo

lcedeno@espam.edu.ec

Escuela Superior Politécnica Agropecuaria

de Manabí Manuel Félix López

Calceta, Ecuador

 

 

 

DOI: https://doi.org/10.56124/encriptar.v8i16.008

 

 

Resumen

El desbalance de clases en conjuntos de datos de imágenes agrícolas representa una limitación significativa para el desarrollo de modelos precisos de aprendizaje automático, particularmente en tareas de visión por computadora. Este artículo presenta una revisión sistemática de literatura sobre el uso de Redes Generativas Adversariales (GAN) como técnica de balanceo de datos en este contexto. Aplicando el protocolo PRISMA, se analizaron estudios publicados entre el año 2021 y 2025, extraídos de las bases de datos ScienceDirect, SpringerLink y Google Scholar. Se examinaron aspectos como las arquitecturas de GAN empleadas, la naturaleza de los conjuntos de datos, las métricas de desempeño y la combinación con otras técnicas de clasificación. Los resultados muestran que las GAN pueden mejorar significativamente la precisión y capacidad de generalización de modelos de clasificación agrícola al generar datos sintéticos realistas. Sin embargo, persisten desafíos metodológicos relacionados con la validación, la disponibilidad de datos públicos y la estandarización de evaluaciones. Esta revisión concluye que las GAN son una herramienta emergente con alto potencial para mejorar la agricultura de precisión, siempre que se acompañen de prácticas rigurosas de evaluación y documentación.

           

Palabras clave: GAN, aprendizaje profundo, datos sintéticos, datos desbalanceados.

 

 

 

Application of generative networks for balancing imbalanced data in agricultural images: a systematic review

 

 

ABSTRACT

 

 

Class imbalance in agricultural image datasets is a major limitation in developing accurate machine learning models, especially in computer vision tasks. This article presents a systematic literature review on the use of Generative Adversarial Networks (GAN) as a data balancing technique in this context. Following the PRISMA protocol, we analyzed studies published between 2021 and 2025 from ScienceDirect, SpringerLink, and Google Scholar. The review assessed aspects such as GAN architectures used, dataset characteristics, performance metrics, and integration with other classification techniques. Results indicate that GAN can significantly improve model accuracy and generalization by generating realistic synthetic data. However, methodological challenges remain regarding validation procedures, public data availability, and standardization of evaluation criteria. This review concludes that GAN are an emerging and promising approach to enhance precision agriculture, provided that robust validation and documentation practices are employed.

 

 

Keywords: GANs, deep learning, synthetic data, imbalanced datasets.

 

 

 

1. Introducción

La transformación digital del sector agrícola, conocida como Agricultura 4.0, ha sido impulsada por tecnologías emergentes como el Internet de las Cosas (IoT), la inteligencia artificial (IA), el aprendizaje automático (Machine Learning, ML), la computación en la nube y el big data. Estas innovaciones han permitido optimizar prácticas agrícolas tradicionales mediante la automatización de procesos, el monitoreo inteligente y la toma de decisiones basada en datos, mejorando así la sostenibilidad y eficiencia del sector agroalimentario (Araújo et al., 2023).

En este contexto, el ML ha demostrado un notable potencial para abordar diversos desafíos agrícolas, al permitir el análisis de grandes volúmenes de datos generados por sensores de humedad y temperatura del suelo, imágenes satelitales para monitoreo de cultivos, y estaciones climáticas automatizadas. Gracias a ello, se han desarrollado aplicaciones específicas como la detección automatizada de enfermedades foliares, la predicción del rendimiento de cosechas mediante series temporales, la segmentación de áreas de cultivo para manejo de riego, y la clasificación de tipos de suelo según sus propiedades fisicoquímicas (Meshram et al., 2021; Condran et al., 2022).

Sin embargo, una de las limitaciones más recurrentes en estas soluciones es el desbalance de clases en los conjuntos de datos, por ejemplo, cuando se dispone de miles de imágenes de cultivos sanos pero solo unas pocas de cultivos infectados, lo que genera sesgos durante el entrenamiento de los modelos. Esta problemática se manifiesta particularmente en tareas de visión por computadora, como el reconocimiento de plagas o enfermedades mediante imágenes, donde la escasez de datos representativos para ciertas clases dificulta la capacidad del modelo para generalizar correctamente (Condran et al., 2022).

Frente a esta problemática, las Redes Generativas Adversariales (GAN) han surgido como una herramienta poderosa para la generación de datos sintéticos, incrementando la representación de clases minoritarias sin necesidad de obtener nuevos datos de campo (García-Pedrajas et al., 2023). Las GAN permiten la creación de imágenes artificiales que enriquecen el conjunto de entrenamiento y mejoran la capacidad de generalización de los modelos de clasificación (Tripathi et al., 2023). Su combinación con redes neuronales convolucionales (CNN) ha mostrado resultados alentadores en la agricultura de precisión, particularmente en tareas de clasificación y segmentación de imágenes (Cardas Ezeiza, 2020).

En este marco, el presente artículo tiene como objetivo general realizar una revisión sistemática de literatura, basada en el protocolo PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses), sobre el uso de redes generativas adversariales (GAN) para abordar el desbalance de datos en imágenes agrícolas. El análisis se centra en estudios publicados entre 2021 y 2025, considerando aspectos como las arquitecturas utilizadas, las técnicas de clasificación complementarias, las características de los datasets, las tasas de éxito reportadas y las estrategias de validación implementadas.

 

Para alcanzar este objetivo general, se plantearon los siguientes objetivos específicos:

 

  1. Identificar las principales arquitecturas de redes generativas empleadas para el balanceo de clases en imágenes agrícolas.
  2. Analizar las metodologías, métricas y enfoques de validación utilizados en los estudios revisados.
  3. Comparar el desempeño de modelos con y sin el uso de datos sintéticos generados por GAN.
  4. Evaluar la aplicabilidad práctica y los desafíos metodológicos de las GAN en el contexto agrícola.
  5. Proponer recomendaciones y líneas futuras de investigación orientadas a estandarizar el uso de GAN para el tratamiento de datos desbalanceados en agricultura de precisión.

 

2. Metodología (Materiales y métodos)

Esta revisión sistemática se llevó a cabo siguiendo las directrices del protocolo PRISMA, reconocido internacionalmente por su capacidad para mejorar la transparencia y calidad en revisiones sistemáticas (Page et al., 2021). PRISMA proporciona una guía estructurada para la identificación, selección, evaluación y síntesis de estudios, y se utiliza ampliamente en investigaciones tanto del ámbito médico como tecnológico.

La revisión sistemática de literatura se define como un enfoque metodológico riguroso que permite identificar, evaluar y sintetizar de manera crítica la evidencia disponible en torno a una pregunta de investigación específica, con el fin de minimizar sesgos y aumentar la fiabilidad de los resultados (Okoli, 2015; Petticrew & Roberts, 2006).

La pregunta que guió este estudio fue: ¿Cómo se han utilizado las redes generativas para el balanceo de conjuntos de datos en imágenes del sector agrícola?. A continuación, se detallan los pasos metodológicos realizados.

2.1. Fuentes de información

Se consultaron tres bases de datos académicas ampliamente reconocidas en el ámbito científico y tecnológico: ScienceDirect, SpringerLink y Google Scholar. Estas plataformas fueron seleccionadas por su cobertura multidisciplinaria y la disponibilidad de literatura reciente relacionada con inteligencia artificial aplicada a la agricultura. Adicionalmente, se exploró literatura gris a través de actas de congresos, preprints académicos y repositorios institucionales, tal como se recomienda en revisiones sistemáticas para garantizar una cobertura exhaustiva (Booth et al., 2016).

 

2.2. Estrategia de búsqueda

La búsqueda se realizó entre los meses de enero y abril de 2025, utilizando combinaciones de palabras clave ajustadas a la sintaxis específica de cada base de datos. Para ello, se desarrolló un código personalizado que facilitó la automatización de las búsquedas avanzadas, permitiendo filtrar por idioma, año de publicación, tipo de documento y área temática.

Se emplearon los siguientes términos y operadores booleanos:

Tabla 1. Palabras claves usadas para buscar artículos.

Palabras Claves Usadas

"data augmentation" AND "image classification" AND "agriculture"

Generative Adversarial Networks, data imbalance, agriculture, agricultural datasets, GAN, synthetic image generation

Generative Adversarial Networks" AND "data imbalance" AND agriculture

 

Esta cadena fue adaptada en cada motor de búsqueda para garantizar su compatibilidad, utilizando filtros adicionales por fecha (2021–2025) e idioma (inglés y español).

2.3. Criterios de inclusión y exclusión

Se establecieron los siguientes criterios para seleccionar los estudios relevantes:

Criterios de inclusión:

      Artículos originales publicados entre el año 2021 y 2025.

      Estudios empíricos que utilicen GAN o variantes para el balanceo de conjuntos de datos desbalanceados en imágenes agrícolas.

      Publicaciones en inglés o español.

      Investigaciones que presenten resultados experimentales, métricas de evaluación o comparaciones con métodos alternativos.

 

Criterios de exclusión:

      Artículos de revisión narrativa sin evaluación sistemática.

      Estudios teóricos sin aplicación experimental.

      Trabajos que utilicen GAN en dominios no relacionados con la agricultura.

      Publicaciones duplicadas o sin acceso al texto completo.

2.4. Proceso de selección

El proceso de selección de estudios se realizó en tres fases, siguiendo las recomendaciones PRISMA (Page et al., 2021):

  1. Revisión de títulos y resúmenes: Se descartaron los artículos que no cumplían los criterios de elegibilidad de forma evidente.
  2. Evaluación del texto completo: Los artículos seleccionados en la primera fase fueron leídos íntegramente para confirmar su pertinencia.
  3. Revisión metodológica: Se verificó la calidad de los estudios mediante criterios como claridad de objetivos, descripción del modelo GAN, metodología de validación y relevancia del dominio agrícola.

 

Los autores realizaron este proceso de forma independiente. Las discrepancias fueron discutidas y resueltas por consenso, y se mantuvo un registro en una hoja de cálculo para asegurar trazabilidad.

2.5. Extracción y análisis de datos

      La información relevante fue extraída mediante una plantilla estructurada que incluía las siguientes variables:

      Tipo de red generativa empleada (por ejemplo, GAN, cGAN, DCGAN, CycleGAN).

      Aplicación agrícola (determinación de plagas, segmentación de cultivos, detección de enfermedades, etc.).

      Descripción del dataset utilizado (público/propio, tamaño, balance original).

      Técnica de balanceo y estrategia de generación de datos sintéticos.

      Métricas de evaluación reportadas (accuracy, F1-score, precision, recall).

      Limitaciones metodológicas identificadas por los autores.

 

El análisis fue de tipo cualitativo y temático. Los estudios fueron agrupados según el tipo de datos agrícolas, la naturaleza del desbalance abordado y las técnicas complementarias de clasificación empleadas. Esta agrupación permitió identificar patrones comunes, vacíos metodológicos y tendencias emergentes en el uso de GANs dentro del ámbito agrícola.

 

3. Resultados (análisis e interpretación de los resultados)

 

Como parte del proceso de revisión sistemática, se realizó una búsqueda exhaustiva en tres bases de datos académicas: ScienceDirect, SpringerLink y Google Scholar. La Figura 1 muestra una comparación entre el número total de artículos encontrados inicialmente y aquellos que fueron seleccionados tras aplicar los criterios de inclusión y exclusión previamente definidos. Esta etapa fue fundamental para asegurar que sólo se considerarán estudios relevantes, empíricos y específicos sobre el uso de redes generativas en el balanceo de datos en imágenes agrícolas.

 

 

 

 

 

 

 

 

Figura 1. Resultados de métodos de búsqueda y filtrado.

Gráfico

Fuente: Los autores

La revisión sistemática de la literatura nos permitió descubrir patrones, enfoques y resultados clave sobre la aplicación de redes generativas, especialmente las GANs, para abordar el desbalance de clases en imágenes agrícolas. 

Figura 2. Redes generativas que se encontraron en artículos investigados.Gráfico

 

 

 

 

 

 

 

 

 

 

Fuente: Los autores

Los artículos revisados cubrieron una amplia variedad de casos de uso, incluyendo la clasificación de enfermedades en hojas, la segmentación semántica de cultivos, la identificación de plagas y la detección de estrés hídrico. Los conjuntos de datos utilizados en cada investigación variaron, abarcando desde imágenes satelitales y capturas RGB de drones hasta imágenes de campo tomadas con cámaras convencionales y datos multiespectrales. Esta diversidad refleja las diferentes condiciones en las que se pueden aplicar las técnicas generativas.   

Uno de los hallazgos más destacados fue la combinación efectiva de GAN con CNN, observada en cinco de los ocho estudios que utilizaron GAN. En estos casos, las GAN se emplearon para generar ejemplos sintéticos de clases minoritarias, con el objetivo de equilibrar el conjunto de entrenamiento. Los estudios que compararon modelos entrenados con y sin datos sintéticos reportaron mejoras en métricas como la precisión, el F1 score y la exactitud general del modelo, con incrementos que variaron entre 7 y 15 puntos porcentuales.   

Además, el uso de arquitecturas especializadas, como GAN con normalización espectral o GAN condicionadas, mostró un gran potencial en dominios agrícolas específicos. Por ejemplo, Ezeiza (2020) en su investigación utilizó SpecNorm-GAN junto con ResNet logrando una precisión del 82% en la clasificación supervisada de cultivos tropicales. Otro  estudio  realizado por Martínez (2021) alcanzó un F1 score de 0.89 al combinar CNN y datos sintéticos generados con GAN en la tarea de segmentación semántica de imágenes multiclase.   

Por otro lado, varios trabajos que fueron excluidos o que recibieron una baja valoración metodológica carecían de resultados experimentales, reportes de métricas claras o evidencia de validación cruzada. Algunos de estos estudios se limitaban a exploraciones teóricas o bibliométricas sobre GANs, sin implementar estas redes en problemas concretos del ámbito agrícola. Esta disparidad en la metodología resalta la necesidad de establecer estándares más homogéneos para garantizar la comparabilidad de resultados entre diferentes investigaciones.

 

En cuanto a la evaluación cuantitativa de la calidad metodológica, los artículos fueron clasificados en cinco dimensiones: claridad de objetivos, descripción de datos y procesos, validación del modelo, reproducibilidad y aplicabilidad práctica. Sólo cuatro estudios lograron el puntaje máximo (5/5), mientras que tres obtuvieron calificaciones por debajo de 3, principalmente debido a la falta de métricas y documentación técnica. La Tabla 2 resume los hallazgos centrales de esta revisión, incluyendo las técnicas utilizadas, la presencia de redes generativas y las tasas de éxito reportadas.

 

Tabla 2. Técnicas aplicadas, uso de GAN y tasas de éxito en estudios seleccionados

Artículo

Técnicas ML utilizadas

Redes generativas usadas

Tasa de éxito (si aplica)

Machine Learning in Precision Agriculture (2022)

Decision Tree, k-NN, Random Forest, SVM, Neural Networks

No

Variada según estudio; Accuracy reportada entre 70%-95%

ML Applications in Agriculture (2023)

Random Forest, SVM, ANN, Deep Learning

No

61% uso para manejo de cultivos; métricas específicas no detalladas

ML in Agriculture: A Comprehensive Review (2021)

ANN, SVM, Random Forest

No

Precisión >90% en casos de clasificación de cultivos o enfermedades

Clasificación de imágenes de área amplia con CNN

U-Net, CNN, optimizador Radam

No

Accuracy: 0.89; F1 Score: 0.89; Precision: 0.90

Análisis supervisado de imágenes aéreas para detección de cultivos tropicales

DCNN, Transfer Learning con ResNet

GAN (con SpecNorm)

Precisión: 82%

 

 

Tabla 3. Técnicas aplicadas, uso de GAN sin detalle de tasa de exito

 

Artículo

Técnicas ML utilizadas

Redes generativas usadas

Tasa de éxito (si aplica)

Precision agriculture using IoT data analytics and ML (2022)

Modelo de predicción con IoT y ML (no especificado)

No

No reportada en cifras concretas

Deep Learning para Predicción Meteorológica Inteligente (2025)

CNN

GAN

Mejora en resolución espacial y temporal; sin métrica numérica específica

ML in Agriculture Domain: A Survey (2021)

Deep Learning, Machine Learning (clasificación, reconocimiento)

No

No especificada; aplicación por etapa agrícola

Bibliometric Mapping of GANs Usage in Agriculture (2024)

Bibliometría (análisis de publicaciones)

GAN (en revisión, no aplicadas experimentalmente)

No aplica

Desagregación temporal de la precipitación mediante GANs

RNN, CNN

GAN, cGAN, WGAN

No específica; se generaron 10 escenarios coherentes por entrada

Técnicas y herramientas de DL para predicción meteorológica

CNN, Downscaling, DL4DS

Se menciona GAN (no implementada directamente)

No detallada

Inteligencia Artificial Generativa

CNN, RNN

GAN, VAE

Explicativo/teórico

Applications of Machine Learning in Agriculture

Random Forest, SVM, ANN

No

No reportada en cifras

 

4. Conclusiones

Las GAN son una herramienta clave para abordar el desbalance de clases en imágenes agrícolas, generando datos sintéticos realistas que mejoran el rendimiento de modelos de aprendizaje profundo, como las redes neuronales convolucionales, en tareas de clasificación y detección visual. Estas técnicas incrementan la precisión y mitigan el sobreajuste, siendo especialmente valiosas en contextos con datos escasos o difíciles de obtener, como la detección de enfermedades o plagas.

 

La aplicación de GAN, combinada con arquitecturas como ResNet o U-Net y evaluaciones cualitativas con expertos, ha enriquecido su impacto en la agricultura de precisión. Estas estrategias permiten simular condiciones reales y ampliar la representatividad de clases minoritarias, mejorando la robustez de los modelos frente a fenómenos agrícolas poco frecuentes

Pese a sus beneficios, persisten limitaciones en los estudios, como la falta de validación cruzada, documentación insuficiente y datos no públicos, lo que dificulta la replicabilidad. Estas carencias resaltan la necesidad de estandarizar protocolos y fomentar la publicación abierta de modelos y códigos para avanzar en el conocimiento colectivo.

Se proponen líneas futuras como explorar variantes avanzadas de redes generativas, como StyleGAN o Diffusion Models, y desarrollar marcos comparativos para evaluar el impacto de los datos sintéticos. A pesar de que esta revisión se limitó a estudios públicos de 2021 a 2025, las GANs se consolidan como un campo emergente con alto potencial para optimizar la agricultura de precisión.

En definitiva, se concluye que las redes generativas aplicadas al balanceo de clases en imágenes agrícolas representan un campo emergente con un alto potencial de impacto, siempre que se acompañen de buenas prácticas en validación y documentación. Este estudio proporciona una base sólida para guiar futuras investigaciones y aplicaciones en agricultura de precisión y procesamiento de imágenes agroambientales.

Como recomendación clave, se propone impulsar la estandarización de métricas de evaluación, procedimientos de validación cruzada y criterios de calidad metodológica en estudios con GAN. Asimismo, se alienta a la comunidad científica a publicar de forma abierta los conjuntos de datos, modelos entrenados y código fuente, con el fin de mejorar la reproducibilidad, transparencia y colaboración en el área.

Estas prácticas no solo fortalecerían la solidez científica de las investigaciones, sino que también facilitarían su aplicación real en contextos agrícolas diversos.

 

 

 

 

 

 

 

 

 

5. Referencias

 

Araújo, S. O., Peres, R. S., Ramalho, J. C., Lidon, F., & Barata, J. (2023). Machine learning applications in agriculture: Current trends, challenges, and future perspectives. Agronomy, 13(12), 2976. https://doi.org/10.3390/agronomy13122976

 

Booth, A., Sutton, A., & Papaioannou, D. (2016). Systematic approaches to a successful literature review (2nd ed.). SAGE Publications.

 

Cardas Ezeiza, C. (2020). Análisis supervisado de imágenes aéreas usando técnicas de aprendizaje profundo aplicado a detección de cultivos tropicales [Trabajo de Fin de Grado, Universidad de Málaga].

 

Condran, S., Bewong, M., Islam, M. Z., Maphosa, L., & Zheng, L. (2022). Machine learning in precision agriculture: A survey on trends, applications and evaluations over two decades. IEEE Access, 10, 73786–73816. https://doi.org/10.1109/ACCESS.2022.3188649

 

Ezeiza, C. C. (2020). Análisis supervisado de imágenes aéreas para detección de cultivos tropicales. RIUMA. https://riuma.uma.es/xmlui/handle/10630/20335

 

García-Pedrajas, N., Sánchez-Pérez, M., & Cruz-Ramírez, N. (2023). Generative adversarial networks (GANs) for image augmentation in agriculture: A systematic review. Computers and Electronics in Agriculture, 210, 107987. https://doi.org/10.1016/j.compag.2023.107987

 

Maciel, D., Almeida, F., Silva, A., & Fernandes, J. (2024). Mapeamento bibliométrico do uso de GANs na agricultura. Revista SODEBRAS, 1(1), 15–28. https://doi.org/10.29367/h1t3jh97

 

Martínez Silva, O.  (2021).  Clasificación de imágenes de área amplia utilizando redes neuronales convolucionales. Aplicación en agricultura de precisión.    Pereira : Universidad Tecnológica de Pereira.  Disponible en: https://hdl.handle.net/11059/13480

 

Meshram, V., Patil, K., Meshram, V., Hanchate, D., & Ramkteke, S. D. (2021). Machine learning in agriculture domain: A state-of-art survey. Artificial Intelligence in the Life Sciences, 1, 100010. https://doi.org/10.1016/j.ailsci.2021.100010

 

Okoli, C. (2015). A guide to conducting a standalone systematic literature review. Communications of the Association for Information Systems, 37(1), 879–910. https://doi.org/10.17705/1CAIS.03743

 

Page, M. J., McKenzie, J. E., Bossuyt, P. M., Boutron, I., Hoffmann, T. C., Mulrow, C. D., ... & Moher, D. (2021). The PRISMA 2020 statement: An updated guideline for reporting systematic reviews. BMJ, 372, n71. https://doi.org/10.1136/bmj.n71

 

Petticrew, M., & Roberts, H. (2006). Systematic reviews in the social sciences: A practical guide. Blackwell Publishing.

 

Tripathi, P., Kumar, N., Rai, M., & Dubey, A. (2023). Applications of machine learning in agriculture. In P. Tripathi (Ed.), Emerging Technologies in Agriculture (pp. 112–140). IGI Global. https://doi.org/10.4018/978-1-6684-6418-2.ch006.