Redes generativas para balanceo de datos en
imágenes agrícolas: una revisión sistemática de la literatura
Luis Jesús
Montesdeoca Espinoza
luis.montesdeoca.41@espam.edu.ec
Escuela Superior
Politécnica Agropecuaria
de Manabí Manuel
Félix López
Calceta, Ecuador
Stalin Joel
Zambrano Rojas
Escuela Superior
Politécnica Agropecuaria
de Manabí Manuel
Félix López
Calceta, Ecuador
Victor Joel
Pinargote-Bravo
Escuela Superior
Politécnica Agropecuaria
de Manabí Manuel
Félix López
Calceta, Ecuador
Luis
Cedeño-Valarezo
Escuela Superior
Politécnica Agropecuaria
de Manabí Manuel
Félix López
Calceta, Ecuador
DOI: https://doi.org/10.56124/encriptar.v8i16.008
Resumen
El desbalance de clases en conjuntos de datos de imágenes agrícolas
representa una limitación significativa para el desarrollo de modelos precisos
de aprendizaje automático, particularmente en tareas de visión por computadora.
Este artículo presenta una revisión sistemática de literatura sobre el uso de
Redes Generativas Adversariales (GAN) como técnica de balanceo de datos en este
contexto. Aplicando el protocolo PRISMA, se analizaron estudios publicados
entre el año 2021 y 2025, extraídos de las bases de datos ScienceDirect,
SpringerLink y Google Scholar. Se examinaron aspectos como las arquitecturas de
GAN empleadas, la naturaleza de los conjuntos de datos, las métricas de
desempeño y la combinación con otras técnicas de clasificación. Los resultados
muestran que las GAN pueden mejorar significativamente la precisión y capacidad
de generalización de modelos de clasificación agrícola al generar datos
sintéticos realistas. Sin embargo, persisten desafíos metodológicos
relacionados con la validación, la disponibilidad de datos públicos y la
estandarización de evaluaciones. Esta revisión concluye que las GAN son una
herramienta emergente con alto potencial para mejorar la agricultura de
precisión, siempre que se acompañen de prácticas rigurosas de evaluación y
documentación.
Palabras clave: GAN, aprendizaje
profundo, datos sintéticos, datos desbalanceados.
Application of generative networks for balancing
imbalanced data in agricultural images: a systematic review
ABSTRACT
Class imbalance in agricultural image datasets
is a major limitation in developing accurate machine learning models,
especially in computer vision tasks. This article presents a systematic
literature review on the use of Generative Adversarial Networks (GAN) as a data
balancing technique in this context. Following the PRISMA protocol, we analyzed
studies published between 2021 and 2025 from ScienceDirect, SpringerLink, and
Google Scholar. The review assessed aspects such as GAN architectures used,
dataset characteristics, performance metrics, and integration with other
classification techniques. Results indicate that GAN can significantly improve
model accuracy and generalization by generating realistic synthetic data.
However, methodological challenges remain regarding validation procedures,
public data availability, and standardization of evaluation criteria. This
review concludes that GAN are an emerging and promising approach to enhance
precision agriculture, provided that robust validation and documentation
practices are employed.
Keywords: GANs, deep learning, synthetic data, imbalanced
datasets.
1. Introducción
La transformación digital del sector agrícola, conocida como Agricultura
4.0, ha sido impulsada por tecnologías emergentes como el Internet de las Cosas
(IoT), la inteligencia artificial (IA), el aprendizaje automático (Machine
Learning, ML), la computación en la nube y el big data. Estas innovaciones han
permitido optimizar prácticas agrícolas tradicionales mediante la
automatización de procesos, el monitoreo inteligente y la toma de decisiones
basada en datos, mejorando así la sostenibilidad y eficiencia del sector
agroalimentario (Araújo et al., 2023).
En este contexto, el ML ha demostrado un notable potencial para abordar
diversos desafíos agrícolas, al permitir el análisis de grandes volúmenes de
datos generados por sensores de humedad y temperatura del suelo, imágenes
satelitales para monitoreo de cultivos, y estaciones climáticas automatizadas.
Gracias a ello, se han desarrollado aplicaciones específicas como la detección
automatizada de enfermedades foliares, la predicción del rendimiento de
cosechas mediante series temporales, la segmentación de áreas de cultivo para
manejo de riego, y la clasificación de tipos de suelo según sus propiedades
fisicoquímicas (Meshram et al., 2021; Condran et al., 2022).
Sin embargo, una de las limitaciones más recurrentes en estas soluciones
es el desbalance de clases en los conjuntos de datos, por ejemplo, cuando se
dispone de miles de imágenes de cultivos sanos pero solo unas pocas de cultivos
infectados, lo que genera sesgos durante el entrenamiento de los modelos. Esta
problemática se manifiesta particularmente en tareas de visión por computadora,
como el reconocimiento de plagas o enfermedades mediante imágenes, donde la
escasez de datos representativos para ciertas clases dificulta la capacidad del
modelo para generalizar correctamente (Condran et al., 2022).
Frente a esta problemática, las Redes Generativas Adversariales (GAN)
han surgido como una herramienta poderosa para la generación de datos
sintéticos, incrementando la representación de clases minoritarias sin
necesidad de obtener nuevos datos de campo (García-Pedrajas et al., 2023). Las
GAN permiten la creación de imágenes artificiales que enriquecen el conjunto de
entrenamiento y mejoran la capacidad de generalización de los modelos de
clasificación (Tripathi et al., 2023). Su combinación con redes neuronales
convolucionales (CNN) ha mostrado resultados alentadores en la agricultura de
precisión, particularmente en tareas de clasificación y segmentación de
imágenes (Cardas Ezeiza, 2020).
En este marco, el presente artículo tiene como objetivo general realizar
una revisión sistemática de literatura, basada en el protocolo PRISMA
(Preferred Reporting Items for Systematic Reviews and Meta-Analyses), sobre el
uso de redes generativas adversariales (GAN) para abordar el desbalance de
datos en imágenes agrícolas. El análisis se centra en estudios publicados entre
2021 y 2025, considerando aspectos como las arquitecturas utilizadas, las
técnicas de clasificación complementarias, las características de los datasets,
las tasas de éxito reportadas y las estrategias de validación implementadas.
Para alcanzar este objetivo general, se plantearon los siguientes
objetivos específicos:
2. Metodología (Materiales y métodos)
Esta revisión sistemática se llevó a cabo siguiendo las directrices del
protocolo PRISMA, reconocido internacionalmente por su capacidad para mejorar
la transparencia y calidad en revisiones sistemáticas (Page et al., 2021).
PRISMA proporciona una guía estructurada para la identificación, selección,
evaluación y síntesis de estudios, y se utiliza ampliamente en investigaciones
tanto del ámbito médico como tecnológico.
La revisión sistemática de literatura se define como un enfoque
metodológico riguroso que permite identificar, evaluar y sintetizar de manera
crítica la evidencia disponible en torno a una pregunta de investigación
específica, con el fin de minimizar sesgos y aumentar la fiabilidad de los
resultados (Okoli, 2015; Petticrew & Roberts, 2006).
La pregunta que guió este estudio fue: ¿Cómo se han utilizado las redes generativas para el balanceo de
conjuntos de datos en imágenes del sector agrícola?. A continuación, se
detallan los pasos metodológicos realizados.
2.1. Fuentes de información
Se consultaron tres bases de datos académicas ampliamente reconocidas en
el ámbito científico y tecnológico: ScienceDirect, SpringerLink y Google
Scholar. Estas plataformas fueron seleccionadas por su cobertura
multidisciplinaria y la disponibilidad de literatura reciente relacionada con
inteligencia artificial aplicada a la agricultura. Adicionalmente, se exploró
literatura gris a través de actas de congresos, preprints académicos y
repositorios institucionales, tal como se recomienda en revisiones sistemáticas
para garantizar una cobertura exhaustiva (Booth et al., 2016).
2.2. Estrategia de búsqueda
La búsqueda se realizó entre los meses de enero y abril de 2025,
utilizando combinaciones de palabras clave ajustadas a la sintaxis específica
de cada base de datos. Para ello, se desarrolló un código personalizado que
facilitó la automatización de las búsquedas avanzadas, permitiendo filtrar por
idioma, año de publicación, tipo de documento y área temática.
Se emplearon los siguientes términos y operadores booleanos:
Tabla 1. Palabras claves usadas para buscar artículos.
|
Palabras
Claves Usadas |
|
"data augmentation" AND "image
classification" AND "agriculture" |
|
Generative
Adversarial Networks, data imbalance, agriculture, agricultural datasets,
GAN, synthetic image generation |
|
Generative
Adversarial Networks" AND "data imbalance" AND agriculture |
Esta cadena fue adaptada en cada motor de búsqueda para garantizar su
compatibilidad, utilizando filtros adicionales por fecha (2021–2025) e idioma
(inglés y español).
2.3. Criterios de inclusión y
exclusión
Se establecieron los siguientes criterios para seleccionar los estudios
relevantes:
Criterios de inclusión:
● Artículos originales publicados entre el año
2021 y 2025.
● Estudios empíricos que utilicen GAN o variantes
para el balanceo de conjuntos de datos desbalanceados en imágenes agrícolas.
● Publicaciones en inglés o español.
● Investigaciones que presenten resultados
experimentales, métricas de evaluación o comparaciones con métodos
alternativos.
Criterios de exclusión:
● Artículos de revisión narrativa sin evaluación
sistemática.
● Estudios teóricos sin aplicación experimental.
● Trabajos que utilicen GAN en dominios no
relacionados con la agricultura.
● Publicaciones duplicadas o sin acceso al texto
completo.
2.4. Proceso de selección
El proceso de selección de estudios se realizó en tres fases, siguiendo
las recomendaciones PRISMA (Page et al., 2021):
Los autores realizaron este proceso de forma independiente. Las
discrepancias fueron discutidas y resueltas por consenso, y se mantuvo un
registro en una hoja de cálculo para asegurar trazabilidad.
2.5. Extracción y análisis de
datos
● La información relevante fue extraída mediante
una plantilla estructurada que incluía las siguientes variables:
● Tipo de red generativa empleada (por ejemplo,
GAN, cGAN, DCGAN, CycleGAN).
● Aplicación agrícola (determinación de plagas,
segmentación de cultivos, detección de enfermedades, etc.).
● Descripción del dataset utilizado
(público/propio, tamaño, balance original).
● Técnica de balanceo y estrategia de generación
de datos sintéticos.
● Métricas de evaluación reportadas (accuracy,
F1-score, precision, recall).
● Limitaciones metodológicas identificadas por los
autores.
El análisis fue de tipo cualitativo y temático. Los estudios fueron
agrupados según el tipo de datos agrícolas, la naturaleza del desbalance
abordado y las técnicas complementarias de clasificación empleadas. Esta
agrupación permitió identificar patrones comunes, vacíos metodológicos y
tendencias emergentes en el uso de GANs dentro del ámbito agrícola.
3. Resultados (análisis e
interpretación de los resultados)
Como parte
del proceso de revisión sistemática, se realizó una búsqueda exhaustiva en tres
bases de datos académicas: ScienceDirect, SpringerLink y Google Scholar. La
Figura 1 muestra una comparación entre el número total de artículos encontrados
inicialmente y aquellos que fueron seleccionados tras aplicar los criterios de
inclusión y exclusión previamente definidos. Esta etapa fue fundamental para
asegurar que sólo se considerarán estudios relevantes, empíricos y específicos
sobre el uso de redes generativas en el balanceo de datos en imágenes
agrícolas.
Figura 1. Resultados de métodos de búsqueda y filtrado.
Fuente:
Los autores
La revisión sistemática de la literatura nos permitió descubrir
patrones, enfoques y resultados clave sobre la aplicación de redes generativas,
especialmente las GANs, para abordar el desbalance de clases en imágenes
agrícolas.
Figura 2. Redes generativas que se encontraron en
artículos investigados.
Fuente: Los autores
Los artículos revisados cubrieron una amplia variedad de casos de uso,
incluyendo la clasificación de enfermedades en hojas, la segmentación semántica
de cultivos, la identificación de plagas y la detección de estrés hídrico. Los
conjuntos de datos utilizados en cada investigación variaron, abarcando desde
imágenes satelitales y capturas RGB de drones hasta imágenes de campo tomadas
con cámaras convencionales y datos multiespectrales. Esta diversidad refleja
las diferentes condiciones en las que se pueden aplicar las técnicas
generativas.
Uno de los hallazgos más destacados fue la combinación efectiva de GAN
con CNN, observada en cinco de los ocho estudios que utilizaron GAN. En estos
casos, las GAN se emplearon para generar ejemplos sintéticos de clases
minoritarias, con el objetivo de equilibrar el conjunto de entrenamiento. Los
estudios que compararon modelos entrenados con y sin datos sintéticos
reportaron mejoras en métricas como la precisión, el F1 score y la exactitud
general del modelo, con incrementos que variaron entre 7 y 15 puntos
porcentuales.
Además, el uso de arquitecturas especializadas, como GAN con
normalización espectral o GAN condicionadas, mostró un gran potencial en
dominios agrícolas específicos. Por ejemplo, Ezeiza (2020) en su investigación
utilizó SpecNorm-GAN junto con ResNet logrando una precisión del 82% en la
clasificación supervisada de cultivos tropicales. Otro estudio
realizado por Martínez (2021) alcanzó un F1 score de 0.89 al combinar
CNN y datos sintéticos generados con GAN en la tarea de segmentación semántica
de imágenes multiclase.
Por otro lado, varios trabajos que fueron excluidos o que recibieron una
baja valoración metodológica carecían de resultados experimentales, reportes de
métricas claras o evidencia de validación cruzada. Algunos de estos estudios se
limitaban a exploraciones teóricas o bibliométricas sobre GANs, sin implementar
estas redes en problemas concretos del ámbito agrícola. Esta disparidad en la
metodología resalta la necesidad de establecer estándares más homogéneos para
garantizar la comparabilidad de resultados entre diferentes investigaciones.
En cuanto a la evaluación cuantitativa de la calidad metodológica, los
artículos fueron clasificados en cinco dimensiones: claridad de objetivos,
descripción de datos y procesos, validación del modelo, reproducibilidad y
aplicabilidad práctica. Sólo cuatro estudios lograron el puntaje máximo (5/5),
mientras que tres obtuvieron calificaciones por debajo de 3, principalmente
debido a la falta de métricas y documentación técnica. La Tabla 2 resume los
hallazgos centrales de esta revisión, incluyendo las técnicas utilizadas, la
presencia de redes generativas y las tasas de éxito reportadas.
Tabla 2. Técnicas aplicadas, uso de GAN y tasas de éxito
en estudios seleccionados
|
Artículo |
Técnicas ML
utilizadas |
Redes generativas
usadas |
Tasa de éxito (si
aplica) |
|
Machine Learning in
Precision Agriculture (2022) |
Decision Tree, k-NN,
Random Forest, SVM, Neural Networks |
No |
Variada según estudio; Accuracy reportada entre
70%-95% |
|
ML Applications in Agriculture (2023) |
Random Forest, SVM,
ANN, Deep Learning |
No |
61% uso para manejo de cultivos; métricas específicas
no detalladas |
|
ML in Agriculture: A
Comprehensive Review (2021) |
ANN, SVM, Random Forest |
No |
Precisión >90% en casos de clasificación de
cultivos o enfermedades |
|
Clasificación de imágenes de área amplia con CNN |
U-Net, CNN, optimizador Radam |
No |
Accuracy: 0.89; F1 Score: 0.89; Precision: 0.90 |
|
Análisis supervisado de imágenes aéreas para detección
de cultivos tropicales |
DCNN, Transfer
Learning con ResNet |
GAN (con SpecNorm) |
Precisión: 82% |
Tabla 3. Técnicas aplicadas, uso de GAN sin detalle de
tasa de exito
|
Artículo |
Técnicas ML
utilizadas |
Redes generativas
usadas |
Tasa de éxito (si
aplica) |
|
Precision agriculture
using IoT data analytics and ML (2022) |
Modelo de predicción con IoT y ML (no especificado) |
No |
No reportada en cifras concretas |
|
Deep Learning para Predicción Meteorológica
Inteligente (2025) |
CNN |
GAN |
Mejora en resolución espacial y temporal; sin métrica
numérica específica |
|
ML in Agriculture
Domain: A Survey (2021) |
Deep Learning, Machine
Learning (clasificación, reconocimiento) |
No |
No especificada; aplicación por etapa agrícola |
|
Bibliometric Mapping
of GANs Usage in Agriculture (2024) |
Bibliometría (análisis de publicaciones) |
GAN (en revisión, no aplicadas experimentalmente) |
No aplica |
|
Desagregación temporal de la precipitación mediante
GANs |
RNN, CNN |
GAN, cGAN, WGAN |
No específica; se generaron 10 escenarios coherentes
por entrada |
|
Técnicas y herramientas de DL para predicción
meteorológica |
CNN, Downscaling, DL4DS |
Se menciona GAN (no implementada directamente) |
No detallada |
|
Inteligencia Artificial Generativa |
CNN, RNN |
GAN, VAE |
Explicativo/teórico |
|
Applications of
Machine Learning in Agriculture |
Random Forest, SVM, ANN |
No |
No reportada en cifras |
4. Conclusiones
Las GAN son una herramienta clave para abordar el desbalance de clases
en imágenes agrícolas, generando datos sintéticos realistas que mejoran el
rendimiento de modelos de aprendizaje profundo, como las redes neuronales
convolucionales, en tareas de clasificación y detección visual. Estas técnicas
incrementan la precisión y mitigan el sobreajuste, siendo especialmente
valiosas en contextos con datos escasos o difíciles de obtener, como la
detección de enfermedades o plagas.
La aplicación de GAN, combinada con arquitecturas como ResNet o U-Net y
evaluaciones cualitativas con expertos, ha enriquecido su impacto en la
agricultura de precisión. Estas estrategias permiten simular condiciones reales
y ampliar la representatividad de clases minoritarias, mejorando la robustez de
los modelos frente a fenómenos agrícolas poco frecuentes
Pese a sus beneficios, persisten limitaciones en los estudios, como la
falta de validación cruzada, documentación insuficiente y datos no públicos, lo
que dificulta la replicabilidad. Estas carencias resaltan la necesidad de
estandarizar protocolos y fomentar la publicación abierta de modelos y códigos
para avanzar en el conocimiento colectivo.
Se proponen líneas futuras como explorar variantes avanzadas de redes
generativas, como StyleGAN o Diffusion Models, y desarrollar marcos
comparativos para evaluar el impacto de los datos sintéticos. A pesar de que
esta revisión se limitó a estudios públicos de 2021 a 2025, las GANs se
consolidan como un campo emergente con alto potencial para optimizar la
agricultura de precisión.
En definitiva, se concluye que las redes generativas aplicadas al
balanceo de clases en imágenes agrícolas representan un campo emergente con un
alto potencial de impacto, siempre que se acompañen de buenas prácticas en
validación y documentación. Este estudio proporciona una base sólida para guiar
futuras investigaciones y aplicaciones en agricultura de precisión y
procesamiento de imágenes agroambientales.
Como recomendación clave, se propone impulsar la estandarización de
métricas de evaluación, procedimientos de validación cruzada y criterios de
calidad metodológica en estudios con GAN. Asimismo, se alienta a la comunidad
científica a publicar de forma abierta los conjuntos de datos, modelos
entrenados y código fuente, con el fin de mejorar la reproducibilidad,
transparencia y colaboración en el área.
Estas prácticas no solo fortalecerían la solidez científica de las
investigaciones, sino que también facilitarían su aplicación real en contextos
agrícolas diversos.
5. Referencias
Araújo, S. O., Peres, R. S., Ramalho, J. C.,
Lidon, F., & Barata, J. (2023). Machine learning applications in agriculture:
Current trends, challenges, and future perspectives. Agronomy, 13(12), 2976.
https://doi.org/10.3390/agronomy13122976
Booth, A., Sutton, A.,
& Papaioannou, D. (2016). Systematic approaches
to a successful literature review (2nd ed.). SAGE Publications.
Cardas Ezeiza, C. (2020). Análisis supervisado
de imágenes aéreas usando técnicas de aprendizaje profundo aplicado a detección
de cultivos tropicales [Trabajo de Fin de Grado, Universidad de Málaga].
Condran, S., Bewong, M., Islam, M.
Z., Maphosa, L., & Zheng, L. (2022). Machine learning in precision
agriculture: A survey on trends, applications and evaluations over two decades.
IEEE Access, 10, 73786–73816.
https://doi.org/10.1109/ACCESS.2022.3188649
Ezeiza, C. C. (2020). Análisis supervisado de
imágenes aéreas para detección de cultivos tropicales. RIUMA. https://riuma.uma.es/xmlui/handle/10630/20335
García-Pedrajas, N., Sánchez-Pérez, M., &
Cruz-Ramírez, N. (2023). Generative adversarial networks (GANs) for image
augmentation in agriculture: A systematic review. Computers and Electronics in
Agriculture, 210, 107987. https://doi.org/10.1016/j.compag.2023.107987
Maciel, D., Almeida, F., Silva, A., &
Fernandes, J. (2024). Mapeamento bibliométrico do uso de GANs na agricultura.
Revista SODEBRAS, 1(1), 15–28. https://doi.org/10.29367/h1t3jh97
Martínez Silva, O. (2021).
Clasificación de imágenes de área amplia utilizando redes neuronales
convolucionales. Aplicación en agricultura de precisión. Pereira : Universidad Tecnológica de
Pereira. Disponible en: https://hdl.handle.net/11059/13480
Meshram, V., Patil, K., Meshram,
V., Hanchate, D., & Ramkteke,
S. D. (2021). Machine learning in agriculture domain: A state-of-art survey.
Artificial Intelligence in the Life Sciences, 1, 100010.
https://doi.org/10.1016/j.ailsci.2021.100010
Okoli, C. (2015). A guide to conducting a standalone systematic literature
review. Communications of the Association for Information Systems, 37(1),
879–910. https://doi.org/10.17705/1CAIS.03743
Page, M. J., McKenzie,
J. E., Bossuyt, P. M., Boutron, I., Hoffmann, T. C.,
Mulrow, C. D., ... & Moher, D. (2021). The PRISMA 2020 statement: An
updated guideline for reporting systematic reviews. BMJ, 372, n71.
https://doi.org/10.1136/bmj.n71
Petticrew, M., & Roberts, H. (2006). Systematic reviews in
the social sciences: A practical guide. Blackwell Publishing.
Tripathi, P., Kumar, N.,
Rai, M., & Dubey, A. (2023). Applications of machine learning in
agriculture. In P. Tripathi (Ed.), Emerging Technologies in Agriculture (pp.
112–140). IGI Global. https://doi.org/10.4018/978-1-6684-6418-2.ch006.