Corpus formado por sonetos escritos en castellano entre los siglos XVI y XVII.
Cada soneto ha sido anotado en XML siguiendo el estándar TEI. Además de encabezado e información estructural, cada soneto tiene representado formalmente los patrones métricos de cada verso.
El patrón está formado por la secuencia de sílabas átonas (representadas con el signo -
) y tónicas (símbolo +
). La métrica de cada verso queda así representada:
<l n="1" met="---+---+-+-">Cuando me paro a contemplar mi estado,</l>
Con el objetivo de crear un corpus lo más representativo posible, se ha incluido cualquier autor de los siglos XVI y XVII del que se disponga de al menos 10 sonetos digitalizados.
Los textos han sido extraídos de la Biblioteca Virtual Miguel de Cervantes.
En estos momentos, el corpus consta de más de 5000 sonetos (más de 71000 versos), e incluye a autores como:
Agustin de Salazar y Torres, Antonio Enríquez Gómez, Bartolomé Leonardo de Argensola, Lupercio Leonardo de Argensola, Bernardino de Rebolledo, Bocángel y Unzueta, Miguel de Cervantes, Diego Hurtado de Mendoza, Diego Ximenez Ayllon, Fernando de Herrera, Francisco de Aldana, Francisco de Borja y Aragón, Francisco de la Torre, Francisco de Medrano, Garcilaso de la Vega, Luis de Góngora, Gutierre de Cetina, Hernando de Acuña, Joseph de Litala y Castelví, Juana Inés de la Cruz, Juan Boscán, Juan de Almeida, Juan de Arguijo, Juan de Tassis y Peralta, Juan de Timoneda, Lope de Vega, Lope de Zárate, López de Mendoza, Luis Carrillo y Sotomayor, Luis de Ulloa y Pereira, Antonio Mira de Amescúa, Pedro de Padilla, Pedro Espinosa, Pedro Soto de Rojas, Francisco de Quevedo, Tirso de Molina, Trillo y Figueroa, Baltasar de Alcázar, Fray Luis de León, Jenónimo Cáncer y Velasco, Francisco de Figueroa, Antonio Hurtado de Mendoza, Juan de Jauregui, Luis Martín de la Plaza, Gregorio de Matos, Anastasio Pantaleón de Ribera, Jacinto Polo de Medina, Diego Ramírez Pagán, Adnrés Rey de Artieda, Juan de Salinas, Esteban Manuel de Villegas, Cristóbal de Virués, entre otros.
La anotación de los patrones métricos se ha realizado de manera semi-automática. Primero se han procesado todos los sonetos con un sistema automático de escansión métrica, que asigna a cada verso su patrón métrico. Después se ha validado a mano cada patrón métrico y se han corregido los errores detectados.
En estos momentos el corpus se encuentra en fase de validación manual. En cada soneto se indica si los patrones métricos han sido validados a mano o no.
Proyecto realizado en la Universidad de Alicante por Borja Navarro Colorado, María Ribes Lafoz y Noelia Sánchez, con la colaboración de Sara Trigueros.
Puedes descargar una muestra del corpus aquí (38 sonetos de Garcilaso de la Vega).
O descargar el corpus entero desde nuestra página de GitHub.
Si quieres más información, consulta la guía de anotación (PDF), o las siguientes publicaciones.
Si utiliza este corpus en trabajos académicos, por favor, cite el recurso de manera apropiada:
Borja Navarro Colorado (2015) A computational linguistic approach to Spanish Golden Age Sonnets: metrical and semantic aspects
Computational Linguistics for Literature NAACL 2015, Denver (Co), USA (PDF).
Borja Navarro Colorado, María Ribes Lafoz and Noelia Sánchez (2016) "Metrical annotation of a large corpus of Spanish sonnets: representation, scansion and evaluation", Proceedings of the 10th edition of the Language Resources and Evaluation Conference, 23-28 May 2016, Portorož (Slovenia).
La anotación métrica de este corpus se encuentra bajo licencia de Creative Commons Reconocimiento-NoComercial 4.0 Internacional.