Ces différents discours sont disponibles sur le site de l'Élysée, leur téléchargement, utilisation et distribution sont permis. En effet, les discours publics ne sont couverts par aucun droit d'auteur (cf. mentions légales d'Elysee.fr et article L.122-5 du Code de Propriété intellectuelle alinéa 3c).

Le corpus en lui-même est placé sous licence LGPL-LR en tant qu'œuvre dérivée des discours originaux. Merci donc de respecter cette licence et de me citer si jamais vous utilisez le corpus tel quel. Le corpus distribué contient :

  • les discours originaux au format PDF
  • une conversion propre des discours originaux en texte brut
  • un nettoyage et une structuration XML des discours (extraction des titres, de la date, ...)

Le tout réorganisé chronologiquement. Les fichiers sont en effet préfixés de la date de prononciation du discours.

Je distribue deux versions du corpus :

J'ai placé dans les fichiers d'archive un fichier contenant tous les liens vers les versions originales en PDF des discours sur le site de l'Élysée. Préférez donc la version sans PDF étant donné que vous pourrez facilement récupérer ces derniers sur le site de l'Élysée qui a une meilleur bande passante à mon avis !