Ici on présente nos choix, méthodes et problèmes de réalisation du projet.
Ici on présente nos choix, méthodes et problèmes de réalisation du projet.
Nos données viennent du site www.data.gouv.fr. On a choisi deux differents sets de données: Le premier, "Base de données accidents corporels de la circulation", au format CSV et le deuxième, "Chiffres départementaux mensuels relatifs aux crimes et délits enregistrés par les services de police et de gendarmerie depuis janvier 1996", au format XLSX.
Ici, nous avons tenté de combiner les deux datasets en un seul. Afin de diminuer la quantité de données et de faciliter les traitements, nous avons décidé de diviser le résultats par départements. Les datasets pour chaque département ont donc été combinées dans un fichier xml pivot par département. Les fichiers peuvent être téléchargés en cliquant les boutons ci-dessus.
Cette étape a consisté à écrire des logiques de transformations au format XSLT afin d'exporter nos résultats dans des formats autres que XML. Le processeur XSLT prend ce fichier de conversion, un fichier XML de résultats à transformer et crée des fichiers au format CSV, HTML et CSS nécessaires pour la suite de notre étude.
Enfin, nous avons tenté d'obtenir une représentation visuelle de nos résultats. Pour ce faire, nous avons utilisé les résultats convertis via le fichier XSLT de l'étape précédente afin d'obtenir un format compatible et profiter d'outils déjà existants, (ex: carte avec Google Maps).
Nous sommes des étudiants en deuxième année de Master en Traitement Automatique des Langues à l'Institut National des Langues et Civilisations Orientales (INALCO) à Paris, en France. Vous pouvez trouver toutes les informations sur notre cursus ici.