“种族歧视”
Tableau chinois
Nous pouvons voir que la fréquence du mot cible varie beaucoup. Il y a des sites où "种族歧视" apparait 27 fois. C'est un article concernant la discrimination raciale en Suisse, qui est très long. Ensuite, sans prendre en compte le contenu, on trouve que la plupart des sites sont écrits en encodage utf-8, les autres en GB-2312. Ce qui n'est pas choquant puisque la plupart des systèmes décodent correctement l'UTF-8.
J'ai lié les hrefs avec les fichiers correspondants. Après avoir transporté le fichier html, le chemin et les relations de niveau sont ainsi changés plus facilement. Donc j'ai du modifier le script pour créer un nouveau tableau. C'est une leçon !!!
C'est vraiment difficile de sauter parmi les fichiers pour constater les caractéristiques du corpus, mais heureusement on a iTrameur et on peut ainsi introduire le corpus pour analyser et obtenir des résultats plus visuels.