“种族歧视”

Tableau chinois

ligne code URL Encodage Occurences DumpText HTML Contexte Concordances
1 200 https://www.guancha.cn/internation/2021_12_09_617925.shtml UTF-86 text html contexte concordance
2 200 https://cn.nytimes.com/culture/20190213/wod-blackface/ UTF-87 text html contexte concordance
3 200 https://chineseamerican.org/p/32245 UTF-825 text html contexte concordance
4 200 https://www.workercn.cn/c/2021-12-09/6848091.shtml utf-813 text html contexte concordance
5 200 https://www.guancha.cn/internation/2022_05_11_639245.shtml UTF-83 text html contexte concordance
6 200 https://zhuanlan.zhihu.com/p/585630154 UTF-83 text html contexte concordance
7 200 https://www.zhihu.com/question/397865324/answer/1263189263 UTF-84 text html contexte concordance
8 200 https://www.zhihu.com/question/63872267 UTF-87 text html contexte concordance
9 200 https://www.zhihu.com/question/399696212 UTF-82 text html contexte concordance
10 200 https://www.zhihu.com/question/343791709 UTF-88 text html contexte concordance
11 200 https://www.zhihu.com/question/34110047 UTF-82 text html contexte concordance
12 200 http://www.360doc.com/content/09/0903/11/152695_5535077.shtml utf-82 text html contexte concordance
13 200 https://www.cctv.com/overseas/chinareport/200009/02.html gb231247 text html contexte concordance
14 200 http://news.cctv.com/2021/06/26/ARTI9vRShmNjVGCqjjBrSOxD210626.shtml utf-86 text html contexte concordance
15 200 https://news.cctv.com/2022/01/18/ARTIC5POqfdCbHosAaOigSct220118.shtml utf-814 text html contexte concordance
16 200 http://world.people.com.cn/n1/2022/0416/c1002-32400551.html GB231222 text html contexte concordance
17 200 https://www.sohu.com/a/201209793_756019 UTF-88 text html contexte concordance
18 200 https://user.guancha.cn/main/content?id=890096 UTF-82 text html contexte concordance
19 200 https://m.gmw.cn/baijia/2022-05/25/1302963425.html UTF-81 text html contexte concordance
20 200 https://www.bbc.com/zhongwen/simp/world-51454984 UTF-815 text html contexte concordance
21 200 https://news.ifeng.com/c/8KGdEkHpCBb UTF-81 text html contexte concordance
22 200 https://new.qq.com/rain/a/20221017A091R200 UTF-812 text html contexte concordance
23 200 https://www.sohu.com/a/513433880_116237 UTF-85 text html contexte concordance
24 200 http://www.hinews.cn/news/system/2022/10/05/032846521.shtml UTF-84 text html contexte concordance
25 200 https://www.marxists.org/chinese/maozedong/1968/5-038.htm gb23126 text html contexte concordance
26 200 http://www.china.com.cn/opinion2020/2022-04/21/content_78177406.shtml UTF-811 text html contexte concordance
27 200 https://www.bbc.com/zhongwen/simp/chinese-news-59815600 UTF-81 text html contexte concordance
28 200 http://my-h5news.app.xinhuanet.com/news/article.html?articleId=c26a1136b9e13144943846076bb6ca03 UTF-85 text html contexte concordance
29 200 http://www.xinhuanet.com/world/2022-06/22/c_1211659508.htm utf-87 text html contexte concordance
30 200 https://www.douban.com/note/723578701/ utf-822 text html contexte concordance
31 200 https://cj.sina.com.cn/articles/view/1887344341/707e96d502001baz8 UTF-84 text html contexte concordance
32 200 https://news.un.org/zh/story/2022/08/1108652 UTF-86 text html contexte concordance
33 200 https://epaper.gmw.cn/zhdsb/html/2016-07/13/nw.D110000zhdsb_20160713_2-11.htm utf-83 text html contexte concordance
34 200 https://www.academia.sg/academic-views/racism-in-singapore-ian-chong-mandarin/ UTF-87 text html contexte concordance
35 200 https://rfi.my/8wBv utf-87 text html contexte concordance
36 200 https://www.sohu.com/a/469806602_121124007 UTF-84 text html contexte concordance
37 200 https://www.shihang.org/zh/news/factsheet/2021/11/11/the-world-bank-group-addressing-racism-and-racial-discrimination UTF-810 text html contexte concordance
38 200 https://www.dongzong.my/dzblueprint/zxs-about-3/544-2020-544 utf-819 text html contexte concordance
39 200 https://zhuanlan.zhihu.com/p/130485537?ivk_sa=1024320u UTF-815 text html contexte concordance
40 200 https://zhuanlan.zhihu.com/p/473968030 UTF-84 text html contexte concordance
41 200 https://www.sohu.com/a/403504755_120051440 UTF-827 text html contexte concordance
42 200 https://rfi.my/7FlZ utf-83 text html contexte concordance
43 200 http://henan.china.com.cn/news/2021-11/19/content_41796991.htm UTF-83 text html contexte concordance
44 200 http://www.scio.gov.cn/ztk/dtzt/2014/2013nmgdrqjl/30588/Document/1365475/1365475.htm utf-85 text html contexte concordance
45 200 http://www.cbimc.cn/content/2021-12/24/content_454822.html UTF-86 text html contexte concordance
46 200 https://www.chinanews.com.cn/hr/2022/01-21/9658447.shtml UTF-824 text html contexte concordance
47 200 https://www.163.com/dy/article/H7GR25H50512822P.html UTF-810 text html contexte concordance
48 200 https://www.bilibili.com/read/cv14401729 UTF-815 text html contexte concordance
49 200 https://www.chinanews.com.cn/gj/2022/03-15/9702412.shtml UTF-81 text html contexte concordance
50 200 http://www.xinhuanet.com/world/2021-03/22/c_1127242296.htm utf-86 text html contexte concordance
51 200 https://www.sohu.com/a/520445733_121284943 UTF-83 text html contexte concordance
52 200 https://www.chinanews.com.cn/hr/2021/03-10/9429033.shtml UTF-84 text html contexte concordance
53 200 https://www.guancha.cn/internation/2020_06_03_552853.shtml UTF-86 text html contexte concordance
Fait par CUI Xiaohua


Nous pouvons voir que la fréquence du mot cible varie beaucoup. Il y a des sites où "种族歧视" apparait 27 fois. C'est un article concernant la discrimination raciale en Suisse, qui est très long. Ensuite, sans prendre en compte le contenu, on trouve que la plupart des sites sont écrits en encodage utf-8, les autres en GB-2312. Ce qui n'est pas choquant puisque la plupart des systèmes décodent correctement l'UTF-8.

J'ai lié les hrefs avec les fichiers correspondants. Après avoir transporté le fichier html, le chemin et les relations de niveau sont ainsi changés plus facilement. Donc j'ai du modifier le script pour créer un nouveau tableau. C'est une leçon !!!

C'est vraiment difficile de sauter parmi les fichiers pour constater les caractéristiques du corpus, mais heureusement on a iTrameur et on peut ainsi introduire le corpus pour analyser et obtenir des résultats plus visuels.