basé sur journal_de_bord.md
Blog
Choix du mot
Nous avons choisi le mot "discrimination", plus spécifiquement "discrimination raciale" afin d'avoir les occurrences plus spécifiques dans nos URLs.
Comment nous avons choisis nos URL's
Nous nous sommes concentrés sur les articles de presse tout en essayant de regarder s'il y avait des blogs, forums ou encore Twitter permettant de raconter des histoires personnelles cela n'a pas été concluant.
Gemma
"Au début, le contexte anglais que j'ai choisi d'étudier c'était celui de l'Afrique du Sud étant donné que mon pays a une histoire très important concernant ce sujet. En revanche, lorsque j'ai recherché des URLs, je n'ai pas trouvé assez d'URLs portant sur ce sujet pour pouvoir créer mon corpus. Ceci est dû au fait qu'en Afrique du Sud, il existe plusieurs synonymes du syntagme "racial discrimination". J'ai donc décidé de me baser sur l'anglais américain. J'ai utilisé les mêmes démarches pour choisir mes URLs - en recherchant le syntagme "racial discrimination".
Tannina
"En français, lorsque j'effectuais ma recherche j'ajoutais des guillemets à mon syntagme comme ceci "discrimination raciale", cela permet de chercher les urls comportement ce syntagme. Néanmoins, le petit problème rencontré c'est que dans certaines urls, le syntagme était employé seulement dans le titre. De plus, j'aurais aimé trouver des témoignages ou certains forums."
Xiaohua
"En ce qui concerne la discrimination raciale, cela ne concerne pas seulement les Noirs et les Blancs, les Jaunes devraient également être considérés. Par conséquent, par rapport aux corpus anglais et français, ma recherche a porté davantage sur la discrimination raciale à l'encontre des Asiatiques. Pendant ma recherche d'urls, j'ai utilisé trois moteurs de recherche, Baidu, Google et Bing, et j'ai trouvé des corpus provenant de Zhihu (version chinoise de Reddit), de Sina, de Sohu et de divers sites gouvernementaux. Parmi ces sites, il y en avait quelques-uns qui étaient complètement inaccessibles, comme ceux de Baijiahao, que j'ai éliminés et remplacés en conséquence."

Travail effectué pendant les séances
Séance 1 - 5/10/2022
Pendant cette séance "d'introduction" nous avons crée nos comptes GitHub personnels sur lesquels nous travaillerons dessus pendant le semestre. Les profs nous ont présenté les commandes git (clone, pull, push,...) qu'on utilisera pendant le semestre.
Séance 2 - 12/10/2022
Aujourd'hui nous avons choisi notre groupe qui consistera de : Gemma, Tannina et Xiaohua. Nous avons parlé du projet afin de pouvoir commencer à travailler dessus. Étant qu'au début de la création de notre projet, nous commençons à réfléchir au mot sur lequel nous souhaiterons s'appuyer. Gemma a créé un Github qu'on a nommé PPE-group pour pouvoir travailler tous ensemble sur notre projet du semestre. Nous avons ensuite fait un clonage du dossier sur chacun de nos machines.
De plus, nous avons appris les commandes de shell (cd, rm, mv, diff etc...) qui nous aideront à accéder à nos fichiers.
Séance 3 - 19/10/2022
Notre groupe a plusieurs idées concernant le choix de notre mot tel que: 'diversité', 'discrimination', 'phobie sociale'. Nous nous sommes par la suite concerté afin de savoir si l'un des mots n'était pas employé en chinois pour être sûr qu'il existera un équilibre entre nos trois langues. Nous nous sommes mis d'accord sur le choix du mot 'discrimination'. Nous avons demandé l'avis de Monsieur Fleury, qui nous a expliqué que c'était un bon mot mais qu'il était trop général et qu'il fallait le spécifier.
Nous avons alors déterminé comme sujet le syntagme "discrimination raciale", qui nous permettra de recueillir des données plus précises et cohérentes dans nos trois langues.
Séance 4 - 26/10/2022
Le travail commence à s'avérer compliqué car nous apprenons beaucoup de nouveaux concepts et opérations du shell qui sont tous nouveaux pour nous. Nous avons commencé à chercher chacun nos URLs.
Séance 5 - 02/11/2022
Chacun a trouvé les URLs de la langue correspondante et les a enregistrés dans un fichier texte d'encodage UTF-8 avec l'extension md (ex : urls_français.md). Enfin nous avons effectué chacun un push dans le dépôt sur notre GitHub.
Séance 6 - 09/11/2022
Grâce aux slides et aux vidéos en ligne, nous avons enfin compris le fonctionnement de Git et nous avons pu se déplacer plus facilement entre les dépôts locaux, distants et les différentes branches. Nous avons aussi appris les commandes shell, grep, cat, etc.
Séance 7 - 16/11/2022
Études des commandes html qu'on utilisera pour créer notre site web. Nous avons commencé à regarder sur l'internet des idées de comment créer nos fichiers HTML : alignements, couleurs, police, etc.
Séance 8 - 23/11/2022
Nous avons appris un peu de CSS et l'application de Bulma afin de créer un beau site web. Notre site a été crée avec le fichier "index.html". Xiaohua a commencé à ajouter les informations basiques de notre tableau. Il nous a aidé à comprendre comment le faire aussi. C'est très intéressant d'apprendre comment créer un site web, nous espérons pouvoir réussir.
Séance 9 - 30/11/2022
Aujourd'hui nous avons appris iTrameur en cours, par contre nous n'avons pas pu avancer puisque nous devons d'abord créer les fichiers "dump-texts" et les "aspirations". Ces dossiers ont été créés à l'aide au script appelé "dumps_aspirations.sh". Grâce à l'aide du Xiaohua, nous avons modifié un peu le script afin de créer un tableau avec plus d'informations, y compris les occurrences.
Séance 10 - 7/12/2022
Nous avons soumis plusieurs versions de 7/12 et de 8/12, dans lesquelles nous avons amélioré le tableau, et en se basant sur l'interface du prof, Xiaohua a créé le site de notre groupe : index.html (https://github.com/gemmafelton/PPE-group/blob/main/index.html). En plus, nous avons ajouté 3 colomns à nos tableaux : "dump-texts", "HTML" et "concordances". Ce que nous devons faire ensuite, c'est de savoir ce que signifie le contexte et comment le tirer et l'ajouter dans le tableau. Et enfin il faut s'aider et travailler ensemble pour achever le projet !
Séance 11 - 14/12/2022
Nous avons appris comment utiliser iTrameur et comment créer des nuages de mots. Nous pouvons observer les mots liés aux contextes.
Ceci nous aidera lors de la construction de notre site web. Début de la création de notre site web, nous avons réalisé plusieurs ébauches de sites jusqu'à se mettre d'accord sur la forme, l'interface et sur ce que l'on souhaitait qui apparaisse etc. Nous avons regardé des vidéos et on s'est intéressé à plusieurs plateformes framework nous permettant de styliser notre site à notre image : Bulma, Bootstrap.
Création d'un logo par Tannina afin de l'utiliser pour le site web.
Gemma s'est occupé de la création des nuages de mots avec Tannina.
Nous avons tous contribué à l'élaboration du site web avec les compétences et points forts et faibles des uns et des autres.
Blog individuel
Xiaohua
Gemma
Tannina
Problèmes rencontrés pendant la création de notre projet
Xiaohua
- Au début du semestre, je ne connaissais presque rien au contrôle de version Git, j'ai donc rencontré beaucoup de problèmes de conflits de versions, j'ai donc tout appris sur Git sur le site vidéo bilibili, y compris les quatre partitions, les commandes courantes git rest -hard, reflog, merge hot-fix, etc. Depuis lors, j'ai été en mesure de gérer git.
- Je ne connais rien au shell et Bash, et je rencontre souvent des erreurs lors de l'exécution des programmes, ce qui réduit considérablement ma productivité. Il est donc nécessaire d'apprendre certaines des opérations de base et de comprendre son fonctionnement et ses règles. Après bien des difficultés, j'ai finalement donné un coup de jeune à mon terminal en utilisant `oh my zsh`, en installant git et le plugin de mise en évidence du code afin de pouvoir mieux visualiser les informations du projet.
- Qu'est-ce que sed ? Que signifient les symboles `$`, `&` etc... ? Cela reste inconnu.
Quels sont les paramètres du lynx ? Comment comprendre le code "lynx -dump -nolist -assume_charset=$charset -display_charset=$charset $URL". ❌(toujours pas résolu)
- Selon le script posté par le professeur, pourquoi le tableau généré a-t-il de multiples cas "utf-8" ? (je prédis que le problème est dans la ligne de `curl`).
- J'ai du utiliser la ligne de commande "git commit -m "suppr ds_store" afin de supprimer DS.store un fichier qui se crée automatiquement sur mac et qui pose de problèmes lors du dépôt du travail.
✅ problème résolu. Le professeur m'a dit que je devrais exclure des information du titre lorsque curl l'obtient
- Pourquoi les résultats de la recherche dans itrameur ne correspondent-ils pas à ce que je veux ? Certains mots à haute fréquence qui devraient apparaître sont maintenant disparus !
✅ Problème résolu. Pour le chinois, il faut **segmenter** les mots. J'ai donc utilisé **jieba** pour diviser les mots et j'ai obtenu le résultat idéal.
- Pourquoi le code html et bash ne s'affiche-t-il pas correctement dans highlight.js ?
- Après avoir utilisé jieba pour segmenter les mots, certaines informations noyaux dans le fichier itrameur ne sont plus conservées, par exemple `<text>, >ch-page1>` deviennent maintenant ` < text > , < ch - page1 > `, même après avoir ajouté le dictionnaire utilisateur dict.txt, jieba les divisera toujours, pourquoi ?
✅ Problème résolu, en consultant d'autres personnes j'ai appris que pour les crochets pointus `<>` il faut remplacer par des caractères d'échappement: < et >
Tannina
- J'ai rencontré quelques problèmes pour mettre à jour mon git à plusieurs reprises. J'ai donc décidé de le recloner pour faciliter mes ajouts par la suite.
- Problème pour commiter à cause de la divergence de branches.
- Fichier .DS_STORE qui se crée seul à de multiples reprises.
- Lorsque j'ai voulu faire la concaténation de mes fichiers dumps-texts avec le fichier itrameur.sh, celui-ci ne prenait pas en compte tous mes dumps-texts je pense que c'est parce qu'ils n'ont pas tous le même encodage.
✅ Solution : la commande cat *.txt >> dumps_entier, permet de regrouper tous les fichiers dumps en un seul. Ce fichier sera utilisé iTrameur graphes et nuage de mots. Gemma a eu le même problème on l'a résolu de la même façon. J'ai voulu créer un script comportant des stopwords afin de les retirer et avoir un fichier plus optimal mais je n'ai pas réussis à enlever les mots vides.
- Un autre problème que j'ai pu rencontrer c'est lorsque j'ai fais le compte de mes occurrences, certains urls affichaient aucune occurrence alors qu'il y'en avait. J'ai alors refait ma recherche d'urls 3 fois, de même qu'un site a pour code 403 alors que le site est ouvert et libre d'accès avec occurrences.
- J'ai par ailleurs eu des problèmes avec le concordancier que je n'ai pas réussi à régler, certains fichiers sont totalement vides.
- Comme évoqués précédemment Gemma et moi nous n'avons pas réussi la liste stopwords nous avons alors préféré réaliser notre nuage de mot sur une plateforme : nuagedemot.fr. Elle nous a permis de retirer les mots vides manuellement. Nos nuages de mots seront alors plus représentatifs et on pourra distinguer les grandes nuances de notre mot. Les nuages de mots sont des représentations visuelles plus appréciables et l'on peut apercevoir plus facilement les mots "importants". Puisqu'ils s'affichent le plus souvent en grand.
Gemma
- Comme mentionnée plus haut, j'ai eu des problèmes lors de la selection de mes URLs. J'ai donc recommencé plusieurs fois afin de trouver des URLs qui m'aideront à avoir un contexte avec assez d'informations. C'est pourquoi j'ai décidé de changer de type d'anglais et de faire l'anglais américain.
- Pendant le semestre, j'ai rencontré plusieurs problèmes qui concernait la plupart du temps ,un problème lors du commit ou lors d'un git push après la modification de mon travail. Cela m'a empêché d'avancer autant que je voulais car j'étais souvent bloquée au même étape, ce qui m'a avéré très compliqué.
- Après le mise à jour de mon OS, j'ai rencontré des problèmes avec les commandes git. J'ai donc du réinstaller les commandes git pour pouvoir continuer".
- Je n'ai pas réussi à faire le git commit à plusieurs reprises dû à un problème de merge. J'ai regarde sur l'internet mais je n'ai pas réussi. Pendant le cours, M. Magistry nous a aidé à trouver le problème. Nous avons fait un 'git status' pour voir ce qui posait de problème afin de le regler. Après plusieurs commandes, nous avons réussi à faire un merge et j'ai pu procédé avec mon git push. Ceci était à cause d'une problème de branches divergententes donc j'ai utilisé la ligne de commande " git config --global pull.rebase false " pour que cette option sera le défaut pour tous mes dépôts.
- J'ai du utiliser la ligne de commande "git commit -m "suppr ds_store" afin de supprimer DS.store - un fichier qui se crée automatiquement sur mac et qui pose souvent des problèmes lors du dépôt du travail. Je l'ai surpprimé mais mes camarades ne l'ont pas fait. Donc le fichier s'est rajouté encore une fois. J'ai suivi les mêmes étapes pour le supprimer."
- J'ai eu le même problème que Tannina concernant la création de la liste stopwords. Nous avons fait les mêmes étapes.
✅ problème résolu. Le professeur m'a dit que je devrais exclure des information du titre lorsque curl l'obtient
✅ Problème résolu. Pour le chinois, il faut **segmenter** les mots. J'ai donc utilisé **jieba** pour diviser les mots et j'ai obtenu le résultat idéal.
✅ Problème résolu, en consultant d'autres personnes j'ai appris que pour les crochets pointus `<>` il faut remplacer par des caractères d'échappement: < et >
- J'ai rencontré quelques problèmes pour mettre à jour mon git à plusieurs reprises. J'ai donc décidé de le recloner pour faciliter mes ajouts par la suite.
- Problème pour commiter à cause de la divergence de branches.
- Fichier .DS_STORE qui se crée seul à de multiples reprises.
- Lorsque j'ai voulu faire la concaténation de mes fichiers dumps-texts avec le fichier itrameur.sh, celui-ci ne prenait pas en compte tous mes dumps-texts je pense que c'est parce qu'ils n'ont pas tous le même encodage.
- Un autre problème que j'ai pu rencontrer c'est lorsque j'ai fais le compte de mes occurrences, certains urls affichaient aucune occurrence alors qu'il y'en avait. J'ai alors refait ma recherche d'urls 3 fois, de même qu'un site a pour code 403 alors que le site est ouvert et libre d'accès avec occurrences.
- J'ai par ailleurs eu des problèmes avec le concordancier que je n'ai pas réussi à régler, certains fichiers sont totalement vides.
- Comme évoqués précédemment Gemma et moi nous n'avons pas réussi la liste stopwords nous avons alors préféré réaliser notre nuage de mot sur une plateforme : nuagedemot.fr. Elle nous a permis de retirer les mots vides manuellement. Nos nuages de mots seront alors plus représentatifs et on pourra distinguer les grandes nuances de notre mot. Les nuages de mots sont des représentations visuelles plus appréciables et l'on peut apercevoir plus facilement les mots "importants". Puisqu'ils s'affichent le plus souvent en grand.
✅ Solution : la commande cat *.txt >> dumps_entier, permet de regrouper tous les fichiers dumps en un seul. Ce fichier sera utilisé iTrameur graphes et nuage de mots. Gemma a eu le même problème on l'a résolu de la même façon. J'ai voulu créer un script comportant des stopwords afin de les retirer et avoir un fichier plus optimal mais je n'ai pas réussis à enlever les mots vides.