User:Simon Villeneuve/PoV
D̄
[edit]“ | Va vite et casse des choses. Si tu ne casses rien, c'est que tu ne vas pas assez vite[trad 1]. | ” |
— Ghuron, citant probablement Mark Zuckerberg (Q36215) |
septembre 2018 - Le vendredi 7 septembre 2018, je franchis la barre des 500 000 contributions sur Wikidata. Nous sommes 77 contributeurs dans cette situation. Je profite de l'occasion pour faire un bilan :
- Débuts : Je commence à contribuer à Wikidata en février 2013. Jusqu'en juin 2015, j'y contribue peu, y faisant environ 3 000 contributions qui concernent surtout des modifications de libellés, alias, descriptions et liens interwikis des éléments.
En mai 2015, j'adapte fr:Modèle:Wikidata list (WL) pour frwiki. - Infobox : À partir de fin juin 2015, c'est l'histoire des infobox Wikidata qui commence pour moi (voir fr:Utilisateur:Simon Villeneuve/PoV#LuaBot). Je fais quelques milliers d'interventions manuelles par mois jusqu'en mars 2016. D'abord presque exclusivement sur des éléments dédiés à des êtres humains (human (Q5)) ou liés à des êtres humains, notamment à la traduction de plusieurs labels d'éléments affichés dans des articles de la fr:catégorie:Page utilisant des données de Wikidata à traduire, puis un peu sur des éléments liés à des mines à partir de septembre lorsqu'on m'a demandé de retoucher des aspects de fr:Modèle:Infobox Mine. Le sujet semble me passionner car je crée plusieurs listes de mines avec WL. D'ailleurs, avant que je la subdivise, la fr:listes de mines devient momentanément en novembre le plus gros article de frwiki, frôlant le million d'octets.
Novembre est mon plus « gros » mois contributif de l'année. J'ajoute, notamment, plusieurs labels en français concernant des objets astronomiques. J'ai l'impression que j'ai utilisé un outil automatique ou semi-automatique pour ce faire, mais rien dans l'historique de mes contributions ne l'indique.
En janvier 2016, je continue à traiter des sujets géologiques et fais des contributions sur des éléments liés aux séismes. On dirait que j'utilise à l'époque un ancêtre de Wikidata Query, Wikidata Query Service, dont le difficile apprentissage de la syntaxe ne servira pas longtemps puisque celle-ci sera remplacée par le SPARQL (Q54871). En février, je fais quelque contributions à l'aide de Kasparbot, mais ça ne semble pas concluant (j'en garde aucun souvenir). J'ajoute également des légendes d'images wikifiées avant de comprendre que ce n'est pas adéquat sur Wikidata. Enfin, à la fin du mois, je crée fr:Modèle:Infobox Localité dans la foulée du MOI d'un contributeur.
- Break : Au printemps, je frappe des murs sur frwiki (retrait de WL de l'espace encyclopédique, pressions constantes en RA / BA concernant fr:Modèle:Infobox Biographie2) et je prends des vacances, d'abord de force.
À la fin de l'été, le bannissement de Meodudlye me convainc de reprendre le collier. Je fais des expérimentations dans un cours et crée fr:Modèle:Infobox Volcan2, rapidement éteint par un contributeur du projet:Montagne.
- Automatisation : En décembre, après la fin des cours, je (re?)découvre QuickStatements (QS). Je commence donc l'automatisation de mon parcours contributif wikidatien et je ne ferai jamais en-dessous de 3 000 contributions par mois par la suite.
J'utilise d'abord QS pour ajouter des populations sur des éléments liés à des localités du Mexique, puis, en janvier 2017, je fais quelques autres expérimentations, notamment sur des fonctions politiques, puis sur des occupations de sportifs et joueurs d'échecs.
Au milieu du mois, après y avoir pensé quelque mois à la suite d'une suggestion de Cantons-de-l'Est (encore lui !), j'arrive à trouver une méthode pour ajouter le label en plusieurs langues pour les quelque 2 000 satellites russo-soviétiques Cosmos. J'ajoute par la suite le pays de nationalité de plusieurs personnalités canadiennes, puis, en fouillant les contributions de Fralambert, je (re?)découvre mix'n'match.
Avec enthousiasme, je crée environ 1 400 éléments sur des joueuses d'échecs et complète ces derniers, ainsi que certains concernant des joueurs masculins, avec QS. J'ai momentanément peur six mois plus tard quand on met en doute l'admissibilité des joueuses, mais le tri a bien été fait sur mix'n'match et je suis à ce moment plus habile avec les outils automatiques. Je peux donc compléter adéquatement les créations.
Je fais 63 000 contributions en janvier. Ce sera mon plus gros mois avant que, un an et demi plus tard, en fouillant les contributions de Thierry Caro, je (re)découvre Harvest Templates (HT).
L'ami Fralambert et moi prenons un mastodon au cours de l'année et il me montre comment contribuer à l'aide de PetScan:. Une toute nouvelle dimension s'ouvre à moi pour cet outil[note 1].
À la fin de l'automne, à la suite de la visite de la caravane wiki dans ma région, je me lance éperdu dans l'association d'éléments avec des entrées web d'encyclopédies classiques avec mix'n'match (voir fr:Utilisateur:Simon Villeneuve/PoV#Quantifier les centrismes de Britannica et Universalis). J'arrive désormais vers la fin de mes capacités à ce niveau, après avoir associé à 93 % Universalis et 20 % Britannica. Je suis passé à l'encyclopédie Canadienne (voir fr:Utilisateur:Simon Villeneuve/PoV#Quantifier les centrismes de l'EC et du DBC). - Vitesse supérieure : J'ai fait plus de la moitié de mes contributions sur Wikidata au cours du dernier mois. Le harvest porte bien son nom. Il s'agit de bien identifier la propriété concernée, le champ d'infobox qui y correspond et bingo. Ne reste qu'à faire rouler l'ordi toute la nuit. J'ai ajouté ainsi des séquences d'albums musicaux et labels discographiques associés, des scénaristes et réalisateurs de films, des dates de découvertes par découvreur, des ...
- En route vers M : Au rythme actuel, je devrais atteindre le million de modifications d'ici la fin de l'année avec HT. Par la suite, qu'arrivera-t-il ? Je ne sais pas. J'aimerais mieux lier les différents projets wiki entre-eux (je crois que c'est pour ça que j'aime autant contribuer à Wikidata) et je regrette, notamment, de ne pas connaître le Python (Q28865). Cela aurait pu me permettre d'explorer Pywikibot. Mais bon, peut-être dans une autre vie.
Ma philosophie contributive wikidatienne est toujours guidée par fr:WP:NHP. Bien que cette attitude ne semble plus vraiment possible sur frwiki, pour l'instant, elle l'est encore sur Wikidata. D'ailleurs, la citation des RAW 200 disant que
cristallise l'idée qu'il faut faire son chemin, son parcours contributif pour mieux y voir. C'est en marchant le chemin qu'on arrive à comprendre de mieux en mieux les choses et que les influences sur sa manière de contribuer se font sentir. De plus, puisque le site est aisément modifiable, il est facile de corriger le tir si l'initiative est malheureuse.Wikipédia est un labyrinthe sans murs
Cette citation me fait également penser à la Prime Directive (Q891149), qui dit de ne pas partager des connaissances avec quelqu'un qui n'est pas prêt à les gérer, autrement il pourrait se retrouver dans une position d'apprenti sorcier. Cela me fait réfléchir sur le contenu du manuel Savoir libre en éducation.
I
[edit]octobre 2018 - Je franchis le cap du million de contributions le mardi 9 octobre 2018. D'après le message de félicitation automatique que j'ai reçu, ma millionième contribution a été faite sur Gay Life (Q5528603) (!).
Nous sommes actuellement 49 millionnaires humains[note 2] sur Wikidata. Quoi de neuf un mois plus tard ?
- Comme prévu, c'est l'utilisation de HT qui m'a permis de faire 90 % des 500 000 nouvelles contributions. J'ai ainsi écrémé plusieurs modèles d'infobox de enwiki, à commencer par les infobox biographiques. J'ai été notamment surpris par le nombre d'images non-importées sur Wikidata (image (P18)). J'aurais cru que d'autres utilisateurs auraient importé depuis longtemps ces dernières sur la base de données libre.
Bien que je ne pense pas que cela soit un facteur déterminant, il faut cependant souligner que certaines images des infobox sont indésirables. Ainsi, par exemple, les images soulignant l'absence d'image et invitant les internautes à téléverser une image sous licence libre (voir ci-contre). Cependant, j'ai appris qu'il est possible de restreindre les valeurs importées automatiquement pour certaines propriétés. J'ai ainsi pu faire plusieurs ajustements afin d'éviter la plupart des mauvaises importations automatiques pour P18. Cependant, cet apprentissage ne s'est pas fait sans heurts et j'ai perdu ma virginité de blocage sur Wikidata à la suite d'une erreur de manip et d'une absence de réponse trop longue de ma part sur ma page de discussion utilisateur.
Sinon, dans les autres types de données importées, notons l'ajout de plusieurs cartes de localisation (locator map image (P242)), de superficies (area (P2046)), d'images du blason (coat of arms image (P94)) ou de drapeaux (flag image (P41)). J'ai créé des tableaux de statistiques sur plusieurs pages de discussion des catégories de frwiki recensant les pages utilisant des données de Wikidata. Je m'y suis malheureusement pris trop tard pour P18, mais je me suis repris pour, notamment, P242. J'ai ainsi pu constater que l'importation de plusieurs dizaines de milliers d'images de localisation sur Wikidata a résulté en l'ajout d'environ 1 500 images de cartes de localisation sur des articles de frwiki utilisant l'infobox Localité.
Je suis particulièrement fier de l'ajout d'une dizaine de millier de types d'établissements humains (instance of (P31)) qui me demandaient de revérifier la validité de l'élément parmi une liste de plusieurs dizaines d'éléments types.
Notons le peu d'ajouts de dates de décès (date of death (P570)) en raison de l'utilisation de modèles imbriqués dans les infobox sur ces dernières afin, notamment, d'afficher l'âge au décès. D'autres difficultés ont également émergées, comme par exemple l'ajout de date de fondation (inception (P571)) de localités. Cela s'explique par la nature même de la propriété (une localité peut changer à plusieurs reprises de classification au cours de son histoire). - Dans le 10 % restant, notons que j'ai finalement réussi, un an après avoir posé la question sur le Bistro de Wikidata, à importer automatiquement la langue des sites officiels[note 3] de dix à vingt mille éléments à l'aide de QS2[note 4]. Pour ce faire, j'ai d'abord recensé et ajouté le qualificatif aux localités des États-Unis. Par la suite, j'ai fait la même chose avec les éléments qui n'ont que l'anglais pour language of work or name (P407). Pour ce faire, j'ai bénéficié de l'aide d'autres Wikidatistes[note 5] pour finir par forger la requête suivante : Try it!
SELECT ?item ?itemLabel WHERE { { SELECT ?item (COUNT(DISTINCT ?lang) AS ?count) WHERE { ?item wdt:P407 wd:Q1860 . ?item wdt:P407 ?lang . ?item p:P856 ?statement . ?statement ps:P856 ?url . MINUS {?statement pq:P407 wd:Q1860 . } } GROUP BY ?item } FILTER ( ?count = 1 ) SERVICE wikibase:label { bd:serviceParam wikibase:language "en" . } } ORDER BY DESC(?count) ?itemL
Ma maîtrise du SPARQL continue de progresser, mais, bien honnêtement, elle demeure rudimentaire.
Voilà. Quelle est l'étape suivante ? Je crois que je vais me contenter de terminer mes imports actuels et prendre une petite pause pour digérer le tout. Le travail et la vraie vie sont prenants ces temps-ci et je ne peux malheureusement pas me permettre de continuer mes explorations wikidatiennes pour le moment.
MM
[edit]“ | Le premier million est le plus difficile. | ” |
décembre 2018 - Je franchis le cap du 2 millions de contributions le 24 décembre 2018. Cette fois, pas de message de félicitation automatique. Ma deux millionième contribution est un ajout de label « cours d'eau aux États-Unis » sur l'un des nombreux cours d'eau aux États-Unis n'ayant pas de label en français.
Nous sommes actuellement 19 utilisateurs non-bot bi-millionnaires. Quoi de neuf depuis le cap du million ?
- octobre 2018 J'ajoute encore environ 150 000 contributions à l'aide de HT. Je délaisse par la suite cet outil pour revenir au trio query - PS - QS.
Je déniche tout d'abord tous les éléments ayant un URL officiel et comme pays les États-Unis. Je leur ajoute comme qualificatif English (Q1860) avec language of work or name (P407). Cela touche environ 100 000 éléments. Je fais quelques requêtes supplémentaires pour ajouter des P407 sur quelques milliers d'autres URL.
- connecteurs logiques Par la suite, en novembre, je m'intéresse aux logical connective (Q211790) entre les propriétés pour repérer des éléments qui possèdent des semantic triple (Q3539534) qui ne vont pas que dans un seul sens. Ce faisant, je me rappelle que vers 2015, j'avais voulu insérer des noms de compagnies sur des éléments d'êtres humains à l'aide de la propriété founded by (P112) et qu'on m'avait rapidement signalé que cette propriété n'allait que dans un sens (compagnie P112 fondateur). J'ai mis un certain temps à comprendre/accepter le sens unique des triplets[note 6].
Donc, première chose, je constate que puisque la propriété sibling (P3373) est égalitaire (), c'est-à-dire queélément1 P3373 élément2 élément2 P3373 élément1
, on peut ajouter automatiquement l'élément1 en P3373 de tous les éléments2 qui n'ont pas de valeur pour P3373.
J'ai été étonné de la simplicité de la requête SPARQL permettant de dénicher ces éléments :Try it!SELECT DISTINCT ?fratrie ?item WHERE { ?item wdt:P3373 ?fratrie MINUS {?fratrie wdt:P3373 ?pasfratrie} }
Cela m'a donné environ 4 500 résultats.
Il a été facile d'adapter la chose pour les relations profs/élèves (il manquait 2 directeurs de thèse, 10 000 étudiants de thèse[note 7], 8 700 élèves et 4 900 élèves de) ainsi que les relations entre père/mère et enfants (~1 000 résultats), enfant mère (~1 600 résultats) et enfant père (~4 000 résultats). On remarque ainsi, notamment, qu'il y a 2,5 fois plus d'éléments Wikidata sans père que sans mère lorsque la propriété child (P40) est renseignée chez ces derniers. En croisant cela avec le contenu des catégories des pages utilisant P22 et P25 (21,180 vs. 8,431), on peut conclure qu'il semble que les mamans sont beaucoup mieux liées à leurs enfants que les papas.
Une autre requête simple permet de trouver les éléments qui n'ont pas de country (P17) mais qui ont une located in the administrative territorial entity (P131) liée à un pays :. J'ai donc ainsi ajouté Spain (Q29) sur environ 11 200 éléments (!?[note 8]), France (Q142) sur environ 3 600 éléments, United Kingdom (Q145) sur environ 2 000 éléments, United States of America (Q30) sur environ 1 500 éléments, etc..Try it!SELECT DISTINCT ?item WHERE {?item wdt:P131* wd:PAYS . MINUS {?item wdt:P17 [] .} }
La découverte de inverse property (P1696) m'aide à mieux établir les connexions, ce qui me permet d'ajouter des conjoints (environ 5,000[note 9]), des capitales (environ 19,000 capital of (P1376) et 600 capital (P36)), des different from (P1889) (~7 000 éléments).
J'ai également tenté de lier des owner of (P1830) (~154 000 éléments !) et des derivative work (P4969), ce qui m'a amené à battre le record de l'élément avec le plus grand nombre de déclaration[note 10], mais plusieurs contributeurs ont pété les plombs et retiré mes ajouts à ce niveau. Ils m'auraient même momentanément bloqué si je n'avais pas réagit promptement à leur doléances. J'ai tenté une discussion sur le Bistro anglophone de Wikidata sur le sujet, soulignant que la symétrie de ces propriétés impose que le contenu de l'une soit entièrement reflété dans le contenu de l'autre et que soit on le fait, soit on supprime la propriété inverse. Malheureusement, personne n'a répondu. La communauté n'est manifestement pas prête/mûre sur ce sujet.
{{:fr:Utilisateur:Simon Villeneuve/PoV/musée1}} {{:fr:Utilisateur:Simon Villeneuve/PoV/musée2}}
Le même mois, je trouve enfin une page listant les principaux modèles d'infobox utilisés sur enwiki. J'en profite donc pour importer une bonne partie du contenu des principaux modèles que je n'avais pas encore explorés avec HT. J'utilise également PS pour lister les éléments qui n'ont pas de P31 et dont les articles de enwiki utilisent un modèle d'infobox particulier. J'ajoute ensuite ce P31 en fonction de l'infobox concernée. Ainsi, par exemple, il y avait environ 4 000 éléments sans P31 et dont l'article en anglais utilise en:Template:Infobox school (petscan:6618629). Je leur ai donc ajouté school (Q3914).
Après avoir écumé les principaux modèles d'infobox utilisés, je suis passé à d'autres modèles très utilisés recensés sur en:Wikipedia:WikiProject Accessibility/Most widely used templates/Top 200 et son équivalent en français.
- Descriptions : À la mi-décembre, en observant l'ami VIGNERON ajouter des descriptions en Breton (Q12107) sur des lacs du Canada, je fais de même en y ajoutant des descriptions en anglais. J'ajoute également des descriptions en anglais et en français pour des lacs et cours d'eau des États-Unis, de la Russie, de la Chine et de l'Inde. Cela amène rapidement environ 200 000 contributions m'amenant à dépasser les deux millions de modifications. La requête SPARQL concernée m'a longtemps échappée, alors qu'elle est relativement simple :
#Tous les lacs du Canada qui n'ont pas de description en français
SELECT DISTINCT ?item
WHERE
{
?item wdt:P31 wd:Q23397 .
?item wdt:P17 wd:Q16 .
MINUS { ?item schema:description ?itemDescription filter(lang(?itemDescription)="fr") .}
}
- Quel taux d'erreur peut-on tolérer ? : Je me rends compte que ma manière de contribuer entraîne un taux incompressible d'erreurs. Je m'interroge sur les valeurs acceptables d'un tel taux.
Ainsi, par exemple, un contributeur me suit régulièrement pour méticuleusement annuler toute modification de ma part qu'il juge inadéquate. Bien que je crois qu'il est souvent trop perfectionniste, j'imagine que ses interventions améliorent en général la base de données libre. J'arrive désormais à ne pas le prendre personnel et à accepter cette wikitraque, mais ces interventions sont cependant stressantes pour moi car elle amènent une bonne quantité de notifications qui m'attendent à chaque matin et j'anticipe toujours que le ciel va me tomber sur la tête.
Alors, quel est le taux d'erreurs incompressible acceptable ? 1 %, 0,1 %, 0,01 %, aucun ? Pour le moment, je crois que mes erreurs sont largement compensées par mes bons coups, mais je peux faire erreur.
Si jamais vous avez une opinion sur le sujet, je suis preneur.
- Opinions
- Un ami wikimédien me dit qu'un taux d'erreur mène à moins de problèmes. En effet, dans cette situation, si quelqu'un remarque une erreur, il lui faudra vérifier en moyenne 100 autres de vos contributions pour trouver une autre erreur. Cela est trop énergivore pour le contributeur moyen et si toutefois la personne s'y met, elle pourra probablement être accusée de harcèlement.
Je trouve ce PoV intéressant. Bien qu'on parle moins d'un taux acceptable d'erreur qu'un taux qui "passe sous le radar", il permet de faire évoluer ma réflexion.
3 minions et plus
[edit]“ | Vers l'infini...et plus loin encore ! | ” |
— Buzz Lightyear (Q1986193) |
février 2019 - Je franchis le cap des 3 millions de contributions le 2 février 2019. Ma trois millionième contribution est un ajout de label « établissement humain » ou « human settlement » sur l'un des nombreux éléments du genre n'ayant pas de label en français ou en anglais sur Wikidata.
Je franchis à peu près en même temps le cap du milliard d'octets ajouté (Global diff) sur Wikidata.
Nous sommes actuellement 12 utilisateurs non-bot tri-millionnaires. Quoi de neuf ?
- Ère des descriptions : Je continue mon voyage dans l'ère des descriptions en ajoutant les descriptions en français « établissement humain à/au/aux PAYS » et en anglais « human settlement in PAYS » aux quelques ~100,000 éléments classifiés comme tels pour les États-Unis, aux 12 000 éléments similaires du Canada, 16 000 de la France, 12 000 du Royaume-Uni, 110 000 de l'Inde, ~300 000 de la Russie, ~210 000 du Mexique, etc. Il est certain que ces descriptions n'ajoutent pas beaucoup de capital gain (Q1850816) et que certains informaticiens doivent même juger qu'elles n'apportent absolument rien de plus puisque ces informations sont déjà disponibles dans les propriétés P31 et P17, mais je rationalise la chose en me disant que ce qui favorise la data redundancy (Q838123) est bon. De plus, si je ne prends que mon expérience personnelle, il m'arrive souvent d'être irrité par l'absence de description quand j'effectue une recherche dans Wikidata, surtout quand je tente de trier des notions homonymes. Enfin, sur mix'n'match, il faut souvent faire un choix parmi les associations automatiques à l'aides des descriptions. Avoir ainsi la meilleure description possible permet un plus grand succès. Dans cette optique, pas de description < description générale < description précise.
Je prends des initiatives pour mieux comprendre le SPARQL. Je lis de la documentation qui y est liée[note 11] et je continue à développer tranquillement User:Simon Villeneuve/SPARQL. Je compte également sur la nouvelle section "SPARQL du mois" dans les RAW pour avancer à ce niveau. - Étiquettes : Au cours de la deuxième semaine de février, je fais une pause d'ajout de description. Je me lance dans l'ajout d'étiquettes (labels) en français de personnalité n'en ayant pas, mais en ayant une en anglais. Je le fais pour des personnalités canadiennes (~4 300), américaines, etc.
- Instrument de musique : En même temps, je recense tous les éléments ayant comme occupation (P106) singer (Q177220), mais sans voice (Q17172850) dans instrument (P1303). J'ajoute donc cet instrument pratiqué avec PetScan sur les ~82 000 éléments concernés :
select distinct ?item where {?item wdt:P106 wd:Q177220 . minus {?item wdt:P1303 wd:Q17172850 .} }
- OpenRefine : Lors d'une panne majeure des wmflabs à la mi-février, QS, mix'n'match et ListeriaBot sont K.O.., Après des pleurs, je me rabats sur OpenRefine (Q5583871) (OR). Je lance ~20 000 descriptions de variétés de plantes à partir d'une traduction de la description anglaise.
En travaillant sur le genre du contenu de dictionnaires et d'encyclopédies pour l'édition de mars des RAW, je constate qu'un fort pourcentage d'élément humains de Wikidata ne possèdent pas de sex or gender (P21). Je concocte une requête qui permet de trouver parmi eux les éléments possédant un given name (P735) qui est female given name (Q11879590) :
select distinct ?item where {?item wdt:P31 wd:Q5 ; wdt:P735 ?prenom ; wdt:P735/wdt:P31 wd:Q11879590 . minus { {?item wdt:P735/wdt:P31 wd:Q12308941 .} union {?item wdt:P21 ?sexe .} } } group by ?item having(COUNT(DISTINCT ?prenom) = 1)
Ce qui me permet d'ajouter female (Q6581072) dans P21 sur un peu plus de 8 000 éléments.
Je continue à traduire des descriptions anglo to fr. On gagne 2 000 nageuses par ci, 2 000 joueurs de cricket par là, 7 000 femmes politiques par ici, 4 000 hommes politiques américains par là, etc.. Je perds tranquillement un ordre de grandeur contributif.
- Bref retour à HT et poursuite des descriptions : Manquant d'inspiration, je fais un petit retour sur HT en m'intéressant aux modèles d'infobox Film en espagnol, italien, néerlandais, etc.. J'en profite pour détecter les films américains, canadiens, britanniques, etc. qui n'ont pas de description en français. À l'aide de Google Translate (Q135622), j'arrive à décoder quelques champs de l'infobox fa:الگو:جعبه اطلاعات فیلم. Wikidata y gagne, notamment, près de 500 « nouveaux » films.
Des membres du projet:Cinéma se mobilisent pour supprimer l'infobox Film. Je perds le goût de développer cette thématique.Réfléchissant aux éléments Wikidata les plus utilisés, je regarde ce que je pourrais faire concernant les scholarly article (Q13442814). À ma grande surprise, plusieurs ne possèdent pas de description en français. Je commence ainsi par sélectionner les articles scientifiques publiés par Nature (Q180445) et j'ajoute ~250 000 descriptions (!) sur ces derniers.
SELECT DISTINCT ?item
{
?item wdt:P31 wd:Q13442814 ;
wdt:P1433 wd:Q180445 ;
MINUS { ?item schema:description ?itemDescription filter(lang(?itemDescription)="fr") .}
}
- mars : Je franchis le cap des 4 millions de contributions le 7 mars en ajoutant des descriptions en anglais et en français sur des articles scientifiques.
J'en profite pour détecter les articles scientifiques publiés par des revues anglophones et qui n'ont pas de P407 afin d'ajouter Q1860 avec petscan:8174056. Cela mène à environ 350 000 contributions.
Je recherche des mountain (Q8502) aux États-Unis sans descriptions en anglais ou en français (environ 110 000 résultats), puis j'affine ma recherche pour ajouter l'État :
select distinct ?item ?etatLabel where {?item wdt:P31/wdt:P279* wd:Q8502 ;
wdt:P17 wd:Q30 ;
wdt:P131 ?loc .
?loc wdt:P131* ?etat .
?etat wdt:P31 wd:Q35657 .
MINUS { ?item schema:description ?itemDescription filter(lang(?itemDescription)="en") .}
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE]". }
}
Je poursuis avec les building (Q41176), en ajoutant la localisation administrative, l'État et le pays. Exemple de requête concernée :
SELECT DISTINCT ?item ?locLabel ?etatLabel
WHERE
{
?item
wdt:P31 wd:Q41176 ;
wdt:P17 wd:Q30 ;
wdt:P131 ?loc ;
wdt:P131* ?etat .
#wdt:P131* wd:Q99 .
?etat wdt:P31 wd:Q35657 .
#wdt:P17/wdt:P30 ?continent ;
#wdt:P17/wdt:P30 wd:Q15 .
MINUS { ?item schema:description ?itemDescription filter(lang(?itemDescription)="en") .}
SERVICE wikibase:label { bd:serviceParam wikibase:language "en". }
}
#group by ?item ?locLabel having(COUNT(DISTINCT ?continent) = 1) order by desc (?count)
J'ai dû réviser mes expressions rationnelles pour être capable de retirer les doublons entre localité et État.
Je reçois des messages irrités sur ma page de discussion, ce qui indique que j'approche le point de "casser quelque chose" avec ma vitesse de contribution. Je ralentis donc le rythme et corrige selon les doléances exprimées. L'une des critiques me permet de créer une requête peaufinée permettant de faire des correction de descriptions :
SELECT ?item
?locLabel
?etatLabel
?paysLabel WHERE {
?item schema:description "cours d'eau aux États-Unis"@fr ;
wdt:P31/wdt:P279* wd:Q355304 ;
wdt:P17 wd:Q30 ;
wdt:P17 ?pays ;
wdt:P131 ?loc ;
wdt:P131* ?etat .
?etat wdt:P131 wd:Q30 .
#?pays2 .
# filter (?pays2 = ?pays) .
#?country wdt:P30 wd:Q46 .
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en" }
}
LIMIT 15000
Je franchis le cap des 5 millions de contributions le 20 mars 2019, soit avec une description en anglais ou en français de bâtiments d'Allemagne, soit avec l'ajout de langue=anglais sur un article publié par Nature ou The Astrophysical Journal Letters (Q3470990), soit avec l'ajout d'une image tirée de biographies de Hungarian Wikipedia (Q53464).
Je commence à préciser quelques descriptions un peu floues avec des modifications de la requête précédente, d'abord en remplaçant les descriptions "ville américaine" par "ville de P131, État, États-Unis" :
SELECT DISTINCT ?item ?locLabel ?etatLabel WHERE {
?item schema:description "ville américaine"@fr ;
wdt:P17 wd:Q30 ;
wdt:P131 ?loc .
?loc wdt:P131*/wdt:P31 wd:Q35657 ;
wdt:P131 ?etat .
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en" }
}
- fin mars : Je vais limiter les nouvelles descriptions avec QS pour un temps. Ça prend vraiment trop de temps IRL. Je vais donc plutôt préciser les descriptions que j'ai importées précédemment.
- avril : J'atteins les 6 millions de contributions le 1er avril, probablement avec une modification de description de lac américain ou canadien, ou en ajoutant langue=en sur l'un des millions d'éléments dédiés à des articles scientifiques.
Je m'intéresse à nouveau aux livres et procède à diverses modifications de l'Infobox Ouvrage alors que j'ajoute cette dernière sur plusieurs articles dédiés à des livres et séries de livre, voire des publishing company (Q2085381) (!). Dans la foulée, je trouve enfin le moyen d'optimiser mon nettoyage des genres des livres. En effet, souvent, je constate que novel (Q8261) fait doublon avec un sous-genre de roman dans genre (P136). Je me contentais d'identifier le sous-genre en question dans P136 et de retirer Q8261. Maintenant, avec cette requête, je peux détecter automatiquement tout élément possédant à la fois Q8261 et un sous-genre de Q8261 dans P136 :
select distinct ?item where {?item wdt:P136 wd:Q8261 ; wdt:P136 ?genre . ?genre wdt:P279* wd:Q8261 minus {?item wdt:P31 wd:Q5}.} group by ?item having(COUNT(DISTINCT ?genre) > 1)
À l'aide de la communauté, on arrive à créer des requêtes permettant de produire des listes de localités avec 3 niveaux de subdivisions.
SELECT distinct ?item ?level1Label ?level2Label ?level3Label
WHERE {
?item wdt:P31/wdt:P279* wd:Q486972 ;
wdt:P17 wd:Q159 ;
schema:description "human settlement in Russia"@en ;
wdt:P131 ?level1 .
?level1 wdt:P131 ?level2 .
?level2 wdt:P131 ?level3 .
minus {?level2 wdt:P576 ?fin .}
minus {?level3 wdt:P576 ?fin2 .}
SERVICE wikibase:label { bd:serviceParam wikibase:language "en". }
}
LIMIT 25000
Je développe une autre requête pour tenter de détecter les liens entre livre-base et films-œuvre dérivée, mais ça dépasse le temps de calcul alloué :
SELECT DISTINCT ?item WHERE {
?item wdt:P31 wd:Q11424 ;
wdt:P31 ?film ;
rdfs:label ?label .
?item2 wdt:P31 wd:Q571 ;
wdt:P31 ?film2 ;
rdfs:label ?label2
filter(lang(?label) = "fr") .
filter(lang(?label2) = "fr") .
filter(?label = ?label2) .
minus{?item wdt:P144 ?base .}
minus{?item2 wdt:P4969 ?derive .}
}
LIMIT 1000
Je franchis le cap des 7 millions de contributions le 24 avril 2019.
Je développe une requête pour trouver les écrivain-e-s ayant une étiquette en anglais, mais pas en français :
select distinct ?item ?itemLabel where {?item wdt:P31 wd:Q5 ; wdt:P21 ?sexe ; wdt:P106 wd:Q36180 . minus { ?item rdfs:label ?label_fr filter(lang(?label_fr) = "fr") .} SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } } limit 25000
En annulant plusieurs dizaines de mes contributions, un utilisateur me fait réaliser que je dois retirer les étiquettes ayant les expressions " of , di , der , da" (exemple).
- fin mai : Au détour d'une discussion de Bistro, je repère environ 20 000 éléments qui possèdent une parenthèse dans leur étiquette. Je déplace cette dernière en alias et j'enlève la parenthèse de l'étiquette en anglais et en allemand (exemple). J'en profite pour ajouter une étiquette et un alias en français.
- mi-juin : Je franchis le cap des huit millions de contributions le 16 juin en ajoutant P407:Q1860 sur un article scientifique quelconque. À peu près au même moment, je passe le cap des 5 000 éléments créés.
- fin juillet : En faisant différentes listes de records (surtout fr:listes des plus grands humains et fr:liste des plus petits humains), je me rends compte que des height (P2048) et width (P2049) ont été importées de Wikipédia en italien à partir d'infobox d’œuvres d'art présentes sur des articles consacrés à des êtres humains. Cela m'a permis de corriger le tir sur une vingtaine d'entrées et d'intégrer une contrainte sur P2049.
- 1 200 000 contributions plus tard...
- août-septembre : Je m'autoexile de French Wikipedia (Q8447) et je concentre désormais mes énergies surtout sur Wikidata.
Une mauvaise association à l'anglais d'une publication en Chinese (Q7850) me fait réaliser que les titres entre crochets des éléments créés par Research_Bot sont en non-English (Q66724591). Je commence ainsi à ajouter d'autres langues que l'anglais aux articles scientifiques (French (Q150), German (Q188), Hungarian (Q9067), Japanese (Q5287), Polish (Q809), Spanish (Q1321), etc.).
Un frère saguenéen en territoire montréalais m'oriente vers les auteurs du plus grand nombre d'articles scientifiques. À la suite d'une discussion, qui me fait découvrir le super author disambiguator (AD) d'ArthurPSmith[note 12], il en fait une liste. Je tombe évidemment sur les physicien-ne-s nucléaires, dont les articles à > 2 000 auteurs sont chose connue. Quelques dizaines de milliers d'articles gagnent ainsi une plus grande précision sur les auteurs.
Au détour d'une discussion sur la confusion que peut entraîner les mêmes étiquettes pour différents éléments, je propose un code de couleurs pour les principales classifications P31/P279 des éléments afin que les humains qui utilisent le site puissent voir au premier coup d’œil de quelle nature est l'élément qu'ils consultent. Je pense que c'est une bonne idée et je me demande si elle sera mise en application et, advenant le cas, combien de temps cela prendra.
Niveau actualité, je ne comprends malheureusement rien au E: de Wikidata. J'ai tenté de lire, mais ça m'est hermétique. - Sourcer : Jusqu'ici, je ne me suis que peu préoccupé de sourcer mes contributions à Wikidata. En effet, j'ai toujours préféré investir le temps de sourçage à l'ajout de contenus. Cependant, la découverte du gadget currentDate et la nouvelle contrainte de référence nécessaire suggérée sur date of birth (P569) m'amène à revoir peu à peu mes habitudes. Ainsi, avant, j'ajoutais de temps à autre imported from Wikimedia project (P143) et reference URL (P854) en référence. Maintenant, je mets de plus en plus retrieved (P813) et, sporatiquement, Wikimedia import URL (P4656).
- noms de famille : Désormais, lorsque je crée un élément sur une personnalité, je renseigne systématiquement family name (P734) en créant un élément s'il n'existe pas, avec pour seule entrée P31:family name (Q101352). Il serait intéressant de développer une requête permettant de lister tous les noms de famille qui ne sont associé qu'à un seul élément et tenter de quantifier des trucs comme, par exemple, le % des noms de famille possiblement frauduleux.
- octobre : Je vais atteindre ma dix millionième modification au cours de ce mois par l'ajout d'une langue quelconque sur un article scientifique.
Je compte faire une série de requêtes SPARQL pour montrer l'intérêt de ces ajouts. En effet, je dis depuis un temps déjà que ce n'est pas une grosse plus value et mes échanges récents avec deux autres contributeurs de masse pointent dans le même sens. J'ai ainsi tenté sans succès de convaincre le plus gros contributeur de l'heure d'ajouter la langue des éléments créés par son bot. Un autre contributeur a créé plusieurs (dizaines|centaines ?) de milliers d'éléments liés à des articles scientifiques à partir de SIMBAD (Q654724). Là encore, j'ai tenté de le convaincre d'ajouter les langues, sans succès.
X
[edit]“ | S'il n'y avait qu'une chose à garder des States, c'est leur volonté de mettre des résultats gouvernementaux dans le domaine public. | ” |
octobre 2019 Voilà, le 3 octobre 2019 (ou le 5 selon Wikiscan), un an après 106, je passe à un order of magnitude (Q518730) supérieur et atteint les 107 contributions. Nous sommes 5 contributeurs non-bots dans cette situation.
Au cours de la même période, Wikidata (Q2013) a passé le cap du 109 contributions. Cela me dit donc que je suis l'initiateur d'environ 1 % du total des contributions sur Wikidata. J'y vois un écho de la barre du un millième des articles de frwiki.
Par le passé, j'aimais bien utiliser Wikiscan (Q68458829) pour faire un bilan lors des différents jalons de mon parcours wikimédien. Cependant, en ce qui concerne Wikidata, l'outil est mal adapté. En effet, pour Wikidata, contrairement à Wikipédia (pour laquelle l'outil a d'abord été conçu), des statistiques telles le nombre d'heures/jours/mois participés, la taille des diffs ou le fait que les modifications aient été effectuées à la chaîne ou non ne sont pas très intéressantes[note 13]. On peut cependant dire que la quantité d'octets ajoutée, même si elle n'est pas aussi pertinente que pour Wikipédia, permet cependant de se faire une idée de l'impact d'un contributeur sur le contenu de la knowledge base (Q593744) libre.
Ainsi, par exemple, on constate que malgré ses 31 millions de modifications, le premier contributeur non-bot, Renamerr, n'a ajouté que 2 G sur 858 G "révisés" (la taille totale de tous les éléments parcourus lors des contributions). On peut donc établir un pourcentage d'export-import en divisant l'un par l'autre, ce qui donne 0,23 %.
Les deux contributeurs suivants, Daniel Mietchen et Harej, ont sensiblement le même nombre de contributions (15 millions). Cependant, ils n'ont vraiment pas le même profil.
Employé de la WMF, Harej a longtemps été le premier contributeur du site en terme du nombre de contributions et de volume (58 G !). Il a connu son apogée en 2017 et a quasiment disparu du radar depuis 2018.
En ce qui concerne Daniel Mietchen (Q20895785), il est actuellement le contributeur le plus prolifique de Wikidata à plusieurs niveaux[1]. Il est dans les premiers en terme du nombre de modifications par minute, ce qui lui assure de demeurer un certain temps dans cette position. Ensuite, le volume apporté par son Research Bot est phénoménal (340 G !!!), tout comme le nombre de créations de ce dernier (16 millions !!!). Ces records ne sont pas prêts d'être dépassés. Mietchen a carrément lancé l'ère des articles scientifiques sur Wikidata et celle-ci va capter une bonne partie des énergies du site encore un certain temps.
Fait marquant, il est quand même saisissant de voir qu'un biochimiste et un biophysicien allemands soient les deux personnalités les plus notables de Wikidata.
Le suivant est Jura1. J'ai eu plus de contacts avec ce dernier qu'avec les autres. Il intervient régulièrement sur le Bistro francophone. J'ai cru saisir un contributeur relativement polyvalent, qui me fait découvrir régulièrement plusieurs outils d'éditions/de révision du contenu de Wikidata. Avec ses 5,1 G de volume pour 12 millions de modifications, on voit qu'il est le plus (constant|stable) des contributeurs de tête, jouant aux alentours de 2 millions de modifications par année depuis 2014[2].
Je suis donc le suivant en terme de contributions, mais lorsque l'on regarde mon volume (3 G), je suis bien en-dessous de Ghuron, un russophone qui me suit avec 6,9 millions de modifications, mais qui a 3 fois plus de volume. Même chose en terme de création d'éléments, où mon 5 500 fait pâle figure devant son 430 000. J'ai "révisé" 380 G alors que Ghuron en a ratissé 78. J'ai un export-import de 0,7 %, Ghuron de 11,5 %. Je suis donc plus proche du type de Renamerr (de petits ajouts à des millions d'éléments) que des 4 autres (un gros ajout de contenu par, notamment, la création de centaines de milliers d'éléments).
Au-delà des 6 premiers contributeurs, les deux statistiques sont cependant relativement corrélées, à part l'exception notable d'Harmonia Amanda, qui a probablement le plus haut pourcentage d'export-import (17,3 %) et le ratio le plus élevé de Wikidata.
Donc, après 10 millions, où en suis-je ? Je vais tenter un bilan de mon évolution au cours de cette dernière année en tirant quelques statistiques à l'aide de certaines de mes contributions.
Tout d'abord, cela fait plusieurs millions de contributions que j'ajoute la langue sur des articles scientifiques. Me contentant d'abord de l'anglais, j'ai abordé d'autres langues au cours des deux derniers mois.
Malheureusement, Wikidata Query Service (Q20950365), le service de requêtes de Wikidata, ne permet pas (encore ?) d'effectuer des recherches sur les gros échantillons. En effet, l'outil plante lorsque le nombre de résultats dépasse les 100 000. Même en mode COUNT, l'outil plante au-delà de 3 millions.
L'ami VIGNERON m'a fait découvrir Virtuoso Universal Server (Q7935239) sur Wikidata, qui permet de faire des requêtes sur de très gros échantillons, mais les données semblent dater de la fin juin. On peut quand même faire quelques investigations. J'ai ainsi pu compter en une fraction de seconde les quelque 22 millions d'scholarly article (Q13442814) et en tirer quelques statistiques. Ainsi, ceux-ci sont associés à 98 % à une publication via published in (P1433) et à 17,7 % à une langue via language of work or name (P407)[3]. Voici un tableau recensant la quantité d'article pour toutes les langues ayant plus de 10 éléments associés[4] :
Langue | Nombre d'éléments |
% |
---|---|---|
English (Q1860) | 3 430 477 | 89,3 % |
Chinese (Q7850) | 395 573 | 10,3 % |
Polish (Q809) | 11 471 | 0,3 % |
French (Q150) | 4 234 | 0,1 % |
Spanish (Q1321) | 512 | 0,01 % |
German (Q188) | 287 | < 0,01 % |
Italian (Q652) | 215 | < 0,01 % |
Finnish (Q1412) | 204 | < 0,01 % |
Russian (Q7737) | 55 | < 0,01 % |
Danish (Q9035) | 55 | < 0,01 % |
Bulgarian (Q7918) | 44 | < 0,01 % |
Japanese (Q5287) | 18 | < 0,001 % |
Portuguese (Q5146) | 15 | < 0,001 % |
Dutch (Q7411) | 11 | < 0,001 % |
Latin (Q397) | 11 | < 0,001 % |
Total | 3 843 182 | 100 % |
On peut trouver les valeurs actuelles une par une avec la requête suivante :
#Requête permettant de dénombrer les éléments selon une langue donnée
select (count (distinct ?item) as ?count) where {?item wdt:P31 wd:Q13442814 ; wdt:P407 wd:LANGUE .}
Ce qui donne, pour quelques-unes d'entre-elles :
Langue | Nombre d'éléments |
% |
---|---|---|
anglais | ? | ? |
langues chinoises | 784 490 | ? |
japonais | 53 155 | ? |
allemand | 48 156 | ? |
français | 38 925 | ? |
polonais | 21 104 | ? |
espagnol | 18 608 | ? |
Total | ? | ? |
On voit donc que la situation a pas mal évolué depuis fin juin. Le nombre d'articles en langues chinoises a doublé, celui en allemand a augmenté de 168 fois et celui en japonais a été multiplié par 3 000.
- Chronologie
En plus de dénombrer les éléments en fonction des langues et faire des rapports entre celles-ci, on peut également explorer ces éléments selon différents autres critères, comme par exemple dénombrer les éléments par décennie pour une langue donnée :
#defaultView:LineChart
#Requête permettant de dénombrer le nombre d'article scientifiques publié par décennie dans une LANGUE donnée
SELECT ?decade (count (distinct ?item) as ?count) where {
?item wdt:P31 wd:Q13442814 ; wdt:P577 ?p577 ; wdt:P407 wd:LANGUE .
BIND(SUBSTR(CONCAT(STR(ROUND(YEAR(?p577)/10)*10),'/01/01'),1,4) AS ?decade)
}
GROUP BY ?decade
On remarque, notamment, que les publications en langues chinoises connaissent un déclin entre les années 1965 à 1974, puis augmentent fortement par la suite, alors que les publications en allemand connaissent un creux entre les années 1985 et 1994.
- Titres
On peut aussi rechercher une expression particulière dans l'étiquette en anglais[note 14] :
#Requête permettant de rechercher une EXPRESSION rationnelle dans l'étiquette en anglais d'un élément associé à un article scientifique d'une certaine LANGUE
select ?itemLabel ?item where {SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } ?item wdt:P31 wd:Q13442814 ; rdfs:label ?label ; wdt:P407 wd:LANGUE . filter(lang(?label) = "en") FILTER regex (?label, "EXPRESSION") .}
On constate ainsi, entre autres, que le mot pain ("douleur" en anglais) est dans le titre en anglais de 242 publications francophones[5] et dans celui de 780 publications germanophones[6]. Quant à lui, death ("mort" en anglais) apparaît 140 fois en français et 286 fois en allemand.
On peut faire un comparatif avec sex, qui apparaît 41 fois en fr et 56 fois en de.
Puisque les outils manquent pour explorer autant d'éléments, on peut remonter d'un niveau et explorer les published in (P1433) d'où ils sont issus, domaine que j'ai travaillé au cours des dernières semaines.
D'abord, sur 46 016 éléments associés à des scientific journal (Q5633421)[7], 17 269 sont associés à une ou des langues[8]. De ce nombre, 16 588 sont associés à une seule langue[9] et 681 sont associés à plus d'une langue[10]. En dénombrant ces éléments en fonction des langues[11], nous obtenons, pour les langues ayant plus de 100 éléments associés :
Langue | Nombre d'éléments |
% |
---|---|---|
anglais | 15 252 | 86 % |
français | 814 | 4,6 % |
espagnol | 591 | 3,3 % |
allemand | 543 | 3,1 % |
langues chinoises | 155 | 0,9 % |
portugais | 134 | 0,8 % |
italien | 131 | 0,7 % |
russe | 111 | 0,6 % |
total | 17 731[note 15] | 100 % |
Là encore, c'est l'anglais qui domine, mais moins fort. Cela laisse croire que puisque l'origine première de millions d'articles scientifiques est PubMed (Q180686), le contenu des revues associées est plus avancé que pour d'autres langues. J'y vois l'influence du public domain américain. Reste à voir comment les autres bases de données vont réagir. En passant, il faudrait trouver un nom pour le ratio nombre d'article scientifiques
sur nombre de publications
, qui pourrait être un indicateur de degré d'import.
Quelle sera la suite de mon parcours wikidatien ? Difficile à prévoir. Jamais j'aurais pu prédire l'année dernière que j'aurais fait 10 millions de modifications.
Je pense cependant que je vais de plus en plus sourcer mes ajouts sur Wikidata.
- Fin octobre
J'atteins les 11 millions de modifications le 27 octobre. En chemin, je me décide à lire plus attentivement le livre Wikibook dédié au SPARQL. Ça me permet, notamment, d'enfin pouvoir régler mes problèmes de conversion d'unités sur fr:Discussion:Listes des plus grands humains#Liste Wikidata et sur fr:Discussion:Liste des plus petits humains#Liste Wikidata. La prochaine étape est la maîtrise des sous-requêtes. J'ai hâte !
À la suite de l'élection fédérale canadienne et d'une discussion de Bistro, je recommence à utiliser OpenRefine (OR), qui en est à sa version 3.3. Avec l'aide d'autres Wikidatiens, ma maîtrise d'OR progresse considérablement, au point de m'ouvrir de nouvelles perspectives contributives dans un avenir proche. En effet, contrairement à QS, OR permet de réconcilier de manière surprenamment fiable des entrées texte avec leur numéro d'élément Wikidata associé.
- Novembre
J'ai laissé OR de côté pour le moment. Je suis revenu au Author Disambiguator (AD), qui ne passe plus par QS pour faire ses modifications et qui réalisent désormais ces dernières d'un seul coup. J'ai créé une requête SPARQL afin de voir quel-le-s physicien-ne-s sont lié-e-s au plus grand nombre d'articles scientifiques.
#Les 100 physicien-ne-s ayant le plus grand nombre d'articles scientifiques associés.
select distinct ?auteurLabel ?auteurDescription ?sexeLabel ?count ?auteur where {
{select distinct ?auteur ?sexe (count (distinct ?item) as ?count) where {
?item wdt:P31 wd:Q13442814 ;
wdt:P50 ?auteur .
?auteur wdt:P106/wdt:P279* wd:Q169470 ;
wdt:P21 ?sexe .
}
group by ?auteur ?sexe
order by desc (?count)
limit 100
}
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}
order by desc (?count)
Les éléments ayant comme description "chercheur et physicien" sont de mon cru.
On remarque que j'ai commencé à faire des (sous-requêtes|requêtes imbriquées). Je me contente pour le moment d'en faire pour optimiser mes requêtes afin d'éviter le dépassement du temps de calcul alloué.
X
[edit]- Mai 2020
À la mi-mai 2020, je passe le cap des 15 millions de contributions. Plusieurs mois ont passé depuis mon dernier bilan. Cela s'explique par le fait que mes contributions sont sur le pilote automatique. En effet, je continue d'ajouter la langue anglaise sur les articles scientifiques qui ne le précise pas[note 16] et je crée des éléments sur des physicien-ne-s/chercheu-se-r-s que je remplace sur les articles scientifiques avec AD. Je crée également régulièrement des éléments à partir d'articles biographiques de Wikipédia en français qui affichent l'infobox Biographie2, mais qui n'ont pas d'élément Wikidata. Enfin, j'associe de temps à autres les entrées de Britannica qui ne sont toujours pas associées à Wikidata. Ce travail dure depuis des années et je n'en vois pas la fin.
Depuis environ 2 mois, l'outil PetScan connaît des ratés, ce qui m'irrite de plus en plus. En effet, je l'utilise abondamment pour ajouter la langue des articles scientifiques et pour détecter les articles de frwiki sans élément. J'ai dû me rabattre sur QS pour les articles scientifiques, mais l'onglet dédié sur mon navigateur plante régulièrement, ce qui fait en sorte que je dois reconstruire la requête en établissant au pif où elle en était rendue. J'ai bien essayé de faire rouler la chose en arrière-plan, mais ça ne semble pas fonctionner.
Ce creux créatif est corrélé avec les événements engendrés par la pandémie de Covid-19 ainsi que l'arrivée d'un deuxième enfant. Ainsi, j'anticipais avec plaisir la mobilisation engendrée par La Grande Wikiphonie, mais celle-ci, comme bien d'autres choses, a été fauchée au début de la pandémie. On nous a dit qu'elle serait remise, mais plus les semaines passent, plus cette lueur d'espoir d'enfin voir une communauté intellectuelle significative donner de la visibilité aux projets Wikimedia en sol québécois s'estompe. J'espérais que l'événement donnerait un coup de pouce au monde de l'éducation québécois, ou au moins à une institution d'enseignement supérieure, pour qu'il décide de s'approprier de manière significative les projets Wikimedia. Le retour aux ténèbres me rend triste et je tente de ne pas devenir amer.
Notes et références
[edit]- Notes
- ↑ à laquelle je mettrai des mois à comprendre comment y accéder autrement qu'en SPARQL au détour d'un bistro de Thierry Caro
- ↑ Quoique le terme « non-bot » serait probablement plus approprié.
- ↑ English (Q1860) dans language of work or name (P407) de official website (P856)
- ↑ Puisque j'ai lancé deux ou trois batch en arrière-plan, ces dernières ont été effectuées en mon nom par User:QuickStatementsBot. Je ne sais donc pas si elles ont été recensées sous mon compte par Wikiscan ou autres.
- ↑ Notons au passage que la page Wikidata:Request a query fonctionne à merveille. Les contributeurs y sont généreux et répondent aux questions généralement dans l'heure.
- ↑ Pour cet exemple particulier, encore aujourd'hui, il me semble manquer une propriété « a fondé » pour boucler la boucle fondateur P? compagnie. En effet, la seule propriété que j'ai vue pour ce faire, notable work (P800), me semble un peu trop vague.
- ↑ On comprend mieux pourquoi fr:catégorie:Page utilisant P185 n'existe pas.
- ↑ Cela est un order of magnitude (Q518730) plus grand que les principaux pays du monde. Je soupçonne que les contributeurs des différentes régions de l'Espagne avaient volontairement évité d'ajouter un pays à ces éléments. Je me suis peut-être, sans m'en être rendu compte, fait des ennemis auprès, entre autres, des indépendantistes catalans, mais je crois que leur culture est plus accessible ainsi, plus liée, plus vivante.
- ↑ Mon initiative a mis en lumière plusieurs centaines d'entrées erronées. J'ai nettoyé à l'aide de la requête suivante : Try it!
SELECT DISTINCT ?item ?conjoint WHERE {?item wdt:P26 ?conjoint MINUS {{?item wdt:P31/wdt:P279* wd:Q5 .} UNION {?item wdt:P31/wdt:P279* wd:Q4271324 .} UNION {?item wdt:P31/wdt:P279* wd:Q95074 .} UNION {?item wdt:P31/wdt:P279* wd:Q215627 .}} SERVICE wikibase:label { bd:serviceParam wikibase:language "en" . } }
- ↑ Plus de 10 000 entrées pour P1830 de Museu Nacional d'Art de Catalunya (Q861252), ce qui est environ le double du record précédent (Combined Measurement of the Higgs Boson Mass in p p Collisions at √s=7 and 8 TeV with the ATLAS and CMS Experiments (Q21558717)).
- ↑ Pour le moment, j'explore le sujet avec un livre sur Wikibooks en anglais.
- ↑ La vision de Wikidata de ce dernier est particulièrement intéressante.
- ↑ Une adaptation intéressante de Wikiscan pour Wikidata serait qu'il recense les contributions faites à l'aide des principaux outils d'édition automatique ou semi-automatique, tels QuickStatements (Q20084080), PetScan (Q23665536), Harvest Templates (Q21914398), Mix'n'match (Q28054658), etc.
Une autre adaptation serait de pouvoir trier les contributions en fonction des principales propriétés modifiées par l'utilisateur sur les éléments (P18, P407, P31, ajout de références ou de qualifiers, etc.). - ↑ Les étiquettes en langue originale n'existent pas pour le moment.
- ↑ Ici, les publications associées à plus d'une langue sont comptées pour chacune d'elles, ce qui explique que ce nombre soit plus grand que 17 269.
- ↑ parfois, je me demande si la quantité de nouveaux articles scientifiques n'augmentent pas plus vite que je leur appose la langue.
- Traductions
- ↑ English:«Move fast and break things. Unless you are breaking stuff, you are not moving fast enough»
- Références
- ↑ http://wikidata.wikiscan.org/user/Research_Bot
- ↑ http://wikidata.wikiscan.org/user/Jura1
- ↑ https://wikidata.demo.openlinksw.com/sparql?default-graph-uri=http%3A%2F%2Fwww.wikidata.org%2F&query=select+distinct+%28COUNT%28%3Fitem%29+AS+%3Fcount%29+where+%7B%3Fitem+wdt%3AP31+wd%3AQ13442814+%23%3B+wdt%3AP1433+%3Fpub+%3B+wdt%3AP407+%3Flang+%0D%0A.%7D&format=text%2Fhtml&CXML_redir_for_subjs=121&CXML_redir_for_hrefs=&timeout=30000&signal_void=on&signal_unconnected=on&run=+Run+Query+
- ↑ https://wikidata.demo.openlinksw.com/sparql?default-graph-uri=http%3A%2F%2Fwww.wikidata.org%2F&query=select+%3Flang+%28count+%28distinct+%3Fitem%29+as+%3Fcount%29+where+%7B%3Fitem+wdt%3AP31+wd%3AQ13442814+%3B+wdt%3AP407+%3Flang+.%0D%0A%7D%0D%0Agroup+by+%3Flang%0D%0Aorder+by+desc+%28%3Fcount%29&format=text%2Fhtml&CXML_redir_for_subjs=121&CXML_redir_for_hrefs=&timeout=30000&signal_void=on&signal_unconnected=on&run=+Run+Query+
- ↑ Try it!
#Requête permettant de rechercher une EXPRESSION dans l'étiquette en anglais d'un élément associé à un article scientifique d'une certaine LANGUE select ?itemLabel ?item where {SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } ?item wdt:P31 wd:Q13442814 ; rdfs:label ?label ; wdt:P407 wd:Q150 . filter(lang(?label) = "en") FILTER regex (?label, "\\Wpain\\W") .}
- ↑ Try it!
#Requête permettant de rechercher une EXPRESSION dans l'étiquette en anglais d'un élément associé à un article scientifique d'une certaine LANGUE select ?itemLabel ?item where {SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } ?item wdt:P31 wd:Q13442814 ; rdfs:label ?label ; wdt:P407 wd:Q188 . filter(lang(?label) = "en") FILTER regex (?label, "\\Wpain\\W") .}
- ↑ Try it!
select (count (distinct ?item) as ?count) where {?item wdt:P31 wd:Q5633421 .}
- ↑ Try it!
select (count (distinct ?item) as ?count) where {?item wdt:P31 wd:Q5633421 ; wdt:P407 ?lang .}
- ↑ Try it!
select distinct ?itemLabel ?item where {SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } ?item wdt:P31 wd:Q5633421 ; wdt:P407 ?lang .} group by ?itemLabel ?item having(COUNT(DISTINCT ?lang) = 1)
- ↑ Try it!
select distinct ?itemLabel ?item where {SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } ?item wdt:P31 wd:Q5633421 ; wdt:P407 ?lang .} group by ?itemLabel ?item having(COUNT(DISTINCT ?lang) > 1)
- ↑ Try it!
select distinct ?langLabel (count (distinct ?item) as ?count) where {SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } ?item wdt:P31 wd:Q5633421 ; wdt:P407 ?lang .} group by ?langLabel order by desc (?count)