La fiabilite des informations sur le web

Online IR tools have to take into account new phenomena linked to the appearance of blogs, wiki and other collaborative publications. Among these collaborative sites, Wikipedia represents a crucial source of information. However, the quality of this …

Authors: Bernard Jacquemin (LIMSI), Aurelien Lauf (LIMSI), Celine Poudat (LTCI)

La fiabilite des informations sur le web
B. Ja quemin et al. , Fiabilité des informations sur le web La abilité des informations sur le w eb: le as Wikip édia Bernard Ja quemin 1 , Aurélien La uf 1 , Céline Poud a t 2 , Martine Hura ul t-Plantet 1 et Niolas A ura y 2 1 LIMSI CNRS UPR 3251, Orsa y (F rane) 2 ENST, P aris (F rane) {Bernard.Jaquemin,Aurelien.Lauf,Martine.Hurault-Plan tet}limsi.fr {Celine.P oudat,Niolas.Aura y}enst.fr Résumé Les outils de re her he d'information sur le w eb doiv en t tenir ompte des phénomènes nouv eaux liés à l'apparition des blogs, wikis, et autres publi- ations ollab orativ es. P armi es sites, l'enylop édie Wikip édia onstitue une soure imp ortan te d'information. La qualité de ses informations a p ourtan t été réemmen t mise en ause. Mieux onnaître les omp orte- men ts des on tributeurs p eut p ermettre de guider les utilisateurs dans des on ten us de qualité parfois disparate. P our explorer ette v oie, nous présen tons une analyse du rle de diéren ts t yp es de on tributeurs dans le on trle de la publiation d'artiles onituels. Mots-lefs : Wikip édia, Fiabilité de l'information, Conit, T ra v ail olla- b oratif. Abstrat Online IR to ols ha v e to tak e in to aoun t new phenomena link ed to the ap- p earane of blogs, wiki and other ollab orativ e publiations. Among these ollab orativ e sites, Wikip edia represen ts a ruial soure of information. Ho w ev er, the qualit y of this information has b een reen tly questionned. A b etter kno wledge of the on tributors' b eha viors should help users na vigate through information whose qualit y ma y v ary from one soure to another. In order to explore this idea, w e presen t an analysis of the role of dieren t t yp es of on tributors in the on trol of the publiation of onitual arti- les. Keyw ords: Wikip edia, Information reliabilit y , Conit, Collab orativ e w ork. 1 In tro dution De plus en plus présen t dans les résultats des moteurs de re her he, le pro jet enylop édique Wikip édia est dev en u par les usages une ressoure information- nelle de référene, et l'un des sites w eb les plus visibles et les plus on tro v er- sés sur In ternet. T rès éloignée du mo dèle enylop édique des Lumières, dans CORIA, T régastel, 12-14 mars 2008, pp. 449-456. 1 B. Ja quemin et al. , Fiabilité des informations sur le web lequel l'exp ert et sa signature garan tissaien t la qualité des textes, Wikip édia s'appuie sur inq prinip es fondateurs 1 supp osés garan tir ette qualité : pro jet enylop édique, neutralité de p oin t de vue, on ten u libre, règles de sa v oir-vivre, et, enn, pas de règles xes en dehors de es prinip es. Ainsi, si les pro es- sus d'édition son t loin de eux de l'enylop édie traditionnelle, les buts a-  hés de p ertinene enylop édique et d'ob jetivité 2 en resten t assez pro  hes [Giles, 2005 , Endrezzi, 2007 ℄. Néanmoins, la qualité de l'enylop édie libre fait l'ob jet de débats : si [Giles, 2005 ℄ a onstaté que la qualité de Wikip édia était nalemen t omparable à elle de l'enylop édie Britanni a , P . Assouline et ses étudian ts [Gourdain et al. , 2007 ℄ se son t atta hés à mon trer le on traire lorsqu'il s'agit des sienes h umaines. P our faire resp eter ses prinip es fondateurs, la omm unauté wikip édienne a progressiv emen t mis en plae des outils formels ou informels de on trle. Ainsi, aux artiles son t parfois app osés des bandeaux sp éiques 3 év aluan t les artiles en fontion de leur resp et, ou non, des prinip es fondateurs (par exemple ar- tiles de qualité par opp osition à artiles soup çonnés de non-p ertinen e ou ar- tiles non neutr es ). Les pages de disussion de es artiles onituels aueillen t les argumen ts des on tributeurs et médiateurs [Stvilia et al. , 2005 ℄. Outre les bandeaux, un Comité d'arbitrage (CAr) a été mis en plae p our régler les onits p ersonnels sév ères en tre on tributeurs. Le CAr est un jury de sept arbitres is- sus de la omm unauté on tributrie qui les élit p our une p ério de de six mois. Les délib érations et les v otes du CAr son t publis et  her hen t autan t que p os- sible l'unanimité. Les arbitres ne se prononen t pas sur le on ten u ou la ligne éditoriale, mais s'en tiennen t au prinip e fondamen tal de sa v oir-vivre (app elé aussi wikilove ). Ils on t des p ossibilités de santion qui p euv en t aller du blo age (in terdition te hnique et temp oraire de on tribuer sur un ou plusieurs artiles) au bannissemen t dénitif (in terdition de partiip er à tout on ten u de Wiki- p édia). Bien que relativ emen t rare  seule une en taine d'utilisateurs sur les 31 000 wikip édiens on t omparu dev an t le CAr en 5 ans , l'arbitrage onstitue un outil imp ortan t de gouv ernane de Wikip édia. C'est à tra v ers es outils, et les on tributeurs qui les utilisen t, que s'exere le on trle de la publiation . Après une desription du orpus utilisé, nous établirons une t yp ologie des on tributeurs suiv an t des paramètres qui reèten t leur impliation dans les onits et leur ativité générale de publiation et d'administration dans l'en- ylop édie. Nous étudierons ensuite la répartition de es t yp es de on tributeurs dans l'édition des artiles signalés par la omm unauté wikip édienne omme par- tiulièremen t onformes, ou au on traire non onformes, aux prinip es de p erti- nene enylop édique et d'ob jetivité. Nous onlurons sur les liens en tre t yp es de on tributeur et onformité d'un artile aux prinip es enylop édiques. 1 http://fr.wikip edia.o rg/wiki/Wikip édia:Prinip es_fondateu rs 2 L'artiulation en tre neutralité de p oin t de vue et ob jetivité est réalisée ainsi :  Ce que les gens roien t, v oilà un fait ob jetif, et nous p ouv ons présen ter ela as- sez failemen t d'un p oin t de vue neutre.  (Jim b o W ales, le fondateur de Wikip édia, http://fr.wikip edia.o rg/wiki/Wikip édia:Neutralité_de_p oin t_de _vue ). 3 http://fr.wikip edia.o rg/wiki/Catégo rie:Maintenane _des_a rt iles 2 CORIA, T régastel, 12-14 mars 2008, pp. 449-456. B. Ja quemin et al. , Fiabilité des informations sur le web 2 Corpus Wikip édia est un terme générique qui reouvre à la fois une initiativ e de réa- tion d'enylop édie en ligne 4 libre, ollab orativ e et m ultilingue, et l'ensem ble des instanes de ette enylop édie, distintes géographiquemen t et souv en t linguis- tiquemen t. Nous disp osons de la sauv egarde réalisée le 2 a vril 2006, regroupan t tous les artiles de Wikip édia-F rane 5 depuis ses débuts, soit plus de 600 000 pages omprenan t notammen t près de 370 000 pages d'artiles auxquelles son t asso iées plus de 40 000 pages de disussion sur artile. Les orpus que nous étu- dions son t des pages extraites de ette base transformées en XML par Wiki2T ei 6 . Nous nous sommes partiulièremen t in téressés aux onits en tre wikip édiens [Aura y et al. , 2007 , Kittur et al. , 2007 , Viégas et al. , 2004 ℄ ar ils son t rév éla- teurs de la manière don t le on trle de la publiation s'eetue. Le premier des orpus olletés omprend les 1000 artiles de notre olletion qui omp orten t ou on t omp orté à un momen t de leur év olution un bandeau de on tro v erse de neutralité, ainsi que leur év en tuelle page de disussion. En viron 1600 on tribu- teurs apparaissen t dans es pages. Ces on tributeurs, bien qu'en p etit nom bre, on t un p oids imp ortan t dans Wikip édia ar ils on t partiip é à en viron 300 000 artiles sur les 370 000 pages d'artiles de notre olletion, soit 81%. Dans les pages d'artiles et de disussions, le balisage sp éique des informations onsiste essen tiellemen t à asso ier à  haque in terv en tion sa taille, le nom de son auteur, et la date de son insertion. L'autre orpus est onstitué des quatre-vingts pages d'arbitrages qui se son t ten us duran t la p ério de des débuts de Wikip édia-F rane à a vril 2006. Le bali- sage de  haque page se répartit en rubriques qui rép onden t à la struture-t yp e des arbitrages. On a ainsi une desription du onit, qui iden tie le plaignan t et la date de la plain te, le (ou les) ausé(s), la déision de reev abilité et la déision de jugemen t. Ensuite viennen t les argumen taires des protagonistes, les disussions des arbitres sur la reev abilité de la plain te, et enn le jugemen t propremen t dit qui est omp osé d'une prop osition de santion et d'un v ote des arbitres. Si l'unanimité ne p eut se faire autour de la première prop osition, d'autres prop ositions et v otes p euv en t suivre. 3 T yp ologie des wikip édiens en onit p ersonnel Dans la en taine d'arbitrage de notre orpus, ertains noms de on tribu- teurs apparaissen t plus souv en t, soit dans le rle du plaignan t qui dép ose la plain te, soit dans le rle de l'ausé. Ces deux p les, fréquene de omparution et rle dans la plain te, nous p ermetten t de dégager une première t yp ologie des on tributeurs en onit. Nous a v ons distingué trois atégories de on tributeurs suiv an t la fréquene de omparution, les tr ès habitués qui um ulen t en tre 3 et 14 omparutions 7 , les 4 Consultable sur http://www.wikip edia.o rg/ . 5 Consultable sur http://fr.wikip edia.o rg/ 6 Logiiel libre disp onible sur http://wiki2tei.sourefo rge.net/ et distribué onformémen t à la liene BSD ( http://www.op ensoure.o rg/lien ses/b sd- lien se.ph p ). Il on v ertit les balises de mise en forme du wikitexte en balises XML et insère un en-tête desriptif du do umen t onforme au mo dèle de la T ext En o ding Initiative (TEI) 7 14 est un reord, on en a ensuite deux à 7 et un à 4, les autres étan t à 3 omparutions. CORIA, T régastel, 12-14 mars 2008, pp. 449-456. 3 B. Ja quemin et al. , Fiabilité des informations sur le web habitués qui en on t deux, et les o   asionnels qui on t une seule omparution. Quan t à leur rle dans la plain te, nous a v ons distingué les plaignants , qui son t plus souv en t en p osition d'ausateurs, les a usés , qui on t plus de plain tes dép osées on tre eux qu'ils n'en dép osen t, et eux qui omparaissen t de façon assez équilibrée tan tt en plaignan ts tan tt en ausés. On v oit sur le tableau 1 que les wikip édiens qui omparaissen t souv en t, les tr ès habitués , son t en ma jorité plaignan ts, alors que les o   asionnels , qui n'on t omparu qu'une fois, son t en ma jorité des ausés. On onstate aussi que la ma jorité de eux qui on t omparu deux fois on t été une fois plaignan ts, une fois ausés. Comparutions Con tributeurs Plaignan t A usé Les 2 T rès habitués 10 50% 30% 20% Habitués 17 12% 29% 59% Oasionnels 74 30% 70% 0% T ab. 1  Les omparutions au Comité d'arbitrage Nous a v ons ensuite in tro duit dans ette t yp ologie le mo de de on tribution à Wikip edia. Ainsi, nous a v ons onsidéré le nom bre d'in terv en tions dans l'édition de l'ensem ble des pages d'artiles et de disussions de Wikip édia-F rane. Nous a v ons établi quatre atégories, les tr ès gr os  ontributeurs don t le nom bre d'in- terv en tions v arie en tre en viron 12 000 et 40 000 p endan t la p ério de onsidérée, les gr os  ontributeurs , en tre 2 800 et 12 000, les  ontributeurs moyens en tre 600 et 2 800, et les p etits  ontributeurs , en tre 1 et 600. Nous a v ons enn distingué trois atégories de on tribution suiv an t que elle-i onernait plus souv en t les artiles, plus souv en t les disussions, ou étaien t répartis en tre les deux. Con tributions Con tributeurs -> artile -> disussion Les 2 T rès gros on tributeurs 7 100% 0% 0% Gros on tributeurs 23 96% 0% 4% Con tributeurs mo y ens 31 81% 0% 19% P etits on tributeurs 40 70% 5% 25% T ab. 2  Les on tributions des protagonistes du Comité d'arbitrage Le tableau 2 mon tre que les on tributeurs en onit p ersonnel partiip en t dans l'ensem ble da v an tage à l'élab oration des artiles qu'aux disussions qui les aompagnen t. En rev an he, on onstate que moins ils on tribuen t aux artiles, plus ils on t tendane à en disuter. En roisan t la fréquene de omparution et la taille des in terv en tions (tableau 3 ), on se rend ompte que les tr ès habitués du CAr son t en ma jorité des gr os  ontributeurs , les o   asionnels étan t plutt des p etits  ontributeurs . En roisan t la taille des on tributions et le rle dans la plain te (tableau 4), on onstate que les gr os  ontributeurs son t plus souv en t plaignan ts et les p etits  ontributeurs plus souv en t ausés. La part des prota- gonistes qui son t, de façon omparable, tan tt plaignan ts, tan tt ausés, reste p our  haque group e marginale. Ces tableaux nous suggèren t que les gros on tributeurs à Wikip édia en on t bien in tégré les prinip es fondamen taux, et tiennen t à les faire resp eter. En eet, la tendane qui émerge est que plus ils on tribuen t aux artiles et plus ils jouen t un rle de on trle de la publiation parallèlemen t à leur partiipation 4 CORIA, T régastel, 12-14 mars 2008, pp. 449-456. B. Ja quemin et al. , Fiabilité des informations sur le web Comparutions Con tributeurs très gros gros mo y en p etit T rès habitués 10 20% 50% 30% 0% Habitués 17 13% 29% 29% 29% Oasionnels 74 4% 18% 31% 47% T ab. 3  Les t yp es de on tributeurs dans les omparutions Con tributions Con tributeurs Plaignan ts A usés Les 2 T rès gros on tributeurs 7 57% 29% 14% Gros on tributeurs 23 39% 44% 17% Con tributeurs mo y ens 31 32% 58% 10% P etits on tributeurs 40 15% 75% 10% T ab. 4  Rle dans la plain te par taille de on tribution [Bry an t et al. , 2005 ℄. Ce on trle s'exere dans le adre du CAr par leur rle plus in tensif en tan t que plaignan t. Il s'exere ma joritairemen t vis-à-vis de moyens et p etits on tributeurs. 4 Les on tributeurs en onit dans les artiles non neutres En amon t de l'arbitrage, le bandeau de on tro v erse de neutralité onstitue p our nous le premier indie tangible de désaord en tre wikip édiens. Nous a v ons observ é que 77% des protagonistes du CAr guren t parmi les 1600 on tributeurs à au moins un artile non neutre. Cette forte présene suggère qu'une grande partie des onits naît de on tro v erses sur l'ob jetivité. Les tr ès gr os  ontribu- teurs et les tr ès habitués du CAr guren t tous dans le orpus des artiles non neutres, et les plaignants presque tous (90%), alors que les a usés y son t moins présen ts (73%). Ce son t les p etits  ontributeurs présen ts au CAr qui partiip en t le moins aux artiles non neutres (57%). P our donner une idée plus préise des t yp es de omp ortemen ts des wikip é- diens dans le pro essus de v alidation de l'information, nous étudions à présen t leurs partiipations à des artiles ouv erts par un bandeau partiulier 8 . Nous a v ons utilisé es bandeaux p our t yp er les artiles en artiles de qualité , artiles en  ontr overse de neutr alité , artiles en  ontr overse de p ertinen e , et artiles en pr ote tion . La gure 1 représen te, en ourb e déroissan te, le nom bre de on tributions resp etiv emen t aux artiles sous protetion (A), aux artiles non neutres (B), aux artiles en on tro v erse de p ertinene (C), et aux artiles de qualité (D), des vingt on tributeurs les plus proliques du orpus des artiles non neutres. Sur es graphes, les wikip édiens de statut partiulier 9 son t marqués d'un astérisque, et leur impliation év en tuelle dans un arbitrage est indiquée par une ligne v er- 8 Déni dans Wikip édia omme étan t  un t yp e de adre guran t dans les artiles p our transmettre une information ou un lien  . 9 Nous en tendons par statut p artiulier une distintion sp éique de droits et de fontions aordée à ertains on tributeurs v olon taires élus par la omm unauté. On y retrouv e les ad- ministrateurs, les arbitres, les wikip ompiers, et. CORIA, T régastel, 12-14 mars 2008, pp. 449-456. 5 B. Ja quemin et al. , Fiabilité des informations sur le web Fig. 1  T yp es d'artiles et on tributeurs en onit tiale prop ortionnelle au nom bre d'arbitrages. On observ e que parmi les vingt prinipaux on tributeurs aux artiles sous protetion ( 1A), 35% on t omparu dev an t le CAr. Leur rle lors de es arbitrages est assez disparate, tan tt plai- gnan ts, tan tt ausés, habitués ou o asionnels dev an t le CAr. On note par on tre qu'au sein des wikip édiens les plus prolixes dans les artiles de qualité (1D), trois seulemen t son t impliqués dans des arbitrages, toujours omme plai- 6 CORIA, T régastel, 12-14 mars 2008, pp. 449-456. B. Ja quemin et al. , Fiabilité des informations sur le web gnan ts. T outefois, auun d'eux n'est un habitué du CAr, e qui temp ère ette apparene d'agressivité. En tre es deux tendanes, les on tributeurs aux artiles non neutres et aux artiles non p ertinen ts mon tren t une tendane mo y enne au onit. En eet 25% des prinipaux on tributeurs aux artiles non neutres (- gure 1 B) et 20% des on tributeurs les plus onernés par des artiles non p er- tinen ts (gure 1 C) son t égalemen t protagonistes d'un arbitrage. P ar ailleurs, il est remarquable que la ma jorité de es gros on tributeurs on t égalemen t un statut partiulier. Cela onrme la orrélation déjà signalée en tre l'impliation forte d'un on tributeur, tan t par le nom bre de on tributions que par un statut partiulier, et sa présene là où les prinip es fondateurs de Wikip édia on t b e- soin d'être défendus. Il en déoule une tendane au resp et des règles de qualité wikip édiennes de l'information là où es on tributeurs in terviennen t. 5 Conlusion En tan t qu'espae ollab oratif visan t à onen trer et struturer des on ten us enylop édiques, Wikip édia est à l'origine de pro essus o op ératifs, d'é hange d'information et de désaords. À la suite d'une étude des habitudes des wikip é- diens  tan t à tra v ers leurs on tributions qu'au ours des on tro v erses et onits  nous a v ons dégagé des omp ortemen ts de nature à guider d'autres utilisateurs et à aorder une ertaine onane à l'information. En eet, notre étude ex- ploratoire a mon tré une tendane des gros on tributeurs impliqués dans l'ad- ministration de Wikip édia à s'in v estir p our faire resp eter les règles du pro jet, notammen t dans son prinip e qualitatif de neutralité de p oin t de vue, quitte à demander un arbitrage si le omp ortemen t d'un on tributeur n'est pas onforme au prinip e du wikilove . Prinipalemen t plaignan ts mais p eu habitués du onit, es gros on tribu- teurs sem blen t o up er une p osition de on trle éditorial et qualitatif sur l'en- ylop édie. En ela, la présene de tels wikip édiens parmi les on tributeurs d'un artile app orte une ertaine abilité à l'information qui y a été dép osée. En re- v an he, une forte onen tration de on tributeurs habitués des onits p ersonnels p ourrait indiquer un artile sujet à aution. Cette tendane demande ep endan t à être onrmée d'une part par une v alidation qualitativ e sur des artiles non onituels, et d'autre part par un examen des mêmes lasses de on tributeurs dans d'autres instanes de Wikip édia. Remeriemen ts Ce tra v ail a été réalisé dans le adre du pro jet Autograph ANR-05-RNR T- 03002 (S0604108 W). Référenes [Aura y et al. , 2007℄ A ura y , N., Poud a t , C. et Pons , P . (2007). Demo rati- zing sien ti vulgarization. The balane b et w een o op eration and onit in Fren h Wikip edia. Observatorio , 1(3). CORIA, T régastel, 12-14 mars 2008, pp. 449-456. 7 B. Ja quemin et al. , Fiabilité des informations sur le web [Bry an t et al. , 2005℄ Br y ant , S. L., F or te , A. et Br ukman , A. (2005). Be- oming Wikip edian : transformation of partiipation in a ollab orativ e online enylop edia. In Pr o  e e dings of the 2005 international A CM SIGGR OUP  onfer en e on Supp orting gr oup work , pages 110, Sanib el Island, Florida, USA. A CM Press. [Endrezzi, 2007℄ Endrezzi , L. (2007). La omm unauté omme auteur et édi- teur : l'exemple de wikip édia. In Journé e d'étude des URFIST : Évaulation et validation de l'information sur Internet , P aris. [Giles, 2005℄ Giles , J. (2005). In ternet enylopaedias go head to head. Natur e , 438(7070):900901. [Gourdain et al. , 2007℄ Gourd ain , P ., O'Kell y , F., R oman-Ama t , B., Sou- las , D. et v on Droste zu Hülshoff , T. (2007). L a R évolution Wikip é dia. Les enylop é dies vont-el les mourir ? Éditions Mille et une n uits, P aris. [Kittur et al. , 2007℄ Kittur , A., Suh , B., Pendleton , B. et Chi , E. (2007). He sa ys, She Sa ys : Conit and Co ordination in Wikip edia. In Pr o  e e dings of the SIGCHI  onfer en e on Human fators in  omputing systems , pages 453462, San Jose, Californie, USA. [Stvilia et al. , 2005℄ Stvilia , B., Twid ale , M., Gasser , L. et Smith , L. (2005). Information Qualit y Disussions in Wikip edia. Rapp ort te hnique ISRN UIUCLIS2005/2+CSCW, Univ ersit y of Illinois at Urbana-Champaign. [Viégas et al. , 2004℄ Viégas , F. B., W a ttenber g , M. et D a ve , K. (2004). Stu- dying Co op eration and Conit b et w een Authors with history o w Visua- lizations. In Pr o  e e dings of the SIGCHI  onfer en e on Human fators in  omputing systems , pages 575582, Vienne, Autri he. 8 CORIA, T régastel, 12-14 mars 2008, pp. 449-456.

Original Paper

Loading high-quality paper...

Comments & Academic Discussion

Loading comments...

Leave a Comment