Philosophie PTS

Parcours de vie, Travail libre, Savoir de base

Épistémologie du savoir libre

email Facebook Twitter
Màj : 4 nov. 2022   –   # pages : 20 [?]

Définition du savoir

https://philosophie.jortay.net/epistemologie#definition-du-savoir

On peut distinguer trois niveaux de savoir :

  1. savoir objectuel (ex. : "je sais que Python est un langage de programmation") ;
  2. savoir propositionnel (ex. : "je sais que Python est libre, simple et portable") ;
  3. savoir-faire (ex. : "je sais programmer en Python").

Le savoir ne doit pas être confondu avec l'intelligence :

  • le savoir est une quantité d'information ;
  • l'intelligence est notamment la capacité à traiter cette information : mémorisation, vitesse de calcul, et sans doute beaucoup plus : cf. /introduction#intelligence.

Le savoir est dit "libre" s'il répond aux propriétés suivantes :

  • il est librement choisi (ce qui requiert l'allocation universelle) ;
  • il est acquis au rythme propre à chaque individu (ce qui requiert un apprentissage personnalisé et autonome).

Méthode scientifique

https://philosophie.jortay.net/epistemologie#methode-scientifique

La méthode scientifique repose notamment sur les notions suivantes :

  1. hypothèse & thèse ;
  2. observation ;
  3. mesure ;
  4. typologie & classification ;
  5. théorie ;
  6. modélisation ;
  7. démonstration ;
  8. expérimentation ;
  9. calcul ;
  10. probabilité ;
  11. logique ;
  12. référentiel & relativité ;
  13. induction & décuction ;
  14. réfutation & réfutabilité ;
  15. heuristique ;
  16. évaluation par les pairs ;
  17. transdisciplinarité & inter-disciplinarité ;
  18. ...

Il est erroné de croire que la méthode scientifique ne devrait s'appliquer qu'à la recherche fondamentale et au développement de nouvelles technologies. Car la méthode scientifique – qu'en l'occurrence on pourrait plutôt appeler "méthode rationnelle" – nous pouvons l'appliquer à toutes nos interactions : relations avec nos proches, gestion de nos projets, ...

Gestion du savoir

https://philosophie.jortay.net/epistemologie#gestion-du-savoir

Dans une approche économique de l'épistémologie, on pourrait considérer un "marché du savoir", avec une offre, une demande, des producteurs et des consommateurs, les actions de chacun de ces deux types d'agent étant déterminées par des "business modèles" spécifiques. Il y a des flux et des stock de savoir à gérer de façon optimale, etc. Des questions se posent alors : dans quelle mesure et de quelles manières ce marché devrait-il être organisé ? ; quels sont les liens entre savoir et politique ? ; l'objectif de maximisation des profits est-il compatible avec une gestion optimale du savoir ? ; etc.

Deux éléments déterminants de ce modèle du savoir sont :

Le modèle actuel est plutôt de type "centralisé + marchand". Nos travaux suggèrent que ce modèle devrait au moins être complété, voire remplacé, par un modèle "distribué + non marchand".

Structuration du savoir

https://philosophie.jortay.net/epistemologie#structuration-savoir
 3.1. Arbre des sciences
 3.2. Table vs graphe

Arbre des sciences

https://philosophie.jortay.net/epistemologie#arbre-des-sciences

Philosophie et science traitent toutes deux du savoir. Cependant, alors que la première s'intéresse au savoir pourquoi, la seconde cherche à déterminer le savoir comment. C'est pourquoi, malgré leur commune rationalité, elles reposent sur des langages différents : verbal en philosophie, mathématique en sciences.

Le schéma suivant propose une synthèse de la relation historique et logique entre ces notions.

Le troisième bloc ci-dessus ("Comment") propose une catégorisation causale des sciences, allant du non vivant vers le vivant. Le tableau suivant développe cette approche typologique, en distinguant trois types de matière, s'emboîtant en "poupées russes" : la matière émotive est vivante, laquelle est composée de matière inerte.

Matière
inerte
Matière
vivante
Matière
émotive
physique

chimie
biologiepsychologie, sociologie

économie, politique, droit

Table vs graphes

https://philosophie.jortay.net/epistemologie#table-vs-graphe

La démarche de clipedia-txt.net consiste à proposer un programme d'apprentissage, avec un fil rouge, un début et une fin. Cela se traduit par :

  • un ordre logique : "mathématiques --> physique --> chimie --> biologie (... --> psychologie --> sociologie" ?) ;
  • une table des matières numérotée, la numérotation des équations principales (en rouge), les renvois à des équations supra (en bleu).

Cette approche dite "par table", est complémentaire à l'approche par graphes de clipedia.be, qui correspond mieux à la complexité – interconnectée et rétroactive – du savoir scientifique. Alors que, à priori, l'approche par table sied mieux aux étudiants (demande se savoir), l'approche par graphe correspond mieux à celles des enseignants (offre de savoir). C'est précisément en cela qu'elles sont utilement complémentaires, de sorte que, in fine, cette complémentarité bénéficie autant aux enseignants qu'aux étudiants.

On notera que l'approche par table, celle de l'apprenti, conduit à celle des graphes, lors de l'indispensable seconde lecture de l'ensemble d'une publication complexe. C'est alors que sont particulièrement utiles les numérotations hypertextes de type "vers infra" (c-à-d renvoyant à de la matière non encore vue), caractéristiques de l'approche par graphe, alors que l'approche par table vise à 100% de liens "vers supra" (c-à-d renvoyant à de la matière déjà vue). Et, effectivement, la seconde lecture c'est en quelque sorte passer de l'apprentissage à la maîtrise.

Une illustration de cette dynamique dans clipedia-txt.net, est l'introduction du chapitre consacré au produit vectoriel, qui expose la notion de moment de force ... qui n'est étudiée que plus loin (dans le chapitre "Dynamique"). Mais le nombre de numérotations hypertextes de type "vers infra" est très faible.

Flux et stock de savoir

https://philosophie.jortay.net/epistemologie#flux-stock-savoir

On peut distinguer quatre types d'activités du savoir, constituant deux groupes :

  • flux de savoir (savoir gagné sur une quantité peut-être infinie d'inconnu) :
    • recherche : découvrir et théoriser les lois de la nature ;
    • développement : concevoir et développer des techniques (méthodes) et technologies (outils).
  • stock de savoir (limité, croissant) :
    • enseignement : transmission du savoir ;
    • étude : éducation permanente.

N.B. Par "flux" nous entendons donc ici l'augmentation globale du stock de savoir, et non sa transmission entre enseignants et étudiants, qui est aussi un flux, mais laisse inchangé le stock de savoir collectif.

OffreDemande
FluxRechercheDéveloppement
StockEnseignementApprentissage

Lecture des deux colonnes :

  • l'offre de savoir est composée d'un flux de recherche nourrissant un stock d'enseignement ;
  • la demande de savoir correspond à un flux de développement nourrissant un stock d'apprentissage.

On notera que, idéalement, la recherche fondamentale, ne devrait pas avoir pour but en soi de répondre à une demande, dès lors que les conditions d'existence de cette demande peuvent ne pas encore être réunies. Ainsi de nombreuses applications technologiques ont été permises par des recherches fondamentales qui de leur temps n'intéressaient quasiment personne d'autre que leurs auteurs.

Analysons maintenant les deux lignes flux et stock du tableau supra.

Flux

La gestion du flux est composée de deux volets : quantitative (combien de ressources allouons-nous à la R&D ?) et qualitative (comment ces ressources sont-elles déterminées et allouées). Le tableau suivant illustre notamment le fait que la recherche fondamentale n'est généralement pas expressément commanditée, et ce faisant n'est pas (ou beaucoup moins) motivée par des considérations commerciales ou politiques.

La dynamique est : recherche théorique ⇒ recherche expérimentale ⇒ développement d'applications. Dans les économies "libérales" le secteur public est impliqué dans les deux premières phases, et le secteur privé dans les deux dernières.

ÉtapesRecherche
théorique

(⇐)
Recherche
expérimentale

(⇐)
Développement
d'applications
SecteursPublicPublic & privéPrivé

(⇐) : Il existe souvent des boucles de rétroaction (retours d'expérience). Exemple : en physique et biologie les découvertes réalisées grâce au microscope électronique ont ouvert de nouvelles voies théoriques.

Dans une autre publication nous avons montré que l'État devrait s'investir à nouveau dans le développement et la commercialisation d'applications, pour des raisons politique (contrôle démocratique des moyens de production) et économique (accroître la concurrence) [approfondir].

Stock

On peut concevoir un marché du savoir, où l'adéquation entre l'offre et la demande de contenu n'est pas seulement quantitative mais aussi qualitative. Il importe notamment que les méthodes de transmission (enseignants) et d'assimilation (étudiants) soient compatibles (cf. supra section #table-vs-graphe).

EnseignementApprentissage
QuoiOffreDemande
CommentTransmissionAssimilation

Le tableau suivant illustre le fait que le savoir connu devrait être traité en 2x2 voies parallèles :

  • théorie + pratique, qui reproduisent le dialogue entre Recherche (théorie) et Développement (pratique) ;
  • parlé + écrit, car exprimer un discours par ces deux types de langages si différents ne peut qu'améliorer l'assimilation de la matière.

Dans le tableau suivant les signes + illustrent l'utilité de compléter la théorie par la pratique, et le discours parlé par le discours écrit. Le signe x illustre l'effet multiplicateur de ces combinaisons sur l'assimilation du savoir.

ThéoriePratique
Parlé+
Écrit+
++x

Lecture de la colonne "pratique" : L'application de la théorie dans la résolution de problèmes peut être développée sous formes audio-visuelle et/ou écrite.

Ainsi les vidéos de clipedia.be correspondent à l'approche orale, et clipedia-tx.net à l'approche écrite :

  • la vidéo – médium en accès séquentiel – est propice à la diffusion de messages favorisant la perception intuitive ;
  • le texte facilite grandement l'accès direct (relativement à la vidéo), ce qui le rend plus efficace pour l'analyse et l'étude.

Enseignement

https://philosophie.jortay.net/epistemologie#enseignement
haelterman.jpg

En 2022, Marc Haelterman, professeur à l'École polytechnique de l'Université Libre de Bruxelles, et créateur de la formidable chaîne vidéo Clipedia, publiait sur celle-ci une série de quatre vidéos intitulées "Les Fractions : révision". Au début de la première de ces vidéos [voir] il montre une feuille d'examen d'un étudiant de première année d'ingénieur. La question d'examen concernait une matière relativement complexe, que l'étudiant avait bien traitée, jusqu'au moment où celui-ci se plante lamentablement sur un simple calcul ... de fractions ! Or Haelterman nous apprend que ce type d'erreur, compréhensible chez un élève de primaire, est fréquent même en première année d'ingénieur !

Pour expliquer ce surprenant voire inquiétant phénomène, Haelterman identifie deux causes :

  • les fractions sont enseignées dès l'école primaire, à un âge où elle ne sont d'aucune utilité ⇒ ces techniques de calcul seraient mal comprises et vite oubliées ;
  • la préconception : des raisonnements incorrects peuvent être fondés sur des prémisses répondant à une logique apparente (et conduisant en l'occurrence à une confusion entre addition de fractions et combinaison de proportions).
singe-savant.jpg

Singes
savants

Cependant une troisième voie d'analyse mériterait réflexion : notre système d'enseignement n'incite-t-il pas à la mémorisation au détriment de la compréhension, en contraignant élèves et étudiants à apprendre un maximum de matière en un minimum de temps ? Or comprendre demande généralement plus de temps que mémoriser. Bien sûr le cas d'examen exposé par Haelterman devrait nous rassurer : les étudiants qui ne comprennent pas ne passent pas les mailles du filet. Mais est-ce toujours le cas ? Ainsi des capacités de mémorisation hors du commun permettent de stocker des schémas de complexités très poussées, et d'ainsi passer au travers des mailles d'un filet même très fin. Dans un tel système, les individus disposant de capacités de mémorisation exceptionnelles sont comme poissons dans l'eau. On retrouve ainsi des PhD "singes savants", et je soupçonne que certains atteignent même le stade de professeur d'université (PS : ils sont repérables par leur absence de compétence didactique).

Idéologie

Dans les régime dictatoriaux et pseudo-démocratiques, on observe une forte propension des matières de l'enseignement obligatoire et supérieure à promouvoir les valeurs et les intérêts de la classe dominante.

"Étudiant Poil Aux Dents" (Renaud Séchan, 4m26s)

Réforme de
l'enseignement
obligatoire

Depuis la seconde guerre mondiale, les systèmes d'enseignement obligatoire ont fait l'objet de multiples réformes, dont les effets furent loin d'être satisfaisants. Notre thèse est que ces échecs étaient programmés par le fait que la nature obligatoire de l'enseignement n'était pas jamais remise en question.

Nos proposition suivantes peuvent être regroupées en deux volets : liberté et individualisation :

  1. liberté :
    • suppression de l'enseignement obligatoire, liberté de créer sa propre entreprise dès l'âge de douze ans ;
    • allocation universelle : facilite notamment l'enseignement parental, la formation à rythme personnalisé, les changements professionnels, la création de petites entreprises.
  2. individualisation :
    • à la carte : l'État pourrait proposer une grande quantité de formations ciblées sur des applications concrètes (produits ou services) ;
    • à rythme personnalisé : chacun à son rythme pas d'échéance déterminée de la formation (NB : cela est déjà possible avec les formations automatisées en ligne).

Ces propositions ne sont certes pas nouvelles, certaines sont même en voie de réalisation, mais elles tardent à se traduire en évolution disruptive des systèmes d'apprentissage. Ce fait n'est peut-être pas non plus étranger à une certaine inertie de la demande de services de formation par les citoyens eux-mêmes (jeunes ou moins jeunes), dont beaucoup persistent dans le réflexe conditionné considérant le traditionnel diplôme universitaire comme la voie idéale (poursuivre la réflexion sur ce point : /parcours-de-vie#producteur).

Quels savoirs
obligatoires ?

Le lecteur aura compris, au vu du titre de ce paragraphe, qu'une double problématique est ici abordée : contenu du programme d'enseignement, et obligation de le suivre. À supposer qu'il existe des arguments pertinents en faveur du caractère obligatoire de l'enseignement, celui-ci devrait alors ne couvrir que des matières dont il est sûr et certain que l'individu en aura besoin durant sa vie. Le tableau suivant propose des exemples de matières qui répondent (colonne de gauche) ou non (colonne de droite) à ce critère.

Certainement nécessairesPotentiellement (*) nécessaires
Hygiène de vie : art culinaire et diététique, techniques de gym du matin, ...Calcul de réactions chimiques.
jazz : solfège, harmonie, improvisation, ensemble.Langues anciennes.
Logiciel libre : remplacer son système d'exploitation par Linux Debian, utilisation avancée de Linux Debian.Calcul d'intégrales.
Utilisation d'un tableur pour la gestion de la comptabilité familiale.Cours de religion/morale.

(*) Ou douteusement.

Alternative

Une voie très prommetteuse est fondée sur l'apprentissage par la pratique (facilitée par l'allocation universelle), et l'auto-formation (facilitée par Internet). Approfondir : /travail-libre.

Integration des savoirs

https://philosophie.jortay.net/epistemologie#integration-des-savoirs

Le "business modèle" actuel des entreprises de savoir que sont les universités repose sur la division du travail, en l'occurrence la spécialisation des chercheurs ("disciplinarité"). Cependant, se fait sentir de façon croissante un besoin de connections entre les disciplines du savoir.

Par exemple la question des effets du champ électromagnétique sur les molécules organiques illustre parfaitement le lien physique-chimie-biologie, et partant, la nécessité de la multidisciplinarité (collaboration scientifique) ainsi que de la transdisciplinarité (culture générale scientifique).

Or la crise de la covid-19 a montré que les spécialistes ont souvent tendance à prendre des positions simplistes et extrémistes sur des problématiques complexes dépassant le cadre de leur domaine. Elle a également montré le rôle déterminant joué par les conflits d'intérêt dans la réalisation des études scientifiques. L'expérimentateur fait partie de l'appareil de mesure. Il est surprenant que ce phénomène fondamental éclairé par la mécanique quantique [source] soit quasiment ignoré dans les autres sciences.

La réponse principale au besoin de multidisciplinarité est encore aujourd'hui l'interdisciplinarité, c-à-d la collaboration entre spécialistes de domaines différents. Cependant force est de constater que, tout en reconnaissant l'utilité potentielle de l'interdisciplinarité, les scientifiques constatent sa difficulté pratique. Cette difficulté peut être causée par une culture générale insuffisante au sein même de la communauté scientifique, manque induit par la division du travail scientifique, elle-même induite par la logique de maximisation des profits.

Dans l'enseignement ce déficit d'intégration des savoirs se traduit par un programme de matières mal structuré, ce qui rend extrêmement difficile une approche autonome de l'apprentissage.

Science et démocratie

https://philosophie.jortay.net/epistemologie#science-et-democratie

Le climatisme et le covidisme (cf. la notion de "climato-épidémisme") ont marqué l'élévation du principe de "consensus scientifique" au statut de critère scientifique suprême, provoquant ainsi une polarisation :

  • au niveau des idées : la réalité étant considérée comme décrite par le consensus, de sorte que tout discours non consensuel est considéré comme erroné ;

    Ce phénomène est d'autant plus inquiétant que, de la "crise climatique" à la "crise épidémique" (aah les "crises"...), le prétendu "consensus" s'impose, de façon conjuguée, par (i) la prolifération d'articles scientifiques frauduleux dans les revues les plus prestigieuses, et (ii) la répression (diffamation, licenciement, ...) de scientifiques tenant un discours incompatible avec le "consensus".

  • au niveau des individus : l'attention médiatique et politique est focalisée sur les experts d'un domaine privilégié, au détriment d'une approche multidisciplinaire.

    Ainsi durant la crise covidiste l'analyse médiatique a été confiée essentiellement à des personnes du secteur médical, ce qui a pour effet de focaliser le débat médiatique sur la seule thèse d'une épidémie atypique, au détriment de la thèse – pourtant largement documentée – d'une crise sanitaire dont la cause n'est pas épidémiologique mais politique.

D'autre part ce phénomène déteint sur la relation entre scientifiques et non scientifiques, dont les (trop rares) échanges sur Facebook révèlent de façon flagrante :

  • le désintérêt voire le mépris de nombreux scientifiques lors de discussions avec des non scientifiques ;
  • l'inhibition/soumission de la plupart des non scientifiques lorsqu'il s'agit de débattre avec des scientifiques.

Il importe donc de faire exploser la frontière entre "scientifiques" et "non scientifiques". Il ne s'agit évidemment pas de nier les compétences spécifiques des scientifiques, mais de reconnaître l'utilité de débats contradictoires et bienveillants, où chacun apporte et apprend ce qu'il peut :

  • les scientifiques assumant leur rôle d'éducateurs dans le cadre d'une relation équilibrée (NB : cet équilibre est absent dans la relation entre professeurs et étudiants en quête d'un diplôme !), tout en percevant l'utilité scientifique d'être à l'écoute directe du ressenti de la population, concernant les applications scientifiques dont elle est utilisatrice ou qu'elle subit (même très indirectement) ;
  • les non scientifiques comprenant la fonction auto-formatrice et démocratique qu'ils peuvent exercer en engageant de façon proactive des débats publics avec des scientifiques (notamment ceux présents sur Facebook).

Enfin ce travail collaboratif ne peut opérer efficacement qu'à la condition que les participants respectent les règles élémentaires en matière de (i) bienveillance (notamment bannir les postures méprisantes, et ne pas se laisser entraîner dans des joutes d'égos) ; (ii) méthodologie (notamment n'argumenter que sur base de sources crédibles, qu'on a réellement lues, et dont on mentionne l'URL) ; (iii) prudence (notamment en évitant de débattre avec des personnes non identifiables).

Concrètement, il s'agit donc d'étendre aux (trop rares) débats entre scientifiques et non scientifiques la nature de la relation existant entre scientifiques de domaines différents lors de débats interdisciplinaires. Il s'agit d'une forme de démocratisation réelle de la science, ce qui n'est pas du tout le cas de la notion pernicieuse de "consensus scientifique".

Une condition nécessaire est que les non scientifiques développent leur culture générale scientifique, par une activité quotidienne (au même titre qu'une activité sportive régulière et une alimentation variée sont indispensables pour une santé physique et psychique optimale). C'est précisément la fonction de "clipedia-txt.net" et linux-debian.net.

Déclaration d'intérêts

https://philosophie.jortay.net/epistemologie#declaration-interets

Il importe d'abord de ne pas confondre les déclarations d'intérêts spécifiques à des articles, et la déclaration d'intérêts générale (DIG), qui est spécifique à une personne. Cette DIG est utile pour juger des propos tenus par exemple sur un plateau de télévision.

Le principe des déclaration d'intérêts n'est malheureusement pas encore généralisé, notamment dans les syllabus de l'enseignement supérieur.

Cette déclaration devrait mentionner, pour chaque auteur, la possibilité de conflits d'intérêts, financiers ou autres, dont notamment :

  • la détention de titres financiers, y compris des titres achetés sur le marché secondaire (donc en dehors de toute relation professionnelle avec ces entreprises) ;
  • la détention de brevets ;
  • des collaborations, même "bénévoles", avec des entreprises "d'information" (intervention sur des plateaux TV ou dans des articles de journeaux, ...).

Déclaration type que l'OMS exige de ses experts siégeant à titre consultatif. À noter que l’expression « conflit d’intérêts » s’applique aux intérêts actuels, que l’OMS définit comme ceux advenus au cours des quatre années précédant l’activité ou le travail consultatif auquel l’OMS a invité un expert à participer.

Les faits montrent que la déclaration d'intérêt n'est évidemment pas une solution miracle. Outre le fait qu'il est difficile de vérifier la sincérité des déclarants, elle ne peut notamment neutraliser complètement :

  • le suivisme voire la servilité de scientifiques – experts et/ou leaders d'opinion – par rapport à des autorités politiques guidées par des intérêts privés, plutôt que collectifs et scientifiques ;
  • le parti-pris idéologique (dont nous avons pu documenter ce cas flagrant).

ressources : déclarations publiques de conflits d'intérêts dans le secteur de la santé :
France : dpi.sante.gouv.fr (déclarations antérieures au 19 juillet 2017 : www.has-sante.fr/...)
Belgique : health.belgium.be/... ; afmps.be/...

Significativité statistique (valeur p)

https://philosophie.jortay.net/epistemologie#significativite-statistique
 9.1. Problématique
 9.2. Exemple
 9.3. Analyse
 9.4. Limitations
 9.5. Recommandations

Problématique

https://philosophie.jortay.net/epistemologie#significativite-statistique-problematique

Les tests de significativité statistique dits "à hypothèse nulle" sont devenus la norme dans les études scientifiques, notamment parce qu'ils sont exigés par la quasi totalité des revues scientifiques pour acceptation de publication. Cependant le principe de ces tests statistiques est souvent mal compris par les scientifiques eux-mêmes, et en outre leur pertinence est mise en question (au moins partiellement).

Ces deux faits ne sont peut-être pas indépendants : l'incompréhension généralisée d'un concept est souvent (mais pas toujours) le signe de sa faible pertinence voire de son incongruité.

Et cette situation d'incompréhension constitue évidemment un terrain favorable aux abus. Ainsi la multiplication du nombre d'études dont les résultats sont non réplicables suggère que ce type de test est de plus en plus utilisé pour abuser le lecteur, en fabriquant de toute pièce la significativité de résultats expérimentaux.

Le même type de critique concerne les notions d'intervalle de confiance et de puissance statistique.

Alors que ses concepteurs le voyaient comme un moyen de prendre en compte la variabilité aléatoire comme source d'erreur, et partant, d'inciter à ne pas rejeter trop facilement l'hypothèse nulle (c-à-d à ne pas conclure trop vite à la réalité d'un effet ou d'une corrélation), ce test est devenu l'objet d'abus massifs, allant jusqu'à le détourner vers l'exacte contraire de sa fonction théorique.

Ce chapitre vise donc à analyser le principe et la pertinence du test à hypothèse nulle, et de proposer des recommandations.

Exemple

https://philosophie.jortay.net/epistemologie#significativite-statistique-exemple

Supposons une étude médicale visant à mesurer la possible influence d’un gène donné sur le fait de développer de l’hypertension, et dont les résultats seraient les suivants :

GèneOuiNon
TensionMoyenne12,911,7
Écart type1,51,5

Étant donné que 12,9 - 11,7 = 1,1 < 1,5 il se pourrait que la grandeur et le signe de la différence entre les moyennes – qui suggèrent le bien fondé de la thèse étudiée – soient essentiellement le fruit du hasard. Par conséquent, avec ces seuls chiffres, on ne peut conclure à l’existence d’un effet du gène sur l’hypertension.

Cependant il existe un test permettant de mesurer de façon probabiliste le risque que l’effet suggéré par la différence des moyennes soit le fruit du hasard. C’est la valeur p, qui est la probabilité conditionnelle P(+ | H0) c-à-d la probabilité que le résultat de l’étude (ou d'un test sérologique) suggère un effet (+) alors que dans la réalité il n’y en a pas (H0). En l’occurrence elle vaut 1 % [source].

Par convention (sic) les revues scientifiques considèrent qu’un effet est statistiquement significatif si p<5 %. Or, si l’échantillon est petit, cette règle de décision a pour effet que peuvent être publiés des articles qui ne le devraient pas (jusqu’à 25 % : source). Diverses solutions sont proposées, mais elles ont leurs propres limitations.

Demeure enfin une autre limitation de la valeur p : elle ne dit rien sur l’ampleur de l’effet. Or la significativité statistique attestée par un p<5 % ne correspond pas nécessairement à la significativité applicative de l’effet (« applicative » au sens de, en l’occurrence, « médicale ») .

Dans la section suivante nous allons approfondir les notions évoquées jusqu'ici.

Analyse

https://philosophie.jortay.net/epistemologie#significativite-statistique-analyse

Pour mesurer l'effet d'un traitement (par exemple médical), on peut comparer un groupe expérimental (encore appelé "groupe traité") à un groupe contrôle (encore appelé "témoin") c-à-d non soumis au traitement. On parle d'hypothèse nulle (notée H0) pour décrire la situation réelle où le traitement est sans effet (c-à-d où il n'y a pas de différence entre les deux groupes), l'hypothèse alternative (notée H1) étant celle d'un effet réel.

  • L'hypothèse nulle ne postule pas seulement l'absence d'effet (généralement une différence ou une corrélation entre des moyennes) mais repose également sur un ensemble d'hypothèses (dont l'absence d'erreur systématique) constituant un modèle statistique.
  • Plus généralement H0 représente la norme, et H1 (ou H1, H2, ... Hn) la (ou les) alternative(s).

Concrètement, le test à hypothèse nulle estime le risque de "faux positif" (encore appelé "erreur du type I", nous verrons pourquoi plus loin), c-à-d le risque de conclure à l'existence d'un effet x, dans le double cas hypothétique où :

  1. il n'y aurait pas d'effet (on évalue donc le risque de rejeter H0 alors qu'elle serait vraie ⇒ la probabilité liée à ce risque, dite "conditionnelle", vaut p = P( x | H0 ) = P( x ⋂ H0 ) / P(H0)) ;

    Rappel :
    P( A ⋂ B ) = P(A) * P(B) ⇔
    A et B sont indépendants, dans lequel cas :
    P( A | B ) = P(A) * P(B) / P(B) = P(A)

  2. et où, en outre, le modèle statistique sur lequel repose le test correspondrait à la réalité.

Nous verrons que les abus d'utilisations du test à hypothèse nulle sont liés à (i) une interprétation erronée (en l'occurrence, abusive) du point 1 ; et (ii) une surestimation de la mesure dans laquelle le modèle statistique correspond à la réalité.

Le test permet alors la règle de décision suivante :

  • si p est inférieure à une valeur seuil α (généralement fixée à 5% ... de façon arbitraire), alors on en déduit que ce risque (de différence due uniquement au hasard) est "suffisamment" faible ⇒ on "rejette" H0 (pour cette seule mesure !) ⇔ le résultat x de l'étude est significatif ;

    Autrement dit, un résultat statistiquement significatif est un résultat qui serait improbable si l'hypothèse nulle (situation de référence) était vérifiée. Il en résulte que, en cas de significativité, l'hypothèse nulle ne s'applique pas au résultat observé (NB : ce qui n'est pas une preuve qu'elle est fausse), et donc que le cas étudié diffère de manière notable de la norme, et ainsi pourrait présenter un intérêt particulier. NB : il reste à déterminer si cette différence par rapport à l'hypothèse nulle revêt un intérêt clinique.

  • si p est supérieure à α, alors on ne peut "rejeter" H0 (⇔ la différence observée, relativement faible, pourrait être due aussi bien au hasard qu'à l'éventuelle pertinence de H0).

    Une valeur p élevé ne signifie donc pas que H0 est vraie : n'importe quelle valeur inférieure à 1 imlique que H0 n'est pas l'hypothèse la plus compatible avec les données, puisque n'importe quelle autre hypothèse avec une valeur p supérieure serait plus compatible. Cela ne signifie pas non plus qu'il y a peu voire pas d'effet, puisque un grand effet peu être noyé dans du bruit de sorte que p > α (particulièrement dans les petits échantillons) [source : "Supplemental material", point 5]. Conclusion : p>α signifie seulement que l'effet mesuré n'est pas atypique dans le cas où les hypothèses sont vérifiées (H0 et celles du modèle).

N.B. Étant donné que p = P( x | H0 ), la seule chose que mesure la valeur p c'est à quel point la donnée x plaide contre l’hypothèse nulle ⇔ ce test ne permet de répondre qu'à la seule question : "peut-on rejeter H0 ?" c-à-d "le résultat x de l'étude est-il significatif ?". En particulier, étant donné que P( x | H0 ) ≠ P( H0 | x ) (p n'est donc pas la probabilité que H0 soit vraie), le rejet de H0 ne signifie pas qu'elle est probablement fausse, et son non rejet ne signifie pas qu'elle est probablement vraie !

Assimiler un non rejet de H0 à son acceptation, conduit à la notion de risque d'erreur de type II ("faux négatif", c-à-d conclure à l'inexistence d'un effet alors qu'en réalité il y en a bien un, c-à-d accepter H0 alors qu'elle est fausse), et est liée au fait que la zone de rejet est située aux extrêmes de la distribution [source p. 419].

Exemple 1. Imaginons que l'on connaisse la loi de probabilité répartissant le poids des individus d'une population en surpoids, et qu'on teste un traitement "minceur" sur un groupe de personnes. On évalue le poids moyen du groupe après le traitement et on vérifie avec la loi initiale si le résultat est probable ou improbable. S'il est "improbable", alors le traitement est probablement efficace. Autrement dit, observer une telle différence de poids, alors que l'on suppose l'absence d'effet, est peu probable ⇒ il est hautement probable que la baisse de poids soit due au traitement. Le système de significativité par hypothèse nulle est donc une "preuve par l'absurde".

Exemple 2. Supposons un jeu de pile ou face. L'hypothèse nulle est que la pièce est équilibrée, c-à-d que la probabilité pour un tirage donné d'obtenir un pile est la même que celle d'obtenir un face, à savoir 1/2. Un observateur effectue des tirages expérimentaux pour déterminer si la pièce utilisée est biaisée ou non. Supposons que l'observateur effectue 4 tirages et obtient 4 résultats pile. Or la probabilité d'obtenir 4 pile successifs est égale à 1/16 soit 0,0625 ou 6,25 % [démonstration]. Si l'observateur a retenu le seuil classique de 5 % alors la conclusion de l'expérience est que la proportion de pile pour l'expérience menée n'est pas significativement supérieure à la proportion attendue et ne permet pas de conclure que la pièce est biaisée dans le cadre retenu. Supposons maintenant que l'observateur continue ses tirages et obtient 5 résultats pile sur 5 tirages. Dans ce contexte la probabilité d'obtenir 5 pile successifs est égale à 1/25 soit 0,03125 ou 3,125 %. Si l'observateur a retenu le seuil classique de 5 % alors la conclusion de l'expérience est que la proportion de pile pour l'expérience menée est significativement supérieure à la proportion attendue et qu'il est probable que l'hypothèse nulle ne soit pas vérifiée au seuil de significativité de 5 %, car si H0 était vérifiée ce résultat serait improbable (moins de 5 % de chance selon le seuil conventionnel retenu).

En termes mathématiques (illustration graphique infra) :

  • Soit la variable t = d / sd est la différence entre la moyenne des groupes traité et contrôle (cf. loi de Student), et s l'écart-type de d, si H0 est vraie, alors il y a seulement 5% de chance que t soit inférieur à t.025 ou supérieur à t.975, qui sont les 2,5e et 97,5e centiles de la distribution t, avec les mêmes degrés de liberté que dans l'expérience. Autrement dit, si je rejette H0 parce que t n'est pas compris entre ces deux valeurs ⇒ le risque de rejeter H0 alors qu'elle est vraie est de seulement 5% [source].
  • p = P( x | H0 ) est une intégrale partielle de la fonction de densité de probabilité des résultats possibles sous H (surface rouge dans le graphique ci-dessous).
valeur-p.jpg

Non neutralité. Lors de l'échantillonnage d'une distribution de moyenne inconnue μ, différentes hypothèses sur la valeur de μ fournissent un nombre infini d'hypothèses nulles alternatives, par lesquelles on peut évaluer la moyenne de l'échantillon. Et quelle que soit l'hypothèse choisie (par exemple parmi plusieurs grandeur d'un effet), on obtient ainsi un énorme, dans certains cas presque insurmontable, avantage sur ses concurrents. Autrement dit, l'hypothèse privilégiée est considérée comme innocente à moins d'être prouvée coupable, tandis que toute alternative est jugée coupable jusqu'à ce qu'il ne reste plus d'autre choix que de la juger innocente.

La notion d'intervalle de confiance permet de neutraliser ce phénomène. Un intervalle de confiance est un sous-ensemble des hypothèses alternatives calculées à partir des données expérimentales, de telle sorte que pour un niveau de confiance sélectionné α (par exemple 95%), la probabilité que l'hypothèse vraie soit incluse dans un ensemble ainsi obtenu est α. Typiquement, un intervalle de confiance de niveau α se compose de ces hypothèses dans lesquelles la valeur p pour le résultat expérimental est supérieure à 1-a. Le test d'intervalle de confiance est donc similaire à un test de signification H0 de chaque hypothèse dans l'ensemble total des alternatives. Autrement dit, si l'on suppose qu'aucune des hypothèses non incluses dans un intervalle de confiance (à par exemple 95 %) n'est correcte, alors le risque d'erreur est de seulement de 5 %. Le rapport d'intervalle de confiance n'est donc pas biaisé en faveur d'une hypothèse privilégiée, comme c'est le cas pour le test de signification de l'hypothèse nulle, mais fait une évaluation simultanée impartiale de toutes les alternatives envisagées. Ainsi un rapport expérimental peut très bien présenter des résultats pour plusieurs intervalles de confiances pour t=d/s, ce qui permet de prendre en compte différentes hypothèses concernant l'ampleur de l'effet. Exemples d'intervalles, non centrés autour de zéro : 5↔40, -5↔10, ... [source].

  • NB : l'intervalle -5↔10 contient H0 s'il s'agit d'intervalles pour d=t/s et centrés sur 0.

  • Les intervalles doivent cependant être utilisés et interprétés avec autant de prudence : cf. source, "Supplemental material", conclusion d.

Dans tous les cas, le test à hypothèse nulle ne calcule pas de probabilité pour les hypothèses, puisqu'une seule est considérée comme la référence. Pour tester plusieurs hypothèse il faut s'en référer à la l'inférence bayésienne.

Limitations

https://philosophie.jortay.net/epistemologie#significativite-statistique-limitations

Deux types d'inférences trompeuses fondées sur la valeur p :

  • faux positif : un effet important est observé, mais en raison de la petite taille de l'échantillon et/ou du faible degré de précision des mesures (⇒ variance élevée ?), l'effet est validé comme significatif ;
  • faux négatif : seul un petit effet est observé, mais en raison de la grande taille de l'échantillon et/ou du degré de précision des mesures, il n'est pas validé comme significatif.

Ces caractéristiques ouvrent la voie à diverses possibilités de manipulations. Presque tous les ensembles de données présentent des anomalies de quelque sorte lorsqu'ils sont examinés attentivement, même si la structure probabiliste sous-jacente est entièrement aléatoire, c'est-à-dire même si les observations proviennent de variables aléatoires indépendantes et distribuées de manière identique. En examinant assez attentivement des données aléatoires, on peut généralement trouver une anomalie qui donne une signification statistique aux niveaux habituels bien qu'aucun effet réel ne soit présent [source, exemples]. Cela est inhérent à la nature même du test à hypothèse nulle : il suffit de répéter la réalisation d'une mesure jusqu'au moment où l'on en trouve une qui soit significative, puisque l'on sait qu'en réalisant cent fois la mesure (chaque fois avec un nouvel échantillon d'une même population) on a une grande change d'en trouver α qui sont "significatives". En outre, concernant le faux positif, on notera que plus la taille de l'échantillon est grande, plus l'effet minimum nécessaire pour produire une valeur p statistiquement significative est petit.

La valeur p peut donc être utilisée pour faire l'exacte contraire de ce pour quoi elle a été conçue ! Et la multiplication du nombre d'études "scientifiques" dont on arrive pas à répliquer les résultats suggère que les tests de signification à hypothèse nulle sont de plus en plus utilisées pour abuser les lecteurs crédules d'articles scientifiques.

Et même en ne procédant pas à de telles tricheries, demeure le fait que, en particulier dans des sciences où les effets sont généralement minimes et variables selon les individus d'une population (science biomédicale, sociologie, ...), et où les erreurs systématiques sont inévitables, l'ensemble constituant l'hypothèse nulle est de toute façon peu réaliste. Étant donné la nature seuillée du test, le fait que du simple bruit statistique puisse produire de la "significativité", a pour conséquence que les résultats de nombreuses études ayant reçu accord de publication sont très difficilement réplicables [source].

Une première solution consisterait à rendre le test plus sévère en réduisant α de 5% à 0,5%. On notera cependant que bien qu'étant plus sévère, il est tout autant arbitraire : la science n'est-elle pas suffisamment importante que pour justifier 0,05% voire 0,005 ... ou beaucoup moins encore ? D'autre part la valeur de p peut être calculée de différentes façons, ce qui peut donner des valeurs suffisamment différentes que pour faire passer d'un côté à l'autre du seuil. Ce caractère arbitraire pose une question fondamentale : l'effet seuil inhérent au test de signification H0 est-il scientifiquement pertinent ?

Une voie plus disruptive consiste à utiliser un modèle de distribution des tailles et variations des effets, c-à-d de raisonner directement avec des hypothèses d'intérêt plutôt qu'indirectement via un modèle nul : c'est l'inférence bayésienne. D'autre voies existent : rapports de vraisemblance, facteurs de Bayes, modélisation théorique de la décision, taux de fausses découvertes. Toutes permettent d'évaluer plus directement (que la valeur p) la taille (et l'incertitude) de l'effet, ainsi que la validité de l'hypothèse [source]. Toutes ces mesures peuvent traiter plus directement de l'ampleur d'un effet (et de son incertitude associée) ou de l'exactitude de l'hypothèse.

Recommandations

https://philosophie.jortay.net/epistemologie#significativite-statistique-recommandations

Dans certaines sciences, en particulier biomédicales et sociales, la valeur p – et les statistiques de population en général – doivent être interprétées avec prudence. Ainsi l'American Statistical Association (ASA) émet les recommandations suivantes : « Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold. (...) Researchers should bring many contextual factors into play to derive scientific inferences, including the design of astudy, the quality of the measurements, the external evidence for the phenomenon under study, and the validity of assumptions that underlie the data analysis » [source, 2016].

Mon avis concernant la valeur p :

  1. elle ne devrait être utilisée, par les auteurs, que comme "confirmation" des facteurs contextuels ;
  2. seuls les facteurs contextuels devraient être publiés.

Et encore, plus je lis sur le sujet, plus j'ai des doutes quant à la pertinence du point 1 ci-dessus. Non seulement l'interprétation de la valeur p requiert une expérience de la statistique que la plupart des scientifiques n'ont pas. Mais d'autre part les exemples d'interprétations erronées mentionnées par l'ASA me font douter de la pertinence de la valeur p, même pour des statisticiens expérimentés :

  • point 10 : l'ASA affirme que p<0,05 n'implique pas que 5% est la probabilité de faire un faux positif, mais que 5% exprime combien de fois on rejetterait erronément H0 sur une série de mesures ... [source : "Supplemental material"]. Mais n'est-ce pas cela la définition du faux positif ... ?
  • point 13 : « la "signification statistique (...) est une propriété d'un résultat d'un test statistique ; ce n'est pas une propriété de l'effet ou de la population étudiée ». Ok, mais alors à quoi sert la valeur p si elle ne dit rien sur l'effet ?
  • point c : « il est faux d'affirmer que des résultats non significatifs supportent une hypothèse de référence, puisque les mêmes résultats peuvent être plus compatibles avec des hypothèses alternatives ».
  • point c : « les tests de signification et les intervalles de confiance ne fournissent pas en eux-mêmes une base logique pour conclure qu'un effet est présent ou absent avec certitude ou avec une probabilité donnée ».

Savoir et magie (de la simplicité)

https://philosophie.jortay.net/epistemologie#savoir-magie

Quel programmeur, après avoir conçu et développé un algorithme – ce qui n'est rien d'autre qu'une formule informatique c-à-d une formule mathématique – et constatant que trois lignes de code peuvent "faire des miracles" (résoudre des problèmes pratiques parfois complexes), n'a pas fait le parallèle avec la formule magique "abracadabra" ? En effet, une fois le programme au point, il suffit d'appuyer sur un bouton (abracadabra) pour réaliser des opérations sans effort. Ainsi, comme l'exprime très bien Laurent Bloch, « dire c’est faire, ce qui relève d’un pouvoir divin » [source].

Mais le côté véritablement "magique" ou "miraculeux", et que l'on ne découvre qu'en programmant, c'est ceci : si tu n'arrives pas à mettre ton algorithme au point c'est presque toujours parce que la voie que tu as choisie n'est pas la plus simple. Il suffit donc de chercher la simplicité, c-à-d la facilité, pour résoudre les problèmes les plus complexes ! N'est-ce pas magique ?

COMMENTAIRES

0 commentaires.


Laisser un commentaire



Contact

philosophie.jortay.net
menu.jpg

Une publication de François Jortay

top-of-page.png