On peut distinguer trois niveaux de savoir :
Le savoir ne doit pas être confondu avec l'intelligence :
Le savoir est dit "libre" s'il répond aux propriétés suivantes :
Dans une approche économique de l'épistémologie, on pourrait considérer un "marché du savoir", avec une offre, une demande, des producteurs et des consommateurs, les actions de chacun de ces deux types d'agent étant déterminées par des "business modèles" spécifiques. Il y a des flux et des stock de savoir à gérer de façon optimale, etc. Des questions se posent alors : dans quelle mesure et de quelles manières ce marché devrait-il être organisé ? ; quels sont les liens entre savoir et politique ? ; l'objectif de maximisation des profits est-il compatible avec une gestion optimale du savoir ? ; etc.
Philosophie et science traitent toutes deux du savoir. Cependant, alors que la première s'intéresse au savoir pourquoi, la seconde cherche à déterminer le savoir comment. C'est pourquoi, malgré leur commune rationalité, elles reposent sur des langages différents : verbal en philosophie, mathématique en sciences.
Le schéma suivant propose une synthèse de la relation historique et logique entre ces notions.
Le troisième bloc ci-dessus ("Comment") propose une catégorisation causale des sciences, allant du non vivant vers le vivant. Le tableau suivant développe cette approche typologique, en distinguant trois types de matière, s'emboîtant en "poupées russes" : la matière émotive est vivante, laquelle est composée de matière inerte.
Matière inerte | ⇒ | Matière vivante | ⇒ | Matière émotive |
---|---|---|---|---|
physique ⇓ chimie | biologie | psychologie, sociologie ⇓ économie, politique, droit |
Le lecteur attentif aura noté l'absence de l'histoire dans le tableau ci-dessus. C'est parce que, selon moi, l'histoire fait la connexion entre sciences et philosophie, et permet ainsi de fermer la boucle en passant du bloc "Comment" au bloc "Pourquoi". L'histoire ne se répète pas mais bégaie, entend-on souvent (la citation serait de Karl Marx). Or il me semble constater une certaine intemporalité de la philosophie, du moins relativement à l'évolution fulgurante des sciences. Voilà qui me conforte dans l'attribution de cette fonction de bouclage à l'histoire.
La démarche de la présente publication (qui vise un public de tous âges, désirant acquérir ou mettre à jour une culture générale scientifique) consiste à proposer un programme d'apprentissage, avec un fil rouge, un début et une fin. Cela se traduit par :
Une approche complémentaire à cette approche par table, est l'approche par graphes, qui correspond mieux à la complexité – interconnectée et rétroactive – du savoir scientifique. Alors que l'approche par table sied mieux aux étudiants (demande se savoir), l'approche par graphe correspond mieux à celles des enseignants (offre de savoir).
On notera que l'approche par table, celle de l'apprenti, conduit à celle des graphes, lors de l'indispensable seconde lecture de l'ensemble d'une publication complexe. C'est alors que sont particulièrement utiles les numérotations hypertextes bleues de type "vers infra", caractéristiques de l'approche par graphe (alors que l'approche par table vise à 100% de liens "vers supra"). Et, effectivement, la seconde lecture c'est en quelque sorte passer de l'apprentissage à la maîtrise.
Une illustration de cette dynamique est l'introduction du chapitre consacré au produit vectoriel, qui expose la notion de moment de force ... qui n'est étudiée que plus loin dans cette publication (chapitre "Dynamique"). Ceci dit, n'oublions pas que la présente publication est en édition continue ⇒ elle est constamment améliorée, dans le fond comme dans la forme. Or cette dernière est facilement transformable grâce à la technologie que j'ai développée pour que toute réorganisation des chapitres se répercute automatique sur la numérotation de la table des matière, ainsi que sur la numérotation des formules. Ainsi j'ai bon espoir que le nombre de numérotations hypertextes bleues de type "vers infra" devienne de plus en plus inférieur (il l'est déjà fortement) au nombre nombre de numérotations hypertextes bleues de type "vers supra", rendant ainsi les approches par table et par graphes toujours plus compatibles et complémentaires.
On peut distinguer quatre types d'activités du savoir, constituant deux groupes :
N.B. Par "flux" nous entendons donc ici l'augmentation globale du stock de savoir, et non sa transmission entre enseignants et étudiants, qui est aussi un flux, mais laisse inchangé le stock de savoir collectif.
Offre | Demande | |
---|---|---|
Flux | Recherche | Développement |
Stock | Enseignement | Apprentissage |
Analysons ces deux lignes flux et stock.
Le flux nourrit le stock de savoir. Sa gestion est quantitative (combien de ressources allouons-nous à la R&D ?) et qualitative (comment ces ressources sont-elles déterminées et allouées). Le tableau suivant illustre notamment le fait que la recherche fondamentale n'est généralement pas expressément commanditée, et ce faisant n'est pas (ou beaucoup moins) motivée par des considérations commerciales ou politiques.
La dynamique est : recherche théorique ⇒ recherche expérimentale ⇒ développement d'applications. Dans les économie libérales le secteur public est impliqué dans les deux premières phases, et le secteur privé dans les deux dernières.
Étapes | Recherche théorique | ⇒ (⇐) | Recherche expérimentale | ⇒ (⇐) | Développement d'applications |
---|---|---|---|---|---|
Secteurs | Public | Public & privé | Privé |
(⇐) : Il existe souvent des boucles de rétroaction (retours d'expérience). Exemple : en physique et biologie les découvertes réalisées grâce au microscope électronique ont ouvert de nouvelles voies théoriques.
Dans une autre publication nous avons montré que l'État devrait s'investir à nouveau dans le développement et la commercialisation d'applications, pour des raisons politique (contrôle démocratique des moyens de production) et économique (accroître la concurrence) [approfondir].
On peut concevoir un marché du savoir, où l'adéquation entre l'offre et la demande de contenu n'est pas seulement quantitative mais aussi qualitative. Il importe notamment que les méthodes de transmission et d'assimilation soient compatibles.
Enseignement | Apprentissage | |
---|---|---|
Quoi | Offre | Demande |
Comment | Transmission | Assimilation |
Le tableau suivant illustre le fait que le savoir connu devrait être traité en 2x2 voies parallèles :
Dans le tableau suivant les signes + illustrent l'utilité de compléter la théorie par la pratique, et le discours parlé par le discours écrit. Le signe x illustre l'effet multiplicateur de ces combinaisons sur l'assimilation du savoir.
Théorie | Pratique | ||
---|---|---|---|
Parlé | + | ||
Écrit | + | ||
+ | + | x |
Lecture de la colonne "pratique" : L'application de la théorie dans la résolution de problèmes peut être développée sous formes audio-visuelle et/ou écrite.
En 2022, Marc Haelterman, professeur à l'École polytechnique de l'Université Libre de Bruxelles, et créateur de la formidable chaîne vidéo Clipedia, publiait sur celle-ci une série de quatre vidéos intitulées "Les Fractions : révision". Au début de la première de ces vidéos [voir] il montre une feuille d'examen d'un étudiant de première année d'ingénieur. La question d'examen concernait une matière relativement complexe, que l'étudiant avait bien traitée, jusqu'au moment où celui-ci se plante lamentablement sur un simple calcul ... de fractions ! Or Haelterman nous apprend que ce type d'erreur, compréhensible chez un élève de primaire, est fréquent même en première année d'ingénieur !
Pour expliquer ce surprenant voire inquiétant phénomène, Haelterman identifie deux causes :
Singe savant ?
Cependant une troisième voie d'analyse mériterait réflexion : notre système d'enseignement n'incite-t-il pas à la mémorisation au détriment de la compréhension, en contraignant élèves et étudiants à apprendre un maximum de matière en un minimum de temps ? Or comprendre demande généralement plus de temps que mémoriser. Bien sûr le cas d'examen exposé par Haelterman devrait nous rassurer : les étudiants qui ne comprennent pas ne passent pas les mailles du filet. Mais est-ce toujours le cas ? Ainsi des capacités de mémorisation hors du commun permettent de stocker des schémas de complexités très poussées, et d'ainsi passer au travers des mailles d'un filet même très fin. Dans un tel système, les individus disposant de capacités de mémorisation exceptionnelles sont comme poissons dans l'eau. On retrouve ainsi des PhD "singes savants", et je soupçonne que certains atteignent même le stade de professeur d'université.
Tout cela sent la naphtaline. Des voies disruptives sont cependant possibles.
Proposition :
Ces propositions ne sont certes pas nouvelles, certaines sont même en voie de réalisation, mais elles tardent à se traduire en évolution disruptive des systèmes d'apprentissage. Ce fait n'est peut-être pas non plus étranger à une certaine inertie de la demande de services de formation par les citoyens eux-mêmes (jeunes ou moins jeunes), dont beaucoup persistent dans le réflexe conditionné considérant le traditionnel diplôme universitaire comme la voie idéale (poursuivre la réflexion sur ce point : /parcours-de-vie#producteur).
Le lecteur aura compris, au vu du titre de ce paragraphe, qu'une double problématique est ici abordée : contenu du programme d'enseignement, et obligation de le suivre. À supposer qu'il existe des arguments pertinents en faveur du caractère obligatoire de l'enseignement, celui-ci devrait alors ne couvrir que des matières dont il est sûr et certain que l'individu en aura besoin durant sa vie. Le tableau suivant propose des exemples de matières qui répondent (colonne de gauche) ou non (colonne de droite) à ce critère.
Certainement nécessaires | Potentiellement (*) nécessaires |
---|---|
Hygiène de vie : art culinaire et diététique, techniques de gym du matin, ... | Calcul de réactions chimiques. |
jazz : solfège, harmonie, improvisation, ensemble. | Langues anciennes. |
Logiciel libre : remplacer son système d'exploitation par Linux Debian, utilisation avancée de Linux Debian. | Calcul d'intégrales. |
Utilisation d'un tableur pour la gestion de la comptabilité familiale. | Cours de religion/morale. |
(*) Ou douteusement.
Le "business modèle" actuel des entreprises de savoir que sont les universités repose sur la division du travail, en l'occurrence la spécialisation des chercheurs ("disciplinarité"). Cependant, se fait sentir de façon croissante un besoin de connections entre les disciplines du savoir.
Par exemple la question des effets du champ électromagnétique sur les molécules organiques illustre parfaitement le lien physique-chimie-biologie, et partant, la nécessité de la multidisciplinarité (collaboration scientifique) ainsi que de la transdisciplinarité (culture générale scientifique).
Or la crise de la covid-19 a montré que les spécialistes ont souvent tendance à prendre des positions simplistes et extrémistes sur des problématiques complexes dépassant le cadre de leur domaine. Elle a également montré le rôle déterminant joué par les conflits d'intérêt dans la réalisation des études scientifiques. L'expérimentateur fait partie de l'appareil de mesure. Il est surprenant que ce phénomène fondamental éclairé par la mécanique quantique [source] soit quasiment ignoré dans les autres sciences.
La réponse principale au besoin de multidisciplinarité est encore aujourd'hui l'interdisciplinarité, c-à-d la collaboration entre spécialistes de domaines différents. Cependant force est de constater que, tout en reconnaissant l'utilité potentielle de l'interdisciplinarité, les scientifiques constatent sa difficulté pratique. Cette difficulté peut être causée par une culture générale insuffisante au sein même de la communauté scientifique, manque induit par la division du travail scientifique, elle-même induite par la logique de maximisation des profits.
Dans l'enseignement ce déficit d'intégration des savoirs se traduit par un programme de matières mal structuré, ce qui rend extrêmement difficile une approche autonome de l'apprentissage.
Le climatisme et le covidisme ont marqué l'élévation du principe de "consensus scientifique" au statut de critère scientifique suprême, provoquant ainsi une polarisation :
Ce phénomène est d'autant plus inquiétant que, de la "crise climatique" à la "crise épidémique" (aah les "crises"...), le prétendu "consensus" s'impose, de façon conjuguée, par (i) la prolifération d'articles scientifiques frauduleux dans les revues les plus prestigieuses, et (ii) la répression (diffamation, licenciement, ...) de scientifiques tenant un discours incompatible avec le "consensus".
Ainsi durant la crise covidiste l'analyse médiatique a été confiée essentiellement à des personnes du secteur médical, ce qui a pour effet de focaliser le débat médiatique sur la seule thèse d'une épidémie atypique, au détriment de la thèse – pourtant largement documentée – d'une crise sanitaire dont la cause n'est pas épidémiologique mais politique.
D'autre part ce phénomène déteint sur la relation entre scientifiques et non scientifiques, dont les (trop rares) échanges sur Facebook révèlent de façon flagrante :
Il importe donc de faire exploser la frontière entre "scientifiques" et "non scientifiques". Il ne s'agit évidemment pas de nier les compétences spécifiques des scientifiques, mais de reconnaître l'utilité de débats contradictoires et bienveillants, où chacun apporte et apprend ce qu'il peut :
Enfin ce travail collaboratif ne peut opérer efficacement qu'à la condition que les participants respectent les règles élémentaires en matière de (i) bienveillance (notamment bannir les postures méprisantes, et ne pas se laisser entraîner dans des joutes d'égos) ; (ii) méthodologie (notamment n'argumenter que sur base de sources crédibles, qu'on a réellement lues, et dont on mentionne l'URL) ; (iii) prudence (notamment en évitant de débattre avec des personnes non identifiables).
Concrètement, il s'agit donc d'étendre aux (trop rares) débats entre scientifiques et non scientifiques la nature de la relation existant entre scientifiques de domaines différents lors de débats interdisciplinaires. Il s'agit d'une forme de démocratisation réelle de la science, ce qui n'est pas du tout le cas de la notion pernicieuse de "consensus scientifique".
Une condition nécessaire est que les non scientifiques développent leur culture générale scientifique, par une activité quotidienne (au même titre qu'une activité sportive régulière et une alimentation variée sont indispensables pour une santé physique et psychique optimale). C'est précisément la fonction de "clipedia-txt.net".
Il importe d'abord de ne pas confondre les déclarations d'intérêts spécifiques à des articles, et la déclaration d'intérêts générale, qui est spécifique à une personne. Cette DIG est utile pour juger des propos tenus par exemple sur un plateau de télévision.
Le principe des déclaration d'intérêts n'est malheureusement pas encore généralisé, notamment dans les syllabus de l'enseignement supérieur.
Cette déclaration devrait mentionner, pour chaque auteur, la possibilité de conflits d'intérêts, financiers ou autres, dont notamment :
Déclaration type que l'OMS exige de ses experts siégeant à titre consultatif. À noter que l’expression « conflit d’intérêts » s’applique aux intérêts actuels, que l’OMS définit comme ceux advenus au cours des quatre années précédant l’activité ou le travail consultatif auquel l’OMS a invité un expert à participer.
Les faits montrent que la déclaration d'intérêt n'est évidemment pas une solution miracle. Outre le fait qu'il est difficile de vérifier la sincérité des déclarants, elle ne peut notamment neutraliser complètement :
ressources : déclarations publiques de conflits d'intérêts dans le secteur de la santé :
France : dpi.sante.gouv.fr (déclarations antérieures au 19 juillet 2017 : www.has-sante.fr/...)
Belgique : health.belgium.be/... ; afmps.be/...
Les tests de significativité statistique dits "à hypothèse nulle" sont devenus la norme dans les études scientifiques, notamment parce qu'ils sont exigés par la quasi totalité des revues scientifiques pour acceptation de publication. Cependant le principe de ces tests statistiques est souvent mal compris par les scientifiques eux-mêmes, et en outre leur pertinence est mise en question (au moins partiellement).
Ces deux faits ne sont peut-être pas indépendants : l'incompréhension généralisée d'un concept est souvent (mais pas toujours) le signe de sa faible pertinence voire de son incongruité.
Et cette situation d'incompréhension constitue évidemment un terrain favorable aux abus. Ainsi la multiplication du nombre d'études dont les résultats sont non réplicables suggère que ce type de test est de plus en plus utilisé pour abuser le lecteur, en fabriquant de toute pièce la significativité de résultats expérimentaux.
Le même type de critique concerne les notions d'intervalle de confiance et de puissance statistique.
Alors que ses concepteurs le voyaient comme un moyen de prendre en compte la variabilité aléatoire comme source d'erreur, et partant, d'inciter ne pas rejeter trop facilement l'hypothèse nulle (c-à-d à ne pas conclure trop vite à la réalité d'un effet ou d'une corrélation), ce test est devenu l'objet d'abus massifs, allant jusqu'à le détourner vers l'exacte contraire de sa fonction théorique.
Ce chapitre vise donc à analyser le principe et la pertinence du test à hypothèse nulle, et de proposer des recommandations.
Supposons une étude médicale visant à mesurer la possible influence d’un gène donné sur le fait de développer de l’hypertension, et dont les résultats seraient les suivants :
Gène | Oui | Non | |
---|---|---|---|
Tension | Moyenne | 12,9 | 11,7 |
Écart type | 1,5 | 1,5 |
Étant donné que 12,9 - 11,7 = 1,1 < 1,5 il se pourrait que la grandeur et le signe de la différence entre les moyennes – qui suggèrent le bien fondé de la thèse étudiée – soient essentiellement le fruit du hasard. Par conséquent, avec ces seuls chiffres, on ne peut conclure à l’existence d’un effet du gène sur l’hypertension.
Cependant il existe un test permettant de mesurer de façon probabiliste le risque que l’effet suggéré par la différence des moyennes soit le fruit du hasard. C’est la valeur p, qui est la probabilité conditionnelle P(+ | H0) c-à-d la probabilité que le résultat de l’étude (ou d'un test sérologique) suggère un effet (+) alors que dans la réalité il n’y en a pas (H0). En l’occurrence elle vaut 1 % [source].
Par convention (sic) les revues scientifiques considèrent qu’un effet est statistiquement significatif si p<5 %. Or, si l’échantillon est petit, cette règle de décision a pour effet que peuvent être publiés des articles qui ne le devraient pas (jusqu’à 25 % : source). Diverses solutions sont proposées, mais elles ont leurs propres limitations.
Demeure enfin une autre limitation de la valeur p : elle ne dit rien sur l’ampleur de l’effet. Or la significativité statistique attestée par un p<5 % ne correspond pas nécessairement à la significativité applicative de l’effet (« applicative » au sens de, en l’occurrence, « médicale ») .
Dans la section suivante nous allons approfondir les notions évoquées jusqu'ici.
Pour mesurer l'effet d'un traitement (par exemple médical), on peut comparer un groupe expérimental (encore appelé "groupe traité") à un groupe contrôle (encore appelé "témoin") c-à-d non soumis au traitement. On parle d'hypothèse nulle (notée H0) pour décrire la situation réelle où le traitement est sans effet (c-à-d où il n'y a pas de différence entre les deux groupes), l'hypothèse alternative (notée H1) étant celle d'un effet réel.
Concrètement, le test à hypothèse nulle estime le risque de "faux positif" (encore appelé "erreur du type I", nous verrons pourquoi plus loin), c-à-d le risque de conclure à l'existence d'un effet x, dans le double cas hypothétique où :
Rappel :
P( A ⋂ B ) = P(A) * P(B) ⇔
A et B sont indépendants, dans lequel cas :
P( A | B ) = P(A) * P(B) / P(B) = P(A)
Nous verrons que les abus d'utilisations du test à hypothèse nulle sont liés à (i) une interprétation erronée (en l'occurrence, abusive) du point 1 ; et (ii) une surestimation de la mesure dans laquelle le modèle statistique correspond à la réalité.
Le test permet alors la règle de décision suivante :
Autrement dit, un résultat statistiquement significatif est un résultat qui serait improbable si l'hypothèse nulle (situation de référence) était vérifiée. Il en résulte que, en cas de significativité, l'hypothèse nulle ne s'applique pas au résultat observé (NB : ce qui n'est pas une preuve qu'elle est fausse), et donc que le cas étudié diffère de manière notable de la norme, et ainsi pourrait présenter un intérêt particulier. NB : il reste à déterminer si cette différence par rapport à l'hypothèse nulle revêt un intérêt clinique.
Une valeur p élevé ne signifie donc pas que H0 est vraie : n'importe quelle valeur inférieure à 1 imlique que H0 n'est pas l'hypothèse la plus compatible avec les données, puisque n'importe quelle autre hypothèse avec une valeur p supérieure serait plus compatible. Cela ne signifie pas non plus qu'il y a peu voire pas d'effet, puisque un grand effet peu être noyé dans du bruit de sorte que p > α (particulièrement dans les petits échantillons) [source : "Supplemental material", point 5]. Conclusion : p>α signifie seulement que l'effet mesure n'est pas atypique dans le cas où les hypothèses sont vérifiées (H0 et celles du modèle).
N.B. Étant donné que p = P( x | H0 ), la seule chose que mesure la valeur p c'est à quel point la donnée x plaide contre l’hypothèse nulle ⇔ ce test ne permet de répondre qu'à la seule question : "peut-on rejeter H0 ?" c-à-d "le résultat x de l'étude est-il significatif ?". En particulier, étant donné que P( x | H0 ) ≠ P( H0 | x ) (p n'est donc pas la probabilité que H0 soit vraie), le rejet de H0 ne signifie pas qu'elle est probablement fausse, et son non rejet ne signifie pas qu'elle est probablement vraie !
Assimiler un non rejet de H0 à son acceptation, conduit à la notion de risque d'erreur de type II ("faux négatif", c-à-d conclure à l'inexistence d'un effet alors qu'en réalité il y en a bien un, c-à-d accepter H0 alors qu'elle est fausse), et est liée au fait que la zone de rejet est située aux extrêmes de la distribution [source p. 419].
Exemple 1. Imaginons que l'on connaisse la loi de probabilité répartissant le poids des individus d'une population en surpoids, et qu'on teste un traitement "minceur" sur un groupe de personnes. On évalue le poids moyen du groupe après le traitement et on vérifie avec la loi initiale si le résultat est probable ou improbable. S'il est "improbable", alors le traitement est probablement efficace. Autrement dit, observer une telle différence de poids, alors que l'on suppose l'absence d'effet, est peu probable ⇒ il est hautement probable que la baisse de poids soit due au traitement. Le système de significativité par hypothèse nulle est donc une "preuve par l'absurde".
Exemple 2. Supposons un jeu de pile ou face. L'hypothèse nulle est que la pièce est équilibrée, c-à-d que la probabilité pour un tirage donné d'obtenir un pile est la même que celle d'obtenir un face, à savoir 1/2. Un observateur effectue des tirages expérimentaux pour déterminer si la pièce utilisée est biaisée ou non. Supposons que l'observateur effectue 4 tirages et obtient 4 résultats pile. Or la probabilité d'obtenir 4 pile successifs est égale à 1/16 soit 0,0625 ou 6,25 % [démonstration]. Si l'observateur a retenu le seuil classique de 5 % alors la conclusion de l'expérience est que la proportion de pile pour l'expérience menée n'est pas significativement supérieure à la proportion attendue et ne permet pas de conclure que la pièce est biaisée dans le cadre retenu. Supposons maintenant que l'observateur continue ses tirages et obtient 5 résultats pile sur 5 tirages. Dans ce contexte la probabilité d'obtenir 5 pile successifs est égale à 1/25 soit 0,03125 ou 3,125 %. Si l'observateur a retenu le seuil classique de 5 % alors la conclusion de l'expérience est que la proportion de pile pour l'expérience menée est significativement supérieure à la proportion attendue et qu'il est probable que l'hypothèse nulle ne soit pas vérifiée au seuil de significativité de 5 %, car si H0 était vérifiée ce résultat serait improbable (moins de 5 % de chance selon le seuil conventionnel retenu).
En termes mathématiques (illustration graphique infra) :
Non neutralité. Lors de l'échantillonnage d'une distribution de moyenne inconnue μ, différentes hypothèses sur la valeur de μ fournissent un nombre infini d'hypothèses nulles alternatives, par lesquelles on peut évaluer la moyenne de l'échantillon. Et quelle que soit l'hypothèse choisie (par exemple parmi plusieurs grandeur d'un effet), on obtient ainsi un énorme, dans certains cas presque insurmontable, avantage sur ses concurrents. Autrement dit, l'hypothèse privilégiée est considérée comme innocente à moins d'être prouvée coupable, tandis que toute alternative est jugée coupable jusqu'à ce qu'il ne reste plus d'autre choix que de la juger innocente.
La notion d'intervalle de confiance permet de neutraliser ce phénomène. Un intervalle de confiance est un sous-ensemble des hypothèses alternatives calculées à partir des données expérimentales, de telle sorte que pour un niveau de confiance sélectionné α (par exemple 95%), la probabilité que l'hypothèse vraie soit incluse dans un ensemble ainsi obtenu est α. Typiquement, un intervalle de confiance de niveau α se compose de ces hypothèses dans lesquelles la valeur p pour le résultat expérimental est supérieure à 1-a. Le test d'intervalle de confiance est donc similaire à un test de signification H0 de chaque hypothèse dans l'ensemble total des alternatives. Autrement dit, si l'on suppose qu'aucune des hypothèses non incluses dans un intervalle de confiance (à par exemple 95 %) n'est correcte, alors le risque d'erreur est de seulement de 5 %. Le rapport d'intervalle de confiance n'est donc pas biaisé en faveur d'une hypothèse privilégiée, comme c'est le cas pour le test de signification de l'hypothèse nulle, mais fait une évaluation simultanée impartiale de toutes les alternatives envisagées. Ainsi un rapport expérimental peut très bien présenter des résultats pour plusieurs intervalles de confiances pour t=d/s, ce qui permet de prendre en compte différentes hypothèses concernant l'ampleur de l'effet. Exemples d'intervalles, non centrés autour de zéro : 5↔40, -5↔10, ... [source].
NB : l'intervalle -5↔10 contient H0 s'il s'agit d'intervalles pour d=t/s et centrés sur 0.
Dans tous les cas, le test à hypothèse nulle ne calcule pas de probabilité pour les hypothèses, puisqu'une seule est considérée comme la référence. Pour tester plusieurs hypothèse il faut s'en référer à la l'inférence bayésienne.
Deux types d'inférences trompeuses fondées sur la valeur p :
Ces caractéristiques ouvrent la voie à diverses possibilités de manipulations. Presque tous les ensembles de données présentent des anomalies de quelque sorte lorsqu'ils sont examinés attentivement, même si la structure probabiliste sous-jacente est entièrement aléatoire, c'est-à-dire même si les observations proviennent de variables aléatoires indépendantes et distribuées de manière identique. En examinant assez attentivement des données aléatoires, on peut généralement trouver une anomalie qui donne une signification statistique aux niveaux habituels bien qu'aucun effet réel ne soit présent [source, exemples]. Cela est inhérent à la nature même du test à hypothèse nulle : il suffit de répéter la réalisation d'une mesure jusqu'au moment où l'on en trouve une qui soit significative, puisque l'on sait qu'en réalisant cent fois la mesure (chaque fois avec un nouvel échantillon d'une même population) on a une grande change d'en trouver α qui sont "significatives". En outre, concernant le faux positif, on notera que plus la taille de l'échantillon est grande, plus l'effet minimum nécessaire pour produire une valeur p statistiquement significative est petit.
La valeur p peut donc être utilisée pour faire l'exacte contraire de ce pour quoi elle a été conçue ! Et la multiplication du nombre d'études "scientifiques" dont on arrive pas à répliquer les résultats suggère que les tests de signification à hypothèse nulle sont de plus en plus utilisées pour abuser les lecteurs crédules d'articles scientifiques.
Et même en ne procédant pas à de telles tricheries, demeure le fait que, en particulier dans des sciences où les effets sont généralement minimes et variables selon les individus d'une population (science biomédicale, sociologie, ...), et où les erreurs systématiques sont inévitables, l'ensemble constituant l'hypothèse nulle est de toute façon peu réaliste. Étant donné la nature seuillée du test, le fait que du simple bruit statistique puisse produire de la "significativité", a pour conséquence que les résultats de nombreuses études ayant reçu accord de publication sont très difficilement réplicables [source].
Une première solution consisterait à rendre le test plus sévère en réduisant α de 5% à 0,5%. On notera cependant que bien qu'étant plus sévère, il est tout autant arbitraire : la science n'est-elle pas suffisamment importante que pour justifier 0,05% voire 0,005 ... ou beaucoup moins encore ? D'autre part la valeur de p peut être calculée de différentes façons, ce qui peut donner des valeurs suffisamment différentes que pour faire passer d'un côté à l'autre du seuil. Ce caractère arbitraire pose une question fondamentale : l'effet seuil inhérent au test de signification H0 est-il scientifiquement pertinent ?
Une voie plus disruptive consiste à utiliser un modèle de distribution des tailles et variations des effets, c-à-d de raisonner directement avec des hypothèses d'intérêt plutôt qu'indirectement via un modèle nul : c'est l'inférence bayésienne. D'autre voies existent : rapports de vraisemblance, facteurs de Bayes, modélisation théorique de la décision, taux de fausses découvertes. Toutes permettent d'évaluer plus directement (que la valeur p) la taille (et l'incertitude) de l'effet, ainsi que la validité de l'hypothèse [source]. Toutes ces mesures peuvent traiter plus directement de l'ampleur d'un effet (et de son incertitude associée) ou de l'exactitude de l'hypothèse.
Dans certaines sciences, en particulier biomédicales et sociales, la valeur p – et les statistiques de population en général – doivent être interprétées avec prudence. Ainsi l'American Statistical Association (ASA) émet les recommandations suivantes : « Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold. (...) Researchers should bring many contextual factors into play to derive scientific inferences, including the design of astudy, the quality of the measurements, the external evidence for the phenomenon under study, and the validity of assumptions that underlie the data analysis » [source, 2016].
Mon avis concernant la valeur p :
Et encore, plus je lis sur le sujet, plus j'ai des doutes quant à la pertinence du point 1 ci-dessus. Non seulement l'interprétation de la valeur p requiert une expérience de la statistique que la plupart des scientifiques n'ont pas. Mais d'autre part les exemples d'interprétations erronées mentionnées par l'ASA me font douter de la pertinence de la valeur p, même pour des statisticiens expérimentés :
Quel programmeur, après avoir conçu et développé un algorithme – ce qui n'est rien d'autre qu'une formule informatique c-à-d une formule mathématique – et constatant que trois lignes de code peuvent "faire des miracles" (résoudre des problèmes pratiques parfois complexes), n'a pas fait le parallèle avec la formule magique "abracadabra" ? En effet, une fois le programme au point, il suffit d'appuyer sur un bouton (abracadabra) pour réaliser des opérations sans effort. Mais le côté véritablement "magique" ou "miraculeux", et que l'on ne découvre qu'en programmant, c'est ceci : si tu n'arrives pas à mettre ton algorithme au point c'est presque toujours parce que la voie que tu as choisie n'est pas la plus simple. Il suffit donc de chercher la simplicité, c-à-d la facilité, pour résoudre les problèmes les plus complexes ! N'est-ce pas magique ?
Une publication de François Jortay