The cult of statistical significance. Hidden random uncertainties in science, their roots in human mind, and unexpected outcomes

General data

Course ID:	1400-236UNS-OG
Erasmus code / ISCED:	11.204 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0542) Statistics The ISCED (International Standard Classification of Education) code has been designed by UNESCO.
Course title:	The cult of statistical significance. Hidden random uncertainties in science, their roots in human mind, and unexpected outcomes
Name in Polish:	Kult istotności statystycznej. Ukryte niepewności losowe w nauce, ich źródła w ludzkim umyśle i nieoczekiwane skutki
Organizational unit:	Faculty of Biology
Course groups:	General university courses General university subjects
Course homepage:	http://www.biol.uw.edu.pl/stat
ECTS credit allocation (and other scores):	(not available) Basic information on ECTS credits allocation principles: the annual hourly workload of the student’s work required to achieve the expected learning outcomes for a given stage is 1500-1800h, corresponding to 60 ECTS; the student’s weekly hourly workload is 45 h; 1 ECTS point corresponds to 25-30 hours of student work needed to achieve the assumed learning outcomes; weekly student workload necessary to achieve the assumed learning outcomes allows to obtain 1.5 ECTS; work required to pass the course, which has been assigned 3 ECTS, constitutes 10% of the semester student load. view allocation of credits
Language:	Polish
Type of course:	general courses
Prerequisites (description):	(in Polish) Wykład: Przydatny jest wcześniejszy kontakt z zagadnieniami wnioskowania statystycznego. Ćwiczenia: Przydatna jest podstawowa znajomość pakietu R i odrobina doświadczeń w programowaniu; ich brak nie przekreśla możliwości udziału w zajęciach, ale spowoduje konieczność poniesienia większych nakładów pracy (zajęcia nie są kursem programowania w R).
Mode:	Blended learning
Short description:	This is a very untypically constructed course in selected statistical methods – most part of it is devoted to finding uncertainty limits (confidence intervals) in cases when, in accordance with common habits, results of statistical tests are available, but not raw data is not. In this way, uncertainties are revealed, remaining hidden if statistical significance is the end product of analysis. While the course comprises technical and computational issues, a related lecture "The cult of statistical significance. Hidden random uncertainties in science, their roots in human mind, and unexpected effects" explains the motivation for doing such things, and a wider background. Caution: full awareness of huge statistical uncertainties hidden away by typical ways of presenting reserch results may alter a way of thinking in a manner dangerous for productivity.
Full description:	(in Polish) Należy się zapoznać z ważnymi informacjami! Treść wykładu. Wykład poświęcony jest powszechnej praktyce sprowadzania wnioskowania statystycznego do testów istotności statystycznej, możliwym jej przyczynom i negatywnym dla nauki skutkom. Stanowi on wprowadzenie do wybranych metod statystycznych, z naciskiem na określanie niepewności ilościowych oraz pokazanie, jak skromnej ilości informacji dostarcza testowanie i jak bardzo jest przeceniane. Jednocześnie, analizowane są różne powszechnie występujące przejawy błędnych przekonań na temat istotności statystycznej lub jej braku. Pytanie o ich przyczyny prowadzi do rozważań nad ludzkim umysłem, także w kontekście ewolucyjnym. Zaś pytanie o skutki – do rozpatrzenia możliwej roli paradygmatu testowania statystycznego w coraz powszechniej dostrzeganym kryzysie powtarzalności wyników w nauce. Wybrane metody statystyczne rozpatrywane są nie tyle w kontekście szczegółów ich podstaw matematycznych, co głównie w aspekcie charakteru odpowiedzi których dostarczają na temat badanych fragmentów rzeczywistości. Omawiane są metody parametryczne i nieparametryczne dla jednej i dwu prób, analiza wariancji w klasyfikacji pojedynczej i podwójnej, metody analizy częstości, analiza korelacji, regresji liniowej i regresji logistycznej, przykłady metod wielowymiarowych. Szczególna uwaga poświęcona jest analizie interakcji, jako jednej z kwestii bardziej zaniedbywanych w podręcznikach. Omówienie powyższych metod daje podstawę do rozpatrzenia kwestii i pytań ogólniejszych, które zajmują znaczącą część wykładu, np.: (1) Ważniejsze argumenty w trwającej przez dziesięciolecia debacie na temat użyteczności testów istotności – od akceptacji, przez uznanie konieczności, po postulat wyeliminowania testów z praktyki naukowej. Moc testu statystycznego. Rozpowszechnione, ale rzadko respektowane zalecenia dotyczące wystarczającej mocy statystycznej. Paradoks nadmiernej mocy, wynikający z błędnego rozumienia testów. Moc testów a precyzja oszacowań. (2) Współczesny paradygmat testowania istotności statystycznej jako zadziwiający produkt ewolucji kulturowej – hybryda różnych koncepcji, których autorzy najpewniej by się pod obecnym wynikiem nie podpisali. (3) Czym jest wynik negatywny? Wnioskowanie z niewiedzy, wszechobecność błędów II rodzaju. Kiedy wynik negatywny jest wynikiem, a kiedy brakiem wyniku? Wiedza o braku znacznych efektów może być ważną wiedzą, czasami o taką właśnie chodzi. Ważne nauki płynące z metod testowania (bio)równoważności. Dokonywana wbrew ogólnej regule akceptacja hipotez zerowych jako często występujący element procedur statystycznych, jej poważny negatywny wpływ na poprawność wnioskowań. Skrajne konsekwencje poglądów Johna Ioannidisa: kiedy zaawansowana aparatura badawcza zostaje sprowadzona do roli najdroższego generatora liczb losowych? (4) "Polowanie" na istotność statystyczną, tzw. torturowanie danych, a czasem wręcz torturowanie rzeczywistości. Interpretacje wyników "prawie istotnych" statystycznie, co może tkwić u ich podstaw? Tradycyjne rozróżnienie między istotnością statystyczną a istotnością merytoryczną i jego niekompletność z punktu widzenia kontroli ryzyka błędu. (5) Istotność statystyczna postrzegana – absurdalnie – jako wymiar rzeczywistości. Elementy analizy języka używanego w opisie statystycznej analizy wyników badań. Pomieszanie stwierdzeń dotyczących prób ze stwierdzeniami dotyczącymi zbiorowości. Figury retoryczne pozwalające uniknąć nie tylko pytań ilościowych, ale też spełnienia powszechnie wymaganego kryterium istotności statystycznej. Jak bardzo poważnie jest traktowane wnioskowanie statystyczne przez badaczy? Oczekiwania badaczy w stosunku do statystyków, faktyczne miejsce wnioskowań statystycznych w procesach badawczych. Istotność statystyczna, empatia i etyka analizy danych. (6) Zmniejszanie się efektów w kolejnych badaniach tego samego zjawiska. Tzw. filtr istotności i przeszacowywanie efektów, "przekleństwo zwycięzcy". Poprawki na wielokrotne testowanie, rozbieżności poglądów statystyków na celowość ich stosowania, częstość fałszywych odkryć, selektywne przedstawianie wyników. (7) Jak silną chcemy mieć pewność i czego ma ona dotyczyć? Ryzyka błędów I rodzaju i III rodzaju (kierunkowego, typu S) a poziomy ufności. Pomyłka Jerzego Neymana, uznawanego za ojca przedziałów ufności, w uzasadnieniu potrzeby ich wyznaczania – czy badacze rzeczywiście chcą oszacowań przedziałowych? Wcześniejsza historia przedziałów ufności, powracające mało skuteczne nawoływania do stosowania estymacji przedziałowej, tzw. "reforma statystyczna" i "nowa statystyka". (8) Dwie ważne przeszkody na które napotyka myślenie w kategoriach przedziałowych: niechęć do niepewności i nadmierny optymizm. Aspekty psychologiczne i próby wyjaśnień ewolucyjnych. Prawo wielkich liczb i wiara w "prawo małych liczb" (sensu Tversky i Kahnemann). Zachowania w obliczu niepewności, Zasada Rzeczy Pewnej (Sure Thing Principle) L. Savage'a i jej częste naruszenia. Realizm depresyjny a ewolucja nadmiernego optymizmu. Optymizm jako strategia osobnika lub jako realizowanie przez osobnika strategii ewolucyjnej, w którą zdarzyło mu się zostać wpisanym. Z jakiego punktu widzenia "obsesja średnich" jest błędem, a z jakiego nim nie jest? (9) Kryzys odtwarzalności i powtarzalności w nauce (irreproducibility crisis), jego nagłośnienie w ciągu ostatniej dekady, inicjatywy podjęte w celu zrozumienia problemu. Odtwarzalność i powtarzalność w ujęciu metrologii a mniej precyzyjne rozumienie tych terminów w nauce czystej. Kiedy uznaje się, że wynik wcześniejszego doświadczenia udało się powtórzyć? Prawdopodobna rola paradygmatu testowania statystycznego w kryzysie powtarzalności. Kult istotności statystycznej jako zjawisko odwracające uwagę od ważnych pytań. Treść ćwiczeń. Duża ich część polega na znajdowaniu przedziałów ufności w sytuacjach gdy nie są dostępne surowe dane, a jedynie wyniki ich analizy dokonanej za pomocą statystycznych testów istotności, czyli zgodnej z powszechnym standardem postępowania. W ten sposób ujawnione i określone zostają niepewności co do rzeczywistej wielkości efektów, które pozostają ukryte gdy końcowym produktem analizy jest istotność statystyczna. Pierwszym przykładem może być porównanie dwu grup, doświadczalnej i kontrolnej, dla którego dysponujemy p-wartością w teście t Studenta i wyliczonymi średnimi, chcemy zaś się dowiedzieć jaka co najmniej, lub jaka co najwyżej jest prawdziwa wielkość rzeczywistego efektu (różnica średnich populacyjnych). Można do tego dojść przez "rozgryzanie" (reverse engineering). Takie właśnie "rozgryzanie" stanowi znaczną część kursu. Ta formuła zajęć wymaga uważnego wniknięcia w szczegóły rozpatrywanych i używanych metod, a tym samym daje ich dokładną znajomość. Tego rodzaju postępowanie jest w trakcie zajęć stosowane do różnych metod: porównania średnich, częstości, analizy wariancji, korelacji, regresji. Kiedy nie są możliwe rozwiązania dokładne, szukamy przybliżeń. W przypadku dwuwymiarowej analizy wariancji szczególna uwaga jest poświęcona analizie interakcji. Gdy to możliwe, uwzględniane są metody permutacyjne (rerandomizacyjne) i bootstrapowe. Obliczenia wykonywane są głównie za pomocą systemu R, wykorzystywane są też kalkulatory internetowe dedykowane rozpatrywanym zagadnieniom. Używane są przykłady stylizowane, ale zachowujące znaczne podobieństwo do sytuacji powszechnie spotykanych w literaturze naukowej. Uzupełnieniem są symulacje Monte Carlo pokazujące zmienność wyników pomiędzy powtórzeniami tego samego doświadczenia, a tym samym zmienność wniosków, do których można na podstawie tych wyników dojść. Dają one możliwy obraz niepewności statystycznych w przypadkach bardziej złożonych, gdy nie istnieją proste sposoby przejścia od istotności statystycznej do przedziału ufności.
Bibliography:	Additions will be made during the course. Bird KD. 2004. Analysis of Variance via Confidence Intervals. SAGE. Cumming G. 2011. Understanding the New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. Routledge. Hahn GJ, Meeker WQ. 1991. Statistical Intervals: A Guide for Practitioners. Wiley. Halsey LG, Curran-Everett D., Vowler SL, Drummond G. 2015. The fickle P value generates irreproducible results. Nature Methods, 12: 179-185. Ioannidis J.P.A. 2005. Why most published research findings are false. PLoS Med 2(8): e124. Kline R.B. 2004. Beyond SignificanceTesting. Reforming Data Analysis Methods in Behavioral Research. American Psychological Association. Lazzeroni LC, Lu Y, Belitskaya-Levy I. 2014. P-values in genomics: Apparent precision masks high uncertainty. Molecular Psychiatry, 19: 1336–1340. Lecoutre B, Poitvineau J. 2014. TheSignificance Test Controversy Revisited. The Fiducial Bayesian Alternative. Springer. Motulsky H. 2014. Intuitive Biostatistics, 3rd edition. Oxford University Press. Nuzzo R. 2014. Scientific method: statistical errors. Nature 506: 150-152. Wang C. 1992. Sense and Nonsense of Statistical Inference: Controversy, Misuse, and Subtlety. CRC Press.
Learning outcomes:	(in Polish) Po zaliczeniu kursu student: - zna powiązania między testowaniem hipotez statystycznych i przedziałową estymacją parametrów i ocenia odmienność informacji otrzymywanych za pomocą tych metod; - jest świadom znacznych rozmiarów losowej zmienności wyników doświadczeń i jej konsekwencji dla wyników testowania hipotez i estymacji przedziałowej oraz niskiej powtarzalności wyników doświadczeń. - rozumie potrzebę kwantyfikacji niepewności statystycznych i zna stosowane w tym celu metody; - wykazuje zmniejszoną podatność na uleganie urokowi istotności statystycznej; - potrafi odnosić się krytycznie do stwierdzeń napotkanych w literaturze; - jest wyczulony na rozróżnienie merytorycznych i społecznych uwarunkowań wnioskowania w badaniach naukowych; - potrafi używać spójnej i wnikliwej argumentacji do pokazania obszarów niepewności; - dostrzega potrzebę analizowania wyników badań z różnych punktów widzenia; - umie wykorzystywać argumenty pochodzące z formalizmu matematycznego i symulacji komputerowej do okreśenia zakresów niepewności.
Assessment methods and assessment criteria:	(in Polish) Zaliczenie ćwiczeń na podstawie sumy punktów uzyskanych za rozwiązania zadań i problemów w trakcie zajęć. Zaliczenie wykładu – Końcowy test pisemny dotyczący treści wykładu. Wymagana jest obecność na co najmniej 80% wykładów.

This course is not currently offered.

Course descriptions are protected by copyright.
Copyright by University of Warsaw.