По заказу МО США было проведено некое исследование, которое должно было дать ответ – как влияет прививка от гриппа на заболеваемость самим гриппом и на заболеваемость другими болезнями. Лаборатория получила некий результат. Его бесполезно обсуждать. Единственный результат который неоспорим – деньги на исследования освоены! Кто сказал что попилены? Не было такого!
[mwm-aal-display]
Чтобы понять почему этот и почти все подобные результаты не корректны, надо разобраться как проводятся подобные исследования и как надо их проводить.
Как проводятся исследования
Все подобные исследования проводятся на основе подготовки выборки. Опрашиваются и выявляются те, кто сделал/не сделал прививку или собирается/не собирается ее делать. Затем формируются группы и проводятся уже наблюдения – кто заболел и чем. Результаты обрабатываются методами статистики и выдаются в виде отчета.
Но при таком методе вкрадывается потенциально огромная систематическая ошибка. Группы изначально делятся по некому признаку. И этот признак может оказывать огромное влияние на конечный результат. При таком подходе могут меняться местами причина и следствие и, как в квантовой физики, измерение одного параметра может оказывать влияние на другой (принцип неопределенности).
В качестве примера приведу известный анекдот.
Берем таракана, отрываем ему 2-е ноги, стучим, таракан убегает!
Берем таракана, отрываем еще ему 2-е ноги, стучим, таракан убегает!
Берем таракана, отрываем все оставшиеся ноги, стучим, таракан не убегает!
Вывод: таракан без ног не слышит!
Как надо проводить исследования
Надо формировать группы на основе случайной выборки, а не анкет. Причем, изначально определить все возможные параметры от которых может зависеть результат и проследить, чтобы в выборку попадали случайным образом, по данному параметру.
Например, в исследование попали только сотрудники МО США. Это значит что, как минимум, нельзя результаты распространять на всё население, так как сотрудники могут быть в лучшей физической форме, чем всё население.
Но даже для сотрудников МО вывод не однозначный. Нет информации среди каких сотрудников проводилось исследование. Это работники тыла или передовые части, например? Не сказано влияет ли сезонность и так далее. В реальности список очень длинный.
Попытки проводить исследования на основе случайной выборки проводились в Африке, где людям за небольшую плату предлагалось принять таблетку/плацебо и затем уже наблюдался результат.
Эти исследование были признаны негуманными, но даже они не свободны от систематических ошибок. Вот только те, которые лежат на поверхности:
- Только бедные люди, с плохим питанием попадали в группы для исследования.
- Только определенной расы (может у других рас результаты будут другими).
- Только в жарком климате.
- Только….
Можно еще достаточно долго продолжать этот список.
То есть результаты таких исследований корректно применять только для условий, в которых они проводились. Для других условий нужны другие исследования. Но ведь никто из белых господ не согласится, чтобы он случайным образом стал участником эксперимента.
Например, выпадет Цукербергу проглотить что-то – должен глотать, не взирая на все его миллиарды и то, что он может загнуться от этой экспериментальной гадости.
Пример правильной организации являются эксперименты на мышах. Их никто не спрашивает, просто делят на нужное количество групп. Но в человеческой популяции такой подход невозможен.
Примеры некорректных исследований
Но даже когда результаты исследований не затрагивают жизнь и здоровье людей, они не всегда проводятся корректно, исходя из доступных инструментов.
Например, измерение телевизионной аудитории. Изначально в статистику попадают только те, кто согласился установить у себя дома аппаратуру контроля и была техническая возможность ее установить.
Но это еще не всё. До недавнего времени аудитория измерялась только в городах. Об этом честно говорилось. Но когда зону измерения расширили и на сельские районы, то рейтинги “поплыли”. Результат понятен – в сельской местности смотрят немного другие передачи.
Еще одним примером может служить попытки косвенного определения численности населения, исходя из потребления хлеба или электричества. Такие попытки лишены смысла, без дополнительных “полевых” исследований о структуре питания или практике использования электричества. Например, если электричество подрожало, то население могло отказаться от отопления электричеством, заменяя его другими источниками или вообще, если климат позволяет пережить зиму, отказаться от него полностью. Так же надо учитывать, что многое современное оборудование потребляет значительно меньше энергии.
И совсем знаменитыми являются результаты статистики различных референдумов. То есть, к самим результатам вопросов, по крайней мере с точки зрения статистики, нет, но вот сами сформулированные вопросы…
Попробуйте понять, против чего высказался человек, если проголосовал против? А если голосует за, он за СССР или за равноправие?))
Ну в качестве курьезных случаев, расскажу о том, что попытки исключить систематические погрешности иногда так же приводят к неправильным результатам.
Всем известно, что электромагнитную индукцию открыл Фарадей. Но открыть влияние магнита на проводник пытались и другие физики.
Для исключения влияния на измерительный прибор (гальванометр), то есть для исключения систематической ошибки, его располагали в другой комнате.
Никто из ученых не предполагал, что взаимодействие магнита и проволоки зависит от времени, так как взаимодействие тока и магнита не зависело от него. Сейчас это может показаться очевидным, но тогда на понимание этого факта ушло 11 лет.
Конечно, там были и другие чисто технические проблемы, например отсутствие проволоки с изоляцией. И только благодаря тому, что Фарадей воспользовался помощью ассистента в другой комнате, он смог заметить появление тока во время движения магнита.
В терминах данной статьи статьи можно сказать, что физики не смогли сформулировать правильную выборку, выкинув из нее вариант с правильной зависимостью.
Если бы не был сделан предварительный отбор на основе очевидных предположений, и были исследованы все возможные варианты, то может и не пришлось бы им мучиться 11 лет!
Вообще, при обработке статистических зависимостей, которые зависят от времени, постоянно все “спотыкаются”.
Например, при эпидемии коронавируса, глава ВОЗ приводит данные по летальности (смертности) по отношению ко всем заболевшим. Более правильно приводить данные по соотношению умерло/(выздоровело+умерло).
Но и эти данные могут сильно искажаться на этапах развития эпидемии, так ка среднее время болезни больного, который умер, меньше чем среднее время болезни пациента, который выздоровел.
В заключение еще раз подчеркну – надо очень внимательно относиться к методу проведения различных статистических исследований, особенно на человеческой популяции и для явлений, которые зависят от времени.