Плохая наука

Плохая наука

// Некорректные исследования приводят к ложному знанию, а иногда — к гибели людей
Авторы: Юлия Кондратенко

Мир каждый день заставляет нас задавать вопросы. Если ответ не удаётся найти в интернете, приходится проводить исследование. В идеале его нужно организовать так, чтобы можно было уверенно сказать: сей факт установлен, гипотеза подтверждена. Собственно, этим научное знание отличается от обыденных рассуждений на кухне. Но бывает, что строгая система проверки научных фактов всё-таки даёт сбой.

За сотни лет наука как система отработала методы избавления от ошибок, подтасовок, неверных интерпретаций. Тем не менее ошибки случаются. Хорошо, если их отлавливают ещё во время работы или обсуждения на семинаре в лаборатории. Если этого не произошло, некорректные результаты могут «зарубить» до их публикации в научных журналах: там есть правила, по которым всякая статья рецензируется, то есть отправляется на оценку независимым специалистам. Рецензенты могут принять статью, отклонить либо отправить на доработку. Но они тоже не боги и не могут знать всего. Если и они пропускают ошибку, то весь научный мир узнаёт, например, что «скорость активации трансляции РНК-4 вируса мозаики люцерны зависит от длины 3’-нетранслируемой последовательности». Механизм трансляции не шутка, если у вируса он зависит от три-штрих-части, то, возможно, и у остальных организмов аналогично. А это уже переворот в науке молекулярной биологии. Что происходит дальше? Множество людей, работающих в этой области, учтут такую новость, станут проводить исследования, предполагая, что такая зависимость есть. А потом, спустя годы выясниться, что выводы исходной статьи были неверны.

И это самый простой случай — бывает, что некорректно полученные данные на годы тормозят перспективные исследования: понапрасну тратятся горы денег, распространяются заблуждения, и иногда гибнут люди. Какие ошибки при планировании экспериментов допускают даже маститые учёные?

Маленькая выборка

В конце 70-х годов США страдали от сильнейшей нехватки нефти. В этих условиях правительства многих штатов разрешили водителям поворачивать направо на красный свет — это позволяло меньше стоять на перекрёстках и экономить топливо. Сразу возник вопрос: не спровоцирует ли новое правило рост числа аварий? В разных городах стали проводить исследования, сравнивая число дорожных происшествий до и после нововведения. Одним из первых свои результаты представил консультант департамента автомобильных дорог и транспорта штата Виргиния по фамилии Паркер. По его данным, до изменения правил на 20 перекрёстках произошло 308 происшествий, а после нововведения — 337. Разницу консультант справедливо назвал статистически незначимой, а начальник департамента отправил отчёт губернатору, указав, что существенного увеличения числа аварий исследование не выявило.

Исследование нужно организовать так, чтобы можно было уверенно сказать: сей факт установлен, гипотеза подтверждена. Собственно, этим научное знание отличается от обыденных рассуждений на кухне.

Конечно, одной работой по такому важному вопросу исследования не ограничились. В следующем году вышла ещё одна статья (19 аварий до разрешения поворачивать на красный и 24 после), а затем — ещё и ещё (287 аварий и 313, 74 и 82, 81 и 87). Все исследования показали, что после изменения правил аварий стало больше. Однако все результаты были статистически незначимыми: различия в числе аварий лежали в пределах ожидаемых случайных флуктуаций.

Новое правило ввели в США почти повсеместно, и вскоре накопилось достаточно данных, чтобы уверенно сказать: частота дорожных происшествий из-за него резко повысилась (почти в два раза). Так почему первые исследования не выявили столь ощутимый эффект? Проблема в том, что не каждая установленная зависимость является статистически достоверной.

Отделить случайность от неслучайности помогают математические критерии. Ещё до начала эксперимента учёный должен выбрать небольшое число (0,05 или меньше), называемое p-value. Это число означает вероятность получить необычный набор результатов в самом обычном и предсказуемом эксперименте. Например, если мы бросаем монетку десять раз и получаем только четыре решки, у нас недостаточно данных, чтобы сказать, что у монетки смещён центр тяжести, вот, если бы подбросили монетку тысячу раз и выпало бы четыреста решек, то можно было бы говорить о закономерности. Отклонение от ожидаемого нейтрального результата может быть слишком маленьким, чтобы отличить его от случайности.

Иллюстрация: Алексей Таранин

С небольшой вероятностью экзотические данные можно получить в любом эксперименте. P-value выбирается по правилам, принятым в данной области работ, — для этого есть специальные таблицы. Если выбрано очень маленькое значение p-value, то меньше шансов получить ложноположительный результат, то есть увидеть закономерность там, где её нет («ошибка первого рода»). Но выбирать слишком низкое значение тоже нельзя: можно ошибочно принять существенное различие за случайность и совершить «ошибку второго рода».

Что бы быть уверенными в том, что выявленная закономерность действительно существует, а не является просто погрешностью, разработан мощный математический аппарат. Существует, например, больше десятка статистических критериев, позволяющих определить подтвердилась гипотеза или нет: критерий Пирсона, критерий Колмогорова, Z-тест, U-критерий Манна-Уитни, критерий Уилкоксона, t-критерий Стьюдента и так далее.

Результаты, полученные на маленьких выборках, не позволяют ни подтвердить, ни опровергнуть гипотезу. Так было с первыми исследованиями поворотов на красный свет: статистически значимый эффект обнаружен не был, но авторы не имели права заявлять, что его нет. Небрежность со статистикой может стоить человеческих жизней.

Правый поворот на красный свет сейчас запрещён в большинстве стран с правосторонним движением. Но не в США.

Иллюстрация: Алексей Таранин

Нет контрольного эксперимента

Эндрю Вейкфилд

Британский хирург и гастроэнтеролог. После скандала с публикацией о связи прививок и аутизма переехал в США.

В 1998 году в авторитетном медицинском журнале Lancet вышла одна из самых печально знаменитых научных работ — исследование Эндрю Вейкфилда и группы его коллег: комплексная прививка от кори, свинки и краснухи может вызвать аутизм у детей. Авторы опросили родителей двенадцати детей с симптомами аутизма и выяснили, что у восьми из них заболевание проявилось вскоре после вакцинации, до которой они были здоровы. Кроме того, у детей обнаружились повреждения стенки кишечника, и авторы предположили, что аутизм, вызываемый прививкой, особенный и характеризуется ещё и специфическим заболеванием пищеварительного тракта. На пресс-конференции, предшествовавшей публикации работы, Эндрю Вейкфилд предостерёг родителей от использования этой вакцины.

Его выступление вызвало настоящий взрыв паники по всему миру, развитие движения антипрививочников и, как следствие, вспышки кори, которая до этого считалась практически побеждённой болезнью. С тех пор выводы Вейкфилда опровергло множество исследований, в том числе весьма масштабных. В результате журнал Lancet в 2010 году отозвал скандальную публикацию. До сих пор многие родители боятся, что из-за прививок у детей разовьётся аутизм, а движение антипрививочников живёт и здравствует.

Контроль — это опыт, который должен подтвердить, что наблюдаемый эффект объясняется именно исследуемыми причинами.

Работа Вейкфилда — классический пример отсутствия контрольного эксперимента. Контроль — это опыт, который должен подтвердить, что наблюдаемый эффект объясняется именно исследуемыми причинами. В нём всё должно быть так же, как и в основном эксперименте, за исключением этой причины.

Допустим, вам пришла в голову гипотеза: после прослушивания классической музыки коровы дают более высокие удои. Чтобы это проверить, нужно взять две группы коров одной и той же породы, возраста и массы, с примерно равными удоями до начала эксперимента. Обе группы нужно помести в абсолютно идентичные стойла и кормить одной и той же пищей. У этих двух групп всё должно быть одинаковым, кроме одного — одним дают слушать Баха с Бетховеном, а другим нет. И, если у экспериментальной группы (те, где была музыка) удои окажутся выше, чем у контрольной (которую не подвергали воздействию), то можно говорить о существовании зависимости.

Вейкфилд исследовал детей с аутизмом и предположил, что их болезнь вызвана прививкой. В этом случае контрольную группу должны были составить дети, не получали прививку. Если среди них количество аутистов оказалось бы меньше, то это свидетельствовало бы в пользу выводов Вейкфилда. Но это не было сделано. Последующие исследования других учёных поставили данные о связи прививки и аутизма под сомнение.

Иллюстрация: Алексей Таранин

Нарушение чистоты эксперимента

Жиль-Эрик Сералини

Французский учёный. На момент публикации своей скадальной статьи был профессором молекулярной биологии в Университете Кана.

В 2012 году журнал Food and Chemical Toxicology опубликовал статью Жиль-Эрика Сералини, в которой утверждалось, что потребление генетически модифицированной кукурузы вызвало рак у подопытных крыс. Это была не первая работа, в которой учёный указывал на вред ГМО, но к новой статье прилагались ужасающие фотографии крыс с огромными опухолями, моментально разлетевшиеся по Сети и напечатанные во множестве газет.

Однако сразу после публикации на автора посыпались вопросы. Главный из них: почему Сералини использовал линию крыс, склонную к заболеванию раком? Сералини проводил опыты на крысах Sprague-Dawley, известных своим спокойным характером, удобством в обращении, а также предрасположенностью к онкологическим заболеваниям. По данным одного из исследований, у самцов этой линии вероятность  развития опухолей в нормальных условиях  составляет 80%, у самок — 70%. Средняя продолжительность жизни мышей этой линии два года, и именно столько длился эксперимент Сералини — за это время у большей части подопытных животных по естественным причинам развился рак.

Исследование Сералини принесло много вреда, внушив людям страх перед генетически модифицированными продуктами.

Учёный включил в рацион крыс трансгенную кукурузу, причём у одной из групп её доля в рационе была больше, у другой меньше. Контрольная группа крыс эту кукурузу не употребляла вовсе — и опухоли у них развивались реже, а смертность была не такой высокой. Но всё же разница между группами в основном и контрольном экспериментах была небольшой, её вполне можно было объяснить случайной флуктуацией. Подтверждалось это предположение и отсутствием зависимости между дозой ГМО-кукурузы в пище животного и риском возникновения опухоли: у крыс, в рационе которых трансгенов было меньше, опухоли развивались чаще, чем у грызунов, получавших больше кукурузы.

Ирина Ермакова

В России тоже есть учёный, который отчаянно борется с ГМО. Это Ирина Ермакова, бывшая сотрудница Института высшей нервной деятельности и нейрофизиологии РАН. В её экспериментах, доказывающих вред трансгенной сои, учёные нашли массу ошибок и нарушений.

Вскоре Сералини опубликовал в том же журнале статью с оправданиями, но ему не удалось убедить научное сообщество в корректности своих экспериментов. В 2013 году Food and Chemical Toxicology отозвал его скандальную работу, несмотря на бурные протесты автора. Интересно, что год спустя это исследование принял к публикации другой, значительно менее престижный журнал. Работу даже не стали повторно отправлять на рецензирование, раз уж она однажды его прошла. Действия редакторов этого журнала вызвали в научном сообществе недоумение.

Исследование Сералини, конечно, принесло много вреда, внушив людям страх перед генетически модифицированными продуктами. Но, как ни странно, был и положительный эффект. Во-первых, эта история в очередной раз привлекла внимание к проблемам системы рецензирования, которая способна пропустить такие некачественные работы. Во-вторых, завязалась плодотворная дискуссия между учёными и институтами контроля безопасности потребителей. Они трогательно сошлись во мнении, что дизайн эксперимента некорректен. Если бы каждой научной работе уделялось столько внимания, учёным пришлось бы научиться ставить образцово-показательные эксперименты.

И до, и после знаменитой публикации Сералини было опубликовано множество работ, опровергающих связь между употреблением генетически модифицированных продуктов и риском возникновения рака. Согласно исследованиям, ни у самих животных, употреблявших ГМО, ни у их потомков вплоть до пятого колена никаких нарушений не возникало.

Неподходящие методы

Примета нашего времени — повсеместное распространение гаджетов, без которых жителя развитых стран уже невозможно представить. При этом у нас до сих пор нет полной уверенности, что частое использование мобильного телефона не вредит здоровью. Причина всё та же: корректный эксперимент поставить сложно, а корректный эксперимент на людях — ещё сложнее.

2016 год

К этому времени Всемирная организация здравоохранения обещает дать официальное заключение о возможном вреде мобильных телефонов. Пока же большинство учёных склоняются к тому, что опасности нет или она незначительна. 

Сотовые телефоны излучают волны в радиочастотном диапазоне. Их энергия слишком мала, чтобы повредить ДНК, но всё-таки когда мобильник находится близко к телу, какое-то излучение нашими тканями всё-таки поглощается. Не может ли частое использование мобильного телефона спровоцировать рак? Было проведено много исследований, в том числе довольно масштабных… и у всех были недочёты, из-за которых мы не можем быть полностью уверены в безопасности  мобильных телефонов и безбоязненно разговаривать по ним три-четыре часа в день.

В ходе международного исследования Interphone было опрошено 10 000 жителей из 13 стран; у половины респондентов опухоли были, у половины нет. Участники эксперимента рассказали, как давно они пользуются телефоном, как часто и сколько в среднем длится звонок. Исследование не выявило связи между этими параметрами и риском развития рака. Тем не менее выстроенные по этой схеме эксперименты многим кажутся неубедительными, ведь информация, на которую они опираются, воспроизводится по памяти. Искажения возникают и из-за того, что больные раком люди начинают искать причину своего заболевания, и им может показаться, что они действительно слишком много разговаривали по телефону.

Иллюстрация: Алексей Таранин

Модель, использованная учёными из Дании, основана на более объективных принципах: авторы в течение многих лет получали данные о состоянии здоровья группы испытуемых. Такой дизайн эксперимента лучше подходит, когда нам нужно понять динамику какого-то процесса: вот пользуется человек телефоном, пользуется, и в какой-то момент у него развивается рак. Но, к сожалению, исследователи лишь узнавали, есть ли у респондента телефон, а ведь это не гарантирует, что он вообще его использует. И никакой информации о том, как часто участники эксперимента пользовались мобильными. Как бы то ни было, связь между наличием телефона и шансом заболеть раком не обнаружена.

Исследования третьей группы учёных — из Швеции — включали данные не только для мобильных телефонов, но и для стационарных, потому что руководитель группы и их считал опасными. Эти исследования одни из немногих, в которых утверждается, что связь между телефоном и раком всё-таки есть. Однако они тоже вызывают сомнения: количество опухолей мозга в Швеции в те годы не выросло, несмотря на взрывное распространение мобильных телефонов.

В подавляющем большинстве работ связь между использованием мобильного телефона и риском развития рака не выявлена. Но почему так сложно поставить хороший эксперимент? Проблема в том, что ситуация меняется очень быстро: данные, полученные пять лет назад, уже плохо применимы — сегодня многие чувствуют себя неуютно, если им приходится хотя бы полчаса обойтись без телефона. В то же время опухоли порой формируются десятки лет, и чтобы сказать что-то наверняка, нужны долгосрочные исследования.

Получается противоречие: нужны длительные исследования того, что быстро и масштабно меняется. Авторы Interphone не учли, что использование телефона скоро перестанет быть событием, которое откладывается в памяти (никто ведь не помнит, сколько времени он сегодня сидел на стуле или смотрел в окно), а учёные из Дании не знали, что интенсивность использования мобильных телефонов скоро станет сильно варьироваться. Но именно тогда, когда мир вокруг резко и кардинально меняется, особенно важно ставить аккуратные эксперименты и добиваться чётких ответов на вопросы.

Неподходящие сотрудники

Ёсики Сасаи (1962—2014)

Японский молекулярный биолог. Работал заместителем главы Центра биологического развития института RIKEN в городе Кобе. Был лауреатом нескольких научных премий. После скандала с подтасованными данными покончил с собой. У него осталось двое детей.

В августе прошлого года стало известно о гибели японского биолога Ёсики Сасаи. Учёный повесился в здании института RIKEN, в котором работал. В предсмертной записке он написал, что устал от несправедливой травли в СМИ и ответственности за происходящее в институте и лаборатории.

Газеты и Сеть действительно много писали о сомнительной публикации, соавтором которой был Ёсики Сасаи. В статье, опубликованной в Nature, описывался новый, очень простой метод получения стволовых клеток из клеток крови — с помощью получасовой инкубации в растворе лимонной кислоты. Публикация вызвала ажиотаж в научном мире. Новый метод позволил бы получать стволовые клетки в огромных количествах — речь шла о прорыве в развитии клеточной биологии и регенеративной медицины. К сожалению, воспроизвести результаты японских учёных другим исследовательским группам не удалось.

Институт RIKEN начал внутреннее расследование, в ходе которого выяснилось, что одна из соавторов публикации — Харуко Обоката — подтасовала рисунки. Ёсики Сасаи курировал работу молодой сотрудницы и нёс ответственность за её действия. Увы, он не мог предположить, что она представит ему фальшивые результаты.

Иллюстрация: Алексей Таранин

Nature отозвал статью, указав на неточности в подписях к рисункам. После многочисленных сообщений о том, что применить новый метод не удаётся, оставалась надежда, что хотя бы сама Харуко Обоката сможет воспроизвести собственные результаты. Была созвана специальная комиссия. Исследовательнице не удалось продемонстрировать наблюдателям метод в действии, и институт объявил о прекращении попыток подтвердить, что стволовые клетки можно получить описанным способом. Харуко Обоката не стала оспаривать заключение экспертной комиссии о фальсификации.

В своей работе учёные неизбежно полагаются на других людей: коллег, поставщиков реактивов, рецензентов. К сожалению, точных методов для проверки того, насколько человеку можно доверять, не существует. Научное сообщество сейчас достаточно быстро реагирует на некорректные публикации, даже если на первый взгляд там всё в порядке. Чем важнее работа, тем быстрее её результаты пытаются воспроизвести в лабораториях по всему миру. Так что наука может пережить даже крупные ошибки, а вот отдельный человек не всегда.

 

P.S. Хотим подчеркнуть, что, несмотря на всё вышеописанное, научное знание обладает куда более высоким уровнем точности и надежности, нежели утверждения мистиков, астрологов или просто людей со «здравым смыслом».

 

 

Комментарий: «Гораздо опаснее прямой подлог...»

Всеволод Белоусов

Доктор биологических наук, заведующий групой биологии активных форм кислорода в Институте биоорганической химии им. М. М. Шемякина и Ю. А. Овчинникова РАН.

[«Кот Шрёдингера»] Как часто вам попадаются статьи с некорректными данными?

[Всеволод Белоусов] Нечасто, но это не значит, что их нет. В основном я их вижу, когда журнал присылает мне статью на рецензию. Там бывают чудеса и со статистикой, и с выборкой. Обычно рецензент возвращает такую статью на доработку. Поэтому в приличных журналах, где и рецензенты приличного уровня, вышедшие статьи редко содержат грубые ошибки. В журналах попроще ситуация гораздо хуже, но их почти никто не читает и не цитирует, что сказывается на их импакт-факторе.

Впрочем, на мой взгляд, гораздо опаснее прямой подлог — когда данные рисуются. А это бывает и в хороших журналах, потому что рецензент такой подлог выявить не может. Априори считается, что данные честные. Но и здесь существует определённый фильтр. Статья может быть очень важной для научного сообщества. Тогда данные пытаются воспроизвести, и тут выясняется, что они подтасованы. Начинается расследование — статья отзывается. Если же нет, данные из неё будут потом использоваться для построения гипотез и планирования экспериментов. Однако «ветка» исследований, растущая из статьи с неверными данными, окажется мертвой, и выяснится это очень быстро. Про это есть блог Retraction Watch с кучей примеров.

[КШ] Были ли случаи, когда важная для вас публикация оказывалась неверной?

[ВБ] Да, такое бывало. Но проблема заключалась не в статистике, а в некорректных данных раздела «Материалы и методы». Авторы статьи о свойствах одного NO-связывающего белка, опубликованной в очень престижном химическом журнале JACS, умолчали, что работали не с геном дикого типа, а с его синтезированным аналогом. В результате мы много времени убили на попытки воспроизведения этого опыта. Нам не пришло в голову, что авторы заоблачной квалификации и известности могли указать в статье некорректные данные.

[КШ] Считаете ли вы уровень статистических познаний учёных приемлемым? 

[ВБ] Если говорить о биологах, то в среднем этот уровень крайне низок. Не только у нас, но и за рубежом. Биологи плохо знают математику и не очень её любят. Я не исключение. К счастью, есть способы заполнить этот пробел. Ведь математика для статобработки экспериментов не очень сложная. Nature Publishing Group публикует образовательные статьи про статистику для биологов, есть неплохие книжки…

[КШ] Можно ли что-то сделать, чтобы повысить точность данных, которые каждый день публикуются в научных журналах? 

[ВБ] Да. На индивидуальном уровне — читать вышеупомянутые статьи и книги. На уровне вузов — давать правильные курсы по статистике, помня, что студенты-биологи обычно не очень сильны в математике, в отличие от преподавателя, который им это рассказывает. Со студентами-физиками, уверен, всё гораздо лучше. На уровне журналов — продолжать печатать образовательные статьи, повышать культуру научных масс.

 

 

Опубликовано в журнале «Кот Шрёдингера» №7-8 (9-10) за июль-август 2015 г.