Неповторимый эффект

Неповторимый эффект

// Из 100 психологических экспериментов удалось воспроизвести только 39
Авторы: Иван Шунин

Плохая новость: большинство результатов психологических экспериментов не получается повторить. Для простых смертных это означает, что новости типа «Те, кто соглашается с нашим мнением, кажутся нам более привлекательными» или «Заниженные ожидания смягчают огорчение от неудачи» могут базироваться на не до конца проверенных эффектах. Теперь хорошая новость: учёные готовы к работе над ошибками.

С 118-м элементом история вполне реальная. О его открытии впервые заявили в 1999 году учёные из Беркли (США). По описанной ими методике синтез попытались повторить в российском, немецком и японском центрах ядерных исследований, а затем и в США. Ничего не вышло. Разгорелся скандал, авторов обвинили в фальсификации. В итоге пальма первенства досталась российскому Объединённому институту ядерных исследований, где 118-й элемент был получен в 2002 году. Потом этот эксперимент был успешно воспроизведён в других странах.

Результат должен быть воспроизводимым, гласит одна из основных заповедей науки. Допустим, российские физики в Дубне ухитрились первыми в мире синтезировать 118-й элемент таблицы Менделеева, которого не существует в природе. Как только они об этом сообщили, их коллеги в Германии или США проводят точно такой же эксперимент — с теми же изотопами, на аналогичном ускорителе. Если в результате повторения опыта у них тоже получится 118-й элемент, значит, наши учёные действительно совершили открытие, в таблице можно заполнять новую клеточку и пора начинать спорить о том, как новый элемент назвать.

Синтез сверхтяжёлых элементов — проект масштабный и ответственный, результат серьёзно контролируется. С другими науками всё иногда сложнее.

В конце августа на страницах журнала Science появилась статья, количество соавторов которой составило 270 человек. На фоне публикаций физиков с Большого адронного коллайдера это число, конечно, не так уж и удивительно (у статьи, посвящённой бозону Хиггса, 5154 автора). Но для психологии подобное — редкость.

Итог исследования группы «Коллаборация за открытую науку» во главе с Брайаном Нозеком мало кого оставил равнодушным. Психологи в течение четырёх лет занимались воспроизведением экспериментов своих коллег. Результаты подтвердились лишь в 39% случаев. И хотя авторы исходных исследований тоже участвовали в работе группы Нозека, средняя статистическая сила воспроизведённых эффектов оказалась вдвое меньше, чем было заявлено в оригинальных исследованиях.

Катастрофа?

Иллюстрация: Пётр Перевезенцев

На самом деле нет

Не спешите бросать вуз или менять специальность. Проблемы, обнаруженные «Коллаборацией за открытую науку», — не какие-то врождённые дефекты психологии, а проблемы практики: дизайна исследований, обработки данных и их интерпретации, а также политики научных журналов.

«Наш проект был нужен для того, чтобы оценить уровень воспроизводимости в психологии, а не для того, чтобы выяснить, какие из взятых нами исследований истинны. Низкий уровень воспроизводимости только отражает масштаб проблем», — успокаивали авторы нашумевшей работы во время публичной онлайн-конференции.

Карл Поппер (1902–1994) 

Австрийский и британский философ. Считается одним из самых влиятельных философов науки XX века. Является основоположником критического рационализма. Он описывал свою позицию следующим образом: «Я могу ошибаться, а вы можете быть правы; сделаем усилие, и мы, возможно, приблизимся к истине».

Добавим: если 39% для вас неприемлемо малы, обратите внимание на попытку повторить эксперименты в исследованиях рака, которую предприняли в 2011 году сотрудники компании Bayer. Из 67 работ удалось воспроизвести эффект примерно в 25% случаев (и это самая оптимистичная оценка). Через год о подобной попытке отчитались сотрудники Amgen: они смогли воспроизвести эффект достаточной силы в 6 случаях из 53.

И последнее: как отмечал сэр Карл Поппер, по-настоящему научным является именно то утверждение, которое в принципе можно опровергнуть на основании новых эмпирических данных (с этой точки зрения существование астральных тел или мирового разума заведомо не считается научным). Если ваш результат после новой серии экспериментов опровергнут, это, быть может, и не самые приятные для вас новости. Однако это значит, что вы учёный, который заблуждался или ошибся, но никак не лжеучёный. Ваши утверждения соответствовали тому, как должны формулироваться утверждения науки. Если, конечно, вы не будете утверждать после опровержения, что вы всё равно правы — и вообще, «тем хуже для фактов».

Сами авторы августовской статьи в Science высказываются в том же духе: «Любой, кто поддастся искушению интерпретировать эти результаты, как поражение для психологии или науки в целом, должен считаться с тем фактом, что данный проект демонстрирует должное поведение науки».

Вам полегчало? Теперь давайте посмотрим на проблемы.

Иллюстрация: Пётр Перевезенцев

Следите за руками

В 2012 году гарвардский маркетолог Лесли Джон разослала шести тысячам психологов анонимный опросник. У психологов спрашивали, прибегали ли они когда-либо в своей работе к тем или иным сомнительным практикам и считают ли они свои действия оправданными. Кроме того, их просили оценить степень, в которой к подобным практикам прибегают их коллеги.

На вопросы в итоге ответили 2 155 человек. Результаты были ошеломляющими: выяснилось, что некоторые сомнительные приёмы не понаслышке известны подавляющему большинству опрошенных. Не будем говорить о фальсификации данных, это и правда редкость. Рассмотрим действительно популярные варианты.

В соответствии с гипотетико-дедуктивным методом научного исследования, каждый уважающий себя учёный должен сначала сформулировать гипотезу, потом собрать данные, затем обработать их и в результате узнать, оправдалась гипотеза или нет.

Существует предписание, которое закреплено в требованиях научных журналов к оформлению статей — проверять статистическую значимость результатов. Этот параметр известен как p-value. Чтобы быть уверенным в том, что изучаемый феномен реален, необходим p < 0,05. Иными словами, статистическая вероятность его возникновения должна превышать 95%.

Однако добиться 95-процентной вероятности успеха на бумаге намного проще, чем в действительности. Вы можете опустить некоторые из факторов, влияющих на ход эксперимента (например, искренне подумав, что они нерелевантны), или поменять параметры прямо в ходе исследования (продолжить тот же эксперимент после первой обработки данных или прервать его раньше, либо изменить процедуру).

Все эти операции сильно повышают вероятность того, что ваш чистый на бумаге результат в действительности окажется ложноположительным. При этом ваш поступок можно с равной вероятностью интерпретировать и как проявление научной нечистоплотности, и как непреднамеренную ошибку.

Существует и другая проблема. Например, вы задаётесь вопросом типа: «Интересно, а как ХХХ будет вести себя в ситуации YYY?» И проводите эксперимент. При этом вы не выдвигаете гипотезы, которая должна быть подтверждена или опровергнута, вы просто собираете и уточняете данные.

«Как подтверждающий подход (проверка гипотезы), так и исследовательский (генерация гипотезы) жизненно важны для науки», — соглашается Брайан Нозек. — «Однако критически важно их различать. Вы не можете и сформулировать, и проверить гипотезу в работе с одними и теми же данными».

HARKing — Hypothesizing after the Results are Known. Речь идёт о том, что гипотеза выдвигается уже после того, как стали известны результаты. Русский аналог: «Задним умом все сильны».

Например, я хочу уточнить механику падения пятидесятикопеечной монеты той или другой стороной вверх. Я подбрасываю монетку 20 раз. Она 13 раз выпадает орлом, а семь — решкой. На основании этого я заключаю, что распределение при броске монетки составляет 13:7. После этого сажусь и пишу: «Наша гипотеза гласила, что распределение при броске монетки составляет 13 к 7. Мы провели эксперимент, в котором 20 раз подбрасывали монету. В результате монета 13 раз выпала орлом. Из этого мы заключаем, что гипотеза верна». Соблюдено ли требование экспериментальной проверки гипотезы? Вроде бы соблюдено. А если вас уличат в «харкинге», вы можете искренне удивиться.

«Нынешняя ситуация в науке провоцирует вас рассказывать историю таким образом, будто бы вы предвосхищали результаты, к которым пришли, — признаёт Брайан Нозек с коллегами. — "Поисковые" исследования не получают того признания, которого заслуживают, их прозрачная публикация сегодня проблематична. Но ничего постыдного в том, чтобы не знать ответов заранее, действительно нет. Иначе исследования были бы не нужны».

В 1959 году математик Теодор Стерлинг указал на то, что в 97% исследований, отчёты о которых были опубликованы в четырёх крупных психологических журналах, были получены статистически значимые и притом позитивные результаты. Это значит, что только в 3% исследований учёные признавались: «нет, наша гипотеза не подтвердилась». В 1995-м он снова измерил степень «утвердительности» в психологической литературе и никакого изменения не зафиксировал.

А британский социолог Дэниэль Фанелли измерил соотношение «позитивных» и «негативных» результатов на страницах рецензируемых научных журналов. Выяснилось, что по степени «успешности» лидируют психологи, материаловеды и фармакологи (примерно 90%). Замыкают рейтинг астрономы и космологи (около 70%).

Иллюстрация: Пётр Перевезенцев

Публикуйся или исчезни

Ещё один фактор, влияющий на воспроизводимость публикуемых результатов, — это когнитивные искажения. Мы давно знаем о них благодаря всё тем же учёным-психологам, но о влиянии этих искажений на саму научную практику задумываемся редко. В данном случае речь о «публикационных искажениях» (publication bias). Они относятся как к редакторам научных журналов, так и к самим исследователям, оставляющим пылиться в ящике стола те данные, что никак не подтверждают их тезисы.

Примем, что я редактор условного Nature. Мне присылают две случайные работы, авторов которых я не знаю и с которыми у меня нет никакого конфликта интересов. В статье № 1 пишут: мы предположили, что люди склонны реагировать способом А на стимулы Б. Мы провели эксперимент, и — вуаля! — они действительно реагируют так-то.

В статье же №2 пишут: они проверили, реагируют ли люди способом В на стимулы Г, и выяснили, что нет, вот именно так-то они не реагируют.

Какой бы я ни был честный и беспристрастный, моё сознание склонно одобрить к публикации текст, повествующий об обнаружении доселе неизвестного феномена, а не об отсутствии такового. Я думаю что-то вроде: «Наука — это производство нового знания. Инновации, открытия — вот это всё и есть то, что даёт человечеству наука. Об этом и стоит рассказывать». И, руководствуясь этими соображениями, пропускаю в печать статью № 1. Ну кому интересны нулевые результаты? Не получилось в этот раз, получится в другой — продолжай трудиться, дорогой коллега, всяческих тебе успехов.

Но, как мы уже знаем, зачастую издатели получают статьи, позитивный результат которых с большой вероятностью может быть ложноположительным. В условиях редакции у вас нет ни ресурсов, ни времени на то, чтобы реплицировать эксперименты, о которых отчитываются авторы. Максимум, что вы можете сделать, — проверить текст на техническую адекватность. Вы берёте начальные данные из статьи, обрабатываете их согласно тому, как это описывается в тексте, и смотрите, совпадает ли ваш результат с тем, который был заявлен. Также вы можете отметить какие-то методологические нестыковки и, основываясь на этом, отказать авторам в публикации. Но не всегда того, что указано в тексте, достаточно, чтобы заподозрить неладное.

А теперь прибавьте ко всему этому то, что публикации — формальный критерий оценки эффективности учёного. В научной среде бытует поговорка «публикуйся или исчезни» (publish or perish). Да, после какого-то момента список ваших публикаций станет менее важен, чем ваш рейтинг по гамбургскому счёту. Но пока вы свободный агент на «рынке мозгов», вам надо работать на резюме. То есть публиковаться.

В 2010 году психолог Мэтт Мотил обнаружил, что люди более умеренных политических взглядов лучше различают оттенки цветов, чем радикалы. Результат был статистически значимым и обещал блестящее будущее молодому аспиранту — до тех пор, пока он со своим научным консультантом, всё тем же Брайаном Нозеком, не попробовал воспроизвести эксперимент. И тут все надежды Мэтта пошли прахом: статистическая значимость воспроизведённого исследования оказалась ниже 50%. Так что выражение «видеть мир в чёрно-белом свете» всё ещё остаётся только художественной метафорой. «Наша первая реакция была — ну какого чёрта мы взялись за прямую репликацию?!» — рассказывают они об этой истории в статье, посвящённой проблеме публикации позитивных результатов и том, как эта практика отдаляет от нас «научную утопию». 

Иллюстрация: Пётр Перевезенцев

Как сделать наши исследования ясными

Как это часто бывает, вопрос «что произошло?» гораздо менее интересен, чем вопрос «что теперь делать?».

— В широком смысле ответ таков: весь исследовательский процесс должен быть прозрачен. Сейчас, имея на руках только статью, вы видите лишь итог исследования. Вы не видите процесс целиком. Возможность ознакомиться с тем, как я пришёл к своим выводам, сделает мой путь более воспроизводимым, — продолжают отвечать на вопросы широкой аудитории участники «Коллаборации за открытую науку».

Ничего радикально нового по большому счёту нам не предлагают. Для того чтобы ученик научился решать задачи определённого типа, вы обучаете его последовательности действий, необходимых для успеха. Здесь мы пишем «дано», здесь «доказать», вот тут неплохо бы сделать чертёж, а доказательства необходимо формулировать так-то. Когда вам нужно научить молодого сотрудника выполнять те или иные обязанности, вы снабжаете его методичкой и даёте ему опытного куратора. Так появляются тьюторы, научные руководители, консультанты… Важна технологическая составляющая: благодаря интернету всю процедуру можно сделать прозрачной.

Уже можно ознакомиться с инициативой Registered Reports. Это методическая система производства научных статей с бóльшим, чем прежде, вовлечением рецензентов. Те рассматривают сначала заявку, в которой указываются гипотеза, методологический аппарат исследования, методы анализа данных и пилотные данные. И после этого дают гарантию того, что будут ждать результатов. В списке практикующих «Зарегистрированные отчёты» уже полтора десятка научных журналов.

Сам Брайан Нозек четвёртый год в этом деле. Проект по воспроизводству психологических экспериментов есть только инструмент для привлечения внимания к тому, что можно считать его главным детищем. Это Open Science Framework — ресурс, который представляет собой открытую веб-платформу для трекинга научных проектов.

Если эти инициативы и ей подобные станут нормой, учёные не будут тратить время и ресурсы, гоняясь за призраками, возникшими в результате некорректно поставленной задачи, а журналы получат возможность в большей степени контролировать адекватность производства научных статей.

В общем, ответ на вопрос «что делать?» таков: как минимум ещё раз прочитать учебник по методологии и дизайну экспериментов. А как максимум — принять участие в какой-либо из инициатив по контролю за чистотой исследований (они не ограничиваются проектами Нозека). И продолжать заниматься психологией как наукой с удвоенным усердием.

В заключение осталось только вновь процитировать работу, опубликованную в Science 28 августа: «Популярны гипотезы о том, что нынешняя научная культура может негативно сказываться на воспроизводимости научных исследований. Идеологизированной реакцией было бы отбросить аргументы, усомниться в источниках и весело продолжать заниматься своим делом. Но научная деятельность — это не идеологическая деятельность. Наука — это не всегда то, благодаря чему мы можем добиться желаемого; это то, что сталкивает нас с действительностью».

 

Брайан Нозек: «Это будет весьма любопытная революция»

«Кот Шрёдингера» побеседовал с Брайаном Нозеком, сотрудником кафедры психологии в Университете штата Вирджиния и руководителем группы «Коллаборация за открытую науку».

[Кот Шрёдингера] Считаете ли вы, что тесты на воспроизводимость необходимы и в других дисциплинах, от социологии до физики?

[Брайан Нозек] Да. Я думаю, что было бы весьма ценно расширить наш тест. Мы до сих пор не знаем, насколько различаются статистические значения воспроизводимости экспериментов от одной науки к другой. И это надо выяснять. Прямо сейчас мы проводим подобный проект для исследований в области рака, а также работаем с несколькими группами в других дисциплинах, чтобы составить грантовую заявку для похожих инициатив.

[КШ] Что, с вашей точки зрения, является основной причиной столь низкого уровня воспроизводимости в психологии? Конечно, на общую картину влияют многие факторы, но если бы вас попросили определить самого «злостного нарушителя», что бы вы назвали?

[БН] Это хороший вопрос, и на него сложно ответить. Я действительно думаю, что факторов много, но если бы меня попросили назвать один, я бы указал на публикационные искажения. Тот факт, что шансы на публикацию исследования зависят от того, являются ли результаты позитивными, новыми и «чистыми», создаёт конфликт интересов между тем, что является благом для автора и для науки в целом. Если бы мы могли изменить дисциплинарные стимулы так, чтобы каждый учёный вознаграждался в соответствии с тем, насколько, во-первых, значима его работа для науки и, во-вторых, прозрачен отчёт, тогда, полагаю, положение дел серьёзно улучшилось бы.

[КШ] Как ваше участие в тестах на воспроизводимость и в движениях, выступающих за повышение прозрачности научных исследований, повлияло на вашу карьеру и академическую репутацию в целом? Коллеги не осуждают, не пытаются бойкотировать?

[БН] Если честно, пока не понял. Есть люди, которые недовольны нашим проектом, равно как и прочими подобными исследованиями. Но многие другие относятся к ним с энтузиазмом и оказывают поддержку. Тот факт, что проект по проверке воспроизводимости результатов в психологии смог собрать 270 соавторов, которые вызвались тратить своё время на волонтёрских началах, говорит мне, что сообщество находит интерес в том, чтобы проверять качество исследовательских практик, и будет пытаться их улучшить.

По Попперу, наука развивается путём постоянной критики гипотез. Гипотезы могут подтверждаться сотней экспериментов, но для опровержения будет достаточно одного. Поэтому хорошая наука ищет опровержения своим гипотезам, а не наращивает число подтверждений. Инструментом науки является гипотетико-дедуктивный метод, или рациональное конструирование объяснений. Идеальная модель «Большой науки» — открытое общество беспристрастных исследователей — видится сторонникам критического рационализма образцом подлинно демократического устройства общества в целом.

По Куну, учёные занимаются тем, что просто «решают задачки» в рамках доминирующей теории: применяют её ко всему, что попадает в их поле зрения, и таким образом подтверждают истинность парадигмы. В какой-то момент начинают возникать аномалии, необъяснимые в рамках парадигмы эффекты и феномены. Когда количество аномалий становится критическим, наступает кризис. Из кризиса наука выходит, если пересматривает свои фундаментальные посылки, то есть создавая новую парадигму.

[КШ] Ваша статья в Science начинается с тезиса: «Воспроизводимость — центральный принцип научного прогресса». Среди ссылок, которые вы даёте для подкрепления этого утверждения, мы видим работы Лакатоса, Мейля и Гемпеля. Этих философов науки можно объединить под условным зонтиком «рационалистической» позиции, говоря о которой в первую очередь стоит вспомнить Карла Поппера. Существуют, однако, и другие подходы: например, Томаса Куна и Бруно Латура, или даже методологический анархизм Пола Фейерабенда. Вы готовы назвать себя попперианцем? Или эти метанаучные вопросы совершенно вас не заботят?

[БН] Среди моих соавторов нет консенсуса по этому вопросу. Хотя я лично надеюсь, что мало кто из них поддерживает радикальную теорию Фейерабенда! Полагаю, что моя позиция действительно скорее пропопперовская. Хотя она остаётся, что называется, теоретической. Я не постоянно учитываю её в своей повседневной практике.

[КШ] Если согласиться с концепцией Куна, то можно сказать, что ваше исследование — симптом грядущей научной революции, с которой придёт новая парадигма? Интересно, что вы скажете, если через некоторое время вашу работу начнут рассматривать как «провозвестник последних дней старой науки»?

[БН] Это интересный момент! Если это и революция, то она происходит не из-за изменения содержания нашего знания, а из-за изменения процесса его получения. Это весьма любопытная революция, если учесть, что её цель — привести повседневную практику науки в соответствие с уже существующими научными ценностями: прозрачностью, воспроизводимостью, скептицизмом — а не переизобрести их. 

 

 

Опубликовано в журнале «Кот Шрёдингера» №11 (13) за ноябрь 2015 г.