-> 특집기사
통계학자들 과학 표준 측도 ‘유의성’ 폐기 원한다
구효정(cancerline@daum.net) 기자 입력 2019년 06월 18일 12:00분6,459 읽음
통계학자들과 과학자들 논평, 통계적 유의성으로 연구 성패 판단 종식해야
과학에서는 어떤 실험의 성공은 흔히 통계적 유의성이라는 측도에 의해 결정된다. 어떤 결과는 만약 인간이나 식물이나 동물이나 기타의 집단들 간의 실험에서 관찰되는 차이가 아주 있음직하지 않다면 (실제로는 아무런 차이가 없을지라도) 유의한 것, 즉 의미가 있는 것으로 간주된다. 아주 있음직하지 않다는 일반적인 기준선(컷오프)은 차이가 5%나 그 이상인 경우로 실제로는 그런 차이가 없어도 그런 것으로 간주된다. 이런 기준선은 언뜻 보면 아주 엄격해 보인다.

비교적(秘敎的)으로 들리지만 통계적 유의성은 실험의 성패를 확실하게 구분하는 데 사용되었다. 통계적으로 유의한 실험 결과를 얻는다는 것은 흔히 어떤 과학자의 논문이 출간이 되거나 혹은 추가적인 연구가 연구비를 받을 수 있을지를 결정한다. 이것이 연구 우선순위를 결정하는 데 있어서 유의성 측도를 훨씬 더 중요하게 만든다고 통계학자들은 말하고 있고 그래서 이제는 폐기할 때라고 생각한다.

800명이 넘는 통계학자들과 과학자들은 지난 3월 20일 네이쳐를 통해 발표한 논평에서 통계적 유의성으로 연구의 성패를 판단하는 것을 종식하도록 요구했다. 그 논문에 수반해서 3월 20일에 발간된 전문 잡지인 미국 통계학자 특별호는 ‘통계적 유의성 - 말하지도 말고 사용하지도 말라’라는 제하의 서문에서 그 선언서를 아주 명료하게 만들었다.

통계적 유의성을 폐기하는 것을 원하는 합당한 이유가 있다. 그러나 현재 너무나 많은 연구가 그 개념에 의거해서 이루어졌기 때문에 과학계가 어떻게 그것을 되돌려놓을 수 있을지 혹은 다른 측도로 대체할 수 있을지 명백하지 않다.

전문잡지인 미국 통계학자는 그와 같은 측도가 없으면 과학적인 활동이 어떻게 될지 조사하는 43건의 논문을 게재했다. 이것이 처음으로 통계적 유의성의 종식을 요구하는 것도 아니고, 또 마지막으로 요구하는 것도 아닐 것이다. 통계적 유의성 폐기는 쉬운 일이 아니라고 조지아대학교의 통계학자로 미국 통계학자 특별호의 초빙 편집인인 니콜 라자르는 말했다. 그것이 쉬운 일이었다면 우리가 벌써 했을 것이라고 그는 부언해서 말했다.

오늘날 많은 과학적 연구는 귀무가설 유의성 검증이란 뼈대를 바탕으로 디자인 되어 있다. 이런 유형의 검증에서는 과학자는 예를 들면 만약 어떤 약품으로 치료받은 집단과 (위약으로 치료받은) 대조군에서 그 약품이 우울증을 감소시켰는지를 물어보는 실험에서 그 결과를 비교한다. 그 과학자는 (실험군과 대조군) 2집단 간에 정말로 차이가 없다는 가정을 세우고 그런 가정에 대해 결과를 비교한다. 목적은 그 약품이 우울증을 치료하는가를 입증하는 것이 아니다. 그 약품이 우울증을 치료하지 못한다는 가정을 세우고 그 가정을 부정할 정도로 충분한 데이터를 수집하는 것이다.

통계학자 로날드 피셔 P-값 0.05 기준선으로 제시
과학자는 P-값(유의 확률)으로 귀착하는 통계적 분석을 이용해서 이들 2집단을 비교할 것이다. P-값은 0에서 1까지이고 여기서 P는 확률을 의미한다. P-값은 약품이 실제로 우울증을 감소시키지 않는다면 실험을 반복하면 그 과학자가 얻는 값만큼 크거나 더 큰 차이가 있는 결과가 나올 가능성을 의미한다. P-값이 더 적은 것은 만약 정말로 차이가 없다면 그 과학자가 그만큼 큰 차이를 볼 가능성이 적은 것을 의미한다. 과학 용어로는 만약 P-값이 0.05이거나 0.05보다 적다면 통계적으로 유의한 것이 된다.

과학자들이 P-값을 정확하게 해석하면 실험 결과가 과학자의 예상에 얼마나 부합하는지를 알아내는 데 유용할 수가 있다고 라자르는 말했다. P-값은 확률이기 때문에 변할 수가 있다고 라자르는 설명했다. 만약 내가 실험을 계속해서 반복하면 크고 작은 많은 값을 얻게 될 것이고, 어떤 것은 유의할 것이고 어떤 것은 그렇지 않을 것이라고 라자르는 부언해서 설명했다.

그런 변화성 때문에 P-값이 0.05라는 것은 절대 최종 결과가 되는 것은 아니다. 그보다도 그건 시작으로 눈을 부릅뜨고 더 조사해보도록 하는 것을 의미한다고 라자르는 말했다. 이제는 많은 과학자들이 P-값이 0.05란 것을 계획대로 잘 된 실험과 그렇지 못한 실험을 구분 짓는 기준선으로 해석하고 있다. 이런 기준선(컷오프)은 20세기의 유명한 통계학자인 로날드 피셔에서 기인한다. 1925년 논문에서 피셔는 P-값을 얻기 위해 연구 과학자들이 사용할 수 있는 간단한 테스트를 제시했다. 또 그는 두 집단 간의 차이가 유의한지 아닌지를 판단하는 한계로 이 지점을 택하는 것이 편리하다고 말하면서 0.05란 P-값을 기준선으로 제시했다.

그런 편리한 제안은 피셔가 아마도 의도했던 것보다 훨씬 더 큰 반향을 일으켰다. 2015년에 (미국 국립 의학 도서관의 바이오 의학 및 생명 공학 분야 데이터베이스인) 펍메드 데이터베이스에 수록된 논문 중 95% 이상이 P-값이 0.05 미만인 결과를 내세우고 있다. 그러나 과학과 통계학은 결코 편리한 기준선에 영합할 정도로 단순하지가 않다. P-값이 아무리 적더라도 어디까지나 확률일 뿐이다. 그게 실험이 잘 된 것을 의미하지는 않는다. 또 그것이 실험집단들의 결과에 나타나는 차이가 큰지 작은지를 말하는 것은 아니다. 실제로는 P-값이 심지어 그런 차이가 의미가 있는지 여부를 말해주지 않는다.

0.05란 기준선이 과학적 우수성을 나타내는 간단한 방편이 되어버렸다고 노스웨스턴 대학교의 통계학자로 네이쳐에 게재한 논평의 저자 중 1명인 블레이크 맥세인이 말했다. 먼저 당신이 당신의 P-값이 0.05 미만인 것을 나에게 보여주면 그때야 나는 데이터의 질과 연구 디자인에 대해 생각해볼 것이라고 그는 말했다. 그러나 우선 0.05 미만인 P-값을 갖고 있는 것이 더 좋을 것이라고 그는 부언했다.

실제로는 좋은 과학적 연구 결과와 나쁜 과학적 연구 결과를 구분하는 (컷라인 같은) 선이 없지만, 그런 간단한 방편이 또 그런 구분을 지어버린다. 기준선의 한쪽에 있는 것은 어떤 것으로 규정하고 다른 쪽에 속하는 것은 어떤 다른 것이 된다고 맥세인은 말했다. 그러나 통계학에서나 현실에서나 실제로는 그런 식으로 되는 것은 없다고 그는 설명했다. 엄밀히 말하면 P-값은 0.049와 0.051 간에 차이가 없다고 그는 말했다.

광범위하게 사용되는 통계적 유의성, 과학 문화에 단단히 뿌리 내려
과학적 연구를 지원하거나 장려하거나 출간하는 것을 결정하는데 통계적 유의성이 광범하게 사용되고 있을 정도로, 통계적 유의성은 과학 문화에 뿌리를 단단히 박고 있기 때문에 다른 어떤 것으로 바꾸는 것은 엄청난 노력이 필요할 것이라고 스탠퍼드 대학교 의학 연구 방법론 학자로 전문잡지인 미국 통계학자 특별호에 게재된 논문 43건 중 하나를 기고한 스티븐 굿맨은 말했다. 그런 제도에서 통화는 P-값이라고 그는 말했다.

실험 데이터로부터 자동으로 P-값은 계산해내는 컴퓨터 프로그램들이 그런 측도가 훨씬 더 뿌리를 박는 것을 도와주었다고 굿맨은 말했다. 그걸 측도로 사용하는 것은 과학자들이 정말로 불확실한 상황에서 추론하는 것이 무엇을 의미하는 것인지를 이해하는 과학적인 힘을 개발하지 않은 것을 의미한다. 정말로 불확실한 것은 과학자들이 단념하고 데이터가 아무 것도 보여주지 않는다고 말하는 것을 의미하지는 않는다.

통계학에서 불확실성이란 한 실험과 다른 실험 간에 얼마나 많은 데이터가 차이가 날 것으로 생각되는 것을 의미한다. 과학적인 결과에 나타나는 그런 불확실성을 이해하는 것을 배우는 것은 많은 과학자들이 보통 받는 통계학 훈련보다 훨씬 더 많은 훈련이 필요할 것이라고 그는 말했다.

불확실성을 더 잘 파악하는 새로운 종류의 통계학으로 이행하는 것은 또 과학자들이 판단을 내리는데 더 많은 노력을 쏟아 부어야만 하는 것도 의미한다. 잡지의 편집인들과 동료 평가자들은 연구가 출간할 가치가 있는지를 결정하는 다른 기준에 의존하는 것을 배워야만 할 것이다. 과학잡지들은 그들의 기준을 바꾸어야만 할지도 모른다. 이는 폐기하기가 아주 어렵다고 굿맨은 말했다. 과학계는 통계학자들이 지배하거나 좌지우지하지 않는다고 그는 부언했다.

부분적으로는 그런 변화의 잠재적인 도전 때문에 어떤 과학자들은 통계적 유의성 기준을 아직은 폐기하길 원하지 않는다. 어떤 과학자들은 기준을 높이기를 원한다. 텍사스 A&M대학교의 통계학자인 발렌 존슨은 0.05 미만인 P-값을 기준선으로 삼는 대신에 0.005 미만의 P-값을 선호한다. 이는 만약 귀무가설이 옳다면 관찰된 차이보다 같거나 더 큰 차이를 관찰하게 될 가능성이 0.5%인 것이 된다. 이게 절대적인 기준선은 아니지만, 거짓 양성이 더 적을 것이라고 굿맨은 말했다.

유감스럽게도 모든 사람이 동의하는 단 1개 대안은 없다는 것이 모든 실험에게는 더 좋은 것일 수가 있다. 모두 다 자기가 반대하는 것을 알고 있다고 굿맨은 말했다. 아주 적은 사람들만 자신들이 찬성하는 것을 알고 있다고 그는 부언했다.

새로운 컴퓨터 프로그램들이 통계학자가 아닌 사람들에게 P-값 측도를 넘어설 수 있는 자유를 준다고 암스테르담 대학교의 심리 방법론 학자인 쥴리아 하프가 말했다. P-값이 왜 그렇게 인기가 있게 되었는지 그 이유는 20세기의 상당한 기간 사람들이 할 수 있었던 유일한 것이었기 때문이었다고 하프는 설명했다. 이제는 선택할 수 있는 대안들이 있다고 그녀는 부언했다.

과학자들은 그들이 얻은 결과에 신뢰구간들을 추가할 수 있을 것이다. 신뢰구간들은 (실험에 근거해서) 다양한 값을 추산하는데 그런 신뢰구간이 치료제들이나 혹은 상태들 간의 진짜 차이를 포함할 가능성이 있다. 과학자들은 또 하프가 한 것처럼 베이즈 요인을 받아들여서, 어떤 실험의 데이터가 다른 가설보다 어떤 가설을 얼마나 많이 지지하는지를 비교할 수가 있다. 그리고 어떤 실험이 어떻게 디자인되었는지에 따라서, P-값을 제시해주는 테스트가 때로는 여전히 올바른 선택일 수가 있다.

P-값 0.05 미만 통계적으로 의미가 있다는 생각에 반대
그러나 어떤 통계 테스트를 선택하든지 간에 과학자는 과학적인 가치가 있는 것과 쓸모없는 것을 구분하는 데 있어서 편법으로 기준선을 정하지 말아야만 할 것이라고 통계적 유의성을 비판하는 사람들은 말했다. 그런 기준선은 항상 흑백 논리처럼 이것 아니면 무조건 저것이라는 식으로 지나치게 구분해버리는데, 과학자들은 통계적 회색이란 생각을 받아들일 필요가 있다.

어떤 경우에도 과학자들은 실험의 질을 (그런 테스트가 어떤 것일지라도) 1가지 통계 테스트로 판단하지 말아야만 한다고 맥세인은 말했다. 다른 요인들도 똑같은 관심사이다. 데이터의 질은 무엇인가? 연구 디자인은 어떤가? 밑바닥의 메커니즘은 이해하고 있는가? 라고 그는 부언했다. 이런 다른 요인들도 똑같이 중요하고 때로는 P-값 같은 측도보다 더 중요하다고 그는 말했다.

P-값 자체는 단지 1가지 통계 테스트일 뿐이며, 어느 누구도 그걸 페기하려고 하지는 않는다. 그 대신에 네이쳐 선언서에 서명한 사람들은 P-값이 0.05 미만이면 통계적으로 의미가 있다는 생각에 반대하는 것이다. 그런 기준선은 결과에 대한 잘못된 확신을 준다고 맥세인은 말했다. 통계학은 불확실성을 제거하는 1가지 방법으로 흔히 잘못 인식되고 있다고 그는 말했다. 그러나 통계학은 실제로는 불확실성의 정도를 수량화하는 것에 관한 것이라고 그는 부언했다.

그런 불확실성을 받아들이는 것은 과학이 일반인들에게 전달되는 방법을 바꾸게 될 것이다. 사람들은 실제로는 절대 그렇지 않은데도 불구하고 과학으로부터 예스나 노 같은 분명한 답변을 기대하거나 혹은 실험이 무언가를 발견했다는 것을 알기를 원한다고 하프는 말했다. 과학적 결과에는 항상 불확실성이 있다. 그러나 바로 현재 과학자들과 비과학자들은 똑같이 통계적 유의성이란 잘못된 확신에 빠져있다.

과학을 가르치거나 전달해주는 사람들과 과학을 배우고 듣는 사람들은 과학계와 함께 불확실성을 이해하고 받아들일 필요가 있을 것이다. 우리가 어떻게 그것들을 해내야하는지 나는 모른다고 하프는 말했다. 사람들이 과학으로부터 원하는 것은 답변이고, 때로는 우리가 데이터를 보고하는 방법이 우리가 분명한 답변을 갖고 있지 않은 것을 보여주는 듯하다. 그 이유는 생각보다 더 무질서하기 때문이라고 그는 부언했다.

(1) V. Amrhein et al., "Scientists rise up against statistical significance" Nature. 2019 Mar;567(7748):305-307.
(2) R. L. Wasserstein et al., "Moving to a world beyond p < 0.05" The American Statistician. Vol. 73, March 20, 2019. doi: 10.1080/00031305.2019.1583913.
(3) B. B. McShane et al., "Abandon statistical significance" The American Statistician. Vol. 73, March 20, 2019. doi: 10.1080/00031305.2018.1527253.
(4) J. P. A. Ioannidis "What have we (not) learnt from millions of scientific papers with p values?" The American Statistician. Vol. 73, March 20, 2019. doi: 10.1080/00031305.2018.1447512.
(5) V. E. Johnson "Evidence from marginally significant t statistics" The American Statistician. Vol. 73, March 20, 2019. doi: 10.1080/00031305.2018.1518788.
(6) Science News, April 17, 2019


월간암(癌) 2019년 6월호
추천 컨텐츠
    - 월간암 광고문의 -
    EMAIL: sarang@cancerline.co.kr
    HP: 010-3476-1606