school 전문가회원accessibility 회원가입perm_identity 로그인
인간 vs. 기계 - 인공지능이 피부과 전문의 능가한다

이 기사는 고동탄 기자가2018년08월02일 14시57분에 최종 입력하였습니다. 총 803명이 방문하여 읽었습니다.


인공지능, 피부과 전문의보다 피부암 식별·오진 등 능력 더 뛰어나
인공지능의 한 분야로 심층 학습 합성곱 신경망(CNN)이라는 기계 학습이 피부암을 발견해내는데 노련한 피부과 전문의보다 더 나은 것을 연구가들이 처음으로 입증했다.

최근에 발표된 논문에서 독일과 미국과 프랑스의 연구가들은 (가장 치명적인 피부암인) 악성 흑색종과 양성 반점의 영상을 10만 개 이상 보여주면서, 합성곱 신경망(CNN Convolutional Neural Network 콘볼루션 신경망)에게 피부암을 식별해내는 훈련을 시켰다. 그들은 합성곱 신경망의 능력과 국제적인 피부과 전문의 58명의 능력을 비교해보았는데, 합성곱 신경망이 피부과 전문의보다 흑색종을 놓쳐버리는 일이 더 적고 또 양성 반점을 악성으로 오진하는 일도 덜 흔한 것을 발견했다.

눈에 무엇이 보이면 뇌의 신경세포(뉴런)들은 서로 결합해서 반응을 하는데 그런 생물학적 과정에서 영감을 얻어 개발한 인공신경망의 일종이 합성곱 신경망(CNN)이다. 합성곱 신경망은 보이는 영상들을 빠르게 학습해서 학습한 것을 스스로 자신에게 가르쳐서 능력을 키울 수가 있다. 이런 과정을 기계 학습이라고 한다.

독일 하이델베르크 대학교 피부의학과 교수로 이번 논문의 제1 저자인 홀거 핸슬레는 이렇게 설명했다.
“합성곱 신경망은 어린아이의 뇌와 같이 작동한다. 훈련을 시키기 위해 우리는 합성곱 신경망에게 악성 피부암과 양성 반점의 영상을 10만 개 이상 보여주었고 각 영상별로 진단 내용도 보여주었다. 피부 현미경 영상만 사용했는데 병변을 10배로 확대한 영상들이다. 영상으로 훈련을 거듭하면서 합성곱 신경망은 양성 병변과 악성 병변을 구별해내는 능력을 키웠다. 훈련을 끝낸 후 우리는 하이델베르크 대학교에 보관 중인 훈련에 사용한 적이 없어 합성곱 신경망에게는 낯선 영상으로 테스트 세트를 2개 만들었다. 한 세트는 300개 영상으로 구성했는데, 순전히 합성곱 신경망의 능력을 테스트해보기 위해 만든 것이었다. 그 이전에 가장 까다로운 병변 100개를 골라 피부과 전문의들의 능력을 테스트해보았고 그 결과를 합성곱 신경망의 결과와 비교해보았다.”

흑색종 식별 1단계 합성공 신경망 더 정확, 2단계는 전문의가 더 정확
전 세계의 피부과 전문의들에게 참여하도록 초청을 했는데 17개국의 58명이 수락을 했다. 그들 중 29%인 17명은 피부 현미경을 사용한 경험이 2년 미만이라고 밝혔고 19%인 11명은 2~5년간 사용한 경험이 있다고 밝혔고, 52%인 30명은 5년 이상 사용한 경험이 있다고 밝혔다.

이들 피부과 전문의들은 우선 1단계로 피부 현미경 영상만 보고 악성 흑색종인지 양성 반점인지 진단을 내리고 그 상태를 어떻게 처리할지, 즉 수술을 해야 할지 단기간 추적을 할지 혹은 아무런 조치를 하지 않을지를 결정하도록 요청을 받았다. 그런 다음 2단계로 4주 뒤에 나이와 성별과 병변의 위치를 포함한 환자의 임상 정보와 100건의 동일한 케이스의 근접 촬영 영상을 주고 다시 한 번 진단을 내리고 어떤 조치를 할지 물어보았다.

1단계에서 피부과 전문의들은 흑색종을 평균 86.6% 정확하게 발견했고 악성이 아닌 병변은 평균 71.3% 정확하게 식별했다. 그러나 1단계에서 합성곱 신경망은 양성 반점을 의사들과 마찬가지로 71.3% 정확하게 식별했지만 흑색종은 95% 발견해냈다. 2단계에서는 피부과 전문의들이 능력을 더 발휘해서 흑색종은 88.9%, 양성 반점은 75.7% 정확하게 진단했다.

핸슬레는 이렇게 평가했다.
“합성곱 신경망이 흑색종을 더 적게 놓쳤는데 이는 합성곱 신경망이 피부과 전문의보다 민감도가 더 높은 것을 의미하고, 또 합성곱 신경망이 양성 반점을 악성 흑색종으로 오진하는 경우가 더 적은데 이는 합성곱 신경망이 특이성이 더 높은 것을 의미하고, 이는 불필요한 수술을 줄어들게 할 것이다. 피부과 전문의들은 2단계에서 더 많은 임상 정보와 영상을 받아본 후 그들의 진단 능력이 개선되었다. 그러나 합성곱 신경망은 추가적인 임상 정보를 받지 않고 순전히 피부 현미경 영상만 보고 판별을 했는데도 의사들의 진단 능력을 뛰어넘었다.”

합성곱 신경망, 흑색종 발견에 피부과 전문의보다 능력 뛰어나
1단계에서 노련한 피부과 전문의들이 미숙한 피부과 전문의들보다 더 좋은 능력을 발휘했고 악성 흑색종을 더 잘 찾아냈다. 그러나 정확한 진단을 내리는 그들의 평균적인 능력은 여전히 합성곱 신경망보다 떨어졌다. 이런 연구결과는 심층 학습 합성곱 신경망이 흑색종을 발견해내는 데 있어서 많은 훈련을 받은 전문가를 포함한 피부과 전문의들보다 더 뛰어난 능력이 있는 것을 보여준다고 핸슬레는 말했다.

악성 흑색종의 발병률은 증가하고 있어서 전 세계적으로 매년 신규로 232,000건이 발생하고 약 55,500명이 사망하는 것으로 추정되고 있다. 만약 조기에 발견하면 흑색종은 완치할 수가 있지만 많은 경우 암이 진행되어 치료하기가 더 힘들 때에 발견된다.

핸슬레 교수는 다음과 같이 말했다.
“나는 거의 20년 동안 흑색종을 조기에 완치 단계에서 발견해내는 것을 목표로 하는 연구 프로젝트들에 참여해왔다. 나와 연구진은 예를 들면 의사들이 피부암 선별검사를 할 때 흑색종을 놓치지 않도록 도와줄 수도 있는 비침습적인 기술에 집중하고 있다. 내가 특정한 작업에서 인간 전문가를 능가하는 심층 학습 알고리듬에 대한 최근의 보도를 접했을 때 나는 즉시 우리가 흑색종을 진단하는데 그런 인공 지능 알고리즘을 이용해야만 하는 것을 알았다.”

연구가들은 합성곱 신경망이 피부암을 진단하는 일을 피부과 전문의들로부터 떠넘겨 받을 것으로는 생각하지 않지만 추가적인 보조 수단으로는 이용될 수 있을 것으로 보고 있다. 핸슬레는 이렇게 설명했다.
“이 합성곱 신경망이 피부암 선별검사에 관여하는 의사들에게 병변에 대한 조직검사를 해야 할는지를 결정하는 보조 수단으로 이용될 것이다. 피부과 전문의들은 대부분이 병변의 영상을 촬영하고 보관하기 위해 이미 디지털 피부 현미경을 사용하고 있다. 따라서 합성곱 신경망이 보관된 영상을 쉽고 빠르게 평가해서 흑색종일 가능성에 대한 전문가적 견해를 내놓을 수가 있다. 우리는 합성곱 신경망이 의사와 환자들에게 실제적으로 미치는 영향을 평가하기 위해 현재 전향적 연구들을 준비하고 있다.”

이번 연구는 다음과 같은 몇 가지 한계를 안고 있다. 피부과 전문의들은 인위적인 상황에 처해 있었기 때문에 목숨이 달린 결정을 내리지 않는다는 것을 알고 있었다. 또 테스트 세트에는 모든 종류의 피부 병변이 다 포함되지 않았었다. 백인이 아닌 사람들의 피부 유형과 유전적 배경에 의해 확인된 영상은 더 적었다.

자동화된 진단이 피부병학의 진단 패러다임을 바꿔나가
이번 논문에 수반하는 논설에서 오스트레일리아 모나쉬 대학교의 빅토리아 마르 박사와 오스트레일리아 퀸즈랜드 대학교의 피터 소이어 교수는 이렇게 기술했다.
“현재로는 흑색종을 진단하는 정확도는 치료를 담당하는 의사의 경험과 훈련에 달려있다. 핸슬레가 참여한 이번 논문은 합성곱 신경망을 사용하는 컴퓨터 알고리즘이 시험을 받은 58명의 피부과 전문의 대다수를 능가했다. 이는 인공 지능이 모든 사람들이 어디에 살든 어떤 의사에게 진료를 받든지 간에 믿을만한 진단 평가를 받을 수 있을 정도로 진단 정확도의 표준화된 수준을 더 높여줄 가능성이 있다.”

그들은 인공 지능이 진료소에서 표준이 되기 전에 해결해야 할 문제가 많은 것을 부각시켰다. 그런 문제 중에는 손가락이나 발가락이나 두피와 같은 곳의 일부 흑색종은 영상으로 촬영하기가 어렵고, 인공지능이 불규칙적인 흑색종과 환자들도 알아채지 못한 것을 인지하도록 어떻게 충분하게 훈련을 시켜야 하는지가 포함된다. 그들은 이렇게 결론을 내렸다.
“현재로는 철저한 임상적 검사를 대체할 방법이 없다. 그러나 2차원이나 3차원 전신 촬영으로 피부 표면의 약 90~95%를 촬영할 수 있고 영상 기술도 기하급수적으로 발전하고 있어서, 우리는 머지않아 자동화된 진단이 피부병학의 진단 패러다임을 바꾸게 될 것으로 생각한다. 그래도 이런 흥미로운 기술들이 안전하게 일상적인 진료의 도구로 이용되도록 하기 위해서는 해야 할 일이 많다.”


(1) H. A. Haenssle et al., "Man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists." Ann Oncol. 2018 May 28. doi: 10.1093/annonc/mdy166.

(2) V. Mar & H. P. Soyer "Artificial intelligence for melanoma diagnosis: How can we deliver on the promise?" Ann Oncol. 2018 May 28. doi: 10.1093/annonc/mdy193.