▲PANCDR 모델 구조2단계로 학습하는 모습을 보여주고 있다. 1단계에서는 판별자가 어느 데이터에서 온 잠재 벡터인지 구분하도록 학습한다. 2단계에서는 판별자를 속이는 동시에 약물 반응 예측 모델을 학습시킨다.
GIST 제공
이에 GIST-서울대 공동연구팀은 '생성적 적대 신경망(Generative Adversarial Network, GAN)'을 활용하여 인공지능 모델에서 세포주 데이터와 환자 데이터 상호 간 표현(representation)의 차이를 줄임으로써 세포주 데이터로 학습하더라도 환자 데이터에서도 정확한 약물 반응을 예측할 수 있도록 한 모델 'PANCDR(Precision medicine prediction using an Adversarial Network for Cancer Drug Response)'을 개발해냈다.
생성적 적대 신경망(GAN)은 기존의 데이터를 모방해 새로운 데이터를 만드는 알고리즘으로 두 개의 모델이 서로 목표를 달성하기 위해 적대적으로 겨루는 구조를 지니고 있다.
특히 연구팀이 개발한 'PANCDR' 모델은 판별자(discriminator)와 약물 반응 예측 모델을 번갈아 가며 학습시키는데, 1단계에서는 가우시안 인코더(Gaussian encoder)가 인코딩한 잠재 벡터(latent vector)가 세포주의 유전자 발현 데이터에서 온 것인지 환자의 유전자 발현 데이터에서 온 것인지 구분하는 판별자를 학습시킨다.
다음으로 2단계에서는 반대로 판별자가 어느 데이터에서 온 것인지 구분하지 못하도록 약물 반응 예측 모델을 학습시키는데, 이때 환자의 데이터는 유전자 발현 데이터만 있고 약물 반응성이 없는 대규모의 데이터를 활용하였다고 한다.
그 결과, 'PANCDR' 모델(AUC 0.7106)은 환자 데이터에서 기존의 약물 반응 예측 모델(AUC 0.5273)보다 34% 이상 뛰어난 예측 성능을 보였다. 'AUC(Area Under the ROC Curve)'란 ROC(Receiver Operating Characteristic) curve 아래의 면적을 의미하며, 분류 모델의 성능을 나타낸다고 한다.
이에 따라 연구팀은 'PANCDR' 모델을 서울대병원 연구팀(박성혜 교수)의 소아 뇌종양 환자 데이터에 적용하여 반응성이 가장 높게 예측된 상위 5개의 약물을 선정했다. 그리고 이에 관한 기존 연구를 조사한 결과, 5개 약물 모두 뇌종양과 관련되어 있음을 확인하여 'PANCDR' 모델의 정확도와 신뢰도를 검증하였다.
이현주 교수는 "이번 연구 성과를 통해 세포주 데이터로 약물 반응 모델을 학습하더라도 환자 데이터에서 높은 정확도로 예측하는 것이 가능하다"면서 "향후 개인 맞춤 치료를 위한 정확한 약물 반응 예측을 제공할 것으로 기대된다"고 말했다.
한편, 이번 연구는 정보통신기획평가원(IITP)의 지원을 받았으며, GIST AI대학원 이현주 교수가 지도하고 김주연 연구원이 수행했으며, 서울대학교 의과대학 병리학교실 박성혜 교수와의 공동연구로 진행했다. 연구 결과는 생명정보학 분야 국제학술지 <Briefings in Bioinformatics>에 지난 14일자로 게재됐다.