전체메뉴 바로가기 본문바로가기

Community

보도자료

[청년의사] 묵혀 둔 암 데이터 날개 달까…베일 벗은 ‘K-Cancer’ 사업 (최귀선 교수)

등록일
2021-06-21
조회
404
파일

묵혀 둔 암 데이터 날개 달까…베일 벗은 ‘K-Cancer’ 사업

 

내년 시작 앞둔 국가 암 빅데이터 사업…2025년까지 구축
암 라이브러리·코호트 DB·수집 및 가공 서비스 제공 목표

 

정부가 민간 의료기관 데이터와 공공기관 데이터를 결합한 암 빅데이터를 구축하겠다고 나서면서, 국내 암 전문가들의 관심이 모아지고 있다. 우리나라 암 진단 및 치료, 연구 등에 새로운 지평을 열 수 있을 것이란 기대 때문이다.

 

지난 18일 진행된 제47차 대한암학회 학술대회 및 제7차 국제암컨퍼런스 암관련학회협의체 심포지엄에서는 ‘K-Cancer’ 사업 등 국가 암 빅데이터 구축에 대한 논의가 이어졌다.

 

이날 보건복지부 방영식 보건의료데이터진흥과장 발표(K-Cancer 통합 빅데이터 구축 방안과 전략)에 따르면, 복지부는 K-Cancer 통합 빅데이터 사업을 통해 국내 암 환자 300만명 규모의 데이터를 수집하고 암 임상데이터 활용 네트워크를 형성할 계획이다. 그 일환으로 2025년까지 암 라이브러리, 코호트 DB, 데이터 수집·가공 서비스를 구축할 방침이다.

 

먼저 암 라이브러리는 참여 의료기관이 가지고 있는 각각의 암 데이터에 대해 표준화된 항목 정의서를 마련한 후, 병원별 라이브러리 형태로 수집·제공하는 서비스다.

 

이를 위해 2025년까지 다빈도 10개 암종 데이터를 구축한 후, 각 병원의 데이터를 엣지 클라우드 형태로 구분·관리할 예정이다. 추후 필요에 따라 대외적으로 데이터 개방도 검토하고 있다.

 

또 암 진단 전·후 심층 연구와 장기 추적 연구를 위해 2025년까지 6개 암종의 코호트 DB도 구축된다. 국가암등록통계 기준 전체 암 환자의 20%에 해당하는 60만명의 데이터 구축이 목표다. 라이브러리 형태로 구축된 각 병원의 암 데이터와 공공기관에서 수집된 데이터를 기반으로 코호트 DB를 구축하고, 이를 국가암데이터센터에서 관리할 계획이다. 국가암데이터센터 지정은 진행 중에 있다.

 

필요 시 데이터를 수집, 가공, 결합해주는 데이터 서비스도 제공할 계획이다. 암 라이브러리와 코호트 DB가 정형화된 데이터인 만큼, 다양한 연구 설계와 목적에 따라 충분치 않을 수 있다는 판단에서다. 의료진·연구원은 활용 목적에 따라 위 세 가지 서비스를 이용할 수 있다.

 

아울러 데이터 활용 시 개인정보 오남용 문제가 발생하지 않도록 안심활용센터를 운영할 예정이다. 일정한 기준에 따라 인증함으로써 기준을 충족한 곳에서만 데이터를 활용할 수 있다는 게 복지부의 설명이다. 센터는 2022년부터 2025년까지 단계적으로 확대 지정된다.

 

방영식 보건의료데이터진흥과장은 “내년부터 본격적으로 K-Cancer 사업이 시작되면 네트워크 참여기관을 확정하고 데이터 표준화를 거쳐 사업을 진행할 예정”이라며 “2022년 말 또는 2023년도 시범사업을 진행하고, 대외적인 데이터 제공 서비스는 2023년부터 개시할 것”이라고 했다.

 

국립암센터 최귀선 암빅데이터센터장은 ´암 빅데이터 활용 인프라 구축 사업 현황´ 발표를 통해 국내 암 치료, 연구 등에서의 빅데이터 필요성에 대해 역설했다.

 

먼저 최귀선 암빅데이터센터장은 “우리나라는 보건의료 분야에서 다양한 정보가 잘 구축돼 있으며, 이러한 민간과 공공 데이터 가치는 2조원에 달한다”며 “그간 여러 장애물로 데이터 활용에 어려움이 있었지만, 개인정보보호법 개정에 이어 정부 차원에서 빅데이터 구축을 위한 정책을 개발해, 관련 연구나 사업이 활발하게 진행될 것”이라고 암 빅데이터 구축에 대한 기대를 드러냈다.

 

다만 ,그간 국내에선 보건의료 관련 빅데이터의 활용에 어려움이 있었음을 언급하며 암 빅데이터 구축 및 활용시에는 이러한 한계를 극복해야 한다고 피력했다.

 

최 암빅데이터센터장에 따르면, 좋은 빅데이터란 Volume(용량), Variety(다양성), Velocity(속도), Value(가치), Veracity(정확도) 등 5V를 충족해야 한다. 그러나 우리나라에서 기존에 구축한 빅데이터는 임상데이터의 표준화와 품질 검증이 부족했고, 결합 등을 통해 새로운 가치를 창출하거나, 통합적으로 활용하는 데도 어려움이 있었다고 최 센터장은 전했다. 또 수요가 높은 진료 정보와 유전 정보 빅데이터를 연계해 연구자에게 제공하는 방법도 과제였다고 했다.

 

최 센터장은 “올해 4월 발표된 4차 암종합관리계획의 핵심은 빅데이터를 집중 활용하자는 것”이라며, "이를 위해 ´암 통합 데이터 구축, 국가 암 데이터 센터 운영, 안전한 암 데이터 공유 및 활성화 등 3가지 전략이 필요하다”고 제안했다.

 

이어진 토론에서는 데이터 수집 시 환자 동의와 관련한 문제, 구체적인 수집 방법 등에 대한 문의가 이어졌다. 작년 개정된 개인정보보호법에 따르면 특정 개인을 식별할 수 없도록 처리한 가명정보는 본인 동의를 받지 않고도 통계 작성, 연구 등의 목적에 활용할 수 있다.

 

방영식 과장은 “K-Cancer 또는 암 임상데이터 네트워크 구축사업은 병원에 쌓인 데이터 활용이 주축이다. 가명처리 후 환자의 별도 동의 없이 빅데이터를 구축하는 방향으로 설계하고 있다. 하루에도 상당수의 환자들이 병원에 방문하고 있어 이들 모두에게 연구 목적의 활용을 동의 받기는 어렵다. 다만 유전체정보나 가명화하기 어려운 내용은 환자 동의를 기반으로 장기추적을 해야 한다”고 말했다.

 

이어 “최대한 자세히 데이터를 수집하면 좋겠지만 현장에서 불필요한 데이터 수집으로 운영에 어려움을 겪을 수 있으므로 균형을 잡아야 한다. 보통 연구에서는 전자의무기록(EMR)이나 임상 데이터 웨어하우스(CDW)에 저장돼 있는 정보를 가지고 2차적으로 데이터세트(Data set)를 구축한다. 초기에는 이러한 작업에 인력 투입이 필요하겠지만 궁극적으로는 EMR 등에 연구용 데이터를 자동으로 수집할 수 있는 환경이 마련돼야 할 것”이라고 했다.

 

최귀선 센터장은 “암센터의 커넥트(CONNECT) 플랫폼은 현재 10개 의료기관 소속 연구자와 공동 연구를 진행하는 경우에 활용할 수 있다. 작년 개인정보보호법이 개정에 이어 올해부터 암관리법이 시행돼, 향후 암센터가 국가데이터센터로 지정되면 그 동안 축적된 데이터를 활용할 수 있도록 공개하겠다. 보건의료 데이터 활용 가이드라인에 따라 전체 유전체(Whole genome)나 생식세포 돌연변이(Germ-line mutation)를 제외한 정보는 가명처리를 할 수 있으며, 안전한 유전체 정보 활용이 가능하다”고 했다.

 

이어 “암센터에서는 사람이 일일이 입력하지 않고 자동으로 EMR에서 추출, 적재, 변환하는 방식으로 데이터를 수집할 예정이다. 나아가 자연어 처리 기술을 도입해 기록지에 담긴 비정형화된 데이터 중 활용 가치가 높은 데이터를 구축하는 방법도 검토하고 있다”고 덧붙였다.

 

원문기사 : http://www.docdocdoc.co.kr/news/articleView.html?idxno=2011776