과학기술자의 소프트웨어/데이터 역량 없이 과학기술의 발전 기대할 수 없다.

한국 R 사용자회와 카펜트리 재단이 대전에서 무료 워크샵 실시

검토 완료

이광춘(tidyverse)등록 2022.08.15 17:14
세계은행(World Bank)과 한국개발연구원(KDI)은 약 2년여 기간의 공동연구를 통해 1960-2005 년간 한국 경제발전 과정에 관한 보고서를 출간했다. 1960년대 비슷한 환경에 있었던 나라를 대상으로 유독 한국의 경제발전이 눈부신 이유를 찾고자 했다. 경제성장이 지속되기 위해서는 생산성 증가가 대단히 중요한데 이를 노동, 자본, 지식으로 나눠 기여분을 살펴보면, 한국경제의 성공은 광의의 지식축적에 기인한 것으로 1960-2005년 사이 한국의 실질 1인당 GDP의 대략 4분의 3정도가 광의의 지식축적에 기인한 것으로 분석했다.
한국전쟁이후 폐허가 된 상태에서 자본이 부족하여 원조에 의존했던 한국경제와 원유를 비롯한 경제발전에 필요한 천연자원이 절대 부족한 대한민국이 현재와 같은 고도 경제성장을 이룬 것은 인적자원에 기인한 것으로 필연적으로 과학기술로 대표되는 지식의 축적이 큰 기여를 한 것은 어찌보면 당연하다. 

 

대한민국1인당 GDP 증가세 멕시코와 비교. 출처: Joonghae Suh Derek H. C. Chen (2007), "Korea as a Knowledge Economy Evolutionary Process and Lessons Learned", WBI DEVELOPMENT STUDIES ⓒ 이광춘

 
과학기술의 재현성은 과학기술의 근간을 떠받치는 중요한 요소다. 하지만 2010년 전후로 과학기술 재현성에 의문이 제기되면서 재현성 위기(reproducibility crisis)가 학계를 중심으로 널리 인식되기 시작했다. 이와 비슷한 시기에 과학기술의 패러다임도 기존 계산 과학 중심에서 데이터 집약 과학으로 넘어가며 과학기술에 있어 소프트웨어 뿐만 아니라 데이터에 대한 중요성도 날이 갈수록 강조되고 있다. 수천년 전에 실증과학이 과학계를 주도했다면 르네상스 이후 수학의 발전으로 이론과학이 전성기를 구가했지만 1950년대 이후 컴퓨터가 과학기술에 널리 활용되면서 계산과학이 대세로 떠올랐고 2000년 이후 꾸준히 축적되고 있는 빅데이터를 활용하여 눈부신 과학기술의 발전을 이루고 있는 데이터 집약 과학이 현재는 대세를 이루고 있다.
 

과학기술 패러다임 변화 ⓒ 이광춘

 
암젠에 근무했던 한 과학자가 2012년 네이쳐에 기고한 보고서에서 기념비적 암생물학 연구결과물을 대상으로 재현실험을 진행한 결과 53건 중 6건만 재현할 수 있었다고 밝혔다. 이와 같은 사례는 비단 의학계에 한정된 것은 아니고 심리학, 생물학, 물리학 등 과학계 전반에 만연한 것이 사실이다.
과학기술 저작물의 재현성 문제는 과학에 대한 신뢰는 차치하고 과학기술연구에 대한 재정지원 감축과 중단은 물론 재현성이 담보되지 않는 과학기술을 바탕으로 이어지는 후속 연구에 역량과 자원이 낭비되는 더욱 심각한 문제가 있다.
2016년 네이처에서 연구 재현성에 대해 과학연구자 1,576 명을 대상으로 온라인 설문조사를 진행했다. 대략 90%의 과학연구자들이 재현성위기가 심각하거나 문제가 되고 있다고 응답을 하였으며 분야는 심리학, 생물학, 약학, 환경/지구과학, 물리학/공학 등 거의 모든 과학기술 전분야가 연관되어 있다. 이에 대한 대응책으로 통계학에 대한 이해 증진, 재현성에 대한 인센티브 확대와 교육에 대한 부분도 재현가능한 과학연구를 위한 대안으로 함께 제시했다.

 

2012년 이후 재현성 위기 극복을 위한 소프트웨어, 데이터, 도서관 카펜트리 워크샵 ⓒ 이광춘

 
소프트웨어 카펜트리에서 시작된 다양한 카펜트리 워크샵 미션은 좀더 생산적으로 연구를 수행하기 위해서 과학, 공학, 의학 분야의 지식근로자에게 과학 컴퓨팅(scientific computing) 기본적인 기술을 전파한다. 종종 과학기술분야 종사자분들이 상당한 시간을 소프트웨어 개발에 씨름하면서 보내지만, 대부분의 프로그래머는 거의 혼자서 독한한다. 결과로, 몇분이면 끝날 작업에 수시간을 소비하고, 예를 들면, 바퀴를 다시 발명하는 것처럼 다시 작성할 필요가 없는데 시간을 낭비하고, 여전히 개발한 산출물에 신빙성을 담보할 수 없다. 이 문제를 정면으로 다루기 위해서, 카펜트리 활동은 전세계 수백개 거점에서 2일간 실습위주 워크샵을 진행했다. 단, 2일간 실습위주(hands-on) 워크숍 교육을 통해서 프로그램 설계, 버젼 제어, 데이터 관리, 작업 자동화를 포함한 기본 개념과 도구를 실습위주로 학습을 함으로써 재현성위기를 돌파할 수 있는 기본기를 과학기술 연구자들이 습득하게 된다.

대전 한밭대에서 5년만에 다시 재개되는 오픈 데이터 카펜트리 워크샵이 재현성 위기로 어려움을 겪고 있는 실질적인 활동으로 뿌리내려 한국 과학기술계에 새로운 도약을 위한 마중물이 되었으면 합니다.


 
덧붙이는 글 대전 한밭대학교에서 열리는 데이터 카펜트리 워크샵은 카펜트리 재단으로부터 자격증을 취득한 글로벌 공인강사가 카펜트리 재단의 심사를 거쳐 열리며, 대전과학문화거점센터의 민간분야 과학문화활동 지원사업을 후원을 받아 동시 진행됩니다. 데이터 카펜트리 관련 정보는 http://aispiration.com/swcarpentry-version-5-3-new/ 웹사이트와 참여신청은 http://aispiration.com/2022-08-18-hanbat/ 에서 가능합니다.
  • 이 기사는 생나무글입니다
  • 생나무글이란 시민기자가 송고한 글 중에서 정식기사로 채택되지 않은 글입니다.
  • 생나무글에 대한 모든 책임은 글쓴이에게 있습니다.