[자연과학] 생태 과학 칼럼 모음

[21세기 과학의 최전선, 궁극의 질문들] (20) 수개월 걸린 ‘단백질 구조’ 실험.. AI는 서열정보만으로 단박에 예측

푸레택 2022. 4. 28. 14:05

<21세기 과학의 최전선, 궁극의 질문들>수개월 걸린 '단백질 구조' 실험.. AI는 서열정보만으로 단박에 예측 (daum.net)

 

<21세기 과학의 최전선, 궁극의 질문들>수개월 걸린 '단백질 구조' 실험.. AI는 서열정보만으로 단

■ (20) 과학은 꼭 인간의 것일까? 인공지능의 역할은? <마지막회>딥마인드社 알파폴드, 단백질 예측 대회서 1등 … 코로나 구조 분석 활용 백신개발 공헌AI기술의 과학자 대체 신호탄 … 직접 가

news.v.daum.net

일러스트 = 이미영 작가

[21세기 과학의 최전선, 궁극의 질문들] 수개월 걸린 ‘단백질 구조’ 실험.. AI는 서열정보만으로 단박에 예측

■ (20) 과학은 꼭 인간의 것일까? 인공지능의 역할은? <마지막회>

딥마인드社 알파폴드, 단백질 예측 대회서 1등.. 코로나 구조 분석 활용 백신개발 공헌
AI기술의 과학자 대체 신호탄.. 직접 가설 만들고 문제인식, 또 한번의 ‘혁명’ 필요
과학 성과도 AI 인프라에 좌우.. 공공영역서 해결못하면 연구 양극화

지난 11월 말 유명한 생명 공학 대회인 CASP14의 결과가 공개됐다. 단백질 구조 예측과 관련해 가장 유명한 대회다. 2019년 알파고로 유명한 딥마인드 사의 단백질 구조 예측 인공지능(AI) 알파폴드(AlphaFold)가 기라성 같은 연구 그룹들을 제치고 1등을 기록한 바 있기 때문에 2020년 버전인 알파폴드2 역시 좋은 성적을 낼 것으로는 여겨졌는데, 결과는 예상했던 것보다 훨씬 충격적이었다.

2위를 기록한, 미국 생화학자 데이비드 베이커(David Baker) 워싱턴대 교수가 이끄는 베이커 그룹과 3배라는 엄청난 점수 차이를 기록했을 뿐 아니라, 그 성능을 질적으로 평가하더라도 현재까지의 단백질 구조 연구 전체를 송두리째 바꾸어 놓을 것이라는 이야기가 나올 정도로 압도적인 성능을 보여 주었다.

알파폴드2는 CASP14에서 출제된 110개의 단백질 구조 예측 문제 중에서 90% 이상을 단지 서열 정보만 가지고 해결했다. 단백질 구조를 실험과 거의 동일한 수준으로 예측한 것이다. 달리 말하면 AI 알고리듬과 유전자 서열 정보에 적절한 컴퓨터만 있으면 전자 현미경이나 NMR, 엑스선 결정 분석 장비 같은 고가의 장비나 숙련된 분석 화학자 없이도 단백질 관련 연구의 거의 대부분을 수행할 수 있다는 것이다.

인류 입장에서 본다면 엄청난 축복일지도 모른다. 수개월에 달하는 실험을 통해 간신히 알아낼 수 있었던 단백질 구조를 이렇게 쉽게 알아낸다는 것은 신약 개발에 들어가는 엄청난 인력과 예산을 획기적으로 줄일 수 있기 때문이다. 현재까지 단백질의 아미노산 서열은 1억 개 정도 알려져 있는데, 이중에서 구조가 알려진 것은 10만 개가 되지 않는다. 우리가 대처할 수 없었던 미지의 영역에 있는 단백질들이 전체의 99.9%가 넘었던 것이다. 이들의 구조를 빠른 시일 내에 알아낼 수 있다면 단백질 구조 연구가 지지부진해 진척되지 않았던 신약 개발이나 질병 기전 관련 연구는 크게 발전할 것이다. 이미 알파폴드는 코로나바이러스의 구조 분석 연구에 활용돼 치료법과 백신 등의 개발에 간접적으로 큰 공헌을 한 바 있다. 이런 기술이 발전한다면 앞으로 새로운 바이러스가 나타나더라도, 어떻게 질병을 일으키는지 더욱 빠르게 파악하고 그에 따른 대처 방법이나 치료제 또는 백신을 개발하는 데 큰 도움을 받을 것이다.

그렇지만 이런 AI 기술의 약진은 인간 과학자들에게는 엄청난 충격을 주는 소식이기도 하다. 오랜 세월 익힌 연구 기술이나 쌓은 업적이 더 이상 아무도 찾지 않고, 아무도 알아주지 않는 것으로 변해 버릴지 모르기 때문이다.

조금 다른 사례를 알아보자. 지난 1월 말 ‘와이어드’에 ‘우한(武漢) 바이러스에 대해 첫 경고를 보낸 AI 전염병 학자’라는 기사가 실렸다. 캐나다의 블루닷(BlueDot) 사가 AI를 이용해 우한의 코로나바이러스가 매우 빨리 퍼질 가능성을 알아내고 이에 대해 일찍부터 미국 질병통제예방센터(CDC)와 다른 회사들에 경고했다는 것이 기사의 요지였다.

이 회사의 CEO는 토론토대에서 감염 의학을 전공한 캄란 칸(Kamran Khan) 박사로 이미 수년 전 지카 바이러스의 국제적 확산을 예측하는 논문으로 스타덤에 오른 바 있다. 이들이 활용한 예측 방법을 살펴보면, 국제항공운송협회(IATA) 자료의 도움을 받아 전 세계 여행자의 움직임을 파악하고 분석하는 한편, 동시에 글로벌 인구 데이터세트인 랜드스캔(LandScan)의 인구 데이터를 이용해 지카 바이러스가 어떻게 확산됐는지 예측했다. 표적이 되는 감염병, 전 세계 이동데이터, 동물 전염병 뉴스, 실시간 기후 등과 관련한 다양한 데이터를 이용했다. 특정 감염병에 대한 자동 감시 시스템을 갖추고 위험을 알려주는 플랫폼과 맞춤형 감염병 위험 평가를 위한 탐색기 플랫폼도 같이 제공한다.

이런 AI 기술 플랫폼을 활용하면, 우한에서 독감 증상을 보이는 환자가 늘고 있다는 소식을 중국어로 수집하고, 우한에서 나온 항공사 데이터를 합치면 독감이 확산되는 정도를 알 수 있다. 실제로 코로나바이러스의 경우, 블루닷은 이 기술을 이용해 미국이나 중국 질병관리본부, 세계보건기구(WHO) 등 공식적인 기관들보다 일주일 정도 빨리 바이러스가 퍼지는 것을 감지해 경고할 수 있었다고 한다. 이런 연구를 디지털 역학(digital epidemiology)이라고 하는데, 과거 사람과 장소, 시간을 중심으로 데이터를 수집하고, 인과 관계와 상관성 등을 다양한 방식으로 추정해 질병 자체의 발생과 확산을 알아내는 전통적 사회 과학 기법을 활용한 역학 연구가 이제는 막대한 데이터를 바탕으로 한 AI 기술로 완전히 혁신되기 시작한 것이다.

알파폴드와 블루닷이라는 서로 다른 분야의 두 사례는 과학에서 AI 기술이 이미 상당 부분 과학자들이 해 왔던 활동이나 역할을 대체하기 시작했다는 신호탄이라고 할 수 있다. 특히 막대한 시간이 들어가는 반복적인 작업이 필요한 실험 연구나, 방대한 데이터를 수집하고 이를 바탕으로 가설을 검증하고 정리하는 전통적인 과학자들의 작업은 현재의 AI 기술을 적절하게 응용하기만 하더라도 커다란 혁신을 가져올 수 있다는 것이 이미 속속들이 증명되고 있다.

여기서 더 나아가면 AI가 직접 가설도 만들고 문제도 인식하며 자가 프로그래밍도 하면서 과학 연구의 본질에 인간보다 더 가까이 다가가는 미래를 이야기할 수도 있겠지만, 현재 AI 개발 단계를 고려할 때 현재의 딥러닝이라는 AI 기술의 한계를 뛰어넘는 또 한 번의 혁명적 변화가 있어야 하기 때문에 논외로 하겠다.

그렇지만 현재까지 AI가 과학 연구에 도입돼 달성한 성과만 가지고서도 근미래의 과학자와 AI의 관계에 대해서는 다시 생각해 볼 시기가 됐다. 알파폴드와 같은 기술이 대중화돼 사용된다면, 분석 실험을 주로 하는 과학자들의 일은 없어질까? 아니면 더 고도화될까? 아마도 두 가지 가능성이 모두 공존하게 될 것이다. 분석 실험을 굳이 할 필요가 없는 경우와 꼭 필요한 경우로 나뉘게 될 것이고, 상당 부분은 AI가 처리하겠지만, AI도 어려워하는 경우 AI의 결과를 바탕으로 더 나은 분석 실험 방법을 고안하거나 실험 방식을 바꿔서 과거에 알지 못했던 것을 더 잘 알게 될 것이다.

블루닷과 같은 AI 플랫폼이나 도구가 발전하면 전통적인 역학 연구를 하는 과학자들의 일자리는 사라지게 될까, 아니면 더욱 연구할 것이 많아질까? 이 역시도 비슷한 결론을 내릴 수 있다.

AI는 과거에 비해 엄청난 효율로 데이터를 분석하고 많은 답을 주겠지만, 이 결과를 바탕으로 과거에는 하지 못했던 또 다른 차원의 연구를 진행하거나 추가적인 데이터 수집을 하는 등의 역할 변화가 일어날 수 있고, 해당 분야의 성과로 인한 사회적 기여도가 올라간다면 더 많은 사람이 해당 분야의 과학자가 될 수도 있을 것이다.

두 경우 모두 과학자들에게 과거에는 없었던 노력을 요구한다. 바로 AI를 잘 이해하고 활용할 수 있는 능력, 그리고 문제를 파악하고, 가설을 세우는 능력과 같이 AI가 잘하지 못하는 능력의 중요성이 더욱 올라가면서 과학자들이 기본적으로 연마하고 알아야 하는 기술의 우선 순위와 목록이 달라질 것이다.

공공 영역에서도 이런 변화를 수용하기 위해 준비해야 하는 것들이 있다. 2019년 알파폴드가 이미 상당한 성공을 거두고 소스코드도 논문과 함께 공개되자 2020년 CASP14 대회 참가자들의 상당수가 딥러닝을 이용해 비슷한 접근을 했지만, 모두가 알파폴드2의 상대가 되지 못했다. 그 원인으로 AI 기술의 전문성이나 경험 등에 대한 차이도 있겠지만, 막대한 컴퓨팅 자원의 지원을 받는 딥마인드 사의 연구 인프라도 무시할 수 없다. 이는 결국 과학 연구의 성과도 AI 인프라에 좌우될 수 있다는 뜻이다. 공공 영역에서 AI 인프라에 대한 접근성 문제를 해결해 주지 못한다면 과학자들도 극심한 빈익빈 부익부, 즉 연구의 양극화를 겪을 것이다. 그러므로 과학자들이 AI와 함께 연구하는 것이 더 확산되리라는 새로운 연구 패러다임을 전제로 과학자들 자신도 변신을 도모하고, 국가와 공공 영역에서도 이런 변화를 지원할 수 있는 체계를 잘 만들어 나가야 할 것이다.

정지훈 모두의연구소 최고비전책임자ㅣ문화일보

■ 용어설명

딥 러닝(deep learning) = 인공지능(artificial intelligence·AI), 머신 러닝(machine learning), 딥 러닝은 혼용되면서 많은 사람을 헷갈리게 한다. AI에는 머신 러닝 외에도 추론이나 AI 플래닝, 기호주의 AI 기술 등 다양한 기술들이 존재한다. AI의 한 지류라고 할 수 있는 머신 러닝은 다시 지도 학습, 비지도 학습, 강화 학습 등 용도와 방식에 따라 다양한 종류가 존재한다. 그중에 인공 신경망 기술을 이용한 머신 러닝 기술이 있는데, 딥 러닝은 그 학습 신경망의 깊이가 깊어서 deep이라는 단어가 붙었다.

알파폴드(AlphaFold) :== 이세돌 9단과의 대국으로 유명한 알파고(AlphaGo)를 만든 딥마인드 사에서 단백질 구조 예측을 위해 개발한 AI 기술이다. AI를 단백질이 3차원(D) 구조로 접혀 생성되는 메커니즘을 예측할 수 있도록 신경망을 훈련시켰다는 것과 연속되는 아미노산 쌍들이 3D로 접히는 구조에서 나타나는 각도를 예측할 수 있도록 학습시켰다는 점에서 단백질의 접힘을 의미하는 폴드(fold)와 알파고의 알파를 결합해 이름을 지었다.

/ 2022.04.28 옮겨 적음