ⓒ데일리포스트=이미지 제공/Meta

ㅣ데일리포스트=김정은 기자ㅣ메타가 자체 개발한 인공지능(AI)으로 단백질 구조 6억 개 이상을 예측하는데 성공했다.

페이스북과 인스타그램을 운영하는 메타는 단백질 입체 구조를 예측하는 AI 언어모델 'ESM-2'를 사용해 6억 1700만종 이상의 메타게놈(Metagenome) 단백질 구조를 예측한 데이터베이스인 'ESM 메타게놈 아틀라스(ESM Metagenomic Atlas)'를 공개했다. 연구결과는 논문 사전공개 사이트 '바이오 아카이브'에 게재됐다. 

생물을 구성하는 단백질 정보는 생물학과 의학 연구에서 매우 중요하지만, 인류가 단백질에 대해 아는 정보는 일부에 불과하다. 단백질 염기서열이 접혀서 만드는 3차원 구조를 풀어내는 단백질 폴딩 문제는 연구자들에게 매우 까다로운 과제이기 때문이다. 이러한 단백질 폴딩 문제에 대처하는 방법으로 최근 AI를 이용한 단백질 입체 구조 예측 시도가 큰 주목을 받고 있다. 

ⓒ데일리포스트=이미지 제공/Meta

알파벳 산하 AI 연구소 구글 딥마인드가 개발한 단백질 구조 예측 AI '알파폴드(AlphaFold)'는 단시간에 저렴한 비용으로 실험적 기법과 동등한 정확도로 단백질 입체구조의 예측에 성공했다. 알파폴드는 2021년 7월 오픈소스로 공개돼 생물학 지평을 확장시켰다는 평가를 받고 있다. 또 2022년 7월에는 알파폴드가 예측한 2억 개 이상의 단백질 입체 구조가 검색 가능한 데이터베이스 형태로 공개됐다. 

이런 가운데 메타 AI 연구팀은 알파폴드를 크게 능가하는 6억 1700만종 이상의 박테리아·바이러스·미생물 단백질 구조를 예측한 데이터베이스 'ESM 메타게놈 아틀라스'를 공개했다.  

메타게놈은 1998년 조 핸델스만(Jo Handelsman)가 ‘주어진 환경에 존재하는 모든 미생물의 유전체의 집합’으로 정의한 바 있다. 그러나 대략 1% 미만의 극히 일부만 보통의 실험실 조건에서 배양할 수 있어 순수배양기술만으로 얻어지는 미생물 종류는 극히 제한돼 있다. 

이러한 한계를 극복하고 자연계 대다수의 미생물 유전 자원을 연구하고자 하는 필요성에 의해 미생물의 순수 분리 및 배양 단계에 의존하지 않고 시료에서 직접 DNA를 추출하여 혼합된 DNA를 분석하는 메타게노믹스(metagenomics)란 연구 분야가 등장했다. 

연구팀은 "우리가 아는 한 'ESM 메타게놈 아틀라스'는 고해상도 예측 단백질 구조를 모은 가장 큰 데이터베이스이자 메타게놈 단백질을 포괄적이고 대규모로 지원하는 최초의 데이터베이스이기도 하다. 이러한 단백질 구조는 자연계 다양성에 대한 전례 없는 시각과 새로운 과학적 통찰력을 제공해 의료·자연화학·환경응용·재생에너지 등 폭넓은 분야에서 실용화되는 단백질 발견을 가속화할 가능성을 내포하고 있다"고 강조했다. 

ⓒ데일리포스트=이미지 제공/Meta

메타의 단백질 구조 예측 AI는 'ESM 폴드(ESMFold)'로 불리며 단백질을 구성하는 원자나 분자를 언어로 해석해 학습 데이터에서 입체 구조를 예측하는 모델이다. 연구팀은 이 모델을 확장해 150억 개 파라미터를 가진 ESM-2를 개발했다. 

ESM-2는 지금까지 개발된 가장 광범위한 '단백질 언어 모델'이다. 연구팀에 따르면 ESM-2는 'ESM 메타게놈 아틀라스'에 포함된 6억개 이상의 단백질 입체 구조를 약 2000개의 GPU를 사용해 불과 2주 만에 예측했다. 

알렉산더 라이브스(Alexander Rives) 메타 AI 단백질팀 리더는 "ESM-2 예측 정확도는 아직 알파폴드에 미치지 못하지만, 구조 예측 속도는 60배에 달한다"며 "이는 구조 예측을 훨씬 큰 데이터베이스로 확장할 수 있다는 것을 의미한다"고 언급했다. 
 

저작권자 © 데일리포스트 무단전재 및 재배포 금지