©데일리포스트=이미지 제공 / DB 편집
©데일리포스트=이미지 제공 / DB 편집

|데일리포스트=송협 선임기자| “이미지 캡셔닝은 AI(인공지능)가 얼마나 인간의 지능에 가까워졌는지 보여주는 하나의 척도이며 무엇보다 세계 최초로 제로샷 이미지 캡셔닝 대회와 워크샵을 진행하는 것은 국내 AI 역량이 이미 세계적인 수준에 도달했다는 것을 의미합니다.” (이경무 서울대 AI대학원 석좌교수)

인간과 AI(인공지능)가 일상처럼 어우러지는 미래 사회는 얼마나 진화된 혁신 기술의 집합체일까? 일정 분야를 중심으로 한 학습을 통해 제한된 기능을 보이는 초보적 수준의 AI(인공지능)는 다가올 미래 사회에서는 인간의 지능과 유사할 능력을 보유하게 될 것이다.

#제로샷 이미지 캡셔닝이 공개되면서 글로벌 AI 석학들의 관심이 고조되고 있다. 인공지능이 마치 사람의 시각 인지 능력을 가진 것처럼 처음 본 사물 또는 동물, 풍경이 포함된 이미지를 봤거나 일러스트레이션, 그래픽 등 표현 방식이 다른 이미지를 볼 경우 기존 학습한 데이터를 기반으로 스스로 이해하고 유추한 결과를 텍스트로 설명하는 기술이다.

제로샷 이미지 캡셔닝 기술이 고도화되면 이미지 인식 AI 기술 정확성과 공정성이 향상되고 사람들의 실생활에 도움을 줄 수 있는 기술 개발로 이어질 것으로 기대된다.

LG 관계자는 “예컨대 하루에도 방대한 분량의 이미지 데이터가 온라인상에 올라오고 있는데 AI가 자동으로 캡션과 키워드를 생성, 검색의 편의성과 정확도 향상은 물론 의학 전문 데이터를 추가 학습할 경우 의학 영상을 분석하는 이른바 ‘의학 전문 AI’로 활용할 수 있다.”고 설명했다.

LG의 초거대 멀티모달 AI 엑사원이 생성한 캡션 예시 / LG 제공
LG의 초거대 멀티모달 AI 엑사원이 생성한 캡션 예시 / LG 제공

이처럼 보다 진화되고 인간의 지능과 견줄 수 있는 기능이 함축된 제로샷 이미지 캡셔닝을 주제로 LG AI연구원이 1일부터 오는 4월 말까지 온라인을 통해 전 세계 AI 연구자들을 대상으로 ‘LG 글로벌 AI 챌린지’를 개최한다.

LG AI연구원은 공동연구센터를 설립해 초거대 멀티모달 AI인 ‘엑사원(EXAONE)’을 연구 중인 서울대학교 AI대학원과 이미지 캡셔닝 AI 상용화 서비스를 공동 준비하고 있는 ‘셔터스 톡’과 함께 이번 경진 대회를 진행한다.

LG는 사람의 시각 인지 능력에 가까운 제로샷 이미지 캡셔닝이 이미지를 텍스트로 표현하고 텍스트를 이미지로 시각화할 수 있는 초거대 멀티모달 AI인 ‘엑사원’ 기술 개발 생태계에 기여할 것으로 기대하고 있다.

LG AI연구원은 오는 6월 캐나바 밴쿠버에서 개최하는 컴퓨터 비전 분야 세계 최고 권위 학회 ‘CVPR 2023’에서 제로샷 이미지 캡셔닝 평가의 새로운 개척자들을 주제로 워크샵을 진행할 예정이다. 아울러 구글, 마이크로소프트에서 AI 연구를 진행하고 있는 산업계 전문가는 물론 글로벌 석학들과 함께 이미지 캡셔닝 기술 연구 방향성과 확장성, AI 윤리 문제에 대해 논의할 계획이다.

김승환 LG AI연구원 비전랩장은 “LG AI연구원은 현재 생성형 AI뿐 아니라 객체를 인식하는 기술 수준을 넘어 인간 수준으로 영상까지 이해하는 AI로 퀀텀 점프할 수 있는 가능성을 확인했다.”며 “이번 대회를 통해 전 세계 AI 연구자들과 함께 연구 의의와 필요성, 확장 가능성을 논의하는 장을 만들고자 한다.”고 강조했다.

저작권자 © 데일리포스트 무단전재 및 재배포 금지