[자연과학] 생태 과학 칼럼 모음

[김병필의 인공지능개척시대] 인공지능의 공부머리와 일머리

푸레택 2022. 6. 14. 13:41

[김병필의 인공지능개척시대] 인공지능의 공부머리와 일머리 (daum.net)

 

[김병필의 인공지능개척시대] 인공지능의 공부머리와 일머리

시험을 잘 보려면 어떻게 해야 할까? 공부에는 왕도가 없다지만 시험을 잘 보는 데는 왕도가 있다. 그저 문제를 많이 풀어보면 된다. 시험 출제자들도 한계가 있는지라 이제까지 출제된 문제와

news.v.daum.net

스스로 진화하는 '자기지도 학습'
AI 한계 극복의 돌파구로 주목
현행 법제로는 대응키 어려워
새 흐름에 맞는 제도 모색할 때

시험을 잘 보려면 어떻게 해야 할까? 공부에는 왕도가 없다지만 시험을 잘 보는 데는 왕도가 있다. 그저 문제를 많이 풀어보면 된다. 시험 출제자들도 한계가 있는지라 이제까지 출제된 문제와 크게 다른 문제는 내기 어렵기 때문이다. 문제를 반복해서 풀다 보면 시험을 잘 볼 수 있다. 그래서 ‘공부 머리와 일 머리는 다르다’는 말을 종종 한다. 시험 점수가 좋다고 반드시 일을 잘하는 것은 아니라는 게다. 물론 시험 성적도 좋고 일도 잘하는 사람도 많다. 하지만 정형화된 시험 문제만으로는 사람의 모든 능력을 평가하기 어렵다.

인공지능 연구자들도 마찬가지 문제로 고민한다. 현재 주류적인 인공지능은 정답이 정해진 시험 문제를 푸는 방식으로 학습한다. 예컨대 신호등을 인식하는 인공지능을 학습시키려면 신호등 사진과 신호등이 아닌 사진을 준비해야 한다. 그리고 사람이 신호등 사진은 무엇이고, 그 중 어느 부분이 신호등인지 표시해야 한다. 정답을 정해주는 것이다. 그러면 인공지능은 신호등 사진이 무엇이고, 어느 부분이 신호등인지를 찾는 문제를 반복해서 푼다. 이렇게 인간은 시험 출제자가 되고, 인공지능은 문제를 풀면서 배우는 학생이 된다.

이러한 학습 방식의 문제점은 인공지능이 시험 정답만 기억하면 높은 점수를 얻을 수 있다는 것이다. 그러면 시험 점수는 높더라도 현실에서는 잘 작동하지 않을 수 있다. 이를 두고 인공지능이 ‘과적합’되었다고 표현한다. 과적합된 인공지능은 신호등을 보는 각도에 차이가 있거나 날씨가 달라지면 신호등을 잘 인식하지 못한다. 학습 데이터에 포함된 무관한 특징을 잘못 학습할 수도 있다. 늑대 사진과 개 사진을 구분하는 인공지능 사례가 유명하다. 이 인공지능은 사진 배경에 눈이 쌓여 있으면 개를 늑대라 잘못 인식했다. 학습 데이터 중 늑대 사진에는 유달리 배경에 눈이 있는 경우가 많았기 때문이다.

이 문제를 해결하려면 인공지능이 ‘일반화’를 할 수 있어야 한다. 일반화란 정답만 달달 외우는 것이 아니라 원리를 이해하는 능력이다. 인공지능에서 일반화가 잘 되려면 우선 학습 데이터가 풍부해야 한다. 시험공부를 잘하려면 여러 문제집을 사야 하는 것과 비슷하다. 문제는 돈이다. 수만 건, 수십 만의 학습 데이터에 인간이 일일이 정답을 달려면 인건비가 많이 소요된다. 정부에서 추진하는 ‘데이터 바우처 지원사업’은 이러한 비용을 지원하는 사업이다. 그래서 인공지능 학습이야말로 ‘노동 집약적’ 산업이라는 자조 섞인 이야기도 있다.

최근 사람이 일일이 학습 데이터에 정답을 붙이지 않더라도 인공지능이 스스로 학습할 수 있게 하는 방법에 관한 연구가 활발하다. 특히 주목받고 있는 방법은 인공지능이 스스로 문제를 만들고 그 문제를 풀면서 학습하게 하는 것이다. 이러한 학습 기법을 ‘자기지도 학습(self-supervised learning)’이라 부른다. 기존 인공지능 학습 방식에서 가장 큰 병목을 낳는 부분은 사람이 일일이 문제를 내고 정답을 정해주는 단계였다. 자기지도 학습은 이 문제를 해결하고자 한다. 2018년 컴퓨터 과학계의 노벨상이라 불리는 튜링상을 수상한 얀 르쿤 교수는 자기지도 학습이 인간 수준의 인공지능을 달성하기 위한 유망한 방법 중 하나라 설파하였다.

자기지도 학습 방식은 종전보다 훨씬 더 방대한 데이터를 학습에 사용한다. 인간이 정답을 정해주지 않아도 되는 만큼, 더 많은 데이터를 인공지능에 제공함으로써 성능 향상을 꾀할 수 있기 때문이다. 그 결과 인공지능 학습에 사용되는 데이터 분량이 수천만, 수억 건 이상에 이를 수 있다.

문제는 현행 개인정보 보호 법제로는 이러한 상황에 적절히 대처하기 쉽지 않다는 점이다. 현행 제도는 인공지능 학습 데이터에 개인정보가 일부라도 포함되어 있으면 해당 개인의 동의를 얻도록 요구한다. 하지만 자기지도 학습에 사용되는 방대한 데이터에 개인정보가 포함되어 있는지 확인하기도 어렵고, 개인정보가 포함되어 있더라도 개인으로부터 건건이 이용 동의를 받기도 어렵다. 게다가 형식적으로나마 일단 동의를 얻고 나면 인공지능 개발사가 마음대로 개인정보를 활용하게 하는 것도 적절치 못하다.

맥락과 상황에 맞추어 개인정보 보호의 필요성과 인공지능 학습 장려의 중요성을 저울질하는 묘안이 필요하다. 자기지도 학습의 새로운 흐름에 조응하는 개인정보 보호 법제를 모색할 때다.

김병필 KAIST 기술경영학부 교수ㅣ중앙일보 2021.03.22

/ 2022.06.14 옮겨 적음