[자연과학] 생태 과학 칼럼 모음

[김병필의 인공지능 개척시대] 인공지능 학습 데이터 전쟁

푸레택 2022. 6. 4. 15:49

[김병필의 인공지능 개척시대] 인공지능 학습 데이터 전쟁 (daum.net)

 

[김병필의 인공지능 개척시대] 인공지능 학습 데이터 전쟁

최근 인공지능 발전의 주요한 흐름으로 인공신경망의 ‘대용량화’를 손꼽을 수 있다. 지난 10월 마이크로소프트와 엔비디아 사는 5300억 개의 파라미터를 갖춘 초대규모 자연어 생성 인공지능

news.v.daum.net

최근 인공지능 발전의 주요한 흐름으로 인공신경망의 ‘대용량화’를 손꼽을 수 있다. 지난 10월 마이크로소프트와 엔비디아 사는 5300억 개의 파라미터를 갖춘 초대규모 자연어 생성 인공지능을 발표했다. 기존 유사 인공지능의 용량을 3배 이상 키운 것이다. 국내에서도 다수 대기업이 앞다투어 대규모 한국어 처리 인공지능을 개발하여 성과를 내고 있다. 이처럼 인공지능의 대규모화가 진행되면서 인공지능 프로젝트의 규모도 커지고 있다. 종래에는 연구자의 아이디어나 기술력이 중요했지만 이제 얼마나 많은 자원을 투입할 수 있는가를 두고서도 경쟁하는 양상이다.

인공지능 경쟁이 격화되면서 새로운 전장(戰場)으로 떠오르는 것이 바로 인공지능 학습 데이터 확보 문제이다. 대규모 인공지능을 학습시키기 위해 수백 기가바이트(GB)가 넘는 데이터가 사용되는 일도 빈번하다. 얼마나 질 좋은 학습 데이터를 확보하는지에 따라 인공지능 성능이 크게 좌우되기도 한다. 그래서 이미 방대한 학습 데이터를 확보한 선행 사업자들은 신규 진입자들의 데이터 확보를 막기 위해 애쓴다.

 

점차 대규모화 하는 인공지능
학습데이터 확보가 성능 좌우
후발업자, 데이터확보 가능하게
AI 혁신 위한 법 제도 모색해야

이러한 다툼은 소송으로도 이어지고 있다. 링크드인(LinkedIn)과 hiQ 사 간의 분쟁이 대표적이다. 링크드인은 가입자가 6억 명이 넘는 세계적인 구인·구직 플랫폼이다. 마이크로소프트가 2016년 약 30조 원에 인수했다. 많은 이들이 링크드인에 자신의 이력 정보를 업로드하고 새로운 일자리를 찾는다. 수천만 곳이 넘는 기업이 직원 채용을 위해 링크드인 서비스를 사용한다. 링크드인은 그야말로 채용 관련 데이터의 보고(寶庫)라 할 수 있다.

인공지능 개척시대

미국 스타트업 hiQ는 채용 정보분석 인공지능 학습을 위해 링크드인 데이터를 대량으로 내려받아 사용해 왔다. 그러자 링크드인은 hiQ의 접속을 차단했다. 이용자가 허용한 개인정보 사용 범위는 자신의 지인이나 구인 기업이 채용과 관련하여 활용하는 것인데, 그 범위를 초과했다는 것이다. hiQ의 주장은 정반대다. 그저 웹사이트에 공개된 이력 정보를 사용한 것이니 문제될 것이 없다는 것이다. 양사의 분쟁은 법정으로 이어졌다.

2019년 미국 연방항소법원은 hiQ의 손을 들어주었다. 후발 사업자가 자유롭게 데이터를 확보해서 경쟁할 수 있도록 허용해야 한다는 취지였다. 그러나 올해 여름 미국 연방대법원은 사건을 파기 환송했다. hiQ가 링크드인의 서비스 이용 약관을 위반한 것이 위법한지 여부를 재심리하라는 것이다. 이 사건의 쟁점은 복잡하고 다면적이다. 링크드인은 이용자의 사생활을 보호하고 개인정보 통제권을 보장할 필요성을 내세운다. 후발 사업자의 무임승차를 제한해야 이용자에게 득이 된다고 한다. 반대로 hiQ는 경쟁의 중요성을 강조한다. 선행 사업자가 데이터를 독점한다면 시장 경쟁을 통한 혁신이 불가능하게 된다는 주장이다. 둘 다 설득력이 있다.

비슷한 다툼이 여기저기서 이어지고 있다. 애플은 올해 아이폰 운영체제 iOS를 업데이트했다. 이용자가 명시적으로 동의한 경우에만 맞춤형 광고를 위한 이용자 앱 사용 데이터 수집을 허용하도록 바꾸었다. 명목은 이용자 사생활 보호를 강화한다는 것이다. 그러나 페이스북과 같은 모바일 앱 광고 사업자들은 크게 반발했다. 애플이 맞춤형 광고 시장 진출을 본격화하면서, 경쟁 사업자들의 데이터 수집을 막으려 한다는 것이다. 이용자 사생활 보호는 그저 핑계일 뿐이고, 애플이 이미 이용자 정보를 다수 수집해 놓은 상황에서, ‘사다리 걷어차기’를 통해 경쟁자의 사업을 방해한다고 비판한다. 독일의 공정거래 감독기관(연방카르텔청)이 조사에 착수하기도 했다. 거대 플랫폼과 경쟁 사업자 간의 분쟁이라는 점에서 링크드인 사건과 구도가 유사하다.

기존 법 제도가 새로운 경쟁 환경에 적절히 대응하지 못하는 경우는 적지 않다. 인공지능 학습 데이터에 대해 이처럼 세계적으로 논란이 되는 것도 놀랄 일은 아니다. 하지만 이 문제에서는 여러 가치가 충돌하면서 적절한 균형점을 찾기 쉽지 않은 상태다. 자유로운 기술 혁신과 시장 경쟁 환경을 조성해야 할 필요가 있지만, 기존 사업자의 투자와 지식재산권도 보호해야 한다. 더욱이 이용자에 의한 개인정보 통제권도 보장해야 한다. 세 마리 토끼를 모두 쫓아야 한다. 공정거래, 지식재산권, 서비스 이용자 및 개인정보 보호를 담당하는 여러 당국이 함께 힘을 모아 지혜롭게 해법을 찾을 수 있기를 기대한다.

김병필 KAIST 기술경영학부 교수ㅣ중앙일보 2021.12.27