본문 바로가기

콘텐츠/강승우의 머신러닝 이야기

[강승우의 머신러닝 이야기] 무료 데이터에 대한 독점적 권리는 누구에게 있는가

현재 AI는 그림을 그리고, 작곡을 하는 창작 영역에 진입하고 있으며, 이조차도 넘어서 컴퓨터 프로그래밍이라는 추론의 영역까지 도전하고 있다. 바로 마이크로소프트(Microsoft)의 깃헙 코파일럿(GitHub Copilot)이 사용자가 원하는 소스코드를 생성하는 인공지능이다.

마이크로소프트 사의 프로그램 생성 AI 깃헙 코파일럿

깃헙 코파일럿은 마이크로소프트가 운영하는 소스코드 공유 플랫폼 깃헙(GitHub) 내의 프로그램 소스코드를 학습 데이터로 사용한다. 따라서 깃헙을 사용하는 전 세계 프로그래머가 공개한 소스코드가 코파일럿의 지식의 원천이다.

지난 2022년 미국의 한 미술대회에서 인공지능이 생성한 그림의 대상 수상은 예술가들의 격렬한 반발을 일으켰다. 예술가들은 AI가 생성한 그림의 대회 출품을 제한하고, 자신의 그림을 AI 학습에 사용하지 못하도록 하려는 움직임을 보이고 있다.

하지만 예술가에 비해 프로그래머는 최소한 지금까지는 인공지능 기술에 대체로 관대한 편이었다. 소스코드 생성 AI 서비스인 깃헙 코파일럿이 2021년 6월에 출시되고, 1년간 시험 서비스를 거치는 동안에는 반발이 크지 않았다. 그러나, 2022년 6월 공식 유료 서비스가 시작된 후 2022년 11월 저작권 소송에 휘말렸다.

무료 데이터 기반의 독점 유료 서비스

2022년 11월 마이크로소프트의 깃헙 코파일럿 서비스에 대한 저작권 소송이 제기된 것이다. 마이크로소프트가 운영하는 소스코드 공유 플랫폼인 깃헙 내의 소스코드를 사용하면서 저작자 이름 표기 등의 오픈소스 라이선스 규약을 위반했다는 혐의다.

소스코드 생성 AI 코파일럿 저작권 소송

소송에서는 추가로 개인정보 보호법(the California Consumer Privacy Act) 등 다수의 위반 사항을 지적하고 있다.

이 소송은 데이터의 정당한 사용에 대한 사회적 규정을 요구하고 있다. 국내에서도 데이터 사용 권한은 사회적 문제로 대두되고 있다. 2022년 8월 여행 숙박 플랫폼 업체인 ‘야놀자’와 ‘여기 어때’ 간의 5년 여에 걸친 법정 소송이 마무리됐다. ‘야놀자’가 인터넷에 게시한 숙박업소 정보를 ‘여기 어때’가 무단 복제해 사용한 것에 대한 소송이었다. 저작권법 위반에 대한 형사 소송과 부정경쟁방지법 위반에 대한 민사 소송이 병행됐다.

최종 결과는 공개된 데이터에 대한 저작권은 인정되지 않았고, 데이터 수집과 정리에 소요된 투자와 노력에 대한 경쟁질서 위반으로 10억 원의 배상을 확정했다.

AI 학습 데이터에 대한 사회적 합의 필요

깃헙 코파일럿 소송은 이 사례에 비해 더 복잡한 양상을 보여주고 있다. 먼저, 코파일럿이 사용한 소스코드는 프로그래머들이 자발적으로 깃헙 플랫폼에 공개한 것이다. 따라서, AI 학습 데이터로 사용하는 것에 저작권 문제는 없다.

소송에서 문제 삼는 것은 코파일럿이 오픈소스 라이선스에서 명시한 저작자 표시를 하지 않는다는 점이다. 이에 대해서는 다양한 측면에서 볼 필요가 있다. 코파일럿이 기존 코드를 학습 데이터로 사용하기 때문에 이를 참조하는 것은 명확하다. 그러나, 코파일럿은 일반적으로 학습에 사용한 코드를 그대로 제공하지는 않는다. 학습에 사용된 코드를 기반으로 사용자가 요청하는 새로운 코드를 생성(혹은 조립)해 보여준다. 폐쇄적인 AI 모델에서 조립된 소스코드는 저작자가 누구인지 불명확하다.

현실적으로 인간 프로그래머도 일상적으로 공개된 코드를 참조하고 차용한다. AI 프로그래머도 공개된 코드를 참조하고 일부를 차용한다. 그런데, 코파일럿은 인간 프로그래머가 인터넷을 통해 탐색하는 것보다 훨씬 빠르게 필요한 코드를 생성한다. 인간 프로그래머의 일을 조금씩 대체하고 있는 것이다. 소송은 AI 프로그래머에 의해 대체되는 인간 프로그래머의 권익을 보호하기 위한 시도라고 할 수 있다. AI 기술에 관대했던 프로그래머가 예술가들이 느끼는 두려움에 공감하게 된 것이다.

인간과 모든 부분에서 경쟁하는 AI 기술의 성과는 다수의 사용자가 만든 데이터에 기반한다. 현대 정보 사회의 데이터는 다양한 SNS, 깃헙 등 인터넷으로 연결된 다양한 서비스 플랫폼에 의해 유지된다. 플랫폼 업체는 플랫폼에서 유지되는 데이터를 소유한다. 그리고, 데이터 유지를 위한 플랫폼 업체의 투자와 노력이 법적으로 인정된다면 이에 대해 반(半)독점적인 권리를 갖게 된다. 무료 데이터 기반의 독점적 유료 서비스가 만들어지는 것이다. 이는 4차 산업혁명에서 플랫폼 업체의 독점적인 지위를 인정하는 것이나 다름없다.

따라서 깃헙 코파일럿에 대한 소송은 데이터를 다루는 플랫폼 업체의 지위에 대한 소송이라고 볼 수도 있다. 다수의 사용자의 노력에 기반한 성과를 플랫폼 업체가 독점하는 것에 대한 사회적 판단을 묻는 것이기 때문이다.

발전하는 AI 기술은 미래의 모습을 빠르게 바꾸고 있다. 세계를 움직이는 AI 기술의 근간이 되는 데이터 활용에 대한 우리의 합의가 필요하다. 바람직한 합의는 사회적 공정성과 기술 경쟁력을 위한 방향이 돼야 할 것이다.

 

필자 강승우 위데이터랩 인공지능연구소장 겸 부사장은 펜타 컴퓨터를 거쳐 BEA, Oracle에서 최고 기술 아키텍트로서 기업의 IT 시스템 문제가 있는 곳의 해결사의 역할을 했다. 글로벌에 통하는 한국 소프트웨어 개발에 대한 열정으로 S전자 AWS 이벤트 로그 분석을 통한 이상징후 탐지, R사의 건축물 균열 탐지 등의 머신러닝 프로젝트를 진행했다. 현재는 딥러닝을 이용한 소프트웨어 취약점 탐지 자동화 연구와 머신러닝과 딥러닝강의를 진행하고 있으며, 비즈니스화에도 노력을 기울이고 있다. 최근 저서로 '머신러닝 배웠으니 활용해볼까요?'가 있다.