본문 바로가기
카테고리 없음

챗GPT·제미나이, 불법 복제물 학습 논란…20만 권 책 무단 사용 충격 (2025년 4월 8일)

by 좀 더 앞으로 2025. 4. 8.
반응형

2025년 4월 8일, AI 업계를 흔드는 충격적인 소식이 전해졌습니다.
OpenAI의 챗GPT와 구글의 제미나이(Gemini)가 약 20만 권에 달하는 불법 복제 도서를 학습 데이터로 사용했다는 의혹이 공개된 것입니다.

👉 관련 기사 자세히 보기

이 사안은 단순한 저작권 침해를 넘어, AI 기술 발전의 윤리성법적 기준에 대한 심각한 질문을 던지고 있습니다.


'Books3' 데이터셋, 문제의 시작

논란의 중심에는 'Books3'라는 대규모 데이터셋이 있습니다.
'Books3'는 약 19만 1천 권의 도서로 구성된 비공식 데이터베이스로, 주로 불법 복제된 전자책 파일로 채워져 있습니다.

이 데이터셋은 AI 오픈소스 단체인 EleutherAI가 생성했으며, AI 모델을 더 효율적으로 훈련시키기 위한 목적으로 배포되었습니다.
MetaBloomberg 등 다수의 기업들이 이 데이터셋을 활용한 것으로 밝혀졌습니다.

특히 OpenAIGoogle DeepMind가 'Books3' 데이터를 학습에 사용했다는 사실이 드러나면서, 저작권자들의 분노는 극에 달했습니다.

👉 Books 논란 관련 기사 자세히 보기


AI 기업들의 해명과 대응

AI 기업들은 'Books3' 데이터 사용이 공정 이용(Fair Use) 원칙에 부합한다고 주장하고 있습니다.
그들은 "대규모 언어모델(LLM)의 훈련을 위해 일부 저작물 인용은 불가피하다"고 강조합니다.

하지만 저작권자들은 이를 받아들이지 않고 있습니다.
2023년 9월, 『왕좌의 게임』의 작가 조지 R. R. 마틴을 포함한 17명의 유명 작가들이 OpenAI를 상대로 집단 소송을 제기했습니다.
소송 내용에는 "작가들의 허락 없이 저작물을 무단 복제하고 상업적 이익을 취했다"는 주장이 포함되어 있습니다.

👉 소송관련 기사

또한 구글, 메타, 오픈AI 모두 미국과 영국 등 여러 국가의 법적 조사 대상에 오르며 상황은 더욱 복잡해지고 있습니다.


출판업계의 강력한 반발

영국 출판사 협회(PA) 역시 강력히 대응하고 있습니다.
협회는 Google DeepMind, Meta, OpenAI 등 주요 기업들에게 공식 경고 서한을 보내 "저작권이 있는 콘텐츠를 무단으로 AI 학습에 사용하는 행위를 중단하라"고 요구했습니다.

출판사들은 단순한 경고를 넘어, 향후 무단 사용이 확인될 경우 법적 조치도 불사하겠다는 입장입니다.

👉 출판업계 대응 기사 확인

이와 함께, 작가와 출판사들은 AI 모델이 훈련에 사용한 콘텐츠 목록을 공개하고, 적절한 보상 체계를 마련할 것을 요구하고 있습니다.


향후 전망: AI 산업의 갈림길

이번 사건은 AI 산업이 성장함에 따라 반드시 해결해야 할 문제를 부각시켰습니다.

  • 저작권 보호: 창작자의 권리를 존중하는 시스템이 필요합니다.
  • 공정 이용 기준 재정립: AI 시대에 맞는 새로운 공정 이용 가이드라인이 요구됩니다.
  • 데이터 투명성 확보: AI 모델이 어떤 데이터를 학습했는지 명확히 공개해야 합니다.
  • 보상 체계 마련: 창작물 제공자에게 정당한 보상이 이루어져야 합니다.

현재 진행 중인 소송 결과에 따라, AI 기술 발전 방향성법적 규제 체계가 크게 달라질 수 있습니다.

특히 챗GPT, 제미나이 등 대형 모델들의 신뢰성에도 상당한 영향을 줄 수 있기 때문에, 업계와 법조계 모두 결과를 예의주시하고 있습니다.


결론

2025년 4월, 챗GPT와 제미나이를 둘러싼 20만 권 불법 복제 학습 논란은 AI 기술이 창작물과 법적 책임 문제를 어떻게 다룰지에 대한 심각한 고민을 던지고 있습니다.

기술의 발전은 빠르지만, 이를 뒷받침할 윤리적 기준과 법적 장치는 아직 걸음마 단계입니다.
이번 사태는 AI 시대를 맞이하는 인류가 풀어야 할 첫 번째 숙제라 할 수 있습니다.

반응형