• 홈
  • 핫뉴스
  • 부동산·재정
  • 이민·유학
  • 문화·스포츠
  • 주간한국
  • 오피니언
  • 게시판
  • 기획기사
  • 업소록
  • 지면보기
  • 광고문의
  • 기사제보
  •     Tel: (416) 787-1111
  •     Email: public@koreatimes.net
  • LOGIN
  • CONTACT
  • 후원
  • 기사검색
  • LOGIN
  • CONTACT
  • 기사제보
  • 광고문의
  • HotNews "이민자·유학생·근로자 마구잡이로 받았다"
  • HotNews "빈대 있다고 말했더니 쫓아내"
  • CultureSports 토론토 야구팬들 "요즘 살맛 나네"
  • CultureSports 2025 미술가협회 연례전-1
  • HotNews 경비행기 2대 공중 충돌 2명 사망
  • HotNews 브램튼에 대형 싱크홀...물 콸괄
  • HotNews "한국 등 14개국 8월부터 25∼40% 상호관세"
  • Notification 알립니다
  • Opinion 로마 문자의 기원과 진화
koreatimes logo
  • 지면보기
  • 핫뉴스
  • 문화·스포츠
  • 주간한국
  • 이민·유학
  • 부동산·재정
  • 자동차
  • 오피니언
  • 게시판
  • 업소록
  • 후원
  • 기사검색

Home / 핫뉴스

MG 오토 세일

도서관 고문헌, AI에 제공된다

구글·오픈AI 등 참여... 공공 데이터 활용 본격화


  • 박해련 인턴기자 (press3@koreatimes.net)
  • Jun 12 2025 03:45 PM


기업들은 오랫동안 인터넷에 쌓인 데이터를 인공지능 학습에 활용해 왔으나, 이제는 도서관이 보관해온 고문헌으로 눈을 돌리고 있다. 하버드대학교는 15세기부터 출판된 책 100만 권 가까이를 AI 연구자들에게 공개했으며, 보스턴 공공도서관 역시 신문과 정부 문서 자료를 곧 공개할 예정이다.

이번에 하버드가 공개한 데이터셋 ‘Institutional Books 1.0’은 총 3억 9,400만 페이지 분량이며, 가장 오래된 자료는 1400년대의 한국 화가가 나무와 꽃을 기르는 법에 대해 쓴 수기다. 가장 많은 분량은 19세기에 출판된 문학, 철학, 법, 농업 관련 저작물로 구성되어 있으며, 이들 자료는 수 세대에 걸쳐 사서들이 보존하고 정리해 온 것이다.

하버드 법대 산하 도서관 혁신 연구소(Library Innovation Lab) 연구 책임자 아리스타나 스쿠르타스(Aristana Scourtas)는 현재의 AI 기술이 가진 권한을 도서관 같은 기관으로 일부 되돌리려는 것이 이번 프로젝트의 목적이라고 밝혔다. 그는 사서들이 전통적으로 정보의 관리자로서 역할을 해왔다고 덧붙였다.

이번 프로젝트는 마이크로소프트와 오픈AI의 지원을 받아 진행 중이다. 두 회사는 하버드를 중심으로 한 ‘Institutional Data Initiative’를 통해 전 세계 도서관들과 협력하고 있으며, AI 학습에 적합한 방식으로 고문헌을 디지털화하고 있다.

하버드 버크만 클라인 센터(Berkman Klein Center for Internet & Society)의 최고 기술책임자이자 데이터 이니셔티브 책임자인 그렉 레퍼트(Greg Leppert)는 기존 AI 학습 데이터가 원본에 기반하지 않은 경우가 많았다고 지적하며, 이번 프로젝트는 실제 실물 서적을 디지털화한 것이어서 출처가 명확하다고 설명했다.

하버드가 이번에 공개한 도서 컬렉션은 약 2,420억 개의 토큰으로 구성돼 있으며, 이는 인간의 인지로는 이해하기 힘든 방대한 분량이지만, AI 학습 전체 규모에서 보면 일부분에 불과하다. 메타는 최신 AI 언어모델을 학습시키는 데 30조 개 이상의 토큰을 사용한 바 있다.

AI 기업들이 이러한 공공 데이터를 주목하는 이유 중 하나는 최근 저작권 침해 논란과 관련이 있다. 메타는 사라 실버먼(Sarah Silverman)을 포함한 작가들로부터 도서 무단 사용 혐의로 소송을 당했으며, 오픈AI 역시 다수의 저작권 소송에 직면해 있다. 이에 따라 공공 도서관의 자료는 법적 논란에서 상대적으로 자유롭다는 점에서 매력적인 자원이 되고 있다.

마이크로소프트 법무팀의 버턴 데이비스(Burton Davis)는 공공 영역의 데이터를 활용하는 것이 현 시점에서 더 논쟁의 소지가 적다고 판단되며, 도서관은 온라인 커뮤니티 데이터에는 없는 문화적·역사적·언어적 정보가 많이 포함되어 있다고 밝혔다.

보스턴 공공도서관은 오픈AI가 접근했을 당시 디지털화된 자료는 모두 대중에게 공개될 것이라는 점을 명확히 했다고 전했다. 도서관 측은 대량의 AI 학습 데이터에 대한 오픈AI의 관심과, 디지털 자원을 확장하려는 도서관의 목표가 맞아떨어졌다고 설명했다.

보스턴 도서관은 19세기 후반부터 20세기 초반까지 퀘벡에서 이주한 캐나다계 주민들이 읽던 프랑스어 신문을 스캔하고 정리하는 작업을 진행 중이다. AI 학습용으로 가치가 높아지면서 이러한 디지털화 작업에 필요한 재정적 지원도 확보하고 있다.

하버드의 고문헌 자료는 2006년 구글의 온라인 도서관 프로젝트를 위해 이미 디지털화가 시작된 바 있다. 당시 구글은 2천만 권 이상의 도서를 검색 가능하게 만들었고, 저작권 침해 논란으로 수년간 법적 공방을 벌이다 2016년 미국 대법원이 하급심의 판단을 유지하면서 사건이 마무리됐다.

이번에 구글은 하버드와 협력해 구글 북스(Google Books)에 보관된 공공 영역 자료 중 일부를 AI 개발자들에게 제공할 수 있도록 조치했다. 미국의 저작권 보호는 일반적으로 출판 후 95년까지 유지된다.

 

thomas-bormans-ihqhxj3jv6e-unsplash.jpg
AI학습을 위해 하버드와 보스턴 공공 도서관이 수백 년 된 자료를 디지털화해 공개했다. 언스플래쉬


해당 데이터는 13일부터 AI 모델과 오픈소스 데이터를 공유하는 허깅페이스(Hugging Face) 플랫폼을 통해 배포되며, 누구나 다운로드가 가능하다. 전체 도서 중 절반 이상은 영어 이외의 언어로 작성됐으며, 독일어, 프랑스어, 이탈리아어, 스페인어, 라틴어 등 유럽 언어가 다수를 차지한다.

레퍼트는 19세기 사상으로 가득한 이 도서 컬렉션이 인간 수준의 추론 능력을 갖춘 AI 에이전트를 개발하는 데 매우 중요한 자원이 될 수 있다고 평가했다. 대학은 분석과 사고의 방법론을 가르치는 교육의 장이기 때문에, 해당 자료는 AI 시스템 설계에 유익할 수 있다는 입장이다.

다만 고문헌에는 과학적 오류나 인종차별적 서술처럼 해로운 내용도 포함되어 있어, 하버드 도서관 측은 이를 인식하고 데이터 사용에 따른 위험을 완화하는 가이드라인을 제공하려 노력하고 있다. 도서관 혁신 연구소의 코디네이터 크리스티 묵(Kristi Mukk)은 연구자들이 책임 있는 AI 사용을 위한 판단을 내릴 수 있도록 지원하고 있다고 밝혔다.
0배너광고_대표_겨울.png

www.koreatimes.net/핫뉴스

박해련 인턴기자 (press3@koreatimes.net)

  • 코데코 록키엘크 녹용 & 공진단
  • 리쏘 (Lisso) 안마의자

댓글을 달아주세요

댓글운영원칙
'댓글'은 기사 및 게시글에 대한 자신의 생각을 말하고 남의 생각을 들으며 서로 의견을 나누는 공간입니다. 그러나 간혹 불건전한 내용을 올리시는 온라인 독자들이 있어 건전한 인터넷 문화 정착을 위해 아래와 같은 운영 원칙을 적용합니다.

1. 댓글삭제

자체 모니터링을 통해 아래에 해당하는 내용이 포함된 댓글이 발견되면 예고없이 삭제 조치 하겠습니다.
  1. 1) 타인에 대한 욕설 또는 비판
  2. 2) 인신공격 또는 명예훼손
  3. 3) 개인정보 유출 또는 사생활 침해
  4. 4) 음란성 내용 또는 음란물 링크
  5. 5) 상업적 광고 또는 사이트/홈피 홍보
  6. 6) 불법정보 유출
  7. 7) 같은 내용의 반복(도배)
  8. 8) 지역감정 조장
  9. 9) 폭력 또는 사행심 조장
  10. 10) 신고가 3번 이상 접수될 경우
  11. 11) 기타 기사 내용과 관계없는 내용

2. 권한제한

불건전한 댓글을 올리거나 이름에 비속어 및 상대방의 불쾌감을 주는 단어를 사용, 유명인 또는 특정 일반인을 사칭하는 경우 이용에 대한 차단 제재를 받을 수 있습니다.
명예훼손, 개인정보 유출, 욕설 등 법률에 위반되는 댓글은 관계 법령에 의거 민형사상 처벌을 받을 수 있으니 이용에 주의를 부탁 드립니다.

아래의 기사를 추천합니다

기사제목 작성일
40도 경사·바위·자갈·진흙길 28 Jun 2025
마이바흐 ‘뚜껑’ 열렸다! 28 Jun 2025
“반도체법 보조금 재협상” 14 Jun 2025
포드 정부, 그린벨트 문서 은폐 의혹 13 Jun 2025
트럼프, 이란에 핵합의 촉구 13 Jun 2025
도서관 고문헌, AI에 제공된다 12 Jun 2025

카테고리 기사

프리픽2.jpg
H

"이민자·유학생·근로자 마구잡이로 받았다"

08 Jul 2025    0    0    0
alexander-shatov-i4p0fcjdbji-unsplash.jpg
H

틱톡, 캐나다 사업 철수 본격화

08 Jul 2025    0    0    0
충돌.jpg
H

경비행기 2대 공중 충돌 2명 사망

08 Jul 2025    0    0    0
세입자2.jpg
H

"빈대 있다고 말했더니 쫓아내"

08 Jul 2025    0    0    0
화면 캡처 2025-07-08 094917.png
H

토론토시 250만 불 사기 당할 뻔했다

08 Jul 2025    0    0    0
토론토 교육청 cp통신.png
H

온타리오주, 4개 교육청 감독관 임명

08 Jul 2025    0    0    0


Video AD



오늘의 트윗

mjdokvjm2eyrcitmh7lo5d2msu.jpg
Opinion
부정의 쳇바퀴 영원히 대물림?
29 Jun 2025
0



  • 인기 기사
  • 많이 본 기사

스크린샷 2025-06-29 112735.png
HotNews

룰루레몬, "코스코가 짝퉁 판매" 소송

29 Jun 2025
0
스크린샷 2025-06-29 094846.png
HotNews

SIN, 이제는 만능 열쇠 아닌 보안 구멍

29 Jun 2025
0
adam-wilson-6uionphza5o-unsplash.jpg
HotNews

캐나다, 미 주류 보이콧에 판매 급감

29 Jun 2025
0
스크린샷 2025-06-30 092749.png
HotNews

정부 입력 실수로 OAS 지급 지연

30 Jun 2025
0
스크린샷 2025-06-26 144113.png
Feature

캐나다, 어쩌면 돈 방석?

25 Jun 2025
0
스크린샷 2025-06-29 112735.png
HotNews

룰루레몬, "코스코가 짝퉁 판매" 소송

29 Jun 2025
0
캐나다 깃발3 언스플래쉬.jpg
HotNews

캐나다 떠나는 국민, 역대 두 번째 많아

03 Jul 2025
0
sbgds.jpeg
CultureSports

2026 세계대학순위 발표

23 Jun 2025
0


500 Sheppard Ave. E. Unit 206 & 305A, North York, ON M2N 6H7
Tel : (416)787-1111
Fax : (416)781-8434
Email : public@koreatimes.net
광고문의(Advertising) : ad@koreatimes.net

캐나다 한국일보

  • 기사제보
  • 온라인지면 보기
  • 핫뉴스
  • 이민·유학
  • 부동산·재정
  • 주간한국
  • 업소록
  • 찾아오시는 길

한인협회

  • 한인문인협회
  • 한인교향악단
  • 한국학교연합회
  • 토론토한인회
  • 한인여성회
  • 한인미술가협회
  • 온주한인실협인협회

공익협회

  • 홍푹정신건강협회
  • 생명의전화
  • 생태희망연대

연관 사이트

  • 토론토총영사관
  • 몬트리올총영사관
  • 벤쿠버총영사관
  • 캐나다한국대사관
  • KOTRA

The Korea Times Daily 의 모든 콘텐트(기사)는 저작권법의 보호를 받는 바, 무단 전재, 복사, 배포 등을 금합니다.

Copyrightⓒ The Korea Times Daily All rights reserved