2024.05.15 (수)

  • 흐림속초10.2℃
  • 비7.9℃
  • 흐림철원6.6℃
  • 흐림동두천6.0℃
  • 흐림파주6.3℃
  • 흐림대관령3.2℃
  • 흐림춘천7.8℃
  • 맑음백령도8.8℃
  • 비북강릉8.6℃
  • 흐림강릉9.2℃
  • 흐림동해9.4℃
  • 비서울7.6℃
  • 비인천7.3℃
  • 흐림원주9.0℃
  • 구름많음울릉도12.9℃
  • 비수원7.4℃
  • 흐림영월8.8℃
  • 흐림충주8.6℃
  • 흐림서산8.2℃
  • 흐림울진9.2℃
  • 비청주9.5℃
  • 비대전8.9℃
  • 흐림추풍령8.9℃
  • 비안동10.0℃
  • 흐림상주9.6℃
  • 비포항12.1℃
  • 맑음군산9.9℃
  • 비대구10.9℃
  • 흐림전주10.7℃
  • 비울산10.3℃
  • 구름많음창원13.5℃
  • 흐림광주10.9℃
  • 구름조금부산13.7℃
  • 구름조금통영13.8℃
  • 맑음목포12.9℃
  • 구름많음여수11.5℃
  • 맑음흑산도13.5℃
  • 맑음완도13.9℃
  • 구름많음고창0.6℃
  • 구름조금순천8.6℃
  • 비홍성(예)8.7℃
  • 흐림8.8℃
  • 맑음제주15.0℃
  • 맑음고산14.2℃
  • 맑음성산13.6℃
  • 맑음서귀포13.8℃
  • 구름조금진주13.1℃
  • 흐림강화8.1℃
  • 흐림양평8.7℃
  • 흐림이천7.9℃
  • 흐림인제7.7℃
  • 흐림홍천7.7℃
  • 흐림태백4.8℃
  • 흐림정선군7.1℃
  • 흐림제천8.1℃
  • 흐림보은9.8℃
  • 흐림천안9.1℃
  • 흐림보령8.6℃
  • 구름많음부여8.7℃
  • 흐림금산9.5℃
  • 흐림8.8℃
  • 구름조금부안11.4℃
  • 흐림임실9.8℃
  • 구름많음정읍10.9℃
  • 흐림남원9.7℃
  • 흐림장수8.6℃
  • 구름많음고창군11.3℃
  • 구름많음영광군12.1℃
  • 맑음김해시12.5℃
  • 흐림순창군11.2℃
  • 흐림북창원13.9℃
  • 맑음양산시13.2℃
  • 맑음보성군10.3℃
  • 맑음강진군13.3℃
  • 맑음장흥12.0℃
  • 맑음해남13.7℃
  • 구름조금고흥10.6℃
  • 구름많음의령군12.6℃
  • 흐림함양군10.7℃
  • 구름조금광양시10.2℃
  • 맑음진도군14.1℃
  • 흐림봉화8.9℃
  • 흐림영주9.4℃
  • 흐림문경9.2℃
  • 흐림청송군9.4℃
  • 흐림영덕9.7℃
  • 흐림의성10.8℃
  • 흐림구미10.5℃
  • 흐림영천10.3℃
  • 흐림경주시10.6℃
  • 흐림거창11.0℃
  • 구름많음합천13.4℃
  • 흐림밀양12.1℃
  • 구름많음산청10.4℃
  • 구름많음거제13.8℃
  • 구름많음남해12.5℃
  • 구름조금13.6℃
기상청 제공
인공지능 학습용 데이터, 역대 최대 규모 개방
  • 해당된 기사를 공유합니다

인공지능 학습용 데이터, 역대 최대 규모 개방

제조‧로보틱스 등 14대 분야 691종으로 데이터 다양화

[디지털금융신문]

 

과학기술정보통신부와 한국지능정보사회진흥원은 지난해 인공지능 학습용 데이터 구축사업을 통해 개발한 학습용 데이터셋 310종을 오늘부터 7월말까지 ‘AI허브’를 통해 순차 개방한다고 밝혔다.

 

올해 개방하는 데이터는 310종으로 역대 최대 규모다. 지난해 제조‧로보틱스‧교육‧금융‧스포츠 등의 14대 분야로 확장하면서 사업 규모를 크게 늘렸다. 이번에 310종 약 15억 건의 데이터 개방을 완료하면 ‘AI허브’ 이용자들은 총 691종, 약 26억 건의 데이터를 활용할 수 있게 된다. 특히 올해는 대규모 개방인 점을 고려하여, 이용자들이 더 많은 데이터를 조금이라도 빨리 활용할 수 있도록 품질검증 등을 먼저 마친 데이터를 우선 개방한다. 이에 따라 초기 개방 시점은 지난해보다 3개월 앞당겨진다. 매달 약 80여 종 내외를 개방해 7월말까지 전체 310종의 개방을 완료할 계획이다.

 
1차 개방에는 자연어 기반 질의‧검색‧생성 데이터, 고서(古書)한자‧한글 등 광학인식(OCR) 데이터, 안전환경 조성을 위한 실내외 군중 특성 데이터, 소방대원 행동 모션 3차원(3D) 객체 데이터 등 자연어와 인공지능 비전 분야에서 광범위하게 활용될 수 있는 약 70종의 데이터가 포함돼 있다. 
 
‘AI허브’에 공개되는 데이터는 국제 표준에 맞는 품질기준을 달성하고 개인정보 비식별화를 거친 경우에 한하며, 기업‧기관들이 실제 사용하는 인공지능 모델에 직접 데이터를 학습시켜 유효성, 정확성 등을 확인하는 활용성 검토를 받는다. 또한 개방 이후 약 3개월 동안은 사용자들로부터 데이터 품질 요구사항, 오류 등의 의견을 반영하여 데이터 품질 제고를 위한 보완 과정을 거칠 예정이다.

 

엄열 과기정통부 인공지능정책관은 “챗GPT 등 초거대 인공지능의 등장으로 인공지능 산업이 빠르게 발전하고 있다”며 “우리 기업들과 연구자들이 새로운 데이터 확보에 어려움을 겪지 않도록 기존의 라벨링 데이터(지도학습용) 중심 사업을 개편해 초거대 인공지능 학습에 필요한 대규모 비라벨링 데이터와 한번에 여러가지 유형을 학습시킬 수 있는 다중임무형 라벨링 데이터 등 다양한 유형의 데이터를 확보할  예정”이라고 밝혔다.

 

포토






모바일 버전으로 보기