본문 바로가기 대메뉴 바로가기

대학신문방송국

HIGHHANBAT

미래가치를 창출하는 글로컬 산학일체 혁신대학

여론

[529호] 정형 데이터부터 비정형 데이터까지 어디서 얻지?

작성자신문방송국  조회수283 등록일2022-11-08

문자나 숫자로 이루어진 데이터를 정형 데이터, 이미지나 비디오로 이루어진 데이터를 비정형 데이터라고 말한다. 최근 딥러닝의 발달로 정형 데이터와 비정형 데이터의 필요성이 증가하고 있다. 특히나 기업에서는 이러한 데이터를 정제하고 보관하여, 마케팅이나 영업에 사용하면서 새로운 미래 먹거리로 자리매김하고 있다.

이러한 데이터는 누구나 사용할 수 있다. 최근에는 정부 주도로 데이터 플랫폼을 열기도 하고, 기업에서도 자신의 데이터를 공개하여 누구나 사용할 수 있도록 게시하고 있다. 이제는 일반인도 공개된 데이터를 통해 문제를 해결하는데 필요한 데이터를 얻을 수 있다.

최근에는 정부 기관의 데이터 공개가 확대되면서 다양한 종류의 데이터를 쉽게 접할 수 있다. 기업에서는 자체적으로 수집한 데이터를 쉽게 가공하거나 원하는 조건에 맞게 시각화하여 보여주기도 한다.

1. 공공데이터포털

공공데이터포털은 행정안전부와 한국정보화진흥원에서 운영하는 사이트이다. 현재 약 70,000여 건의 데이터를 공유하고 있으며, csv, hwp, xml 등 다양한 확장자로 데이터를 내려받을 수 있다. 정부와 공공기관, 민간기업에서 데이터를 제공한다. 공공행정, 과학/기술, 교육, 교통물류, 국토관리, 농축/수산, 문화/관광, 법률, 보건의료, 사회복지, 산업/고용, 식품/건강, 재난/안전, 재정금융, 통일/외교/안보, 환경/기상 16개의 분야로 나누어져 원하는 분야의 데이터를 빠르게 찾을 수 있다. 필요한 데이터는 데이터 1번가에서 요청할 수 있으며, 그래프나 지도로 시각화한 자료를 사용할 수 있다.

2. 데이터온

데이터온은 한국과학기술정보연구원(KISTI)에서 운영하는 국가연구데이터플랫폼서비스이다. 연구데이터를 검색하거나 공유, 관리할 수 있고, 커뮤니티 연구자들끼리 데이터를 공유하고 활용할 수 있으며, 1,300,000여 건의 데이터셋을 보유하고 있다. 국내 및 해외의 생물, 화학, 환경, 물리, 의료, 수학 등 전문적인 분야의 데이터가 필요할 때 이용할 수 있다.

3. 네이버 데이터랩

네이버 데이터랩은 네이버 사용자들의 검색 정보를 수집하여 그래프로 보여준다. 네이버 사용자의 급상승 검색어, 검색어 트렌드, 쇼핑인사이트, 지역통계, 댓글통계 5가지로 나누어서 정보를 제공한다. 특정 기간에 성별이나 나이에 따라 인기 있는 검색어를 간편하게 조회할 수 있다. 또한, 특정 검색어에 대해서 얼마나 많이 검색되었는지 그래프를 제공한다. 쇼핑인사이트에서는 분야와 검색어 통계, 지역 통계에서는 지역별 관심도와 카드 사용 통계, 뉴스 댓글 통계 데이터를 데이터로 제공한다.

4. 구글 트렌드

네이버는 국내 사용자를 위주로 데이터를 파악할 수 있다면, 구글 트렌드는 전 세계 구글 사용자들의 검색어 동향을 파악할 수 있다. 구글 트렌드는 시간의 흐름에 따른 관심도의 변화, 지역별 관심도, 관련 주제나 검색어를 통해 구체적인 정보를 제공한다.

5. AI 허브

AI 허브는 AI 기술 및 제품·서비스 개발을 위해 필요한 AI 인프라를 지원하여 누구나 활용하고 참여하는 AI 통합 플랫폼이다. 한국어, 영상이미지, 헬스케어, 재난안전환경, 농축수산, 교통물류 등 AI 학습용 데이터를 무료로 공개하고 있다. 또한, ·소벤처기업, 대학교, 공공기관 등을 대상으로 대규모 데이터셋 처리를 위해 필요한 고성능 컴퓨팅 자원도 지원하고 있다. 이미지, 동영상, 음성, 한국어 등 다양한 종류의 학습할 데이터가 필요하다면 AI 허브를 추천한다.

글 이혜진 기자