SW중심사회

SW간행물 이동 SW매거진 이동

[데이터 과학-2] 인공지능에게 필요한 데이터는 특별하다!

SW중심사회 KISTI의 과학향기 2019-10-15 565명 읽음

 

인공지능은 한 때 주목을 받았지만, 응용 범위에 한계가 있어 관심이 식어졌었다. 알파고 등장 이후 우리나라에서 인공지능(Artificial Intelligence, AI)에 대한 관심이 다시 높아졌다. 지금 인공지능이 다시 주목을 받는 것은 컴퓨터 기술의 비약적인 발전으로 아주 전문적인 영역의 문제를 풀 수 있게 되었을 뿐만 아니라, 인간 생활의 다양한 영역에서 실질적인 기여를 할 수 있는 가능성이 보이기 때문이다.

 

 

인공지능을 가능하게 하는 기반은 하드웨어와 데이터

 

 

인공지능이 다시 주목을 받게 된 것은 인공지능 알고리즘의 발전도 있었지만, 컴퓨터 핵심 부품인 데이터 저장장치와 처리장치가 과거에 비해서 비약적으로 발전했을 뿐만 아니라 인터넷의 속도도 크게 빨라졌기 때문이다. 데이터 저장장치의 발전은 방대한 학습 데이터를 적은 비용으로도 저장할 수 있게 하고, 데이터 처리장치와 인터넷 속도의 발전은 실시간에 가까운 응답을 가능하게 한다.

 

 

그런데 사실은 데이터가 있어야 이 모든 것이 의미가 있다. 데이터가 없다면, 아무리 대용량의 저장장치와 초고속의 처리장치와 인터넷이 있어도 무용지물일 뿐이다. 지금 시대는 빅데이터 시대가 되어 데이터가 곳곳에서 차고 넘치게 되어 데이터 저장장치와 처리장치, 그리고 인터넷이 그 어느 때보다 바쁘게 움직이고 있다. 하지만 모든 데이터가 유효하지는 않다. 그리고 데이터는 디지털화되어야 하고, 신뢰할만해야 하며, 충분한 양이 있어야 한다.

 

사진 1. 데이터 저장장치 같은 하드웨어의 비약적 발전은 인공지능을 가능케 했다. 이제 필요한 것은 어떤 데이터를 처리하느냐이다. (출처: pixabay)

 

 

인공지능을 뒷받침하는 데이터의 특별한 속성

 

 

먼저, 데이터가 디지털화되어야 하는 이유는 그래야만 컴퓨터가 읽을 수 있기 때문이다. 종이 매체에 기록된 데이터는 컴퓨터로 입력해야 하기 때문에 많은 비용이 든다. 요즈음은 신문 기사나 학술 논문도 아예 처음부터 디지털화하기 때문에 이러한 측면에서 큰 도움이 된다. 또한 사물인터넷(Internet of Things, IoT)이 확산되면, 수많은 디지털 데이터를 손쉽게 모을 수 있게 된다.

 

 

그렇지만, 이러한 데이터는 신뢰할 수 있어야 한다. 인공지능에 활용되는 데이터에 오류 데이터, 가짜 데이터, 위험 데이터가 들어가게 되면, 그 결과는 많은 문제를 야기할 수 있기 때문이다. 마치 수돗물을 사람이 먹을 수 있도록 품질관리를 하듯이 데이터도 인공지능이 오답을 내지 않도록 품질 관리가 꼭 필요하다. 더 나아가서, 원유가 정제될수록 고급 제품이 되어 비싸게 팔리듯, 데이터도 적절한 큐레이션을 통해서 그 가치를 배가할 수 있다.

 

사진 2. 인공지능이 제대로 된 기능을 발휘하려면, 그 기반이 되는 데이터는 디지털화되어야 하고, 신뢰성과 충분한 양을 확보해야 한다.

 

 

마지막으로 인공지능이 정확한 답을 내기 위해 필요한 충분한 양의 데이터가 필요하다. 그러기 위해서는 필요한 데이터가 모두 공개되어야 한다. 그런데, 여러 가지 이유로 데이터 공개가 안 되고 있다. 저작권 있는 데이터, 민감한 데이터, 보안 데이터 등이 있는데, 이러한 데이터를 인공지능에 활용할 수 있는 방안 마련이 시급하다. 이를 위해서 정부에서는 오픈 데이터 정책을 제도화하고, 데이터 공개를 위한 다양한 사업을 시행하고 있다.

 

 

글: 서태설 한국과학기술정보연구원(KISTI) 학술정보공유센터장/일러스트: 이명헌 작가

 

홈페이지 만족도

콘텐츠 내용에 만족하십니까? 현재 페이지의 만족도를 평가해 주십시요. 의견을 수렴하여 빠른 시일 내에 반영하겠습니다.

등록