별의 공부 블로그 🧑🏻‍💻
728x90
728x170

데이터 이해 : 데이터의 가치와 미래

빅데이터란?

빅데이터의 정의

  • 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
  • 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
  • 데이터의 양(Volume) 데이터 유형과 소스 측면의 다양성(Variety), 데이터 수집과 처리 측면에서 속도(Velocity)가 급격히 증가하면서 나타난 현상

 

빅데이터 - 4V

  • ROI(Return On Investment, 투자자본수익률) 관점에서 보는 빅데이터
요소 설명
Volume - 데이터의 크기
- 생성되는 모든 데이터를 수집
Variety - 데이터의 다양성
- 정형화된 데이터를 넘어 텍스트, 오디오, 비디오 등 모든 유형의 데
이터를 대상으로 함.
Velocity - 데이터의 속도
- 사용자가 원하는 시간 내 데이터 분석 결과 제공
- 업데이트 속도 빠름.
Value Value는 ‘비즈니스 효과 요소’, Volume, Variety, Velocity는 ‘투자비용 요소'

 

빅데이터 출현 배경

  • 산업계에서 일어난 변화를 보면 빅데이터의 현상은 양질 전환 법칙으로 설명할 수 있다.
    • 양질 전환 법칙
      • 일정한 양이 누적되면 어느 순간 질적인 비약이 이루어짐.
      • 기업들이 보유한 데이터가 '거대한 가치 창출이 가능할 만큼 충분한 규모' 에 도달
  • 학계의 거대 데이터 활용 과학 확산
    • 학계에서도 빅데이터를 다루는 현상들이 늘어나고 있음.
    • 대표적 사례 : 인간 게놈 프로젝트
  • 디지털화, 저장기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 등 관련 기술 발전과 관련이 있음.
    • 클라우드 컴퓨팅
      • 빅 데이터 분석에 경제적 효과를 제공해준 결정적 기술
      • 클라우드 분산 병렬처리 컴퓨팅은 대용량 데이터 처리 비용을 획기적으로 줄임.
  • 소셜 미디어, 영상 등 비정형 데이터의 확산
  • 데이터 처리 기술 발전

 

빅데이터의 역할

  • 빅데이터는 "석탄/철, 원유, 렌즈, 플랫폼" 이다!
역할 설명
석탄, 철 빅데이터는 석탄, 철이 산업혁명에서 했던 역할을 지금의 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 혁명적 변화를 가져올 것으로 기대됨.
원유 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 ‘정보’를 제공하여, 산업
전반의 생산성
을 향상시킬 것으로 기대됨.
렌즈 - 현미경이 생물학 발전에 미쳤던 영향만큼 데이터가 산업 전반에 영향을 미칠 것임.
- 구글 ‘Ngram Viewer’를 통해 수천만 권의 책을 디지털화
플랫폼 - 비즈니스 측면에서는 공동 활용의 목적으로 구축된 유/무형의 구조물'을 의미함
- 페이스북과 같이 다양한 사업자들이 공동으로 사용하는 플랫폼을 빅데이터 형태로 제공할 것으로 예상
- 각종 사용자 데이터와 센서 데이터를 수집하고 API를 공개하면 서드파티 사용자들이 활용하는 플랫폼 역할을 기대

 

빅데이터의 가치 산정, 본질적 변화

빅데이터의 가치 산정이 어려운 이유

이유 설명
데이터의 활용 방식 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제,어디서,누가 활용할지 알 수 없음.
새로운 가치 창출 데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어려움.
분석 기술의 발달 분석 기술의 발달로 지금은 가치 없는 데이터도 새로운 분석 기법의 등장으로 거대한 가치를 만들어내는 재료가 될 가능성이 있음.

 

빅데이터가 만들어내는 본질적인 변화

사전 처리 사후 처리 사전처리 => 표준화된 문서 포멧
사후 처리 => 데이터를 모은 뒤 그 안에서 숨은 정보를 찾아냄.
표본 조사 전수 조사
질(Quality) 양(Quantity)
인과관계 상관관계

 

빅데이터 활용 사례

  • 구글 검색엔진, 월마트의 구매 패턴 분석, IBM 왓슨 - 의료 분야에 활용
  • 정부의 실시간 교통정보 활용, CCTV 국가 안전에 활용
  • 사회 관계망 분석을 통한 현상분석, 가수의 팬 음악청취 기록 분석 활용
  • 아마존의 킨들(Kindle, 전자책 전용 단말기)에 쌓이는 전자책 읽기 관련 데이터 분석해 저자들에게 제공

 

728x90

 

빅데이터 활용 기법

기법 설명
연관 규칙 학습
(Association Rule Learning)
변수간 주목할 만한 상관관계가 있는지 찾아내는 방법
- 예1) 우유구매자가 기저귀도 같이 구매하는가?
- 예2) 커피를 사는 사람들이 탄산음료도 많이 구매하는가?
유형 분석
(Classification Tree Analysis)
- 사용자는 어떤 특성을 가진 집단에 속하는가? 와 같은 문제 해결에 사용함
- 문서를 분류하거나 조직을 그룹으로 나눌 때, 온라인 수강생들을 특성에 따라 분류할 때 사용함
유전 알고리즘
(Generic Algorithms)
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
- 예1) 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
- 예2) 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?
기계 학습
(Machine Learning)
- 훈련 데이터로부터 패턴을 학습해 ‘예측’하는 일에 활용되고 있음.
- 예) 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중 어떤 것을 가장 보고 싶어할까? (넷플릭스 추천 시스템)
회귀 분석
(Regression Analysis)
- 선형함수로 나타낼 수 있는 수치 데이터 분석
- 예)사용자의 만족도가 충성도에 어떤 영향을 미치는가?
감정 분석
(Emotion Analysis)
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석함.
- 소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아낼 때 활용함.
- 호텔에서 고객의 논평을 받아 서비스를 개선하기 위해 활용함.
소셜 네트워크 분석
(Social Network Analysis)
- 사회관계망분석(SNA)과 같음.
- 영향력 있는 사람을 찾아낼 수 있으면, 사람들 간 소셜 관계를 파악할 수 있음.

※ 감정 분석과 소셜 네트워크 분석을 구별!

 

빅데이터 위기 요인과 통제 방안

① 사생활 침해

위기 요인

  • 우리를 둘러싼 정보 수집 센서들의 수가 점점 늘어나고 있고, 특정 데이터가 본래 목적 외에 가공 처리돼 2차 3차적 목적으로 활용될 가능성이 증가
  • 익명화(Anonymization) : 사생활 침해를 방지하기 위해 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환 하는 것

 

통제 방안

  • 동의제에서 책임제로 전환
  • 개인정보의 활용에 대한 개인이 매번 동의하는 것은 경제적으로도 매우 비효율적임.
  • 사생활침해 문제를 개인정보 제공자의 동의를 통해 해결하기 보다는 개인 정보 사용자에게 책임을 지움으로써 개인정보 사용 주체가 보다 적극적인 보호 장치를 강구하게 하는 효과가 발생할 것으로 기대됨.

 

② 책임 원칙의 훼손

위기 요인

  • 빅데이터 기반분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 증가함.
  • 그러나 잠재적 위험 사항에 대해서도 책임을 추궁하는 사회로 변질될 가능성이 높아 민주주의 사회 원칙을 크게 훼손할 수 있음.
  • 예) 범죄 예측 프로그램을 통해 범죄 전 체포

 

통제 방안

  • 기존의 책임 원칙을 강화할 수 밖에 없음.

 

③ 데이터의 오용

위기 요인

  • 빅데이터는 일어난 일에 대한 데이터에 의존함.
  • 그것을 바탕으로 미래를 예측하는 것은 적지않은 정확도를 가질 수 있지만, 항상 맞을 수는 없음.
  • 주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러 올 수 있음.

 

통제 방안

  • 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증방안을 도입 필요성 제기

 

알고리즈미스트(Algorithmist)

  • 데이터 분석 알고리즘으로 부당한 피해를 보는 사람을 방지하기 위해서 생겨난 직업
  • 데이터 분석 알고리즘으로 인해 피해를 입은 사람을 구제하는 전문가

 

개인 정보 비식별화 기법

기법 설명
데이터 마스킹(Masking) - 다양한 유형의 데이터 관리 시스템에 저장된 정보를 보호하는 데 사용되는 프로세스
- 예) 카드 뒤 4자리 숨기기, 주민번호 뒤 6자리 숨기기 
데이터 범주화 - 변수가 가질 수 있는 가능한 값들을 몇 개의 구간으로 범주화
- 예) 홍길동, 35세 => 홍씨, 30-40세
가명 - 개인식별 정보를 삭제, 알아볼 수 없는 형태로 변환
- 홍길동, 국제대 재학 => 임꺽정, 한국대 재학
잡음 첨가 자료 값에 잡음을 추가하거나 곱해 원래 자료에 약간의 변형을 가하여 공개
총계 처리 / 평균값 대체 데이터의 총합 값을 보임으로 개별 데이터의 값이 보이지 않도록 함.
데이터 값 삭제 데이터 셋의 값 중 필요 없는 값 또는 개인 식별에 중요한 값 삭제
728x90
그리드형(광고전용)
⚠️AdBlock이 감지되었습니다. 원할한 페이지 표시를 위해 AdBlock을 꺼주세요.⚠️


📖 Contents 📖