728x90
728x170
데이터 이해 : 데이터의 가치와 미래
빅데이터란?
빅데이터의 정의
- 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
- 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
- 데이터의 양(Volume) 데이터 유형과 소스 측면의 다양성(Variety), 데이터 수집과 처리 측면에서 속도(Velocity)가 급격히 증가하면서 나타난 현상
빅데이터 - 4V
- ROI(Return On Investment, 투자자본수익률) 관점에서 보는 빅데이터
요소 | 설명 |
Volume | - 데이터의 크기 - 생성되는 모든 데이터를 수집 |
Variety | - 데이터의 다양성 - 정형화된 데이터를 넘어 텍스트, 오디오, 비디오 등 모든 유형의 데이터를 대상으로 함. |
Velocity | - 데이터의 속도 - 사용자가 원하는 시간 내 데이터 분석 결과 제공 - 업데이트 속도 빠름. |
Value | Value는 ‘비즈니스 효과 요소’, Volume, Variety, Velocity는 ‘투자비용 요소' |
빅데이터 출현 배경
- 산업계에서 일어난 변화를 보면 빅데이터의 현상은 양질 전환 법칙으로 설명할 수 있다.
- 양질 전환 법칙
- 일정한 양이 누적되면 어느 순간 질적인 비약이 이루어짐.
- 기업들이 보유한 데이터가 '거대한 가치 창출이 가능할 만큼 충분한 규모' 에 도달
- 양질 전환 법칙
- 학계의 거대 데이터 활용 과학 확산
- 학계에서도 빅데이터를 다루는 현상들이 늘어나고 있음.
- 대표적 사례 : 인간 게놈 프로젝트
- 디지털화, 저장기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 등 관련 기술 발전과 관련이 있음.
- 클라우드 컴퓨팅
- 빅 데이터 분석에 경제적 효과를 제공해준 결정적 기술
- 클라우드 분산 병렬처리 컴퓨팅은 대용량 데이터 처리 비용을 획기적으로 줄임.
- 클라우드 컴퓨팅
- 소셜 미디어, 영상 등 비정형 데이터의 확산
- 데이터 처리 기술 발전
빅데이터의 역할
- 빅데이터는 "석탄/철, 원유, 렌즈, 플랫폼" 이다!
역할 | 설명 |
석탄, 철 | 빅데이터는 석탄, 철이 산업혁명에서 했던 역할을 지금의 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 혁명적 변화를 가져올 것으로 기대됨. |
원유 | 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 ‘정보’를 제공하여, 산업 전반의 생산성을 향상시킬 것으로 기대됨. |
렌즈 | - 현미경이 생물학 발전에 미쳤던 영향만큼 데이터가 산업 전반에 영향을 미칠 것임. - 구글 ‘Ngram Viewer’를 통해 수천만 권의 책을 디지털화 |
플랫폼 | - 비즈니스 측면에서는 ‘공동 활용의 목적으로 구축된 유/무형의 구조물'을 의미함 - 페이스북과 같이 다양한 사업자들이 공동으로 사용하는 플랫폼을 빅데이터 형태로 제공할 것으로 예상 - 각종 사용자 데이터와 센서 데이터를 수집하고 API를 공개하면 서드파티 사용자들이 활용하는 플랫폼 역할을 기대 |
빅데이터의 가치 산정, 본질적 변화
빅데이터의 가치 산정이 어려운 이유
이유 | 설명 |
데이터의 활용 방식 | 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제,어디서,누가 활용할지 알 수 없음. |
새로운 가치 창출 | 데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어려움. |
분석 기술의 발달 | 분석 기술의 발달로 지금은 가치 없는 데이터도 새로운 분석 기법의 등장으로 거대한 가치를 만들어내는 재료가 될 가능성이 있음. |
빅데이터가 만들어내는 본질적인 변화
사전 처리 | 사후 처리 | 사전처리 => 표준화된 문서 포멧 사후 처리 => 데이터를 모은 뒤 그 안에서 숨은 정보를 찾아냄. |
표본 조사 | 전수 조사 | |
질(Quality) | 양(Quantity) | |
인과관계 | 상관관계 |
빅데이터 활용 사례
- 구글 검색엔진, 월마트의 구매 패턴 분석, IBM 왓슨 - 의료 분야에 활용
- 정부의 실시간 교통정보 활용, CCTV 국가 안전에 활용
- 사회 관계망 분석을 통한 현상분석, 가수의 팬 음악청취 기록 분석 활용
- 아마존의 킨들(Kindle, 전자책 전용 단말기)에 쌓이는 전자책 읽기 관련 데이터 분석해 저자들에게 제공
728x90
빅데이터 활용 기법
기법 | 설명 |
연관 규칙 학습 (Association Rule Learning) |
변수간 주목할 만한 상관관계가 있는지 찾아내는 방법 - 예1) 우유구매자가 기저귀도 같이 구매하는가? - 예2) 커피를 사는 사람들이 탄산음료도 많이 구매하는가? |
유형 분석 (Classification Tree Analysis) |
- 사용자는 어떤 특성을 가진 집단에 속하는가? 와 같은 문제 해결에 사용함 - 문서를 분류하거나 조직을 그룹으로 나눌 때, 온라인 수강생들을 특성에 따라 분류할 때 사용함 |
유전 알고리즘 (Generic Algorithms) |
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법 - 예1) 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? - 예2) 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가? |
기계 학습 (Machine Learning) |
- 훈련 데이터로부터 패턴을 학습해 ‘예측’하는 일에 활용되고 있음. - 예) 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중 어떤 것을 가장 보고 싶어할까? (넷플릭스 추천 시스템) |
회귀 분석 (Regression Analysis) |
- 선형함수로 나타낼 수 있는 수치 데이터 분석 - 예)사용자의 만족도가 충성도에 어떤 영향을 미치는가? |
감정 분석 (Emotion Analysis) |
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석함. - 소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아낼 때 활용함. - 호텔에서 고객의 논평을 받아 서비스를 개선하기 위해 활용함. |
소셜 네트워크 분석 (Social Network Analysis) |
- 사회관계망분석(SNA)과 같음. - 영향력 있는 사람을 찾아낼 수 있으면, 사람들 간 소셜 관계를 파악할 수 있음. |
※ 감정 분석과 소셜 네트워크 분석을 구별!
빅데이터 위기 요인과 통제 방안
① 사생활 침해
위기 요인
- 우리를 둘러싼 정보 수집 센서들의 수가 점점 늘어나고 있고, 특정 데이터가 본래 목적 외에 가공 처리돼 2차 3차적 목적으로 활용될 가능성이 증가
- 익명화(Anonymization) : 사생활 침해를 방지하기 위해 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환 하는 것
통제 방안
- 동의제에서 책임제로 전환
- 개인정보의 활용에 대한 개인이 매번 동의하는 것은 경제적으로도 매우 비효율적임.
- 사생활침해 문제를 개인정보 제공자의 동의를 통해 해결하기 보다는 개인 정보 사용자에게 책임을 지움으로써 개인정보 사용 주체가 보다 적극적인 보호 장치를 강구하게 하는 효과가 발생할 것으로 기대됨.
② 책임 원칙의 훼손
위기 요인
- 빅데이터 기반분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 증가함.
- 그러나 잠재적 위험 사항에 대해서도 책임을 추궁하는 사회로 변질될 가능성이 높아 민주주의 사회 원칙을 크게 훼손할 수 있음.
- 예) 범죄 예측 프로그램을 통해 범죄 전 체포
통제 방안
- 기존의 책임 원칙을 강화할 수 밖에 없음.
③ 데이터의 오용
위기 요인
- 빅데이터는 일어난 일에 대한 데이터에 의존함.
- 그것을 바탕으로 미래를 예측하는 것은 적지않은 정확도를 가질 수 있지만, 항상 맞을 수는 없음.
- 주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러 올 수 있음.
통제 방안
- 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증방안을 도입 필요성 제기
알고리즈미스트(Algorithmist)
- 데이터 분석 알고리즘으로 부당한 피해를 보는 사람을 방지하기 위해서 생겨난 직업
- 데이터 분석 알고리즘으로 인해 피해를 입은 사람을 구제하는 전문가
개인 정보 비식별화 기법
기법 | 설명 |
데이터 마스킹(Masking) | - 다양한 유형의 데이터 관리 시스템에 저장된 정보를 보호하는 데 사용되는 프로세스 - 예) 카드 뒤 4자리 숨기기, 주민번호 뒤 6자리 숨기기 |
데이터 범주화 | - 변수가 가질 수 있는 가능한 값들을 몇 개의 구간으로 범주화 - 예) 홍길동, 35세 => 홍씨, 30-40세 |
가명 | - 개인식별 정보를 삭제, 알아볼 수 없는 형태로 변환 - 홍길동, 국제대 재학 => 임꺽정, 한국대 재학 |
잡음 첨가 | 자료 값에 잡음을 추가하거나 곱해 원래 자료에 약간의 변형을 가하여 공개 |
총계 처리 / 평균값 대체 | 데이터의 총합 값을 보임으로 개별 데이터의 값이 보이지 않도록 함. |
데이터 값 삭제 | 데이터 셋의 값 중 필요 없는 값 또는 개인 식별에 중요한 값 삭제 |
728x90
그리드형(광고전용)
'Certificate > ADsP' 카테고리의 다른 글
[ADsP] 데이터 분석 : 통계 분석 - 상관 관계를 이용하는 다변량 분석 (0) | 2022.07.02 |
---|---|
[ADsP] 데이터 분석 : 통계 분석 - 통계학 개론 (0) | 2022.07.01 |
[ADsP] 데이터 분석 : R 기초와 데이터 마트 (0) | 2022.06.27 |
[ADsP] 데이터 분석 기획 : 분석 마스터 플랜 (0) | 2022.06.25 |
[ADsP] 데이터 분석 기획 : 데이터 분석 기획의 이해 (0) | 2022.06.25 |
[ADsP] 데이터 이해 : 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2022.06.24 |
[ADsP] 데이터 이해 : 데이터의 이해 (0) | 2022.06.24 |
국가공인 데이터분석 준전문가(ADsP) 시험 개요 (0) | 2022.06.21 |