Karen
11k
2018-05-14 15:24:09
0
748

달달 맵싹! 양파의 개발 이야기 - 데이터 디자인과 데이터 품질


  1. 데이터 디자인 - 어떤 데이터를 보낼 것인가 결정
  2. 데이터 보내는 기능 개발 - 데이터 모으는 객체에 데이터 모으고 보내는 프로그램 개발하고 깔기 
  3. 데이터 콜렉션 - 서버를 설치해서 객체들이 데이터 보내면 샤샥받아 처리할 수 있게 함 
  4. 데이터 저장 - 받은 데이터를 데이터베이스에 넣는 부분.
    --- 요기까지가 데이터 엔지니어링이고요 
  5. 데이터 다듬기. 요리하기 전에 고기는 핏물 빼고 면은 불려 놓고 뭐 그래야 할 수 있죠. 데이터도 대강 다듬어 두어야 할 수 있습니다. 아주 잘게 다듬어야 할 수도 있고요. 
  6. 데이터 탐색하기. 여기서부터 데이터 과학 본격 시작입니다. 무슨 데이터가 있는지 보고 원하는 지표를 뽑을 수 있는지 등등 봅니다.



오늘은 1번. 데이터 디자인과 데이터 품질 부분입니다.


간단하게 보면, 우리는 늘 데이터 디자인과 컬렉션을 하고 있습니다.

학생의 경우 부모님의 눈치를 보면서 게임을 할까 말까 결정을 내릴 수 있겠네요. 부모님의 표정, 집안 분위기 데이터를 수집하고 지난 경험을 바탕으로 미래 행동을 어떻게 할 것인지 결정을 내립니다 (게임 5분만!)

시장 조사 이런 것도 데이터 분석이죠. 직접 나가서 물어볼 수도 있고, 이미 나와 있는 자료를 쓸 수도 있겠습니다.

학교 선생님들 얘기로는 공문이 많이 내려온다고 하고, 이래저래 교육청 등에서 요구하는 서류가 많다고 들었는데, 그것 역시 교육청의 자료 모으기라고 할 수 있겠습니다. 어떤 데이터가 필요하다 결정하고, 그것을 서류로 만들어서 보내고, 받아서 또 전산화하겠죠.



컴퓨터로 데이터 모으기도 비슷합니다.

어떤 데이터를 모을지 결정하고, 그것을 코드로 넣습니다. 아니면 이미 나온 데이터를 가공해서 내가 쓸 수 있는 모양으로 바꿉니다. 직접 만드는 경우에는 telemetry design, data generation, logging, 뭐 여러가지 이름이 있습니다.


아주 간단한 케이스를 봅시다. 노트북 하나에 스크립트를 깔고, 영화관 입구에 그 노트북을 둡니다. 그리고 영화를 보고 나오는 사람들에게

"영화관 경험이 어땠습니까? 좋으셨으면 5, 안 좋으셨으면 1을 눌러주세요!"

할 수 있겠네요.

그리고 번호를 누르면 그것을 서버에 보낼 수도 있겠고 아님 그냥 저장해둘 수 도 있습니다.


엔지니어링 프로젝트를 할 때는 언제나 the devil is in the details 라고 하죠. 디테일에서 망합니다. 하지만 implementation, 그러니까 구현하는 데에 정신이 팔리면 시스템 다 만들어 놓고도 망할 수 있습니다.

영화관 경험이 어땠습니까 물어보는 노트북이 입구에 있다고 해서 몇 명이 거기에 데이터를 입력할까요. 그리고 그 데이터를 입력하는 사람들은 과연 영화 보러 간 사람들을 대표할까요? 또, 영화가 재미없었다면, 혹은 같이 영화 보는 사람들이 시끄럽게 떠들었다면 영화관 경험이 나빴다고 말 할 수도 있겠죠.

그래서 데이터 모을 때에는 엔지니어링 구현 디테일 말고도 여러가지 고려가 필요합니다. 제대로 된 메트릭인지, 최대한 대표 샘플을 모을 수 있는지, 모으는 방법이 잘 디자인 되었는지 뭐 그런 거요.



한 모바일 팀이 데이터 품질 문제로 골머리를 앓고 있었습니다.

아시다시피 모바일은 밧데리가 아주 중요하죠. 그래서 와이파이 터지고 밧데리 빵빵할 때는 데이터도 많이 보내고, 대신 와이파이 없고 밧데리 낮으면 아주 중요한 데이터만 보냅니다.

그런 경우에는 와이파이가 없는 상황에서 앱에 문제가 생긴다면... 네, 데이터가 거의 없습니다.

그리고 잘 연결될 때 받는 데이터가 많다 보니까 데이터만 보면 엄청 빨리 잘 돌아가는 걸로 보일 수 있습니다.

이런 경우 데이터 분석 해도 틀린 결론이 나오기 쉽습니다.

IT 의 명언이 있죠. Garbage in, garbage out. 틀린 데이터를 넣으면 아무리 훌륭하게 분석해도 틀릴 수 밖에 없는 슬픔.


요리도 그래서 재료가 중요하다고 합니다.


이번 글 끝.






by Yangpa : https://www.facebook.com/seattleyangpa/posts/2007649512853859



1
0
  • 댓글 0

  • 로그인을 하시면 댓글을 등록할 수 있습니다.