겸송
29
2018-12-12 03:27:19 작성 2019-06-12 23:46:58 수정됨
2
599

딥러닝/빅데이터 분석관련 선배님 후배님들께 자문 구합니다.(주소 매칭 시스템 개발)


안녕하세요.
저는 ERP 시스템 개발자로 7년정도 살아오다가..
현재는 사무 자동화 시스템 개발쪽을 1년6개월정도 수행하고 있는..아직도 노력 중인 개발자1 입니다.ㅎㅎ


지금은 연말이라 내년에 금융권쪽으로 자동화 컨설팅/개발을 준비하면서 업무 요건을 정리하고 있는데요.


저희 팀에서 2주정도 고민하고 있는 업무 요건(딥러닝/빅데이터 데이터 분석)이 있는데,
혹시나 선배님이나 후배님께 좋은 아이디어를 얻을 수 있을까 싶어 글을 작성하게 되었습니다.


1. 업무 요건
고객 주소 정보(번지 또는 도로명주소, "주로 번지로 되어있는 string 통 주소")를 바탕으로, 특정 웹 사이트에 맞는 정제된 고객 주소 정보를 입력하여,
원하는 정보를 스크랩핑 하는 프로세스를 개발하려고 합니다.


이때 특정 웹사이트는 KB부동산 리브온이나 국토교통부 실거래 시스템 등등의 부동산 관련 정보를 가지고 있는 웹사이트 입니다.


각각의 웹사이트는 사이트마다 주소 체계방식이 조금씩 다릅니다.
예시는 아래에서 말씀드리겠습니다.


제가 고민하고 있는 부분은,


[금융권에 저장되어 있는 내부시스템의 고객 주소] > (*매칭) > [특정 웹사이트에 맞는 주소 체계]


아무래도 금융권이다보니 네트워크 환경은 폐쇄망이며, 고객 주소는 개인정보이기 때문에, 외부망으로 보내는것은 사실상 불가능 합니다.
따라서 주소 매칭 시스템을 내부망 서버에서 별도로 DB를 구축 해야되는데요.


매칭 시스템을 구축해야되는데, 금융권마다 보유하고 있는 주소는 사실 입력하는 사람에 따라서 많이 다양합니다.


예시)

 동일한 고객정보(번지정보)
고객정보1서울시 서대문구 북가좌동 DMC래미안e편한세상
고객정보2서울 서대문구 북가좌1동 DMC래미안e편한세상
고객정보3서울 서대문구 북가좌1동 DMC래미안이편한세상
고객정보4서울 서대문구 북가좌동 DMC레미안이편한세상아파트
고객정보5서울서대문 북가좌동 DMC레미안이편한세상아파트
특정 조건출력 값
KB리브온서울특별시 서대문구 북가좌동 DMC래미안이편한세상
국토교통부서울특별시 서대문구 북가좌동 DMC래미안e편한세상
도로명주소서울시 서대문구 북가좌동 481
특정사이트1
특정사이트2


아파트 주소 1개를 예로 들어도 십여개 이상의 입력값 데이터가 나올 수 있습니다.
(아파트만 예외사항이 어마한데...오피스텔이며, 연립주택은 더 많을꺼 같아요)


제가 원하는건 특정 사이트를 조건으로 걸었으면, 특정 사이트에 맞는 출력 주소값이 나왔으면 합니다.
KB부동산리브온 사이트에 맞는 주소 출력값, 국토교통부 사이트에 맞는 주소 출력값 등등..


제 머리로는 사실...
주소.go.kr 에서 주소 데이터 전부 받아서..주소 db 구축하고,
예외사항을 db화로 계속 쌓는다고 하면...사실 데이터만 몇천만개가 될 수 있을꺼 같거든요.
이걸 분류하고 인덱스 걸고 이런식으로 만들어도 정확성보다 검색속도도 문제가 될 수 있을꺼 같구요.
고객이 입력하는 내용의 다양성을 커버하긴 쉽지 않습니다. 저런식으로 구축하는 것도 개발 공수가 많이 들어갈꺼 같구요.


사실 고객이 원하는건 단순하게 특정사이트에서 매매값이나 낙찰가 데이터 값인데, 주소매칭시스템 자체가 너무 커져버리면..
사실상 배보다 배꼽이 더 클꺼 같다는 생각이 들었습니다.


2. 결론 정리
다시 원점으로 와서 정리한다면,
저는 KB부동산리브온 주소 데이터나 국토교통부 실거래가 시스템 데이터, 특정사이트 주소 데이터를 보유하고 있습니다.


만약에 금융권 고객으로 부터 불특정 주소를 받아서(10만개 이상),


제가 모든 각각의 주소 마다 예외사항을 부여하지 않고,
어느 정도의 규칙에 예외사항을 만들고, 거기에 맞춰서 학습한다면...
다른 주소쪽 예외사항도 자동 학습이 되어 주소를 매칭시키는 자동학습 프로그램을 만든다고 가정하면...


어떤 쪽을 공부해야될까요...? (이 질문이 이 긴글에 핵심입니다;;)


되도록이면 오픈소스 기반에 프로그램을 익혀서, 기업용으로 솔루션화하여도 문제가 없었으면 좋겠습니다.


제가 아직 빅데이터나 딥러닝쪽은 실제 업무를 투입해본 적은 없구요.
세미나교육으로 2번..정도 들은 수준입니다.ㅠ,ㅠ


현재 저는 팀장이며, 팀원은 3명이 있습니다.
개발 공수는 2달정도로 가능하며, 저희 회사엔 12말까지 학습지원비가 빵빵하게 있어서, 평일 교육도 들을 수 있습니다.


사실 초기 컨셉을 가지고 프로토타입을  2달 안에 만들려고 합니다.


빅데이터, 딥러닝 쪽은 무지하여, 파이썬, R, 텐서플로, 케라스
무엇을 선택하여 적용할지 여부도 몰라서 많은 고민에 잠겨있습니다.
(Elastic 기업 오픈소스도 관심이 있어, Elasticsearch 는 어떨까 생각 중입니다)


회사에서는 빅데이터나 딥러닝을 이용한 솔루션은 내년이나 내후년으로 생각하고 있어서,
올해 연말부터해서 저희팀에 투자를 하고 프로토 타입을 한번 만들어 보라고 하시는데요.(이제 시작!)


무에서 유를 창조하긴 쉽지 않아...어디 쓰고 있는 프로그램이라도 있으면..그거라도 분석해서 만들어보고 싶은데...
조사는 2주정도 하고 있지만 결과물이 마땅하지 않은 상황입니다.


딥러닝이나 빅데이터 데이터분석을 하고 계신 선배님 또는 후배님께 자문을 구합니다.
다양한 관점으로 어떠한 정보도 감사하게 듣겠습니다.


지금도 자료 조사하다가 현자타임이 와서..이 글을 작성하게 되었네요 ㅎㅎ


여러번 읽어보니 너무 긴글이라 요약 정리한다면,
1. 주소 매칭 시스템을 구축해야되는데, 추천하는 프로그램이나 컨셉은?
2. 인원 4명으로 12월말까지 공부하고, 2달 안에 프로토 타입을 만들 수 있을지?


긴글 읽어주셔서 정말 감사드립니다.


글로 작성하기 힘드시다면, 서울권 안에 제가 찾아가서 인사드릴 수도 있고, 전화통화도 언제든 가능합니다.!!


0
0
  • 답변 2

  • EF
    903
    2018-12-12 06:50:34

    1. 제가 말씀드릴 첫번째것은 주어진 문제가 딥러닝에 적합하지 않아보인다는 겁니다. 주소지를 적는 패턴이 엄청 다양하다고 하셨는데 사실 다양한것도 정도가 있지 한국어->일본어 번역 모델 만큼은 아니 잖아요? 주소지 정도의 다양성은 규칙 기반 모델이 훨씬 정확하고 빠르며 관리하기도 쉬울것 같습니다. 데이터가 몇천만개라고 하셨지만.. 대한민국 주소지 갯수 다 합쳐도 몇천만개 안될 것 같아요. 애초에 딥러닝을 사용하는 케이스는 규칙 기반 모델 사용이 불가능할때 입니다. 비슷한 성능에서는 보통 규칙기반 모델이 딥러닝 모델보다 안정적이고 연산이 빠르기 때문에 속도 문제로 딥러닝 솔루션을 만들겠다는 것은 이치에 맞지 않아보입니다.


    2. 정 딥러닝 기반의 솔루션을 만들고 싶으시다면 설계가 필요하는데 어떤식으로 설계를 하실 생각인지 궁금하네요. 일단 질문 주신 건 전형적인 지도 학습 문제인데 지도 학습은 기본적으로 레이블된 다량의 데이터가 필요합니다. 예를들면 본문의 입력값->출력값의 예시같은게 최소 수만개는 필요해요. 이 자료의 확보가 최대 관건이네요. 학습 데이터가 어떤식으로 레이블 되었는지, 얼마나 갖춰졌는지에 따라 설계 난이도가 달라질텐데 일단 질문글만 봐서는 레이블 안된 자료만 다수 확보 된 것 같네요.

    0
  • 겸송
    29
    2018-12-12 14:26:14 작성 2019-08-27 21:02:12 수정됨

    @EF

    답변 감사합니다.

    꼭 딥러닝 기반으로 만들려는건 아닙니다. 제 욕심이죠

    아직 컨셉조차 제대로 못잡고 있는 상황입니다.


    의사결정트리(Decision Tree)

    말씀 주신 키워드가 현재 프로젝트와 맞는거 같아요.

    관련 키워드 중심으로 다시 조사해보겠습니다.

    감사합니다.


    0
  • 로그인을 하시면 답변을 등록할 수 있습니다.