Dongme
59
2019-07-08 12:49:41
4
287

파싱? 크롤링 + 챗봇이나 채팅기능


쿠팡 채팅 고객센터 같은 기능을 추가할려고 하는데 혹시 api 괜찮은거 있을까요??


크롤링시 원하는 데이터가 다 넘어 왔을경우에 멈추는 방법이 있을까요? 해외 사이트에서 정보를 크롤링 하다보니 여러 데이터를 크롤링시 너무 느려지는 현상이 발생하더라구요. 일단은 병렬처리로 해결 해볼려고 하나 사이트 자체에 쓸모없는 데이터가 너무 많아서 더 느려지는거같아 해결하고싶습니다..

0
0
  • 답변 4

  • 자라선
    1k
    2019-07-08 13:34:44

    3곳의 사이트에 전날 까지 올라온 게시글들을 모두 크롤링 할려니

    단일 프로세스로는 속도가 너무 느려

    5개의 멀티프로세스를 만들어 돌려보니 확실히 속도 개선이 되긴했습니다.

    이거에 관련해서는 블로그들 참조해보면 될거같아요

    1
  • Dongme
    59
    2019-07-08 13:41:24
    혹시 크롤링 중에 원하는 정보가 넘어 왓을경우 크롤링을 멈추는 방법도 있을까요?? 
    0
  • 자라선
    1k
    2019-07-08 13:44:49

    @Dongme 

    보통은 requests 라이브러리를 사용해 해당 페이지 소스를 가져와

    beatiful 이였나? html 파싱 라이브러리로 분석해 원하는 정보를 가져오는게 크롤링의 기본개념인데

    여기서 멈춘다는 의미를 이해를 못하겠어요.

    1
  • Dongme
    59
    2019-07-08 13:53:47

    아하.. 죄송합니다 사실 아직은 정확히 크롤링의 개념이 안잡혀 있는 상태로 jsoup을 이용해 하다보니 이상한 질문만 하게 되네요.. 더 공부하고 와서 질문하겠습니다 

    0
  • 로그인을 하시면 답변을 등록할 수 있습니다.