잘부탁드립니다
702
2018-01-14 22:06:54
8
781

데이터 크롤링 방법


안녕하세요?


파이썬을 활용해 제가 원하는 곳에 공고 정보가 올라오면 제가 만든 홈페이지에 자동으로


그 공고내용이 등록되도록하는 데이터크롤링 기술을 구현하고자 합니다.


혹시 이쪽으로 기술을 구현해보신 분 계신가요? 계시다면 어떤 언어를 사용하셨는지요?


현재 파이썬을 활용해서 구현하려고 하는데 파이썬을 사용할때 프레임워크는 어떤걸 써야하고,


서버는 또 뭘 써야하는지 현재 구축된 사례가 많이 없고 여기에 대한 책이나 강좌도 잘 없는 실정이라서


많은 어려움을 겪고있네요.


플라스크를 활용해서 파이썬 활용 웹사이트를 구축하고 거기에 크롤링 기능을 넣어야 할 것 같은데,


시중에 존재하는 책 중에 JS를 활용해서 크롤링을 구현한 책도 있더라구요.


실제 실무에서는 어떤걸 활용해서 크롤링을 구현하고 있으며, 이 기술이 초급정도 기술밖에


안되는건지요? 그리고 여기에 대해 정보가 많이 없는 이유가 궁금합니다.^^

0
0
  • 댓글 8

  • 세브라이드
    718
    2018-01-14 22:43:38

    자바를 이용해서 할인정보를 크롤링했었습니다. Jsoup에 Spring을 썼고요.

    크롤링이라는 게 합법과 위법의 경계선에 있는 기술이기 때문에 그렇습니다. 대부분의 회사는 크롤링으로 가공된 정보에 대해서 상업적 이용을 막고 있을 겁니다. 반면 1차 정보를 재가공해서 만든 2차 정보는 온전히 2차 창작자의 것이라는 판례가 있기도 하고요(게임정보를 이용해 게임공략집을 만드는 행위 따위). 그래서 회사에서는 크롤링 행위 자체가 위법사유라는 조항을 넣기도 하고...

    법적으로 복잡합니다.; 그래서 비지니스적으로 활용하기 힘들고, 따라서 정보가 많이 없지요.

    0
  • moonti
    892
    2018-01-14 22:59:16

    구글에 검색하는데 꽤 많이 나오는거같은데요???

    0
  • JMK
    94
    2018-01-14 23:11:51 작성 2018-01-14 23:13:21 수정됨

    Python에 BeautifulSoup 을 사용하셔서 크롤링을 쉽게 하실 수 있습니다.

    크롤링 대상 사이트의 HTML 구조만 잘 파악하시면 쉽게 데이터를 가져올 수 있습니다.

    다만, 맨 윗분의 말씀대로 위법적인 부분은 조심하셔야 합니다.

    https://beomi.github.io/2017/01/20/HowToMakeWebCrawler/

    0
  • 잘부탁드립니다
    702
    2018-01-14 23:29:31 작성 2018-01-14 23:33:34 수정됨

    @민트맛밤

    정보 공유해주셔서 감사합니다. 저도 Java를 했었던터라 현재 국내에는 Jsoup을 활용한 크롤링에 관한

    정보가 많더군요. 요즘 빅데이터니 뭐니 하면서 파이썬 언어가 강조되고 있고, 파이썬이 이런 빅데이터를

    분석하고 활용하는데 유용한 언어라는 말이 많은데, 

    정작 현실은 파이썬을 활용한 크롤링 예제나 사례가 많이 없는 것 같아서요.

    크롤링 또한 자바로 구현할것이라면 파이썬의 강점은 도대체 어디 있는 것인지..


    궁금한 것이, 크롤링 알고리즘 코드를 삽입해두면 말그대로 '자동적으로' 제가 설정해놓았던

    사이트들의 가격정보를 실시간으로 긁어오는가요?

    정말 말 그대로 'automatic' 인 건지, 아니면 말만 automatic 이고 실상은 계속 코드를 손대면서

    필요한 정보를 직접 긁어오기도 해야하는 건지요?

    0
  • 잘부탁드립니다
    702
    2018-01-14 23:30:45

    @moonti

    파이썬을 활용한 웹크롤링 종류가 beautifulsoup, scrapy로 좁혀지는 것 같은데

    국내외 예제를 뒤져봐도 단순히 '크롤링' 기능만 간단히 구현한 예제만 존재하고

    웹 페이지에 이 기능을 삽입해서 실제 구동되는 웹을 구현한 사례는 찾기가 힘드네요.

    0
  • 잘부탁드립니다
    702
    2018-01-14 23:31:46

    @LabSlave

    링크 감사드립니다.

    파이썬을 이용해서 '크롤링' 자체 기술 구현한 예제는 많이 존재하지만

    이를 웹에 장착해서 실제로 자동 프로그램 형식으로 돌리는 예제는 거의 존재하지 않네요.

    0
  • bluerain
    1k
    2018-01-15 09:53:18

    위법여부에 대해 간단히 설명하자면 다음의 케이스와 비슷한 내용이 됩니다.


    ----------------------------------------------------------------------------------------------------------------------------------------------몇년전 부터인가 커뮤니티나 특정사이트에 방송사나 신문사의 기사 내용의 전체를

    직접적으로 넣어서 게시하는 행위 자체가 "위법"으로 분류 되었습니다.

    그래서 현재는 대부분 링크를 넣거나 페이스북과 같이 링크를 넣으면 썸네일형태의 이미지와 기사제목을 포함한 링크가 들어가게 됩니다.

    ----------------------------------------------------------------------------------------------------------------------------------------------

    법적인 문제는 위와 같고, 기술적인 부분에서 첨언을 하자면

    타겟이 되는 사이트의 html dom의 형태가 계속 고정적이면 상관이 없으나,

    디자인등의 변경으로 해당 페이지의 attribute나 구조가 변경이 되면 "크롤링"하는 측도 이에 맞추어

    변경을 해주어야 하죠.

    이러한 번거로움이 있고, 해당 기술자체가 비합법적인 형태를 띄다보니 대부분

    "이러이러하게 하면 된다"라는 글만 있을 뿐 소스를 올리지는 않는 형태를 보이는 겁니다.

    0
  • JMK
    94
    2018-01-15 21:27:17

    크롤러 프로그램을 서비스로 등록하고 돌리면서 데이터를 데이터베이스에 저장하고웹은 데이터베이스에 저장된 데이터를 뿌리는 형태로 구현하시면 될것 같습니다.

    0
  • 로그인을 하시면 댓글을 등록할 수 있습니다.