코부리
20
2019-04-25 15:55:37 작성 2019-04-25 16:06:26 수정됨
9
1316

jsoup javascript 크롤링 질문 있습니다.


<script> 안에 있는 <img> 태그의 src값들을 전부 얻으려고 하는데,


Element getScriptAttr = inner_doc.selectFirst("#descTemplate");


System.out.println(getScriptAttr.toString()); 이렇게 까지만 하면 p태그 등 다른 불필요한 것들도 다 나와서


한 번더 안으로 들어가려고 select("img"); 라고 적으면 값이 안 나옵니다.


어떻게 하면 img의 src값을 얻을 수 있을까요? 



페이지 소스로 보면 저 부분이 마치 문자열 처럼 보입니다..ㅠㅠ


0
  • 답변 9

  • 구구구구
    1k
    2019-04-25 16:14:10 작성 2019-04-25 17:01:56 수정됨
  • 코부리
    20
    2019-04-25 17:01:53

    구구구구 허접한 개발자라 감이 잘 오지 않는데 정규식으로 어떻게 활용하면 좋을까요?

  • 구구구구
    1k
    2019-04-25 17:05:24

    정규식 써야하는줄 알았는데 정규식 안 쓰고 데이터 뽑는 방법이 있네요.

  • 코부리
    20
    2019-04-25 17:07:50

    구구구구 최대한 알려주신 방법 머리 쥐어짜내서 도전해 보겠습니다. 제가 올린 저부분이 자바스크립트로 동적 렌더링된거라 어려운 것 같습니다만...ㅠ............

  • 코부리
    20
    2019-04-25 17:13:15

    650x175


    650x107


    100%50%25%


    구구구구 실례지만, 

    지금 이런 상태인데 저기서 <img src="http:\\ 필요한정보" >

    를 얻으려하면 select로 접근이 안되고, 긁어오려는 저 부분이 전부 문자인 것 같습니다.

      

  • 구구구구
    1k
    2019-04-25 17:21:02

    안 된다면 어쩔 수 없이 정규식으로 해야할것 같네요.

  • 구구구구
    1k
    2019-04-25 17:31:34
  • 코부리
    20
    2019-04-25 17:33:42

    구구구구 제가 일단 script안의 내용을 다 퍼올리고 있는데, 이게 퍼올릴때마다 양이 너무 가변적이라 정규식으로 통제가 될까요...?

  • 구구구구
    1k
    2019-04-25 17:35:31

    딱히 상관 없을것 같은데요.

  • 로그인을 하시면 답변 을 등록할 수 있습니다.