ans5925
10
2019-05-30 15:25:23
1
91

파이썬에서 html 파일의 데이터베이스화


안녕하세요 파이썬으로 공시정보를 크롤링하여 딥러닝 기술에 접목시키려고 합니다.


공시 정보 중 단일 페이지 공시만을 데이터베이스 화 할려고 합니다.


현재 가진 정보는 공시 정보가 html 구조로 저장되어 있는 url뿐입니다.


이를 데이터베이스화 하려고 하는데 제가 생각한 방법은 html을 pdf로 변환 저장해주는 파이썬 라이브러리 사용인데, 각각의 파일이 필요하기보다는 데이터베이스화 되어 학습에 사용할 수 있는 형태이기만 하면 되는 상황인지라 pdf로 저장하는 것은 불필요하다고 판단하여 질문드립니다.


관련 전공자가 아닌지라 방법이 쉽게 떠오르지 않는데 현업에서 이러한 상황에 놓일 경우 어떻게 데이터를 보관하나요?


html 파일에서 tag를 통해 보고서 내용을 뽑아오는 것도 생각해 봤는데 보고서의 종류만 해도 수백 종류인지라 이 방법은 포기했습니다

0
0
  • 답변 1

  • joeaney
    206
    2019-05-30 15:34:34

    beautifulsoup으로 html 문서를 파싱해보세요.

    0
  • 로그인을 하시면 답변을 등록할 수 있습니다.