windmii
116
2021-06-17 17:31:47
7
149

워드파일 text 전환시 2단 문서는 어떻게 파싱해야하나요?


안녕하세요 파이썬 파싱하다 질문드립니다.


이미지와 같이 원문이 2단으로 되어 있는 word를 파싱하고 싶은데 

제가 알고 있는 라이브러리 PyPDF2, pdftotext는 왼쪽 오른쪽 각각 분리하지 못하고 

한줄한줄 읽습니다... 이러한 문제를 해결할 수 있는 라이브러리나 해결방법이있나요?

0
  • 답변 7

  • 밥도둑계장
    799
    2021-06-17 17:39:03

    라이브러리 에서 제공하지 않는다면,

    저라면 그냥 이미지 크기가 일정하다는 가정하에 가운데를 잘라서

    2장으로 만들고 각각 파싱할거같아요.

  • windmii
    116
    2021-06-17 17:49:53 작성 2021-06-18 09:16:11 수정됨

     

    아이디어를 듣고 적용해 보려 했는데

    일정한 가운데 규칙을 찾는거(\n)이거 외엔 다른 방법은 없는건가요 ㅠ

    앞 부분 워드는 괜찮은데 뒷 부분 워드는 양단이 아니라서요

  • ERA
    2021-06-17 18:17:48

    워드파일을 처리하는 python-docx 를 사용하면 안되는 이유라도 있나요?

    확장판인가? python-docx2txt 이런것도 있고요.

    https://stackoverflow.com/questions/25228106/how-to-extract-text-from-an-existing-docx-file-using-python-docx


  • windmii
    116
    2021-06-18 09:12:54 작성 2021-06-18 09:14:51 수정됨

    #ERA

    @ERA

    ERA 

    태그 됐나요..?


    python-docx를 써보니 양단 구분이 안되고 한줄 한줄 읽혀서요...
    그래서 이거에 대한 해결 방법을 원하고 질문드렸습니다


    @밥도둑계장 님 방법은... 일정한 간격이 없어서 사용하기 힘들 것 같고

    다른 방법이 있나 질문 드린겁니다 ㅠ


  • 밥도둑계장
    799
    2021-06-18 14:00:25

    python-docx 가 구분이 안되서 한줄한줄 읽힌다면

    가운데 공백라인의 갯수는 일정하게 나올 것 같은데

    그 부분으로 split 한다음 홀수 짝수로 배열 따로 묵어주면 

    왼쪽은 홀수 배열에 오른쪽은 짝수 배열에 들어갈 것 같은데



  • ERA
    2021-06-18 19:11:00 작성 2021-06-18 19:13:33 수정됨

    혹시나해서 직접 테스트 해봤는데 python-docx 잘 되는데요?

    왼쪽은 3단으로 구성한 워드파일, 오른쪽은 파이참으로 위 소스 돌려서 나온 결과입니다.


  • windmii
    116
    2021-06-22 13:51:40

     


    밥도둑계장 홀짝 배열 생성해서 담는거 사용해 보겠습니다!! 감사합니다



     
    ERA 워드로 그렇게 읽었어도 제가 추출하고 싶은것은 3단 오른쪽 내용뿐이라면... 1단 부터 모두 출력되서... 
    이게..참 규칙 찾고 정규식 돌려야 될 것 같아요 ㅠㅠ 친절히 해주셔서 그래도 정말 감사드립니다 (__)


  • 로그인을 하시면 답변을 등록할 수 있습니다.