Dominique
203
2021-06-30 08:59:22
8
581

간단한 웹 크롤링 프로그램을 만들려고 합니다(코린이).


하나의 커뮤니티를 잡아서 해당 커뮤니티에서 한 변수에 대해서 어떤 생각을 하고 있는지 뽑아내는게 목표입니다.

이를 하기위해 필요한게

게시판 글 제목, 내용 긁어오기

해당 글의 신빙성 여부(추천/비추천 수, 댓글 수 등)

글의 긍정/부정 여부

등을 파악하려고 합니다.

예시) 파이썬은 사랑입니다. (추천+15)

위 예시를 보면 해당 커뮤니티는 파이썬에 대해 긍정적인 것을 알 수 있죠.


일단 위에것을 제대로 세운 다음에 주작글(봇), 돌려말하는 글 등도 확인해보고 싶습니다.

파이썬으로 기초 문법만 배운 상태에서 해당 프로그램을 짜내는데 얼마나 걸릴거라고 예상하시나요? 

0
  • 댓글 8

  • 뛰라고
    657
    2021-06-30 09:07:10

    음......기초 문법만 배웠다...는게 어느수준인지 잘 모르겠지만

    코딩 감각도 잘 없다는 상황으로 가정한다면, 뭘 배워야 할지도 모르실텐데


    초보자 기준으로볼때, 파이썬 - 셀레니움 이라는걸 배워서 만드는게 편하실거구요.

    (셀레니움 검색해보세요)


    하루 두시간 기준으로.... 오래걸려도 2주면 하지 않을까요? 대충 30시간.


    생초보자 기준.....

    -1
  • defult
    13k
    2021-06-30 09:18:37

    크롱링으로 가져올 사이트 특성이해

    크롤링으로 가져온 데이터 구성이해

    크롤링으로 가져온 데이터 가공


    같은 프로그래밍 언어 외적영역 하나도 기본소양 없으면 누가 개인강습을 해줄것도 아니고 인터넷에 아무리 질문올려도 제대로 기초부터 알려줄 사람도 없으므로


    기타지식까지 공부한다고 개월단위나 해결불가의 가능성이 크죠

  • vollfeed
    1k
    2021-06-30 09:21:39

    불가능


    크롤링이 문제가 아니라,

    긍부정 처리 등은 데이터 마이닝, 오피니언 마이닝이라고 불립니다.

    AI의 한 갈래 입니다.

    대부분 "글자를 숫자로 바꿔 연산"하는 법을 모릅니다.

    당연히 시중에 마땅한 책도 없습니다.

    교수님 지도와 논문 읽기가 필수인 영역입니다.


    더 상세한 설명은 생략하죠. 어차피 적어도 6~10년은 공부를 더해야 알아 들을 수 있는 영역입니다.

  • Dominique
    203
    2021-06-30 09:45:39

    defult, volifeed

    사실 그렇게 거창한 건 아니구...

    예시정도의 것, 더 말씀드리자면

    1. 일차적으로 크롤링을 마치고 많이 언급되는 표현들의 파악

    2. 해당 단어들에 대해서 '직접' 긍정/부정 부여(정말 간단하게 좋으면 +1, 안좋으면 -1)

    3. 부여된 단어들이 들어간 글에대한 '직접'평가(요것도 간단하게 단어가 들어가면 해당 점수 부여하는 식으로)

    4. 글의 신빙성(추천1당 +1, 비추천 1당 -1)


    이정도라서 오피니언 마이닝까지 갈 생각은 아니었거든요 ㅜ 사람의 노력을 수반한 프로그램을 생각하고 있었어서요.. 저도 그정도 깜냥이 안되는건 알고 있습니다.

  • Dominique
    203
    2021-06-30 09:47:46

    @뛰라고

    감사합니다! 셀레니움 확인해보니까 바로 사용해도 될정도로 잘 만들어진 것 같습니다. 이쪽으로 한번 진행해봐야될 것 같아요

  • 마하카스
    1k
    2021-06-30 10:00:25

    셀레니움으로 크롤링하는건 쉽겠지만,

    긍/부정으로 나누는건

    모델링으로 학습시켜서 하는것이고,

    어느정도 데이터마이닝에 대한 지식도 있어야 하고,


    통계학적 지식이 있어야 유의미한 데이터 분석이 가능해서


    그래서 빅데이터쪽은 통계학 석사 이상을 원하는 이유도 그러하구요

  • 더미
    16k
    2021-06-30 10:08:26

    글쓴분 예시가 생각하신 것보다 거창한 거에요...

  • Dominique
    203
    2021-06-30 10:22:22

    @마하카스

    전공이 통계학이긴 한데, 제 생각만큼 쉬운 게 아니었군요.. 너무 안이했습니다.


    @더미

    제가 개발 분야를 너무 쉽게 봤다는 것을 다시 한번 뼈저리게 느낍니다. 더 겸손해져야겠네요

  • 로그인을 하시면 댓글을 등록할 수 있습니다.