-12.2 C
Seoul
토요일, 2월 8, 2025

spot_img

부동산 파이썬 Python 크롤링 미분양 정보 가져오기 (1편)

요즘 ‘부동산’ 에 대한 정보를 가공하고자 하는 분들이 많이 있으신 것 같습니다.

부동산 상승과 하락 시장 구분이 명확하지 않은 시점에서 정확한 판단을 위해서 정보를 수집, 가공하여 판단 자료로 활용하시는 분들이 많아진 이유라고 생각합니다.

다양한 부동산 정보가 넘쳐나는 시점에서 어떻게 많은 정보를 가져오고 가공 할 수 있을까 하는 것이 핵심인데요 그래서 오늘부터 몇차례에 걸쳐서 부동산 정보 크롤링 하는 법에 대해서 포스팅 하려고 합니다.

오늘은 부동산 지인이라는 사이트에서 미분양 정보 데이터를 수집해보려고 합니다.

(중요) 부동산 크롤링은 고유 사이트의 지적 재산을 침해할 수 있으므로 해당 포스팅은 크롤링을 장려 하는 글이 아니며 단순히 크롤링에 대한 학습 정보라고만 생각해주세요.

부동산 지인 사이트를 알아보자.


부동산 지인 사이트에서 미분양 정보를 가져올때 몇가지 제한 사항이 있습니다.

  1. 아이디와 비밀번호를 입력해서 로그인을 해야합니다.
  2. 부동산 지인 사이트는 개발자모드(F12)를 금지 스크립트가 적용되어 있어, 개발자모드를 켜는 순간 웹사이트가 정상적으로 동작하지 않습니다.
  3. 따라서 크롤링 하기에는 난해한 사이트 입니다.

어쨌든, 해당 사이트에서 미분양 정보만 수집해보겠습니다. 먼저 부동산 지인 사이트에 접속해 봅니다.

부동산 지인 사이트에 접속하면 기간별 미분양 현황 그래프로 나와 있는데, 이 그래프에서 숫자만 뽑아오는 것이 이번에 할 일입니다.

부동산 지인 사이트는 네이버에 부동사 지인이라고 검색 하시거나 아래 링크를 클릭하여 이동하세요.

파이참 (Pycharm)을 실행하자


파이썬 (Python)을 활용하는데 다양한 비쥬얼 에디터 (Visual editor) 가 존재하는데, 비쥬얼스튜디오나 파이참을 많은 사람들이 이용하고 있습니다. 개인적으로 파이참을 주로 사용하는데, 파이참에서 제공하는 플러그인 중에 마음에 드는 것이 있기 때문입니다.

먼저 파이참을 실행하고, 새로운 프로젝트를 설정합니다. 새로운 프로젝트명은 마음대로 정하세요

설정환경에서 가상환경 (Virtualenv)를 설정하는 것을 추천합니다. 파이참에서는 각 코드별로 실행할 수 있는 단축키를 제공하는데, 가끔 코드를 단계별로 실행해서 에러를 추적할 때 메우 유용한 코드입니다.

단축키는 Alt+Shift+E 키를 활용하시면 됩니다. 블럭으로 묶거나 한 코드만을 감싸서 실행하면 해당 되는 코드만 실행을 하기 때문에 매우 편하게 사용할 수 있습니다.

이제 사용환경을 맞추기 위해서 몇가지 플러그인을 자동으로 다운받도록 하겠습니다.

코드 실행 환경을 만들자


코드를 만들기 전에 터미널을 엽니다. 좌측 하단에 여러가지 아이콘이 존재하는데 아이콘에 터미널이라고 존재합니다. 터미널을 클릭하여 아래 코드를 붙여 넣어 실행합니다.

셀레니움은 크롤링을 하기 위한 것이고, 크롬드라이브는 크롬 웹브라우저를 컨트롤할 때 크롬 버전에 맞게 자동으로 버전을 맞춰주는 툴이며, 마지막으로 판다스는 크롤링을 한 데이터는 우리가 원하는 형태로 가공해서 쉽게 추출 할 수 있도록 도와주는 툴이라고 생각하시면 쉽습니다.

아래 코드를 실행합니다

pip install selenium chromedriver_autoinstaller pandas

실행하면 자동으로 웹에서 다운로드가 이루어지고 설치가 완료가 됩니다.

코드 만들기


우선 아래 코드를 미분양.py 이라는 새로운 파이썬 파일을 만든 후 붙여 넣습니다. 해당 파이썬 코드는 크롬 드라이버에 상관없이 크롬을 조정할 수 있는 기본 코드입니다. 해당 코드를 실행하면 아래와 같이 크롬이 제어되는 것을 볼 수 있습니다.

# 외우는거 아님. 그냥 필요할 때 복붙
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
import time

# 크롬 드라이버 자동 업데이트
from webdriver_manager.chrome import ChromeDriverManager

#브라우저 꺼짐 방지
chrome_options = Options()
chrome_options.add_experimental_option("detach", True)

# 불필요한 에러 메시지 없애기
chrome_options.add_experimental_option("excludeSwitches", ["enable-logging"])
browser = webdriver.Chrome(options=chrome_options)

 

이렇게 작성하면 크롤링을 위한 준비는 되었습니다. 이제 크롬 브라우저를 자동으로 조정할 수 있으니, 본격적인 크롤링은 다음편에서 자세하게 다루도록 하겠습니다.

감사합니다.

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

Related Articles

Stay Connected

18,393FansLike
128,393FollowersFollow
81,934SubscribersSubscribe

Latest Articles