크롤링 – 투데이즈.kr

네이버카페 게시판 글 첨부파일 크롤링 한번에 다운받기

urjent — Sun, 13 Oct 2024 06:05:25 +0000

네이버카페 게시판 글 첨부파일 크롤링 한번에 다운받기 ㅣ 네이버 카페 유용한 글 및 첨부파일을 보다보면 한번에 자동으로 다운 받고 싶은 경우가 생깁니다. 물론 상업적으로 사용하지 않는다고 해서 이 모든 것이 불법적인 행동이 안된다는 것은 아니지만 몇개의 파일을 다운 받을 때 하나하나 직접 다운 받는 것은 굉장히 피곤한 일입니다. 그래서 오늘은 이 네이버 카페 게시판 글 및 첨부파일을 모두 다운 받는 프로그램을 하나 만들어 볼까 생각했습니다.

어렵지 않으니 하나씩 따라 하시면 여러분도 금방 코드를 짤 수 있을 것 같습니다. 동적 네트워크를 사용해야 하므로 오늘은 코랩이 아니라 직접 로컬 컴퓨터에서 실행하도록 하겠습니다.

제 블로그 글에도 로컬 컴퓨터 세팅하는 글을 작성했었으니 여러분도 아래 글을 읽어 보시고 준비가 되면 다음 단계로 넘어 오시는 것을 추천드립니다.

네이버카페 게시판 글 첨부파일 크롤링 한번에 다운받기

2023.06.30 – [부동산] – 부동산 통계 자료 내가 만들까? (개요)

네이버카페 게시판 글 첨부파일 크롤링 한번에 다운받기

네이버 카페 게시판 글 첨부파일 크롤링 한번에 다운받기

이번 포스트에서는 웹 스크래핑을 통해 데이터를 수집하고 Google Sheets 및 Google Drive에 저장하는 Python 스크립트를 단계별로 설명하겠습니다. 이 스크립트는 Selenium을 이용하여 네이버 카페에서 정보를 수집하고, Google API를 통해 데이터를 저장하는 기능을 갖추고 있습니다.

1단계: 필요한 라이브러리 임포트

스크립트의 시작 부분에서는 필요한 라이브러리를 임포트합니다. 여기에는 웹 드라이버 제어를 위한 selenium, HTTP 요청을 위한 requests, Google API에 접근하기 위한 라이브러리 등이 포함됩니다.

import time
import os
import platform
import subprocess
import requests
import re
import urllib.parse
import traceback
from datetime import datetime
from tqdm import tqdm
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager
from google.oauth2.service_account import Credentials
from googleapiclient.discovery import build
from googleapiclient.http import MediaFileUpload

먼저 관련 모듈을 임포트 합니다. 저는 구글 드라이브에 다운을 자동으로 받을 수 있도록 했습니다. 제 로컬 컴퓨터에 저장을 한 후 구글 드라이브에 저장이 되면 제 로컬 컴퓨터에서는 파일이 자동 삭제가 됩니다. 따라서 코드가 조금 지저분하고 길게 되어버렸습니다.

2단계: 시스템 아키텍처 확인

ARM 아키텍처인지 확인합니다. 이 부분은 ChromeDriver의 경로 설정에서 ARM을 지원하기 위한 조건문으로 사용됩니다.

is_arm = platform.machine().startswith('arm')

저는 개발 환경이 맥북입니다.

3단계: Google Sheets 및 Drive API 설정

Google API를 사용하기 위해 인증 정보를 설정합니다. g1.json 파일을 통해 Google API에 접근할 수 있는 자격증명을 가져옵니다.

SCOPES = ['https://www.googleapis.com/auth/spreadsheets', 'https://www.googleapis.com/auth/drive.file']
creds = Credentials.from_service_account_file('g1.json', scopes=SCOPES)
sheets_service = build('sheets', 'v4', credentials=creds)
drive_service = build('drive', 'v3', credentials=creds)

또한 구글시트에 내가 다운 받은 목록을 리스트화 할 생각입니다.

4단계: Chrome WebDriver 옵션 설정

Chrome WebDriver를 설정하는 함수입니다. ARM 아키텍처일 경우 추가적인 인자를 설정합니다.

def set_chrome_options(is_arm):
    options = webdriver.ChromeOptions()
    options.add_argument("--start-maximized")
    options.add_argument("--disable-extensions")
    options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36")
    
    if is_arm:
        options.add_argument('--no-sandbox')
        options.add_argument('--disable-dev-shm-usage')

    return options

5단계: ChromeDriver 서비스 설정

ChromeDriver의 경로를 설정하고 서비스를 생성하는 함수입니다. ARM 아키텍처에 맞춰 ChromeDriver를 설치하는 과정을 포함하고 있습니다.

def get_chromedriver_service(is_arm):
    try:
        if is_arm:
            home = os.path.expanduser("~")
            chromedriver_path = f"{home}/chromedriver"
            if not os.path.exists(chromedriver_path):
                print("ChromeDriver for ARM Mac not found. Downloading...")
                subprocess.run(["brew", "install", "chromedriver"])
                subprocess.run(["xattr", "-d", "com.apple.quarantine", "/usr/local/bin/chromedriver"])
            service = Service("/opt/homebrew/bin/chromedriver")
        else:
            service = Service(ChromeDriverManager().install())
        return service
    except Exception as e:
        print(f"Error setting up ChromeDriver: {e}")
        raise

6단계: WebDriver 초기화

WebDriver를 초기화하고 Chrome 브라우저를 실행하는 함수입니다.

def init_webdriver():
    service = get_chromedriver_service(is_arm)
    options = set_chrome_options(is_arm)
    driver = webdriver.Chrome(service=service, options=options)
    return driver

7단계:네이버카페 게시판 첨부파일 다운로드 함수

특정 게시물에서 첨부파일을 다운로드하는 함수입니다. 두 가지 방법을 통해 파일을 찾고, 요청을 보내서 다운로드합니다.

def download_attachments(driver):
    try:
        files = driver.find_elements(By.CSS_SELECTOR, "li.AttachFileListItem")

        if not files:
            print("첫 번째 방법으로 첨부파일을 찾지 못했습니다. 두 번째 방법을 시도합니다.")
            # 두 번째 방법: 새로운 방식
            file_button = driver.find_element(By.CSS_SELECTOR, "#app > div > div > div.ArticleContentBox > div.article_container > div.AttachFileList > div.attach_file > a")
            file_button.click()

            download_link = WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, "a[role='button'][download].file_menu"))
            )
            file_url = download_link.get_attribute('href')

            file_name = os.path.basename(urllib.parse.unquote(file_url.split('?')[0]))

            # 다운로드 진행
            cookies = driver.get_cookies()
            session = requests.Session()
            for cookie in cookies:
                session.cookies.set(cookie['name'], cookie['value'])

            headers = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
            }

            response = session.get(file_url, headers=headers, allow_redirects=True)
            if response.status_code == 200:
                download_dir = "/Users/사용자/Downloads"
                if not os.path.exists(download_dir):
                    os.makedirs(download_dir)

                save_path = os.path.join(download_dir, file_name)
                with open(save_path, 'wb') as f:
                    f.write(response.content)
                print(f"첨부파일 저장 완료: {save_path}")
                return save_path
            else:
                print(f"파일 다운로드 실패: {response.status_code}")
                return None

        # 첫 번째 방법으로 진행
        cookies = driver.get_cookies()
        session = requests.Session()
        for cookie in cookies:
            session.cookies.set(cookie['name'], cookie['value'])

        download_dir = "/Users/사용자/Downloads"
        if not os.path.exists(download_dir):
            os.makedirs(download_dir)

        for idx, file in enumerate(files):
            download_link = file.find_element(By.CSS_SELECTOR, "a.file_menu")
            file_url = download_link.get_attribute('href')
            print(f"다운로드 링크: {file_url}")

            headers = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
            }

            response = session.get(file_url, headers=headers, allow_redirects=True)
            if response.status_code == 200:
                content_disposition = response.headers.get('Content-Disposition', '')
                file_name = ''
                if content_disposition:
                    file_name_match = re.search(r'filename[^;=\n]*=(([\'"]).*?\2|[^;\n]*)', content_disposition)
                    if file_name_match:
                        file_name = file_name_match.group(1).strip('"')

                if not file_name:
                    file_name = os.path.basename(urllib.parse.unquote(file_url.split('?')[0]))

                if not file_name:
                    file_extension = file_url.split(".")[-1].split("?")[0]
                    file_name = f"attachment_{idx + 1}.{file_extension}"

                save_path = os.path.join(download_dir, file_name)

                with open(save_path, 'wb') as f:
                    f.write(response.content)
                print(f"첨부파일 {idx + 1}번째 저장 완료: {save_path}")

                return save_path
            else:
                print(f"파일 다운로드 실패: {response.status_code}")

    except Exception as e:
        print(f"첨부파일 다운로드 중 오류 발생: {str(e)}")
        traceback.print_exc()

    return None

8단계: 네이버카페 게시판 Google Drive에 파일 업로드 함수

다운로드한 파일을 Google Drive에 업로드하는 함수입니다. 업로드 후 로컬 파일을 삭제하는 기능도 포함되어 있습니다.

def upload_to_google_drive(file_path, file_name):
    folder_id = '구글시트ID'  # bee 폴더의 ID
    file_metadata = {
        'name': file_name,
        'parents': [folder_id]
    }
    media = MediaFileUpload(file_path, resumable=True)

    file = drive_service.files().create(
        body=file_metadata,
        media_body=media,
        fields='id, webViewLink'
    ).execute()
    print(f"File ID: {file.get('id')}")

    # 업로드가 성공적으로 완료되었을 경우 로컬 파일 삭제
    if file.get('id'):
        try:
            os.remove(file_path)
            print(f"로컬 파일 삭제 완료: {file_path}")
        except Exception as e:
            print(f"로컬 파일 삭제 중 오류 발생: {e}")

    return file

9단계: 네이버카페 게시판 데이터 수집 함수

웹 스크래핑을 통해 게시물의 제목과 내용을 수집하는 함수입니다. Selenium을 사용하여 특정 요소를 찾고 데이터를 추출합니다.

def scrape_post_data(driver):
    post_title = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, 'h3.title'))
    ).text

    post_content = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, '.article_body'))
    ).text

    return post_title, post_content

10단계: Google Sheets에 데이터 저장 함수

수집한 게시물 제목과 내용을 Google Sheets에 저장하는 함수입니다. Google Sheets API를 사용하여 데이터를 작성합니다.

def save_to_google_sheets(post_title, post_content):
    spreadsheet_id = 'YOUR_SPREADSHEET_ID'  # 스프레드시트 ID
    range_name = 'Sheet1!A1:B1'  # 데이터를 입력할 범위
    values = [[post_title, post_content]]  # 입력할 데이터

    body = {
        'values': values
    }

    result = sheets_service.spreadsheets().values().append(
        spreadsheetId=spreadsheet_id,
        range=range_name,
        valueInputOption='RAW',
        body=body
    ).execute()

    print(f"{result.get('updates').get('updatedCells')} cells appended.")

11단계: 스크래핑 및 데이터 저장 메인 함수

전체 프로세스를 실행하는 메인 함수입니다. 게시물 URL을 통해 게시물 데이터를 수집하고, 첨부파일을 다운로드하며, 최종적으로 Google Sheets에 저장합니다.

def main(post_url):
    driver = init_webdriver()
    try:
        driver.get(post_url)
        time.sleep(2)  # 페이지 로딩 대기

        # 게시물 데이터 수집
        post_title, post_content = scrape_post_data(driver)
        
        # 첨부파일 다운로드
        file_path = download_attachments(driver)
        if file_path:
            # 파일을 Google Drive에 업로드
            upload_to_google_drive(file_path, os.path.basename(file_path))

        # 수집한 데이터 Google Sheets에 저장
        save_to_google_sheets(post_title, post_content)

    except Exception as e:
        print(f"메인 함수에서 오류 발생: {str(e)}")
        traceback.print_exc()
    finally:
        driver.quit()

12단계: 네이버카페 게시판 스크립트 실행

스크립트를 실행하기 위해 필요한 게시물 URL을 제공하고, 메인 함수를 호출합니다.

if __name__ == "__main__":
    post_url = "https://cafe.naver.com/your_post_url"  # 게시물 URL
    main(post_url)

위 스크립트는 네이버 카페에서 게시물 데이터를 수집하고, 첨부파일을 다운로드한 후, Google Sheets와 Google Drive에 저장하는 전체 프로세스를 보여줍니다. 각 단계에서 데이터 수집과 저장을 위한 다양한 라이브러리를 활용하여 효율적인 작업 흐름을 구축했습니다. Python을 활용한 웹 스크래핑과 API 연동을 통해 보다 자동화된 데이터 관리가 가능해지며, 이러한 방식은 업무의 효율성을 높이고 시간과 노력을 절약하는 데 기여할 수 있습니다

파이썬 다나와 크롤링 제품 정보 모으기

전체 코드가 궁금하신가요? 전체 코드가 궁금하신 분들은 아래 다운링크를 열면 받으실 수 있습니다!

전체코드 다운받기

파이썬 다나와 크롤링 제품 정보 모으기

urjent — Tue, 01 Oct 2024 05:09:29 +0000

파이썬 다나와 크롤링 하여 제품 정보를 모아보도록 하겠습니다. 파이썬 스크립트를 쓰고 스트림릿으로 올려서 쉽게 웹페이지에서 조회를 하면 쉽게 페이지 정보를 모을 수 있습니다.

[주의] 해당 스크립트는 공부를 위한 학습 목적이므로 불법으로 사이트 정보를 모으거나 이용하는 행위는 불법 행동이 될 수 있습니다.

파이썬 다나와 크롤링 제품 정보 모으기

이 스크립트는 Streamlit을 이용해 웹페이지를 통해 제품 정보를 검색하고, 결과를 크롤링하여 보여주는 애플리케이션을 구현한 것입니다. 스크립트의 주요 동작은 아래와 같습니다:

1. 필요한 모듈 임포트

import streamlit as st
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
import time

• Streamlit: 웹 애플리케이션을 쉽게 만들 수 있는 프레임워크.

• requests: 웹페이지에 HTTP 요청을 보내는 라이브러리.

• BeautifulSoup: HTML 및 XML 데이터를 파싱하는 라이브러리.

• pandas: 데이터 처리 및 분석을 위한 라이브러리.

• re, time: 정규 표현식과 시간 관련 모듈.

2. get_page_content() 함수

def get_page_content(search_query, page_num):
    url = f"https://search.danawa.com/dsearch.php?query={search_query}&page={page_num}"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    return BeautifulSoup(response.content, 'html.parser')

• URL 생성: 검색어와 페이지 번호를 기반으로 danawa.com의 검색 결과 페이지 URL을 생성합니다.

• HTTP 요청: requests를 이용해 해당 페이지의 HTML을 요청합니다.

• BeautifulSoup 파싱: 받은 HTML을 BeautifulSoup 객체로 변환하여 HTML 구조를 쉽게 탐색할 수 있도록 합니다.

3. crawl_product_info() 함수

def crawl_product_info(search_query):
    product_list = []
    # 페이지 수 자동 계산
    soup = get_page_content(search_query, 1)
    max_pages = int(soup.select_one('div.paging_number_wrap').find_all('a')[-1]['data-page'])

• 페이지 수 자동 계산: 첫 페이지를 가져와서 페이지네이션 정보를 확인하고, 최대 페이지 수를 계산합니다.

    # 각 페이지에서 제품 정보 크롤링
    for page_num in range(1, max_pages + 1):
        st.session_state.progress_bar.progress(page_num / max_pages)  # 진행률 표시
        soup = get_page_content(search_query, page_num)
        products = soup.select('li.prod_item')

• 진행률 표시: 각 페이지를 크롤링할 때마다 진행률 바를 업데이트합니다.

• 제품 정보 탐색: 각 페이지에서 li.prod_item 요소를 찾아서 제품 목록을 가져옵니다.

        for product in products:
            try:
                # 업체명과 제품명 가져오기
                name_tag = product.select_one('p.prod_name a')
                full_name = name_tag.text.strip() if name_tag else '정보 없음'
                업체명 = full_name.split()[0]  # 공백 전까지 업체명 추출
                제품명 = ' '.join(full_name.split()[1:])  # 첫 공백 이후 제품명 추출

• 업체명과 제품명: p.prod_name에서 제품명을 추출하고, 첫 단어는 업체명으로, 나머지는 제품명으로 저장합니다.

                # 가격, 이미지, 링크, 추가 정보 등 가져오기
                price_tag = product.select_one('p.price_sect a strong')
                가격 = price_tag.text.strip() if price_tag else '정보 없음'

                img_tag = product.select_one('div.thumb_image a img')
                이미지_URL = img_tag['src'] if img_tag else '정보 없음'

                link_tag = product.select_one('div.thumb_image a')
                링크 = link_tag['href'] if link_tag else '정보 없음'

                추가정보_tag = product.select_one('div.spec_list')
                추가정보 = 추가정보_tag.text.strip() if 추가정보_tag else '정보 없음'

                등록월_tag = product.select_one('div.prod_sub_meta dl.meta_item.mt_date dd')
                등록월 = 등록월_tag.text.strip() if 등록월_tag else '정보 없음'

                평점_tag = product.select_one('div.star-single span.text__score')
                평점 = 평점_tag.text.strip() if 평점_tag else '정보 없음'

                리뷰수_tag = product.select_one('div.text__review span.text__number')
                리뷰수 = 리뷰수_tag.text.strip() if 리뷰수_tag else '정보 없음'

• 가격, 이미지, 링크: 각 요소에서 제품의 가격, 이미지 URL, 구매 링크를 가져옵니다.

• 추가 정보, 등록월, 평점, 리뷰수: 제품의 부가 정보, 등록 월, 사용자 평점, 리뷰 수를 추출합니다.

아래 스크립트는 전체 스크립트입니다.

import streamlit as st
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
import time

# 페이지 컨텐츠를 받아오는 함수
def get_page_content(search_query, page_num):
    url = f"https://search.danawa.com/dsearch.php?query={search_query}&page={page_num}"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    return BeautifulSoup(response.content, 'html.parser')

# 제품 정보 크롤링 함수
def crawl_product_info(search_query):
    product_list = []
    # 페이지 수 자동 계산
    soup = get_page_content(search_query, 1)
    max_pages = int(soup.select_one('div.paging_number_wrap').find_all('a')[-1]['data-page'])

    # 각 페이지에서 제품 정보 크롤링
    for page_num in range(1, max_pages + 1):
        st.session_state.progress_bar.progress(page_num / max_pages)  # 진행률 표시
        soup = get_page_content(search_query, page_num)
        products = soup.select('li.prod_item')

        for product in products:
            try:
                # 업체명과 제품명 가져오기
                name_tag = product.select_one('p.prod_name a')
                full_name = name_tag.text.strip() if name_tag else '정보 없음'
                업체명 = full_name.split()[0]  # 공백 전까지 업체명 추출
                제품명 = ' '.join(full_name.split()[1:])  # 첫 공백 이후 제품명 추출

                # 가격 가져오기
                price_tag = product.select_one('p.price_sect a strong')
                가격 = price_tag.text.strip() if price_tag else '정보 없음'

                # 이미지 URL 가져오기
                img_tag = product.select_one('div.thumb_image a img')
                이미지_URL = img_tag['src'] if img_tag else '정보 없음'

                # 링크 가져오기
                link_tag = product.select_one('div.thumb_image a')
                링크 = link_tag['href'] if link_tag else '정보 없음'

                # 추가 정보 가져오기
                추가정보_tag = product.select_one('div.spec_list')
                추가정보 = 추가정보_tag.text.strip() if 추가정보_tag else '정보 없음'

                # 등록월 가져오기
                등록월_tag = product.select_one('div.prod_sub_meta dl.meta_item.mt_date dd')
                등록월 = 등록월_tag.text.strip() if 등록월_tag else '정보 없음'

                # 평점 가져오기
                평점_tag = product.select_one('div.star-single span.text__score')
                평점 = 평점_tag.text.strip() if 평점_tag else '정보 없음'

                # 리뷰 수 가져오기
                리뷰수_tag = product.select_one('div.text__review span.text__number')
                리뷰수 = 리뷰수_tag.text.strip() if 리뷰수_tag else '정보 없음'

                # 데이터 저장
                product_list.append({
                    '업체명': 업체명,
                    '제품명': 제품명,
                    '추가정보': 추가정보,
                    '가격': 가격,
                    '이미지': 이미지_URL,
                    '링크': 링크,
                    '평점': 평점,
                    '리뷰수': 리뷰수,
                    '등록월': 등록월
                })

            except Exception as e:
                print(f"Error processing product: {e}")

    return product_list

# Streamlit 애플리케이션 설정
st.set_page_config(layout="wide")

# 왼쪽 옵션 패널 만들기
with st.sidebar:
    st.title("검색 옵션")
    search_query = st.text_input("검색어 입력", "노트북")
    search_button = st.button("검색")
    # 진행률 바 초기화
    if 'progress_bar' not in st.session_state:
        st.session_state.progress_bar = st.progress(0)

# 검색 버튼이 눌렸을 때
if search_button:
    st.write(f"'{search_query}' 검색 결과:")
    
    # 크롤링 시작
    product_list = crawl_product_info(search_query)
    
    # 결과를 데이터프레임으로 변환 후 출력
    df = pd.DataFrame(product_list)
    st.dataframe(df)

    # CSV 파일 다운로드 버튼
    csv = df.to_csv(index=False, encoding='utf-8-sig')
    st.download_button(
        label="CSV 다운로드",
        data=csv,
        file_name=f'{search_query}_검색결과.csv',
        mime='text/csv'
    )

파이썬 다나와 크롤링 제품 정보 모으기 – 스트림릿

이 스크립트는 Streamlit을 이용해 웹페이지를 통해 제품 정보를 검색하고, 결과를 크롤링하여 보여주는 애플리케이션을 위해 코드를 업로드 합니다. 아래 코드도 공유 드릴게요

미확인 478311.crdownload

0.00MB

부동산 매물 정보 수집하기 – 부동산 데이터 네이버 부동산 크롤링 및 가공 #3

urjent — Sun, 15 Sep 2024 01:01:12 +0000

부동산 매물 정보 수집하기 – 부동산 데이터 네이버 부동산 크롤링 및 가공 #3 ㅣ 부동산 시장에서 아파트 단지에 대한 정보는 투자자와 구매자에게 매우 중요한 요소입니다. 특히, 특정 지역의 아파트 단지 정보를 효율적으로 수집하는 방법은 데이터 기반의 의사결정을 가능하게 합니다. 이번 포스트에서는 네이버 부동산 API를 활용하여 특정 법정동에 위치한 아파트 단지의 이름과 고유 코드를 조회하는 방법에 대해 자세히 알아보겠습니다.

부동산 매물 정보 수집하기 – 부동산 데이터 네이버 부동산 크롤링 및 가공 #3

2024.09.15 – [부동산/자동화 프로젝트] – 부동산 매물 정보 수집하기 – 부동산 데이터 네이버 부동산 크롤링 및 가공 #1

2024.09.15 – [부동산/자동화 프로젝트] – 부동산 매물 정보 수집하기 – 부동산 데이터 네이버 부동산 크롤링 및 가공 #2

부동산 매물 정보 수집하기 – 부동산 데이터 네이버 부동산 크롤링 및 가공 #3

1. 법정동과 행정동의 이해

법정동은 정부에서 정한 공식적인 동의 기준으로, 부동산 관련 데이터에서 주로 사용됩니다. 행정동은 행정 구역을 기준으로 하며, 법정동과 행정동의 코드는 정부에서 사용하는 동일한 체계를 따릅니다. 예를 들어, 마포구 상암동의 법정동 코드는 “1144012700”입니다. 이 코드를 사용하여 해당 지역의 아파트 단지 정보를 조회할 수 있습니다.

2. 법정동 코드 조회

법정동 코드는 정부의 행정표준코드관리시스템에서 확인할 수 있습니다. 이 시스템에서는 각 지역의 법정동 코드와 이름을 조회할 수 있으며, 필요한 정보를 쉽게 찾을 수 있습니다. 예를 들어, 마포구 상암동의 법정동 코드는 다음과 같이 확인할 수 있습니다:

법정동 코드: 1144012700
법정동명: 상암동

이 정보를 바탕으로 아파트 단지 정보를 조회할 수 있습니다.

3. 필요한 라이브러리 설치

Python을 사용하여 네이버 부동산 API에 접근하기 위해서는 requests, json, pandas 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 필요한 라이브러리를 설치할 수 있습니다.

pip install requests pandas

4. 아파트 단지 정보 조회 코드

이제 법정동 코드를 사용하여 아파트 단지 정보를 조회하는 코드를 작성해 보겠습니다. 아래는 마포구 상암동의 아파트 단지 정보를 조회하는 코드입니다.

import requests
import json
import pandas as pd

def get_apt_list(dong_code):
    down_url = 'https://new.land.naver.com/api/regions/complexes?cortarNo=' + dong_code + '&realEstateType=APT&order='
    header = {
        "Accept-Encoding": "gzip",
        "Host": "new.land.naver.com",
        "Referer": "https://new.land.naver.com/complexes/102378?ms=37.5018495,127.0438028,16&a=APT&b=A1&e=RETAIL",
        "Sec-Fetch-Dest": "empty",
        "Sec-Fetch-Mode": "cors",
        "Sec-Fetch-Site": "same-origin",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
    }
    r = requests.get(down_url, data={"sameAddressGroup": "false"}, headers=header)

    r.encoding = "utf-8-sig"
    temp = json.loads(r.text)
    try:
        temp = pd.DataFrame(temp['complexList'])[['complexNo', 'complexName']]
    except:
        temp = []
    return temp

apt_list = get_apt_list('1144012700')
print(apt_list)

코드 설명

라이브러리 임포트: requests, json, pandas 라이브러리를 임포트합니다.
get_apt_list 함수 정의: 이 함수는 법정동 코드를 입력받아 해당 지역의 아파트 단지 정보를 조회합니다.
API 요청 URL 설정: down_url 변수에 API 요청 URL을 설정합니다. 이 URL은 법정동 코드와 아파트 유형을 포함합니다.
헤더 설정: API 요청에 필요한 헤더를 설정합니다. 이 헤더는 요청의 출처를 명시하고, 브라우저에서 요청한 것처럼 보이게 합니다.
API 요청 및 응답 처리: requests.get 메서드를 사용하여 API에 GET 요청을 보냅니다. 응답을 JSON 형식으로 파싱하고, 아파트 단지 정보를 DataFrame으로 변환합니다.
결과 출력: apt_list 변수에 저장된 아파트 단지 정보를 출력합니다.

5. 실행 결과

위 코드를 실행하면 마포구 상암동에 위치한 아파트 단지의 이름과 고유 코드가 출력됩니다. 예를 들어, 다음과 같은 결과를 얻을 수 있습니다.

   complexNo          complexName
0   12345678         상암동 아파트 1단지
1   23456789         상암동 아파트 2단지
...

이 결과는 상암동에 위치한 아파트 단지의 고유 코드와 이름을 포함하고 있습니다. 이를 통해 사용자는 특정 지역의 아파트 단지 정보를 쉽게 확인할 수 있습니다.

부동산 매물 정보 수집하기 – 부동산 데이터 네이버 부동산 크롤링 및 가공 #1

부동산 매물 정보 수집하기 – 부동산 데이터 네이버 부동산 크롤링 및 가공 #2

urjent — Sat, 14 Sep 2024 23:09:46 +0000

부동산 매물 정보 수집하기 – 부동산 데이터 네이버 부동산 크롤링 및 가공 #2 ㅣ 현대 사회에서 데이터는 매우 중요한 자산입니다. 특히 부동산 시장에서는 아파트 단지에 대한 정보가 투자 결정에 큰 영향을 미치기 때문에, 이를 효율적으로 수집하는 방법이 필요합니다. 이번 포스트에서는 Python을 사용하여 아파트 단지 정보를 크롤링하는 방법에 대해 자세히 알아보겠습니다. 이 과정에서는 Naver의 부동산 API를 활용하여 세대수, 사용승인일, 평형별 면적 정보 등을 수집할 것입니다.

부동산 매물 정보 수집하기 – 부동산 데이터 네이버 부동산 크롤링 및 가공 #2

부동산 매물 정보 수집하기 – 부동산 데이터 네이버 부동산 크롤링 및 가공

오늘 시리즈는 부동산 매물 정보 수집하기 – 부동산 데이터 네이버 부동산 크롤링 및 가공 편입니다. 아직 1편을 못 보신 분들이라면 1편을 먼저 읽고 오시는게 도움이 되실 수 있습니다.

2024.09.15 – [부동산/자동화 프로젝트] – 부동산 매물 정보 수집하기 – 부동산 데이터 네이버 부동산 크롤링 및 가공 #1

1. 크롤링의 필요성

부동산 시장은 끊임없이 변화하고 있으며, 이에 따라 아파트 단지에 대한 정보도 지속적으로 업데이트됩니다. 투자자, 구매자, 임대인 등 다양한 이해관계자들은 이러한 정보를 신속하게 파악해야 합니다. 하지만 수작업으로 정보를 수집하는 것은 시간과 노력이 많이 소요되므로, 자동화된 방법이 필요합니다. Python은 이러한 작업을 수행하기에 적합한 언어로, 다양한 라이브러리를 통해 웹 크롤링을 쉽게 구현할 수 있습니다.

2. 필요한 라이브러리 설치

Python을 사용하여 웹 크롤링을 수행하기 위해서는 몇 가지 라이브러리를 설치해야 합니다. 주로 사용되는 라이브러리는 requests, BeautifulSoup, 그리고 json입니다. 아래의 명령어를 사용하여 필요한 라이브러리를 설치할 수 있습니다.

pip install requests beautifulsoup4 pandas

3. API 요청을 위한 기본 설정

Naver의 부동산 API를 사용하여 아파트 단지 정보를 요청하기 위해서는 API의 URL과 요청 헤더를 설정해야 합니다. 아래는 기본적인 설정 코드입니다.

import requests
import json
from bs4 import BeautifulSoup

url = "https://new.land.naver.com/api/complexes/overview/"
param = {
    'complexNo': '23620'  # 조회할 아파트 단지 번호
}
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.220 Whale/1.3.51.7 Safari/537.36',
    'Referer': 'https://m.land.naver.com/'
}

위 코드에서 complexNo는 조회하고자 하는 아파트 단지의 고유 번호입니다. 이 번호는 Naver 부동산 사이트에서 각 단지의 URL을 통해 확인할 수 있습니다.

4. 아파트 단지 정보 요청

이제 설정한 URL과 헤더를 사용하여 API에 GET 요청을 보내고, 응답을 받아 아파트 단지 정보를 추출해 보겠습니다.

먼저 단지를 추출할 수 있는 request 주소를 한번 살펴 보겠습니다.

아래 캡쳐 화면은 단지 정보를 보여주는 링크를 Postman으로 Request 문과 호출 결과를 조회한 화면입니다. 화면에서 붉은색 상자는 링크를 입력하는 곳이며, 파란색 상자는 Python Request문을 생성해 줍니다. 그리고 초록색 상자는 해당 Requst 호출의 결과를 보기쉽게 보여줍니다. 주의할 점은 생성된 Request 문의 header 값을 추가해주어야지 Naver 사이트에서 원하는 결과값을 얻을 수 있습니다. 아래 코드에 해당 header 값이 있습니다.

먼저 Postman을 접속해서 해당 주소를 검색해보겠습니다.

https://www.postman.com/

https://new.land.naver.com/api/complexes/overview/23620?complexNo=23620

Postman을 통해 보여지는 단지 정보의 key와 value입니다.

Request 정보를 토대로 아래와 같이 코드를 작성해봅니다.

import requests
import json
import pandas as pd
import requests
from bs4 import BeautifulSoup

url = "https://new.land.naver.com/api/complexes/overview/"

param = {
    'complexNo': '23620'
}
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.220 Whale/1.3.51.7 Safari/537.36',
    'Referer': 'https://m.land.naver.com/'
}
payload = {}

response = requests.request("GET", url+param['complexNo'], params=param, headers=header, data=payload)
u = response.url
temp = json.loads(response.text)
print("\n\n단지명: %s 사용승인일: %s  세대수: %s \n" \
      %(temp['complexName'], temp['useApproveYmd'], temp['totalHouseHoldCount']))

# 추가 정보 조회
url2 = "https://m.land.naver.com/complex/info/"+ param['complexNo'] + "?ptpNo=1"
response2 = requests.request("GET", url2, headers=header, data=payload)
doc = BeautifulSoup(response2.text, 'html.parser')

titles = doc.find_all('span', class_='tit')
datas = doc.find_all('span', class_='data')
tmp = dict()
for title, data in zip(titles, datas):
       tmp.setdefault(title.text, data.text.replace("\n", "").strip())
print("용적률: " + tmp['용적률'] + " 건폐율: " + tmp['건폐율'])

# 평형 별 정보 조회
temp2 = temp['pyeongs']
for item in temp2:
     print("분양: %6s m^2 [ %-5s] 전용: %5s m^2(%5s 평)" \
           %(item['supplyArea'], item['pyeongName2'], item['exclusiveArea'], item['exclusivePyeong']))

필요한 라이브러리 불러오기

import requests
import json
import pandas as pd
from bs4 import BeautifulSoup

requests: HTTP 요청을 보내고 응답을 받기 위해 사용됩니다.
json: API에서 받은 JSON 데이터를 처리하는 데 사용됩니다.
pandas: 데이터 처리를 용이하게 하기 위한 라이브러리. 현재 코드에서는 사용되지 않았지만 나중에 데이터를 처리할 때 유용합니다.
BeautifulSoup: HTML을 파싱하고 필요한 정보를 추출하기 위해 사용됩니다.

API URL과 요청 매개변수 설정

url = "https://new.land.naver.com/api/complexes/overview/"

param = {
    'complexNo': '23620'
}

url: 네이버 부동산 API의 단지 정보에 접근하는 URL입니다.
param: 조회하려는 특정 아파트 단지의 고유번호가 담긴 파라미터로, ‘23620’은 “상암월드컵파크 4단지”를 나타냅니다.

요청 헤더 설정

header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.220 Whale/1.3.51.7 Safari/537.36',
    'Referer': 'https://m.land.naver.com/'
}

User-Agent: 웹사이트에서 요청을 받을 때 어떤 브라우저로 접근하는지 인식하는 값입니다. 웹 서버에서 비정상적인 접근을 차단하는 경우가 있어, 이 값을 설정하여 사람처럼 보이도록 합니다.
Referer: API 요청을 네이버 모바일 부동산 사이트에서 온 것처럼 보이게 만듭니다.

단지 정보 요청 및 출력

response = requests.request("GET", url + param['complexNo'], params=param, headers=header, data={})
temp = json.loads(response.text)
print("\n\n단지명: %s 사용승인일: %s  세대수: %s \n" \
      %(temp['complexName'], temp['useApproveYmd'], temp['totalHouseHoldCount']))

requests.request(“GET”, …): GET 요청을 통해 API로부터 데이터를 가져옵니다.
json.loads(response.text): API 응답을 JSON 형식으로 변환합니다.
print: 단지명, 사용승인일, 세대수를 출력합니다. 각각 temp에서 추출된 정보입니다.

추가 단지 정보 요청

url2 = "https://m.land.naver.com/complex/info/"+ param['complexNo'] + "?ptpNo=1"
response2 = requests.request("GET", url2, headers=header, data={})
doc = BeautifulSoup(response2.text, 'html.parser')

url2: 네이버 모바일 부동산 웹페이지에서 해당 단지에 대한 추가 정보를 가져오는 URL입니다.
BeautifulSoup: HTML 응답을 파싱하여 필요한 정보를 쉽게 추출할 수 있도록 합니다.

용적률, 건폐율 추출

titles = doc.find_all('span', class_='tit')
datas = doc.find_all('span', class_='data')
tmp = dict()
for title, data in zip(titles, datas):
    tmp.setdefault(title.text, data.text.replace("\n", "").strip())
print("용적률: " + tmp['용적률'] + " 건폐율: " + tmp['건폐율'])

doc.find_all(‘span’, class_=’tit’): HTML에서 ‘span’ 태그 중 클래스가 ‘tit’인 모든 요소를 찾습니다. 이는 제목(용적률, 건폐율 등)에 해당합니다.
zip: titles와 datas를 한 쌍으로 묶어 딕셔너리에 저장합니다.
print: 용적률과 건폐율을 출력합니다.

7. 평형별 정보 조회

temp2 = temp['pyeongs']
for item in temp2:
     print("분양: %6s m^2 [ %-5s] 전용: %5s m^2(%5s 평)" \
           %(item['supplyArea'], item['pyeongName2'], item['exclusiveArea'], item['exclusivePyeong']))

temp2 = temp[‘pyeongs’]: 단지 정보에서 평형별 데이터를 추출합니다.
for item in temp2: 각 평형의 정보를 순회하며 분양 면적과 전용 면적을 출력합니다.

부동산 매물 정보 수집하기 – 부동산 데이터 네이버 부동산 크롤링 및 가공 #1

urjent — Sat, 14 Sep 2024 22:19:38 +0000

부동산 매물 정보 수집하기 – 부동산 데이터 네이버 부동산 크롤링 및 가공 #1 ㅣ 네이버 부동산 데이터는 매우 유용하게 활용할 수 있지만, 원하는 형태로 변환된 자료를 얻는 것은 상당히 어렵습니다. Excel의 VBA를 사용하여 데이터를 변환하는 방법이 소개되곤 하지만, Python의 뛰어난 기능을 통해 실시간 부동산 매물 정보를 크롤링하는 구체적인 방법을 공부하고 있습니다.

이제 네이버 부동산에서 방대한 데이터를 Python을 활용해 필요한 정보를 직접 수집해 보겠습니다.

부동산 매물 정보 수집하기 – 부동산 데이터 네이버 부동산 크롤링 및 가공 #1

부동산 매물 정보 수집하기 – 부동산 데이터 크롤링 및 가공 #1

네이버 부동산은 PC 환경과 모바일 환경으로 나누어져 서비스 되어지고 있으며,각각의 환경을 크롤링하는 방식도 차이가 있습니다. 두 방식 중에서 모바일 환경을 크롤링하는 방식이 보여지는 정보가 적어서 보다 유리합니다.

PC환경

모바일환경

특정 아파트 단지의 매물 정보 가져오기

아래 이미지에서는 http://m.land.naver.com에 접속하여 ‘상암월드컵파크4단지’의 매물과 관련된 정보를 보여준다. 여기서 중요한 요소는 아파트 단지의 고유 식별자인 ‘23620’과 거래 방식을 나타내는 코드 ‘A1:B1:B2 ‘입니다. 각 코드의 의미는 A1은 매매, B1은 전세, B2는 월세, 그리고 B3는 단기임대에 해당합니다.

예를 들어, 다음 주소에서 매물 정보를 확인할 수 있습니다.다https://m.land.naver.com/complex/info/23620?tradTpCd=A1:B1:B2:B3&ptpNo=1&bildNo=&articleListYN=Y

특정단지의 매물값을 가져오는 코드를 다시 작성해보면 아래와 같습니다.

import requests
import json
import pandas as pd

URL = "https://m.land.naver.com/complex/getComplexArticleList"

parameter = {
    'hscpNo': '23620', # 상암월드컵파크4단지 고유번호
    'tradTpCd': 'A1:B1:B2', # 거래방식 3가지
    'order': 'spc_', # 면적별 정열
}

header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.39',
    'Referer': 'https://m.land.naver.com/'
}

page = 0
lands = []

while True:
    page = page + 1
    parameter['page'] = page

    response = requests.get(URL, params=parameter, headers=header)
    if response.status_code != 200:
        print('invalid status: %d' % response.status_code)
        break

    data = json.loads(response.text)
    result = data['result']
    if result is None:
        print('no result')
        break
    
    for item in result['list']:
        lands.append([item['tradTpNm'], item['bildNm'], item['flrInfo'], item['prcInfo'], item['spc1']])
    
    if result['moreDataYn'] == 'N':
        break
print(pd.DataFrame(lands))

다음편에서는 각 아파트별 정보를 얻을 수 있는 파이썬 코드를 알아보도록 하겠습니다.

네이버 뉴스 크롤링 텔레그램 실시간 파이썬 코딩

urjent — Tue, 17 Oct 2023 05:02:32 +0000

네이버 뉴스 크롤링 하여 텔레그램으로 전송하는 방법에 대해서 알아 봅니다. 크롤링 원하는 네이버 뉴스의 키워드 값을 받아 키워드가 포함된 뉴스 URL을 가지고, 텔레그램 봇을 통해 채팅방에 전송하는 파이썬 Python 스크립트를 만들어 봅니다.

네이버 뉴스 크롤링 텔레그램 실시간 파이썬 코딩

파이썬에 대해 관련 글도 확인해보세요

파이썬 주식 분석 보고서 만들기 Python stock

1. 네이버 뉴스 크롤링 프로그램 컨셉

2. 네이버 뉴스 크롤링 사용 라이브러리 정보

requests (특정 url의 html 문서 받기)
BeautifulSoup (html 문서에서 원하는 요소 선택적 추출)
python-telegram-bot (뉴스 링크를 텔레그램 봇으로 채팅방에 전송)

3. 네이버 뉴스 크롤링 전체 코드

이해하기 쉽도록 자세하게 주석을 달아두었으니 어렵지 않을거예요.

참고로 이 코드가 담긴 파이썬 파일(.py)을 pyinstaller를 이용해서 exe 파일로 만들어서 윈도우 시작 시, 기본 프로그램으로 설정해 놓으면 나만의 알리미 프로그램을 만드실 수 있어요!

#step1.라이브러리 불러오기
import  requests
from  bs4  import  BeautifulSoup  as  bs
import  telegram
import  schedule
import  time

#step2.새로운 네이버 뉴스 기사 링크를 받아오는 함수
def  get_new_links(old_links=[]):

    # (주의) 네이버에서 키워드 검색 - 뉴스 탭 클릭 - 최신순 클릭 상태의 url
    url  = f'https://search.naver.com/search.naver?where=news&query={query}&sm=tab_opt&sort=1&photo=0&field=0&pd=0&ds=&de=&docid=&related=0&mynews=0&office_type=0&office_section_code=0&news_office_checked=&nso=so%3Add%2Cp%3Aall&is_sug_officeid=0'

    # html 문서 받아서 파싱(parsing)
    response  =  requests.get(url)
    soup  =  bs(response.text , 'html.parser')

    # 해당 페이지의 뉴스기사 링크가 포함된 html 요소 추출
    news_titles  =  soup.select('a.news_tit')

    # 요소에서 링크만 추출해서 리스트로 저장
    list_links  = [i.attrs['href'] for  i  in  news_titles]

    # 기존의 링크와 신규 링크를 비교해서 새로운 링크만 저장
    new_links  = [link  for  link  in  list_links  if  link  not  in  old_links]

    return  new_links


#step3.새로운 네이버 뉴스 기사가 있을 때 텔레그램으로 전송하는 함수
def  send_links():
    # 함수 내에서 처리된 리스트를 함수 외부에서 참조하기 위함
    global old_links

    # 위에서 정의했던 함수 실행
    new_links  =  get_new_links(old_links)

    # 새로운 메시지가 있으면 링크 전송
    if  new_links:
        for  link  in  new_links:
            bot.sendMessage(chat_id=chat_id, text=link)

    # 없으면 패스
    else:
        pass

    # 기존 링크를 계속 축적하기 위함

    old_links +=  new_links.copy()


# 실제 프로그램 구동
if  __name__  ==  '__main__':

    #토큰을 변수에 저장
    bot_token  ='자신이 발급받은 봇의 토큰'
    bot  =  telegram.Bot(token  =  bot_token)

    #가장 최근에 온 메세지의 정보 중, chat id만 가져옴 (이 chat id는 사용자(나)의 계정 id임)
    chat_id  =  bot.getUpdates()[-1].message.chat.id

    #step4.검색할 키워드 설정
    query  =  input('크롤링 할 뉴스기사 키워드를 입력하세요: ')

    #위에서 얻은 chat id로 bot이 메세지를 보냄.
    bot.sendMessage(chat_id  =  chat_id, text=f"{query}를 주제로 뉴스 기사 크롤링이 시작 되었습니다")

    #step5.기존에 보냈던 링크를 담아둘 리스트 만들기
    old_links  = []

    # 주기적 실행과 관련된 코드 (hours는 시, minutes는 분, seconds는 초)
    job  =  schedule.every(10).seconds.do(send_links)

    while  True:
        schedule.run_pending()
        time.sleep(1)

네이버 뉴스 크롤링 여러 검색어 크롤링

#step1.라이브러리 불러오기
import  requests
from  bs4  import  BeautifulSoup  as  bs
import  telegram
import  schedule
import  time

# step2.새로운 네이버 뉴스 기사 링크를 받아오는 함수

def get_new_links(query, old_links=[]):

    # (주의) 네이버에서 키워드 검색 - 뉴스 탭 클릭 - 최신순 클릭 상태의 url
    url = f'https://search.naver.com/search.naver?where=news&query={query}&sm=tab_opt&sort=1&photo=0&field=0&pd=0&ds=&de=&docid=&related=0&mynews=0&office_type=0&office_section_code=0&news_office_checked=&nso=so%3Add%2Cp%3Aall&is_sug_officeid=0'

    # html 문서 받아서 파싱(parsing)
    response = requests.get(url)
    soup = bs(response.text, 'html.parser')

    # 해당 페이지의 뉴스기사 링크가 포함된 html 요소 추출
    news_titles = soup.select('a.news_tit')

    # 요소에서 링크만 추출해서 리스트로 저장
    list_links = [i.attrs['href'] for i in news_titles]

    # 기존의 링크와 신규 링크를 비교해서 새로운 링크만 저장
    new_links = [link for link in list_links if link not in old_links]

    return new_links


# step3.새로운 네이버 뉴스 기사가 있을 때 텔레그램으로 전송하는 함수
def send_links(query):
    # 함수 내에서 처리된 리스트를 함수 외부에서 참조하기 위함
    global old_links

    # 위에서 정의했던 함수 실행
    new_links = get_new_links(query, old_links)

    # 새로운 메시지가 있으면 링크 전송
    if new_links:
        bot.sendMessage(chat_id=chat_id, text='방금 업데이트 된 ' + f"{query} 주제의 크롤링입니다.")
        for link in new_links:
            bot.sendMessage(chat_id=chat_id, text=link)

    # 없으면 패스
    else:
        pass

    # 기존 링크를 계속 축적하기 위함

    old_links += new_links.copy()


# 실제 프로그램 구동
if __name__ == '__main__':

    # 토큰을 변수에 저장
    bot_token = '자신이 발급받은 봇의 토큰'
    bot = telegram.Bot(token=bot_token)

    # 가장 최근에 온 메세지의 정보 중, chat id만 가져옴 (이 chat id는 사용자(나)의 계정 id임)
    chat_id = bot.getUpdates()[-1].message.chat.id


    # #step4.검색할 키워드 설정
    # query  =  input('크롤링 할 뉴스기사 키워드를 입력하세요: ')
    queries = ["부동산", "경제", "날씨"]

    for query in queries:

        # 위에서 얻은 chat id로 bot이 메세지를 보냄.
        bot.sendMessage(chat_id=chat_id,
                        text=f"{query}를 주제로 뉴스 기사 크롤링이 시작 되었습니다")

        # step5.기존에 보냈던 링크를 담아둘 리스트 만들기
        old_links = []

        # 주기적 실행과 관련된 코드 (hours는 시, minutes는 분, seconds는 초)
        job = schedule.every(10).seconds.do(send_links, query)

    while True:
        schedule.run_pending()
        time.sleep(1)

해당 코드를 복사한 후 비주얼베이직이나 파이참에 넣고 실행하면 실행이 됩니다.

티스토리 파이썬 포스팅 글, 이미지 백업하기

urjent — Wed, 27 Sep 2023 13:37:43 +0000

티스토리(tistory) 백업이 필요해서 파이썬(스크래핑)으로 블로그 포스팅 글과 이미지를 PC 에 저장 하려는 분들이 계실거라고 생각이 듭니다.

오늘은 파이썬으로 티스토리를 백업하는 방법에 대해서 알아봅니다.

일단 코딩한 것이 동작하는 환경과 그 내역을 살펴보면,

-북클럽(Book Club) 스킨에서 카테고리 7~8개 만들고 포스팅 중입니다.

-포스트 주소는 숫자로 설정해서 사용 중입니다.

개발자도구(F12)에서 html 코드를 보고

-requests, BeautifulSoup를 통해 스크래핑 진행했으며,

–PIL Image 를 통해 이미지 다운로드 시 안보이는 확장자 문제를 해결하였습니다.

이미지는 src에 확장자(.jpg .png)까지 정확하게 된 것도 있었지만, 다음과 같은 형태로 포함된 URL을 가지고 있는 것도 있었습니다.

"https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=http%3A%2F%2Fcfile1.uf.tistory.com%2Fimage%2F993693465F20BB0F1FAFB6" src="https://t1.daumcdn.net/cfile/tistory/993693465F20BB0F1F" 

//i1.daumcdn.net/thumb/C176x120/?fname=https://t1.daumcdn.net/cfile/tistory/99400A3F5F21057413

PIL Image로 이미지 정보를 찾으면

img_url: https://t1.daumcdn.net/cfile/tistory/992895395F2040A804
img_format: PNG
imge_size: (830, 1019)
len(이미지): 41568

소스 코드는

from bs4 import BeautifulSoup
import requests
import os
from PIL import Image


def tistory_backup(post_num):

    for num in range(1, post_num + 1):
        url = 'https://본인의 티스토리 URL/' + str(num)
        response = requests.get(url)
        soup = BeautifulSoup(response.text, 'lxml')
        
        ### 포스팅 글 제목
        titles = soup.select_one('#content > div.inner > div.post-cover > div > h1')
        
        ### 등록일
        date = soup.select_one('#content > div.inner > div.post-cover > div > span.meta > span.date')
        
        if not titles or not date:
            continue
        
        print(titles.text)    
        print(date.text)
        
        ### 포스팅 내용
        entry_content = soup.find('div', {'class':'entry-content'})
        print(entry_content.get_text())
        
        res = requests.get(url)
        soup_img = BeautifulSoup(res.content, 'lxml')
        imgs = soup_img.select('img[src^=https]')  # https 로 시작하는 src, '//'로 시작하는 src 제외시킴
        print(f'이미지 수 : {len(imgs)}')
        # print(imgs)
        
        # 저장 디렉토리 만들기
        if not os.path.exists('tistoryBackup'):
            os.mkdir('tistoryBackup')
        if not os.path.exists('tistoryBackup/post_' + str(num)):
            os.makedirs('tistoryBackup/post_' + str(num))
        
        cnt = 1
        for img in imgs:
            img_url = img['src']
            
            ## pillow.Image로 이미지 format 알아내기
            imageObj = Image.open(requests.get(img_url, stream=True).raw)
            img_format = imageObj.format
            imge_size = imageObj.size
            print(f'img_url: {img_url}')
            print(f'img_format: {img_format}')
            print(f'imge_size: {imge_size}')
            print(f'os.path.basename(img_url): {os.path.basename(img_url)}')
            
            res_img = requests.get(img_url).content
            print(f'len(이미지): {len(res_img)}')  # requests의 .content는 bytes 타입을 리턴함
            
            if img_url.split('.')[-1] in ['png', 'jpg']:
                img_name = str(num) + '_' + str(cnt) + '_' + os.path.basename(img_url)
            else:
                img_name = str(num) + '_' + str(cnt) + '_' + 'no_filename_img.' + img_format
            
            print(img_name)
            
            if len(res_img) > 100:  # 이미지 용량이 00 bytes 이상인 것만
                with open('./tistoryBackup/post_' + str(num) + '/' + img_name, 'wb') as f:
                    f.write(res_img)
                cnt += 1
        
        title_content = titles.text + '\n' + date.text +  '\n' + entry_content.get_text()
        filename = str(num) + '_tistory_title_content.txt'
        with open('./tistoryBackup/post_' + str(num) + '/' + filename, 'w', encoding='utf-8') as f:
            f.write(title_content)
        
tistory_backup(20)

tistory_backup(20) 실행 시, 20은 포스트 주소의 숫자.
즉, https://abc4u.tistory.com/1 ~ https://abc4u.tistory.com/20 까지의 포스트 url을 대상으로 추출한다는 의미이며, 본인의 최근 포스팅 번호를 넣으면 1번 부터 최근 번호까지 전체가 추출됨

티스토리 백업

소스코드를 실행하면 위 탐색기 이미지처럼 폴더를 생성하고, 글은 .txt 파일로 저장하고 해당 포스트에 있는 이미지전체는 이름을 다시 만들어져서 저장됩니다.

부동산 파이썬 Python 크롤링 미분양 정보 가져오기 (1편)

urjent — Tue, 05 Sep 2023 00:36:38 +0000

요즘 ‘부동산’ 에 대한 정보를 가공하고자 하는 분들이 많이 있으신 것 같습니다.

부동산 상승과 하락 시장 구분이 명확하지 않은 시점에서 정확한 판단을 위해서 정보를 수집, 가공하여 판단 자료로 활용하시는 분들이 많아진 이유라고 생각합니다.

다양한 부동산 정보가 넘쳐나는 시점에서 어떻게 많은 정보를 가져오고 가공 할 수 있을까 하는 것이 핵심인데요 그래서 오늘부터 몇차례에 걸쳐서 부동산 정보 크롤링 하는 법에 대해서 포스팅 하려고 합니다.

오늘은 부동산 지인이라는 사이트에서 미분양 정보 데이터를 수집해보려고 합니다.

(중요) 부동산 크롤링은 고유 사이트의 지적 재산을 침해할 수 있으므로 해당 포스팅은 크롤링을 장려 하는 글이 아니며 단순히 크롤링에 대한 학습 정보라고만 생각해주세요.

부동산 지인 사이트를 알아보자.

부동산 지인 사이트에서 미분양 정보를 가져올때 몇가지 제한 사항이 있습니다.

아이디와 비밀번호를 입력해서 로그인을 해야합니다.
부동산 지인 사이트는 개발자모드(F12)를 금지 스크립트가 적용되어 있어, 개발자모드를 켜는 순간 웹사이트가 정상적으로 동작하지 않습니다.
따라서 크롤링 하기에는 난해한 사이트 입니다.

어쨌든, 해당 사이트에서 미분양 정보만 수집해보겠습니다. 먼저 부동산 지인 사이트에 접속해 봅니다.

부동산 지인 사이트에 접속하면 기간별 미분양 현황 그래프로 나와 있는데, 이 그래프에서 숫자만 뽑아오는 것이 이번에 할 일입니다.

부동산 지인 사이트는 네이버에 부동사 지인이라고 검색 하시거나 아래 링크를 클릭하여 이동하세요.

파이참 (Pycharm)을 실행하자

파이썬 (Python)을 활용하는데 다양한 비쥬얼 에디터 (Visual editor) 가 존재하는데, 비쥬얼스튜디오나 파이참을 많은 사람들이 이용하고 있습니다. 개인적으로 파이참을 주로 사용하는데, 파이참에서 제공하는 플러그인 중에 마음에 드는 것이 있기 때문입니다.

먼저 파이참을 실행하고, 새로운 프로젝트를 설정합니다. 새로운 프로젝트명은 마음대로 정하세요

설정환경에서 가상환경 (Virtualenv)를 설정하는 것을 추천합니다. 파이참에서는 각 코드별로 실행할 수 있는 단축키를 제공하는데, 가끔 코드를 단계별로 실행해서 에러를 추적할 때 메우 유용한 코드입니다.

단축키는 Alt+Shift+E 키를 활용하시면 됩니다. 블럭으로 묶거나 한 코드만을 감싸서 실행하면 해당 되는 코드만 실행을 하기 때문에 매우 편하게 사용할 수 있습니다.

이제 사용환경을 맞추기 위해서 몇가지 플러그인을 자동으로 다운받도록 하겠습니다.

코드 실행 환경을 만들자

코드를 만들기 전에 터미널을 엽니다. 좌측 하단에 여러가지 아이콘이 존재하는데 아이콘에 터미널이라고 존재합니다. 터미널을 클릭하여 아래 코드를 붙여 넣어 실행합니다.

셀레니움은 크롤링을 하기 위한 것이고, 크롬드라이브는 크롬 웹브라우저를 컨트롤할 때 크롬 버전에 맞게 자동으로 버전을 맞춰주는 툴이며, 마지막으로 판다스는 크롤링을 한 데이터는 우리가 원하는 형태로 가공해서 쉽게 추출 할 수 있도록 도와주는 툴이라고 생각하시면 쉽습니다.

아래 코드를 실행합니다

pip install selenium chromedriver_autoinstaller pandas

실행하면 자동으로 웹에서 다운로드가 이루어지고 설치가 완료가 됩니다.

코드 만들기

우선 아래 코드를 미분양.py 이라는 새로운 파이썬 파일을 만든 후 붙여 넣습니다. 해당 파이썬 코드는 크롬 드라이버에 상관없이 크롬을 조정할 수 있는 기본 코드입니다. 해당 코드를 실행하면 아래와 같이 크롬이 제어되는 것을 볼 수 있습니다.

# 외우는거 아님. 그냥 필요할 때 복붙
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
import time

# 크롬 드라이버 자동 업데이트
from webdriver_manager.chrome import ChromeDriverManager

#브라우저 꺼짐 방지
chrome_options = Options()
chrome_options.add_experimental_option("detach", True)

# 불필요한 에러 메시지 없애기
chrome_options.add_experimental_option("excludeSwitches", ["enable-logging"])
browser = webdriver.Chrome(options=chrome_options)

이렇게 작성하면 크롤링을 위한 준비는 되었습니다. 이제 크롬 브라우저를 자동으로 조정할 수 있으니, 본격적인 크롤링은 다음편에서 자세하게 다루도록 하겠습니다.

감사합니다.