본문 바로가기
Python/퀀트

크롤링 사전 지식

by 훈영 2024. 11. 5.

크롤링을 하기 위해 사전에 알고 있으면 도움이 되는 지식

0. 크롤링
 - 웹사이트의 정보를 수집하는 과정


1. 인코딩
 - 인코딩은 사람이 사용하는 언어를 컴퓨터가 사용하는 0과 1로 변환하는 과정
 - 디코딩은 이와 반대의 과정
 - 인코딩 방법은 EUC-KR, CP949, UTF-8 등이 있음
  1) EUC-KR
   - 현대 한글에서 많이 쓰이는 문자 2,350개에 번호를 붙인 방법
  2) CP949
   - CP949는 11,720개 한글 문자에 번호를 붙인 방법
   - 기존 EUC-KR보다 나타낼 수 있는 한글의 개수가 훨씬 많아짐
  3) UTF-8
   - 모음과 자음 각각에 코드를 부여한 후 조합해 한글을 나타냄
   - 조합형은 한글뿐만 아니라 다양한 언어에 적용할 수 있다는 장점이 있음
   - 전 세계 웹 페이지의 대부분이 UTF-8로 만들어지고 있음


2. 웹의 동작 방식
 - 크롤링은 웹사이트의 정보를 수집하는 과정이므로 웹이 어떻게 동작하는지 이해할 필요가 있음

                  요청(Request)
  클라이언트         -->            서버
    (Client)           <--           (Server)
                  응답(Response)


 1) 클라이언트
  - 데스크톱이나 휴대폰과 같은 장치
  - 혹은 크롬이나 파이어폭스와 같은 소프트웨어를 의미
 2) 서버
  - 웹사이트와 앱을 저장하는 컴퓨터를 의미
  - 건물에도 고유의 주소가 있는 것처럼, 각 서버에도 고유의 주소가 있음, 이를 인터넷 주소 혹은 URL이라고 함
 3) HTTP
  - 클라이언트가 서버에게 요청의 목적이나 종류를 알리는 방법을 HTTP 요청 방식(HTTP Request Method)이라고 함

  @ HTTP 요청 방식의 종류
   - GET
   - POST
   - PUT
   - DELETE

 4) HTML, CSS
  - 클라이언트와 서버가 데이터를 주고 받을 때는 디자인 이라는 개념이 필요하지 않음
  - 그러나 응답받은 정보를 사람이 확인하려면 보기 편한 방식으로 바꾸어줄 필요가 있는데, 웹페이지가 그러한 역할을 함
  - 웹페이지의 제목, 단락, 목록 등 레이아웃을 잡아주는데 쓰이는 대표적인 마크업 언어가 'HTML'
  - HTML을 통해 잡혀진 뼈대에 글자의 색상이나 폰트, 배경색, 배치 등 화면을 꾸며주는 역할을 하는 것이 'CSS'

 


3. HTML

 


4. CSS

댓글