크롤링을 하기 위해 사전에 알고 있으면 도움이 되는 지식
0. 크롤링
- 웹사이트의 정보를 수집하는 과정
1. 인코딩
- 인코딩은 사람이 사용하는 언어를 컴퓨터가 사용하는 0과 1로 변환하는 과정
- 디코딩은 이와 반대의 과정
- 인코딩 방법은 EUC-KR, CP949, UTF-8 등이 있음
1) EUC-KR
- 현대 한글에서 많이 쓰이는 문자 2,350개에 번호를 붙인 방법
2) CP949
- CP949는 11,720개 한글 문자에 번호를 붙인 방법
- 기존 EUC-KR보다 나타낼 수 있는 한글의 개수가 훨씬 많아짐
3) UTF-8
- 모음과 자음 각각에 코드를 부여한 후 조합해 한글을 나타냄
- 조합형은 한글뿐만 아니라 다양한 언어에 적용할 수 있다는 장점이 있음
- 전 세계 웹 페이지의 대부분이 UTF-8로 만들어지고 있음
2. 웹의 동작 방식
- 크롤링은 웹사이트의 정보를 수집하는 과정이므로 웹이 어떻게 동작하는지 이해할 필요가 있음
요청(Request)
클라이언트 --> 서버
(Client) <-- (Server)
응답(Response)
1) 클라이언트
- 데스크톱이나 휴대폰과 같은 장치
- 혹은 크롬이나 파이어폭스와 같은 소프트웨어를 의미
2) 서버
- 웹사이트와 앱을 저장하는 컴퓨터를 의미
- 건물에도 고유의 주소가 있는 것처럼, 각 서버에도 고유의 주소가 있음, 이를 인터넷 주소 혹은 URL이라고 함
3) HTTP
- 클라이언트가 서버에게 요청의 목적이나 종류를 알리는 방법을 HTTP 요청 방식(HTTP Request Method)이라고 함
@ HTTP 요청 방식의 종류
- GET
- POST
- PUT
- DELETE
4) HTML, CSS
- 클라이언트와 서버가 데이터를 주고 받을 때는 디자인 이라는 개념이 필요하지 않음
- 그러나 응답받은 정보를 사람이 확인하려면 보기 편한 방식으로 바꾸어줄 필요가 있는데, 웹페이지가 그러한 역할을 함
- 웹페이지의 제목, 단락, 목록 등 레이아웃을 잡아주는데 쓰이는 대표적인 마크업 언어가 'HTML'
- HTML을 통해 잡혀진 뼈대에 글자의 색상이나 폰트, 배경색, 배치 등 화면을 꾸며주는 역할을 하는 것이 'CSS'
3. HTML
4. CSS
'Python > 퀀트' 카테고리의 다른 글
정적 크롤링과 동적 크롤링의 차이 (0) | 2024.11.05 |
---|---|
크롤링 실습: POST 방식 데이터 수집하기 (0) | 2024.11.05 |
크롤링 실습: 테이블 형태의 데이터 수집하기 (0) | 2024.11.05 |
크롤링 실습 : 금융 속보 제목 수집하기 (0) | 2024.11.05 |
크롤링 실습: 명언 수집하기 (2) | 2024.11.05 |
댓글