목록공부/웹 크롤링 (4)
DecordRay
주로 헷갈리는 3가지 용어에 대해 확실하게 알아보자! + 캐시를 아는것은 웹 크롤링간에도 도움이 된다! 쿠키(Cookie) HTTP의 일종으로 사용자가 어떠한 웹 사이트를 방문할 경우, 그 사이트가 사용하고 있는 서버에서 사용자의 컴퓨터에 저장하는 작은 기록 정보 파일이다. HTTP에서 클라이언트의 상태 정보를 클라이언트의 PC에 저장하였다가 필요시 정보를 참조하거나 재사용할 수 있다. 특징 하드디스크(SSD)에 저장되는 데이터이다. 이름, 값, 만료일(저장 기간 설정), 경로 정보로 구성되어 있다. 클라이언트에 총 300개의 쿠키를 저장할 수 있다. 하나의 도메인 당 20개의 쿠키를 가질 수 있다. 하나의 쿠키는 4KB(=4096byte)까지 저장 가능하다. 예시 쇼핑 웹 사이트 이용시 추천 상품이 뜨..
데이터를 요청하는 가장 대표적인 방식인 Get, Post에 대해 알아보자! GET 방식 GET은 요청을 전송할 때 필요한 데이터를 Body에 담지 않고, 쿼리스트링을 통해 전송하는 방식 쿼리스트링 - URL의 끝에 ?와 함께 이름과 값으로 쌍을 이루는 요청 파라미터 쿼리스트링이 여러 개이면 &로 연결 쿼리스트링을 사용하게 되면 URL에 조회 조건을 표시하기 때문에 특정 페이지를 링크하거나 북마크할 수 있다. 쿼리스트링을 포함한 URL 예시 www.example-url.com/resources?name1=value1&name2=value2 여기서 요청 파라미터명은 name1, name2이고, 각각의 파라미터는 value1, value2라는 값으로 서버에 요청을 보낸다. * TIP - GET 방식으로 요청 ..
웹 크롤링을 학습하기 앞서 웹 페이지에서 받은 응답(Response) 정보를 아는 것도 중요하다! HTTP 상태 코드 HTTP 상태 코드(HTTP Status Code)는 서버에서 설정해주는 응답(Response) 정보이다. 특히 프론트엔드 개발자 입장에서는 이 내용을 아는 것이 중요한다. why? - 이 상태 코드를 통해 서버와의 통신에서 어느 부분이 문제인지 확인 할 수 있기 때문. 또한 웹 크롤링 간에도 서버의 response를 받아와야 하기 때문에 알아야 할 필요가 있다. 2xx - 성공 200번대의 상태 코드는 대부분 성공을 의미합니다. 200 : GET 요청에 대한 성공 204 : No Content. 성공했으나 응답 본문에 데이터가 없음 205 : Reset Content. 성공했으나 클라이..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bjqHpi/btrZA2Yzrty/2UcaOkdonFSkMokvroARY0/img.png)
웹 크롤링을 학습하기 전에 URL에 대한 기본적인 이해부터 시작해보자! Client와 Server의 기본적인 구조 Client 브라우저를 통해 서버에 데이터를 요청 Server Client가 데이터를 요청하면 요청에 따라 데이터를 전송 URL(Uniform Resource Locator)이란? Ex) http://news.naver.com:80/main/read.nhn?mode=LSD&mid=shm&sid1=105&oid=001&aid=0009847211#da_727145 라는 url을 통해 구조를 알아보자! https:// - Protocol news - Sub Domain naver.com - Domain 80 - Port /main/ - Path read.nhn - Page ?mode = ?mode..