다운로드 및 회원가입
무료$5무료 쿠폰
시작하기 주요기술

【스마트 모드】【순서도 모드】중단점에서 스크래핑하는 방법 소개 | 웹 스크래핑 툴 | ScrapeStorm

2023-03-16 16:40:21
6973 차

개요:이 글 에서는 중단점에서 스크래핑하는 방법에 대해서 설명합니다. ScrapeStorm무료 다운로드

스크래핑 과정에서 비정상적인 정지 현상이 발생할 수 있습니다. 마지막 정지 위치에서 작업을 다시 시작하려면 중단점에서 스크래핑해야 합니다.

다양한 요인으로 인해 중단점에서 자동으로 스크래핑되는 기능은 아직 사용할 수 없으며, 우리 엔지니어들도 이 문제를 극복하기 위해 노력하고 있습니다. 현재 중단점에서 스크래핑하는 데는 두 가지 방법이 있습니다.

방법1: 중복 제거 기능을 통해서 실현합니다. 이 방법은 스마트 모드나 순서도 모드에서 다 사용할 수 있고 특히 롤링 로드가 있는 페이지에 적용합니다.

방법2: 스크래핑 범위 설정, URL 수정 또는 사전 작업 추가를 통해서 실현합니다. 이 방법은 스마트 모드나 순서도 모드에서 다 사용할 수 있고 특히 페이지 넘기기 버튼이 있는 페이지에 적용합니다.

그 다음에는 여러분들께 이 두 가지의 방법에 대해서 구체적으로 설명하겠습니다. 상황에 따라서 원하는 방법을 선택하면 됩니다.

방법1: 중복 제거

작업을 시작할 때 데이터 중복 제거를 설정하고 “데이터가 중복되면 데이터를 건너뛰고 계속 스크래핑”를 선택합니다.

이 솔루션은 설정이 간단하지만 효율성이 그리 좋지 않습니다. 설정 후에도 태스크는 첫 페이지에서 계속 시작된 다음 스크랩된 모든 데이터를 하나씩 건너뜁니다.

此图片的alt属性为空;文件名为breakpoint1-1500x812.png

방법2: 스크래핑 범위 설정, URL 수정 또는 사전 작업 추가

태스크가 정지되면 소프트웨어의 정지 인터페이스는 현재 태스크가 마지막 태스크로 스크랩될 때 End URL 및 Pager Count를 기록합니다. 일반적으로 End URL은 정확하지만 페이지 수가 실제 값보다 많을 수 있습니다. 페이지 걸림이 발생하면 빈 페이지 수가 발생하기 때문입니다.

이 두 값을 중단점에 대한 참조로 사용할 수 있습니다.

此图片的alt属性为空;文件名为breakpoint2-1500x812.png

1. 스크래핑 범위 설정 (스마트 모드 적용)

Step1: 태스크가 정지될 때 나오는 End URL을 복사하고 페이지 수에 따라 정확한 페이지 수를 찾아냅니다.

Step2: 스마트 모드에서 시작 페이지를 Step1에서 찾아낸 페이지 수로 설정합니다.

此图片的alt属性为空;文件名为breakpoint3-1500x812.png

2. URL 수정 또는 사전 작업 추가

다음과 같은 상황이 나뉠 수 있습니다.

(1) 인터넷 주소는 페이지 번호의 변동에 따라 변동하는 사이트(스마트 모드나 순서도 모드 적용)

예를 들어서:

https://www.scrapestorm.com/tutorial-list/main-features/smart-mode/page/1/

https://www.scrapestorm.com/tutorial-list/main-features/smart-mode/page/2/

https://www.scrapestorm.com/tutorial-list/main-features/smart-mode/page/3/

이런 상황에는 만약 태스크가 page3에 정지되면 page3의 URL을 복사하고 현제 태스크에서 URL을 수정하며 스크래핑하면 됩니다.

[주의] 이전에 스크랩한 데이터를 보존해야 하는 경우 클릭하여 데이터를 지우지 마십시오.

(2) 인터넷 주소는 페이지 번호의 변동에 따라 변동하지 않은 사이트(순서도 모드 적용)

다음과 같은 웹 사이트는 페이지 수가 어떻게 변경되더라도 URL은 변경되지 않습니다.

이런 유형의 웹 사이트의 경우 열기 컴포넌트 뒤에 루프 페이지를 추가해야 하며, 페이징 버튼을 직접 클릭하거나 컴포넌트를 끌어서 생성할 수 있습니다. (일부 페이징 버튼은 클릭해도 인식되지 않을 수 있습니다.)

스크래핑이 시작되기 전에 독립적인 페이지 플립을 수행한 다음 이전에 정지된 페이지를 가져옵니다.

이 조작은 첫 번째 솔루션에서 스크래핑 범위를 설정하는 것과 동일한 효과가 있습니다. 주로 순서도 모드에서 사용됩니다. 구체적인 조작은 다음과 같습니다.

파이썬 스크래핑 URL 대량 생성 데이터를 자동으로 excel로 내보내기 파이썬 다운로드 파일 동영상 대량 다운로드 정기적으로 일치하는 이메일 주소 파이썬 크롤러 php크롤러 페이지를 word로 다운로드 사진 대량 다운로드
关闭