다운로드 및 회원가입
무료$5무료 쿠폰
시작하기 주요기술

【스마트 모드】【순서도 모드】중단점에서 스크래핑하는 방법 소개 | 웹 스크래핑 툴 | ScrapeStorm

2024-01-05 17:12:46
7352 차

개요:이 글 에서는 중단점에서 스크래핑하는 방법에 대해서 설명합니다. ScrapeStorm무료 다운로드

스크래핑 과정에서 비정상적으로 중단될 수 있습니다. 마지막 중단 위치에서 작업을 다시 시작하려면 중단 지점에서 스크래핑을 해야 합니다.

여러 요인으로 인해 중단 지점에서 자동으로 스크래핑하는 기능은 아직 제공되지 않고 있으며, 저희 엔지니어들도 이 문제를 해결하기 위해 노력하고 있습니다. 현재 중단 지점에서 스크래핑하는 두 가지 방법이 있습니다:

방법1: 중복 제거 기능을 통해 모든 모드에 적용할 수 있으며, 특히 스크롤 로딩이 있는 페이지에 유용합니다.

방법2: 스크래핑 범위를 설정하거나 URL을 수정하거나 사전 작업을 추가함으로써 모든 모드에 적용할 수 있으며, 특히 페이지 넘기기 버튼이 있는 페이지에 적합합니다.

그 다음에는 여러분들께 이 두 가지의 방법에 대해서 구체적으로 설명하겠습니다. 상황에 따라서 원하는 방법을 선택하면 됩니다.

방법1: 중복 제거

작업을 시작할 때 데이터 중복 제거를 설정하고 “데이터가 중복되면 건너뛰고 계속 스크래핑”를 선택합니다.

이 방법은 설정이 간단하지만 효율성이 그리 좋지 않습니다. 설정 후에도 작업은 첫 페이지부터 시작하게 되며, 이미 스크래핑된 모든 데이터를 하나씩 건너뛰게 됩니다.

此图片的alt属性为空;文件名为breakpoint1-1500x812.png

방법2: 스크래핑 범위 설정, URL 수정 또는 사전 작업 추가

작업이 중단될 때, 소프트웨어의 중단 인터페이스는 현재 작업이 마지막으로 스크래핑된 지점까지의 End URL 및 Pager Count를 기록합니다. 일반적으로 End URL은 정확하지만 페이지 수가 실제 값보다 많을 수 있습니다. 페이지 걸림이 발생하면 빈 페이지 수가 발생하기 때문입니다.

이 두 방법을 중단 지점에 대한 참조로 사용할 수 있습니다.

此图片的alt属性为空;文件名为breakpoint2-1500x812.png

1. 스크래핑 범위 설정 (스마트 모드 적용)

Step1: 태스크가 정지될 때 나오는 End URL을 복사하고 페이지 수에 따라 정확한 페이지 수를 찾아냅니다.

Step2: 스마트 모드에서 시작 페이지를 Step1에서 찾아낸 페이지 수로 설정합니다.

此图片的alt属性为空;文件名为breakpoint3-1500x812.png

2. URL 수정 또는 사전 작업 추가

다음과 같은 상황이 나뉠 수 있습니다.

(1) 인터넷 주소는 페이지 번호의 변동에 따라 변동하는 사이트(스마트 모드나 순서도 모드 적용)

예를 들어서:

https://www.scrapestorm.com/tutorial-list/main-features/smart-mode/page/1/

https://www.scrapestorm.com/tutorial-list/main-features/smart-mode/page/2/

https://www.scrapestorm.com/tutorial-list/main-features/smart-mode/page/3/

이런 상황에는 만약 태스크가 page3에 정지되면 page3의 URL을 복사하고 현제 태스크에서 URL을 수정하여 스크래핑하면 됩니다.

Tips: 이전에 스크랩한 데이터를 보존해야 하는 경우 클릭하여 데이터를 지우지 마십시오.

(2) 인터넷 주소는 페이지 번호의 변동에 따라 변동하지 않은 사이트(순서도 모드 적용)

다음과 같은 웹 사이트는 페이지 수가 어떻게 변경되더라도 URL은 변경되지 않습니다.

이런 유형의 웹 사이트의 경우 열기 컴포넌트 뒤에 루프 페이지를 추가해야 하며, 페이징 버튼을 직접 클릭하거나 컴포넌트를 끌어서 생성할 수 있습니다. (일부 페이징 버튼은 클릭해도 인식되지 않을 수 있습니다.)

스크래핑이 시작되기 전에 독립적인 페이지 플립을 수행한 다음 이전에 정지된 페이지를 가져옵니다.

이 조작은 첫 번째 방법에서 스크래핑 범위를 설정하는 것과 동일한 효과가 있습니다. 주로 순서도 모드에서 사용됩니다. 구체적인 조작은 다음과 같습니다.

정기적으로 일치하는 이메일 주소 파이썬 크롤러 사진 대량 다운로드 데이터를 자동으로 excel로 내보내기 동영상 대량 다운로드 파이썬 다운로드 파일 페이지를 word로 다운로드 php크롤러 페이지의 키워드를 추출하기 URL 대량 생성
关闭