【스마트 모드】【순서도 모드】중단점에서 스크래핑하는 방법 소개 | 웹 스크래핑 툴 | ScrapeStorm
개요:이 글 에서는 중단점에서 스크래핑하는 방법에 대해서 설명합니다. ScrapeStorm무료 다운로드
스크래핑 과정에서 비정상적으로 중단될 수 있습니다. 마지막 중단 위치에서 작업을 다시 시작하려면 중단 지점에서 스크래핑을 해야 합니다.
여러 요인으로 인해 중단 지점에서 자동으로 스크래핑하는 기능은 아직 제공되지 않고 있으며, 저희 엔지니어들도 이 문제를 해결하기 위해 노력하고 있습니다. 현재 중단 지점에서 스크래핑하는 두 가지 방법이 있습니다:
방법1: 중복 제거 기능을 통해 모든 모드에 적용할 수 있으며, 특히 스크롤 로딩이 있는 페이지에 유용합니다.
방법2: 스크래핑 범위를 설정하거나 URL을 수정하거나 사전 작업을 추가함으로써 모든 모드에 적용할 수 있으며, 특히 페이지 넘기기 버튼이 있는 페이지에 적합합니다.
그 다음에는 여러분들께 이 두 가지의 방법에 대해서 구체적으로 설명하겠습니다. 상황에 따라서 원하는 방법을 선택하면 됩니다.
방법1: 중복 제거
작업을 시작할 때 데이터 중복 제거를 설정하고 “데이터가 중복되면 건너뛰고 계속 스크래핑”를 선택합니다.
이 방법은 설정이 간단하지만 효율성이 그리 좋지 않습니다. 설정 후에도 작업은 첫 페이지부터 시작하게 되며, 이미 스크래핑된 모든 데이터를 하나씩 건너뛰게 됩니다.
방법2: 스크래핑 범위 설정, URL 수정 또는 사전 작업 추가
작업이 중단될 때, 소프트웨어의 중단 인터페이스는 현재 작업이 마지막으로 스크래핑된 지점까지의 End URL 및 Pager Count를 기록합니다. 일반적으로 End URL은 정확하지만 페이지 수가 실제 값보다 많을 수 있습니다. 페이지 걸림이 발생하면 빈 페이지 수가 발생하기 때문입니다.
이 두 방법을 중단 지점에 대한 참조로 사용할 수 있습니다.
1. 스크래핑 범위 설정 (스마트 모드 적용)
Step1: 태스크가 정지될 때 나오는 End URL을 복사하고 페이지 수에 따라 정확한 페이지 수를 찾아냅니다.
Step2: 스마트 모드에서 시작 페이지를 Step1에서 찾아낸 페이지 수로 설정합니다.
2. URL 수정 또는 사전 작업 추가
다음과 같은 상황이 나뉠 수 있습니다.
(1) 인터넷 주소는 페이지 번호의 변동에 따라 변동하는 사이트(스마트 모드나 순서도 모드 적용)
예를 들어서:
https://www.scrapestorm.com/tutorial-list/main-features/smart-mode/page/1/
https://www.scrapestorm.com/tutorial-list/main-features/smart-mode/page/2/
https://www.scrapestorm.com/tutorial-list/main-features/smart-mode/page/3/
이런 상황에는 만약 태스크가 page3에 정지되면 page3의 URL을 복사하고 현제 태스크에서 URL을 수정하여 스크래핑하면 됩니다.
Tips: 이전에 스크랩한 데이터를 보존해야 하는 경우 클릭하여 데이터를 지우지 마십시오.
(2) 인터넷 주소는 페이지 번호의 변동에 따라 변동하지 않은 사이트(순서도 모드 적용)
다음과 같은 웹 사이트는 페이지 수가 어떻게 변경되더라도 URL은 변경되지 않습니다.
이런 유형의 웹 사이트의 경우 열기 컴포넌트 뒤에 루프 페이지를 추가해야 하며, 페이징 버튼을 직접 클릭하거나 컴포넌트를 끌어서 생성할 수 있습니다. (일부 페이징 버튼은 클릭해도 인식되지 않을 수 있습니다.)
스크래핑이 시작되기 전에 독립적인 페이지 플립을 수행한 다음 이전에 정지된 페이지를 가져옵니다.
이 조작은 첫 번째 방법에서 스크래핑 범위를 설정하는 것과 동일한 효과가 있습니다. 주로 순서도 모드에서 사용됩니다. 구체적인 조작은 다음과 같습니다.