【스마트 모드】【순서도 모드】태스크 설정하는 법 | 웹 스크래핑 툴 | ScrapeStorm
개요:이 튜토리얼에서는 태스크 설정하는 방법에 대해 소개합니다. 프로그래밍이 필요없는 포인트-앤-클릭 시각화 작업 방식. ScrapeStorm무료 다운로드
작업 편집창의 오른쪽 하단에 있는 “스크래핑 시작” 버튼을 클릭하면 실행 설정창이뜹니다. 실행 설정창에서 스크래핑을 설정할 수 있습니다.
설정란에는 아래 사진과 같이 스케쥴러, IP 전환&딜레이, 자동 추출, 파일 다운로드, 가속 엔진, 중복 제거, 이메일 알림 및 개발자 설정이 포함됩니다.
1. 스케쥴러
스케쥴러는 사용자가 반복 스크래핑 간격을 설정하거나 태스크의 시작 및 정지 시간을 일정하게 설정하고 그 시간에 따라 정기적으로 데이터를 수집할 수 있는 것을 의미합니다. 스케쥴러 기능에는 반복 스크래핑 및 스케쥴러가 있습니다.
자세한 내용은 아래 튜토리얼을 참조해주세요.
2. IP 전환& 딜레이
차단 방지 설정에는 프록시 열기, 자동 전환 및 수동 전환이 포함됩니다. 이 기능은 주로 다양한 웹 사이트 차단 문제를 방지하기 위해 사용됩니다.
3. 자동 추출
이 기능을 사용하면 스크래핑 결과를 자동으로 로컬 파일, 데이터베이스 및 웹 사이트에 내보낼 수 있습니다. 데이터를 내보내기 위해 작업이 완료될 때까지 계속 기다릴 필요가 없습니다.
4. 파일 다운로드
ScrapeStorm은 스크래핑 과정에 파일 다운로드가 가능합니다. 파일 유형은 다음과 같습니다. 사진, 오디오, 동영상, 파일 및 기타 파일. 사용자는 저장 경로를 선택하고 별도 폴더를 생성하거나 다운로드된 파일의 이름을 변경할 수 있습니다.
5. 가속 엔진
가속 엔진은 말 그대로 작업 속도를 높여주는 것입니다. 스크래핑 빠름의 여부는 웹 페이지 로딩 속도 및 태스크 설정과 관련 있습니다. 보통 3배에서 10배의 가속 효과를 낼 수 있습니다.
자세한 내용은 아래 튜토리얼을 참조해주세요.
6. 중복 제거
데이터 중복 제거는 스크래핑 중에 발생할 수 있는 중복 데이터를 필터링하여 유효한 데이터만 남기는 것을 말합니다. 데이터 중복 제거는 필터링하기 전에 모든 데이터를 스크래핑해야 합니다. 따라서 이 기능을 사용하면 속도가 느려집니다.
7. 개발자설정
ScrapeStorm은 Webhook 기능을 지원합니다. 이 기능을 사용하면 스크래핑된 데이터를 HTTP 주소에 게시할 수 있습니다.
자세한 내용은 아래 튜토리얼을 참조해주세요.