다운로드 및 회원가입
무료$5무료 쿠폰
시작하기 주요기술

【스마트 모드】【순서도 모드】태스크 설정하는 법 | 웹 스크래핑 툴 | ScrapeStorm

2023-03-17 10:55:04
5503 차

개요:이 튜토리얼에서는 태스크 설정하는 방법에 대해 소개합니다. 프로그래밍이 필요없는 포인트-앤-클릭 시각화 작업 방식. ScrapeStorm무료 다운로드

작업 편집창의 오른쪽 하단에 있는 “스크래핑 시작” 버튼을 클릭하면 실행 설정창이뜹니다. 실행 설정창에서  스크래핑을 설정할 수 있습니다.

설정란에는 아래 사진과 같이 스케쥴러, IP 전환&딜레이, 자동 추출, 파일 다운로드, 가속 엔진, 중복 제거, 이메일 알림 및 개발자 설정이 포함됩니다.

此图片的alt属性为空;文件名为configure-scraping-task1-1500x812.png

 

1. 스케쥴러

스케쥴러는 사용자가 반복 스크래핑 간격을 설정하거나 태스크의 시작 및 정지 시간을 일정하게 설정하고 그 시간에 따라 정기적으로 데이터를 수집할 수 있는 것을 의미합니다. 스케쥴러 기능에는 반복 스크래핑 및 스케쥴러가 있습니다.

자세한 내용은 아래 튜토리얼을 참조해주세요. 

스케쥴러란?

此图片的alt属性为空;文件名为configure-scraping-task2.png

 

2. IP 전환& 딜레이

차단 방지 설정에는 프록시 열기, 자동 전환 및 수동 전환이 포함됩니다. 이 기능은 주로 다양한 웹 사이트 차단 문제를 방지하기 위해 사용됩니다.

IP 전환 설정 방법

此图片的alt属性为空;文件名为configure-scraping-task3.png

此图片的alt属性为空;文件名为configure-scraping-task4.png

 

3. 자동 추출

이 기능을 사용하면 스크래핑 결과를 자동으로 로컬 파일, 데이터베이스 및 웹 사이트에 내보낼 수 있습니다. 데이터를 내보내기 위해 작업이 완료될 때까지 계속 기다릴 필요가 없습니다.

자동 추출 설정 방법

此图片的alt属性为空;文件名为configure-scraping-task5.png

 

4. 파일 다운로드

ScrapeStorm은 스크래핑 과정에 파일 다운로드가 가능합니다. 파일 유형은 다음과 같습니다. 사진, 오디오, 동영상, 파일 및 기타 파일. 사용자는 저장 경로를 선택하고 별도 폴더를 생성하거나 다운로드된 파일의 이름을 변경할 수 있습니다.

此图片的alt属性为空;文件名为configure-scraping-task6.png

 

5. 가속 엔진

가속 엔진은 말 그대로 작업 속도를 높여주는 것입니다. 스크래핑 빠름의 여부는 웹 페이지 로딩 속도 및 태스크 설정과 관련 있습니다. 보통 3배에서 10배의 가속 효과를 낼 수 있습니다.

자세한 내용은 아래 튜토리얼을 참조해주세요. 

가속 엔진 사용 방법

此图片的alt属性为空;文件名为configure-scraping-task7.png

 

6. 중복 제

데이터 중복 제거는 스크래핑 중에 발생할 수 있는 중복 데이터를 필터링하여 유효한 데이터만 남기는 것을 말합니다. 데이터 중복 제거는 필터링하기 전에 모든 데이터를 스크래핑해야 합니다. 따라서 이 기능을 사용하면 속도가 느려집니다.

此图片的alt属性为空;文件名为configure-scraping-task8.png

 

7. 개발자설정

ScrapeStorm은 Webhook 기능을 지원합니다. 이 기능을 사용하면 스크래핑된 데이터를 HTTP 주소에 게시할 수 있습니다.

자세한 내용은 아래 튜토리얼을 참조해주세요. 

Webhook 사용 방법

php크롤러 파이썬 크롤러 사진 대량 다운로드 동영상 대량 다운로드 정기적으로 일치하는 이메일 주소 파이썬 스크래핑 페이지의 키워드를 추출하기 데이터를 자동으로 excel로 내보내기 페이지를 word로 다운로드 파이썬 다운로드 파일
关闭