다운로드 및 회원가입
무료$5무료 쿠폰
시작하기 주요기술

【스마트 모드】【순서도 모드】데이터 중복 제거 설정 방법 | 웹 스크래핑 툴 | ScrapeStorm

2024-01-05 14:56:38
4033 차

개요:이 튜토리얼에서는 데이터 중복 제거 설정 방법에 대해 보여줍니다. ScrapeStorm무료 다운로드

데이터 중복 제거는 태스크 스크래핑 중의 중복 데이터를 필터링하는 것입니다. 중복된 데이터를 제거하려면 시작 전에 태스크의 모든 데이터를 삭제해야 합니다. 따라서 이 기능을 켜면 스크래핑 속도가 느려집니다.

편집 태스크창의 오른쪽 하단에 있는 “스크래핑 시작” 버튼을 눌러 설정창을 열고 “중복 제거” 옵션을 클릭하면 중복 제거 설정창으로 이동합니다.

此图片的alt属性为空;文件名为deduplication1-1500x812.png

 

1. 중복제거 조건

(1) 모든 필드 중복 시

“모든 필드 중복” 옵션을 선택하면, 소프트웨어는 중복 데이터를 제거하는 작업을 진행합니다. 이를 위해 두 줄의 필드 데이터가 완전히 같아야만 합니다. 만약 두 필드 중 하나라도 데이터가 다르면, 필터링이 이루어지지 않습니다. 즉, 소프트웨어는 두 줄의 필드 데이터를 모두 스크래핑하게 됩니다.

此图片的alt属性为空;文件名为deduplication2-1500x812.png

(2) 선택한 필드 모두 중복

이 조건을 선택하면 소프트웨어는 하나 또는 여러 필드의 데이터가 중복될 시 제거할 수 있습니다. 설정된 필드의 데이터가 반복되면 중복 데이터로 판단합니다.

此图片的alt属性为空;文件名为deduplication3-1500x813.png

여러 필드를 설정할 수도 있습니다. “+” 또는 “-” 기호를 클릭하고 필드 간의 관계는 “그리고” 입니다. 두 필드가 설정된 경우 필드1과 2가 모두 같은 조건에서만 소프트웨어가 데이터를 필터링할 수 있습니다.

此图片的alt属性为空;文件名为deduplication4-1500x812.png

2. 실

(1) 데이터가 중복되면 건너뛰고 계속 스크래핑

此图片的alt属性为空;文件名为deduplication5-1500x812.png

(2) 데이터가 중복되면 작업 정지

페이지의 키워드를 추출하기 사진 대량 다운로드 정기적으로 일치하는 이메일 주소 동영상 대량 다운로드 파이썬 크롤러 파이썬 다운로드 파일 페이지를 word로 다운로드 php크롤러 URL 대량 생성 파이썬 스크래핑
关闭