【스마트 모드】【순서도 모드】데이터 중복 제거 설정 방법 | 웹 스크래핑 툴 | ScrapeStorm
개요:이 튜토리얼에서는 데이터 중복 제거 설정 방법에 대해 보여줍니다. ScrapeStorm무료 다운로드
데이터 중복 제거는 태스크 스크래핑 중의 중복 데이터를 필터링하는 것입니다. 중복된 데이터를 제거하려면 시작 전에 태스크의 모든 데이터를 삭제해야 합니다. 따라서 이 기능을 켜면 스크래핑 속도가 느려집니다.
편집 태스크창의 오른쪽 하단에 있는 “스크래핑 시작” 버튼을 눌러 설정창을 열고 “중복 제거” 옵션을 클릭하면 중복 제거 설정창으로 이동합니다.
1. 중복제거 조건
(1) 모든 필드 중복 시
“모든 필드 중복” 옵션을 선택하면, 소프트웨어는 중복 데이터를 제거하는 작업을 진행합니다. 이를 위해 두 줄의 필드 데이터가 완전히 같아야만 합니다. 만약 두 필드 중 하나라도 데이터가 다르면, 필터링이 이루어지지 않습니다. 즉, 소프트웨어는 두 줄의 필드 데이터를 모두 스크래핑하게 됩니다.
(2) 선택한 필드 모두 중복
이 조건을 선택하면 소프트웨어는 하나 또는 여러 필드의 데이터가 중복될 시 제거할 수 있습니다. 설정된 필드의 데이터가 반복되면 중복 데이터로 판단합니다.
여러 필드를 설정할 수도 있습니다. “+” 또는 “-” 기호를 클릭하고 필드 간의 관계는 “그리고” 입니다. 두 필드가 설정된 경우 필드1과 2가 모두 같은 조건에서만 소프트웨어가 데이터를 필터링할 수 있습니다.
2. 실행
(1) 데이터가 중복되면 건너뛰고 계속 스크래핑
(2) 데이터가 중복되면 작업 정지