【순서도 모드】필드 설정 방법 | 웹 스크래핑 툴 | ScrapeStorm
개요:이 튜토리얼은 순서도 모드에서 필드를 설정하는 방법을 소개합니다. 프로그래밍이 필요없는 포인트-앤-클릭 시각화 작업 방식. ScrapeStorm무료 다운로드
“추출” 컨포넌트는 웹 페이지에서 데이터를 추출하는 데 사용됩니다. 컨포넌트는 단독으로 또는 “루프” 컨포넌트 또는 “판단” 컨포넌트와 함께 사용할 수 있습니다. 단독으로 사용할 경우 한 페이지의 데이터를 추출하는 데 적합합니다. 함께 사용할 경우 모든 페이지의 데이터를 추출하는 데 적합합니다.
구체적인 작동은 다음과 같습니다.
1. 필드 이름 수정
2. 필드 병합
필드를 병합하는 두 가지 방법이 있습니다.
(1) 병합해야 하는 필드를 선택한 후, 마우스 오른쪽 버튼을 클릭해서 “필드 병합”을 선택합니다. 그런 다음 페이지에서 병합하려는 두 필드를 선택하고 두 필드를 조합할 때 사용할 구분 기호를 선택합니다.
(2) ctrl 또는 shift를 눌러 여러 필드를 선택한 다음 “병합”을 마우스 우클릭합니다. 이 방법은 여러 필드의 조합에 적합합니다.
3. 페이지에서 선택
필드에서 추출한 내용을 수정하거나 새 필드를 추가하여 추출 내용을 설정하려면 “페이지에서 선택”을 누른 후 웹 페이지에서 필요한 데이터를 추출합니다.
4. Xpath 편집
Xpath는 경로 표현식을 사용하여 웹 페이지에서 필요한 데이터의 위치를 찾는 경로 쿼리 언어입니다. 프로그래밍 기반이 있는 사용자는 이 기능을 사용하여 새 XPath를 설정할 수 있습니다.
5. 추출유형
다른 데이터는 서로 다른 값 속성을 설정해야 합니다. 새로운 필드를 설정할 때 필드의 값은 기본적으로 텍스트 필드로 설정됩니다.
일반적으로 새 데이터를 선택할 때 ScrapeStorm은 필드 속성을 자동으로 결정해주므로 따로 설정할 필요가 없습니다. 그러나 판단 오류가 있는 경우 필드의 값 속성을 직접 설정할 수 있습니다.
Text: 일반 텍스트 데이터에 적합합니다.
InnerHTML: 콘텐츠 자체를 포함하지 않는 HTML을 추출하는데 적합합니다.
OuterHTML: 콘텐츠 자체를 포함하는 HTML을 추출하는데 적합합니다.
링크 URL: 링크 추출에 적합합니다.
이미지/비디오/오디오 URL: 이미지 및 기타 미디어를 추출하는데 적합합니다.
Input Value : 주로 키워드 수집에 사용되는 입력란의 텍스트를 추출하는데 적합합니다.
다운로드 버튼: 다운로드 주소를 추출하는데 사용됩니다.
6. 디코드 유형
소프트웨어는 디코딩할 필드를 자동으로 식별합니다. 일부 필드가 잘못 디코딩되거나 디코딩되지 않는 경우 디코딩 기능을 수동으로 선택할 수 있습니다. 이것이 회원권내의 기능입니다. 회원권 업그레이드해야 사용할 수 있습니다.
7. 데이터 처리
때론 우리는 추출된 필드의 내용에 대한 처리가 필요합니다. 예를 들어 필드에서 숫자와 이메일만 필요한 경우, 필드의 텍스트를 새 텍스트로 대체하거나, 시작과 끝의 공백 문자를 제거하거나, 새로운 정규식을 생성하는 경우가 있습니다. 또는 “데이터 수정”을 클릭할 수도 있습니다.
8. 특수 값
데이터 스크래핑 과정에서 일부 사용자는 스크래핑 시간, 페이지 제목, 페이지 URL 등과 같은 일부 특수 필드를 스크래핑해야 합니다. 이러한 필드는 웹 페이지에서 직접 스크랩할 수 없으며, “특수 값”을 사용하여 필드를 설정할 수 있습니다.
사용자는 새 필드를 만들거나, 필드를 특수 필드로 변경하거나, 원래 필드를 특수 필드로 변경할 수 있습니다.
9. 필드 삭제
필드를 마우스 우클릭하여 삭제를 선택하거나 Ctrl 또는 Shift 키를 눌러 삭제할 여러 필드를 선택할 수 있습니다.
10. 모두 비우기
시스템이 자동으로 인식하는 필드가 필요 없는 경우, “모두 비우기”를 눌러 필드를 지우고 필수 필드를 재설정할 수 있습니다.
11. 필드 추가
새 필드를 추가하려면 오른쪽 상단에 있는 “필드 추가”를 클릭하고 새로 추가된 필드를 마우스 우클릭한 다음 “페이지에서 선택”을 클릭하여 페이지에서 필요한 데이터를 추출합니다.