다운로드 및 회원가입
무료$5무료 쿠폰
시작하기 주요기술

【순서도 모드】필드 설정 방법 | 웹 스크래핑 툴 | ScrapeStorm

2024-01-05 18:14:52
7119 차

개요:이 튜토리얼은 순서도 모드에서 필드를 설정하는 방법을 소개합니다. 프로그래밍이 필요없는 포인트-앤-클릭 시각화 작업 방식. ScrapeStorm무료 다운로드

“추출” 컨포넌트는 웹 페이지에서 데이터를 추출하는 데 사용됩니다. 컨포넌트는 단독으로 또는 “루프” 컨포넌트 또는 “판단” 컨포넌트와 함께 사용할 수 있습니다. 단독으로 사용할 경우 한 페이지의 데이터를 추출하는 데 적합합니다. 함께 사용할 경우 모든 페이지의 데이터를 추출하는 데 적합합니다.

구체적인 작동은 다음과 같습니다.

1. 필드 이름 수정

2. 필드 병합

필드를 병합하는 두 가지 방법이 있습니다.

(1) 병합해야 하는 필드를 선택한 후, 마우스 오른쪽 버튼을 클릭해서 “필드 병합”을 선택합니다. 그런 다음 페이지에서 병합하려는 두 필드를 선택하고 두 필드를 조합할 때 사용할 구분 기호를 선택합니다.

(2) ctrl 또는 shift를 눌러 여러 필드를 선택한 다음 “병합”을 마우스 우클릭합니다. 이 방법은 여러 필드의 조합에 적합합니다.

3. 페이지에서 선택

필드에서 추출한 내용을 수정하거나 새 필드를 추가하여 추출 내용을 설정하려면 “페이지에서 선택”을 누른 후 웹 페이지에서 필요한 데이터를 추출합니다.

4. Xpath 편집

Xpath는 경로 표현식을 사용하여 웹 페이지에서 필요한 데이터의 위치를 찾는 경로 쿼리 언어입니다. 프로그래밍 기반이 있는 사용자는 이 기능을 사용하여 새 XPath를 설정할 수 있습니다.

5. 추출유형

다른 데이터는 서로 다른 값 속성을 설정해야 합니다. 새로운 필드를 설정할 때 필드의 값은 기본적으로 텍스트 필드로 설정됩니다.

일반적으로 새 데이터를 선택할 때 ScrapeStorm은 필드 속성을 자동으로 결정해주므로 따로 설정할 필요가 없습니다. 그러나 판단 오류가 있는 경우 필드의 값 속성을 직접 설정할 수 있습니다.

Text: 일반 텍스트 데이터에 적합합니다.

InnerHTML: 콘텐츠 자체를 포함하지 않는 HTML을 추출하는데 적합합니다.

OuterHTML: 콘텐츠 자체를 포함하는 HTML을 추출하는데 적합합니다.

링크 URL: 링크 추출에 적합합니다.

이미지/비디오/오디오 URL: 이미지 및 기타 미디어를 추출하는데 적합합니다.

Input Value : 주로 키워드 수집에 사용되는 입력란의 텍스트를 추출하는데 적합합니다.

다운로드 버튼: 다운로드 주소를 추출하는데 사용됩니다.

6. 디코드 유형

소프트웨어는 디코딩할 필드를 자동으로 식별합니다. 일부 필드가 잘못 디코딩되거나 디코딩되지 않는 경우 디코딩 기능을 수동으로 선택할 수 있습니다. 이것이 회원권내의 기능입니다. 회원권 업그레이드해야 사용할 수 있습니다.

7. 데이터 처리

때론 우리는 추출된 필드의 내용에 대한 처리가 필요합니다. 예를 들어 필드에서 숫자와 이메일만 필요한 경우, 필드의 텍스트를 새 텍스트로 대체하거나, 시작과 끝의 공백 문자를 제거하거나, 새로운 정규식을 생성하는 경우가 있습니다. 또는 “데이터 수정”을 클릭할 수도 있습니다.

8. 특수 값

데이터 스크래핑 과정에서 일부 사용자는 스크래핑 시간, 페이지 제목, 페이지 URL 등과 같은 일부 특수 필드를 스크래핑해야 합니다. 이러한 필드는 웹 페이지에서 직접 스크랩할 수 없으며, “특수 값”을 사용하여 필드를 설정할 수 있습니다.

사용자는 새 필드를 만들거나, 필드를 특수 필드로 변경하거나, 원래 필드를 특수 필드로 변경할 수 있습니다.

9. 필드 삭제

필드를 마우스 우클릭하여 삭제를 선택하거나 Ctrl 또는 Shift 키를 눌러 삭제할 여러 필드를 선택할 수 있습니다.

10. 모두 비우기

시스템이 자동으로 인식하는 필드가 필요 없는 경우, “모두 비우기”를 눌러 필드를 지우고 필수 필드를 재설정할 수 있습니다.

11. 필드 추가

새 필드를 추가하려면 오른쪽 상단에 있는 “필드 추가”를 클릭하고 새로 추가된 필드를 마우스 우클릭한 다음 “페이지에서 선택”을 클릭하여 페이지에서 필요한 데이터를 추출합니다.

사진 대량 다운로드 페이지의 키워드를 추출하기 파이썬 스크래핑 페이지를 word로 다운로드 파이썬 다운로드 파일 php크롤러 파이썬 크롤러 동영상 대량 다운로드 정기적으로 일치하는 이메일 주소 URL 대량 생성
关闭