【스마트 모드】필드 설정 방법 | 웹 스크래핑 툴 | ScrapeStorm
개요:이 글에서는 추출된 필드를 수정하는 방법을 보여줍니다. ScrapeStorm무료 다운로드
스마트 모드에서는 ScrapeStorm이 목록 유형에 따라 URL을 추출합니다. 자동으로 추출된 필드가 요구에 맞지 않거나 필드를 변경해야 할 경우 다음과 같이 필드를 선택한 후 마우스 오른쪽을 클릭하여 설정할 수 있습니다.
구체적인 설정은 다음과 같습니다.
1.이름 바꾸기
2. 필드병합
필드를 병합하는 방법은 두 가지가 있습니다.
(1) 필드를 누른 후 마우스 오른쪽을 클릭해서 “필드 병합”을 선택합니다. 그리고 병합할 필드와 두 필드의 구분 기호을 설정해주세요.
(2) crtl또는 shift를 눌러 여러 필드를 클릭한 후 마우스 오른쪽을 클릭해 “필드 병합”을 선택합니다. 이 방법은 여러 필드의 병합에 적합합니다.
3. 페이지에서 선택
필드에 추출된 내용을 수정하거나 새 필드를 추가하여 내용을 추출하려면 “페이지에서 선택” 클릭 후 웹 페이지에서 필요한 데이터를 추출합니다.
4. Xpath 편집
Xpath는 경로식을 사용하여 우리가 필요로 하는 데이터가 웹 페이지 어느 위치에 있는지 알아내는 것입니다. 프로그래밍 기초가 있는 사용자는 이 기능을 사용하여 새 XPath를 설정할 수 있습니다.
5. 추출 유형
데이터가 다르면 추출 유형을 다르게 설정해야 합니다. 새 필드를 설정할 때 유형은 디폴트로 텍스트로 설정됩니다.
일반적으로 데이터를 추출하면 ScramStorm이 자동으로 필드 유형을 판단해줍니다. 그러니 따로 설정할 필요가 없습니다. 하지만 판단 오류가 있는 경우 필드 유형을 직접 수정할 수 있습니다.
텍스트: 일반 텍스트 데이터에 적합합니다.
내부 HTML: 내용 자체를 포함하지 않는 HTML 추출에 적합합니다.
외부 HTML: 내용 자체를 포함하는 HTML 추출에 적합합니다.
링크 URL: 링크 추출에 적합합니다.
이미지/비디오/오디오 URL: 이미지 및 기타 미디어의 추출에 적합합니다.
입력 값: 입력창의 텍스트를 추출하는 데 적합하며 주로 키워드 수집에 사용됩니다.
다운로드 버튼: 다운로드 주소를 추출하는 데 사용됩니다.
6. 디코딩 유형
ScramStorm이 디코딩 할 필드를 자동으로 식별해 줍니다. 일부 필드가 잘못 디코딩되거나 디코딩되지 않은 경우 수동으로 디코딩 유형을 선택할 수 있습니다. 이 기능은 비즈니스 회원권 혹은 그 이상의 회원권에 기능입니다, 사용자는 업그레이드를 해야 이를 사용할 수 있습니다.
7. 데이터 처리
필드에 있는 숫자와 이메일만 추출하거나, 필드의 텍스트를 새 텍스트로 바꾸거나, 시작과 끝의 빈 공간을 지우거나, 새 정규식을 만드는 등 추출된 데이터를 처리하고 싶으시면 “데이터 처리” 기능을 사용하면 됩니다.
8. 특수값
데이터 작업 중 일부 사용자는 스크래핑 시간, 페이지 제목, 페이지 URL 등 특수 필드를 스크래핑해야 합니다. 이러한 필드는 웹 페이지에서 직접 스크래핑할 수 없으며 “특수 값”을 사용하여 필드를 설정할 수 있습니다.
사용자는 새 필드를 만들거나 필드를 특수 필드로 변경하거나 원래 필드를 특수 필드로 변경할 수 있습니다.
9. 필드 삭제
필드를 마우스 오른쪽 버튼으로 클릭하여 삭제를 선택하거나 Ctrl 또는 Shift 키를 눌러 삭제할 여러 필드를 선택하고 삭제할 수 있습니다.
10. 모두비우기
시스템에서 자동으로 인식한 필드가 필요하지 않은 경우 “모두 비우기”를 눌러 필드를 지우고 필드를 필요에 맞게 재설정할 수 있습니다.
11. 필드 추가
새 필드를 추가하려면 오른쪽 상단 모서리에 있는 “필드 추가”를 클릭하고 스크래핑할 데이터를 클릭합니다.