다운로드 및 회원가입
무료$5무료 쿠폰
시작하기 주요기술

【스마트 모드】필드 설정 방법 | 웹 스크래핑 툴 | ScrapeStorm

2024-01-05 13:43:14
11917 차

개요:이 글에서는 추출된 필드를 수정하는 방법을 보여줍니다. ScrapeStorm무료 다운로드

스마트 모드에서는 ScrapeStorm이 목록 유형에 따라 URL을 추출합니다. 자동으로 추출된 필드가 요구에 맞지 않거나 필드를 변경해야 할 경우 다음과 같이 필드를 선택한 후 마우스 오른쪽을 클릭하여 설정할 수 있습니다.

구체적인 설정은 다음과 같습니다.

此图片的alt属性为空;文件名为set-fields-1500x810.png

1.이름 바꾸기

2. 필드병합

필드를 병합하는 방법은 두 가지가 있습니다.
(1) 필드를 누른 후 마우스 오른쪽을 클릭해서 “필드 병합”을 선택합니다. 그리고 병합할 필드와 두 필드의 구분 기호을 설정해주세요.

此图片的alt属性为空;文件名为merge-1500x812.png

(2) crtl또는 shift를 눌러 여러 필드를 클릭한 후 마우스 오른쪽을 클릭해 “필드 병합”을 선택합니다. 이 방법은 여러 필드의 병합에 적합합니다.

3. 페이지에서 선택

필드에 추출된 내용을 수정하거나 새 필드를 추가하여 내용을 추출하려면 “페이지에서 선택” 클릭 후 웹 페이지에서 필요한 데이터를 추출합니다.

4. Xpath 편집

Xpath는 경로식을 사용하여 우리가 필요로 하는 데이터가 웹 페이지 어느 위치에 있는지 알아내는 것입니다. 프로그래밍 기초가 있는 사용자는 이 기능을 사용하여 새 XPath를 설정할 수 있습니다.

5. 추출 유형

데이터가 다르면 추출 유형을 다르게 설정해야 합니다. 새 필드를 설정할 때 유형은 디폴트로 텍스트로 설정됩니다.

일반적으로 데이터를 추출하면 ScramStorm이 자동으로 필드 유형을 판단해줍니다. 그러니 따로 설정할 필요가 없습니다. 하지만 판단 오류가 있는 경우 필드 유형을 직접 수정할 수 있습니다.

텍스트: 일반 텍스트 데이터에 적합합니다.

내부 HTML: 내용 자체를 포함하지 않는 HTML 추출에 적합합니다.

외부 HTML: 내용 자체를 포함하는 HTML 추출에 적합합니다.

링크 URL: 링크 추출에 적합합니다.

이미지/비디오/오디오 URL: 이미지 및 기타 미디어의 추출에 적합합니다.

입력 값: 입력창의 텍스트를 추출하는 데 적합하며 주로 키워드 수집에 사용됩니다.

다운로드 버튼: 다운로드 주소를 추출하는 데 사용됩니다.

此图片的alt属性为空;文件名为extract-1500x810.png

6. 디코딩 유형

ScramStorm이 디코딩 할 필드를 자동으로 식별해 줍니다. 일부 필드가 잘못 디코딩되거나 디코딩되지 않은 경우 수동으로 디코딩 유형을 선택할 수 있습니다. 이 기능은 비즈니스 회원권 혹은 그 이상의 회원권에 기능입니다, 사용자는 업그레이드를 해야 이를 사용할 수 있습니다.

此图片的alt属性为空;文件名为decode-1500x773.png

7. 데이터 처리

필드에 있는 숫자와 이메일만 추출하거나, 필드의 텍스트를 새 텍스트로 바꾸거나, 시작과 끝의 빈 공간을 지우거나, 새 정규식을 만드는 등 추출된 데이터를 처리하고 싶으시면 “데이터 처리” 기능을 사용하면 됩니다.

8. 특수

데이터 작업 중 일부 사용자는 스크래핑 시간, 페이지 제목, 페이지 URL 등 특수 필드를 스크래핑해야 합니다. 이러한 필드는 웹 페이지에서 직접 스크래핑할 수 없으며 “특수 값”을 사용하여 필드를 설정할 수 있습니다.

사용자는 새 필드를 만들거나 필드를 특수 필드로 변경하거나 원래 필드를 특수 필드로 변경할 수 있습니다.

此图片的alt属性为空;文件名为special-value-1500x808.png

9. 필드 삭제

필드를 마우스 오른쪽 버튼으로 클릭하여 삭제를 선택하거나 Ctrl 또는 Shift 키를 눌러 삭제할 여러 필드를 선택하고 삭제할 수 있습니다.

此图片的alt属性为空;文件名为delete-1500x808.png

10. 모두비우기

시스템에서 자동으로 인식한 필드가 필요하지 않은 경우 “모두 비우기”를 눌러 필드를 지우고 필드를 필요에 맞게 재설정할 수 있습니다.

此图片的alt属性为空;文件名为clear-1-1500x812.png

11. 필드 추가

새 필드를 추가하려면 오른쪽 상단 모서리에 있는 “필드 추가”를 클릭하고 스크래핑할 데이터를 클릭합니다.

파이썬 다운로드 파일 파이썬 스크래핑 데이터를 자동으로 excel로 내보내기 페이지를 word로 다운로드 파이썬 크롤러 페이지의 키워드를 추출하기 동영상 대량 다운로드 사진 대량 다운로드 URL 대량 생성 정기적으로 일치하는 이메일 주소
关闭