다운로드 및 회원가입
무료$5무료 쿠폰
시작하기 주요기술

【시작하기】기본 명사 설명 | 웹 스크래핑 툴 | ScrapeStorm

2024-01-02 14:31:23
150 차

개요:이 글에서는 ScrapeStorm의 몇 가지 기본 명사에 대해 설명합니다. ScrapeStorm무료 다운로드

ScrapeStorm의 명사 설명

스크래핑 규칙: 

ScrapeStorm이 레코드 추출 작업을 기록하는 구체적인 설정 정보로, 가져오기 및 내보내기가 가능한 하나의 프로그램 스크립트입니다. 기존 규칙을 가져온 후 수정할 수 있고 또는 수정하지 않고 구성된 규칙에 따라 자동으로 데이터 추출을 수행할 수도 있습니다.

Xpath

Xpath는 경로 쿼리 언어입니다. 간단하게 말하면 경로식을 사용하여 필요로 하는 데이터가 웹 페이지 어느 위치에 있는지 알아내는 것입니다.

다음은 위키백과의 소개입니다. 자세한 내용은 여기를 클릭해 주세요.

XPath(XML Path Language)는 W3C의 표준으로 확장 생성 언어 문서의 구조를 통해 경로 위에 지정한 구문을 사용하여 항목을 배치하고 처리하는 방법을 기술하는 언어이다. XML 표현보다 더 쉽고 약어로 되어 있으며, XSL 변환(XSLT)과 XML 지시자 언어(XPointer)에 쓰이는 언어이다. XPath는 XML 문서의 노드를 정의하기 위하여 경로식을 사용하며, 수학 함수와 기타 확장 가능한 표현들이 있다.

더 많은 것을 알고 싶다면, 여기를 클릭하여 W3Schools에서 제공하는 튜토리얼을 확인해 보세요.

HTML:

웹 페이지를 설명하는 데 사용되는 언어로, 주로 데이터의 표시와 모양을 제어하는 데 사용됩니다. HTML 문서는 웹 페이지라고도 합니다.

다음은 위키백과의 소개입니다. 자세한 내용은 여기를 클릭해 주세요.

하이퍼 텍스트 마크업 언어(Hyper Text Markup Language, HTML)는 웹 페이지 표시를 위해 개발된 지배적인 마크업 언어다. 또한, HTML은 제목, 단락, 목록 등과 같은 본문을 위한 구조적 의미를 나타내는 것뿐만 아니라 링크, 인용과 그 밖의 항목으로 구조적 문서를 만들 수 있는 방법을 제공한다. 그리고 이미지와 객체를 내장하여 대화형 양식을 생성하는 데 사용될 수 있다. HTML은 웹 페이지 콘텐츠 안의 꺾쇠 괄호에 둘러싸인 “태그”로 되어있는 HTML 요소 형태로 작성한다. HTML은 웹 브라우저와 같은 HTML 처리 장치의 행동에 영향을 주는 자바스크립트, 본문과 그 밖의 항목의 외관과 배치를 정의하는 CSS 같은 스크립트를 포함하거나 불러올 수 있다. HTML과 CSS 표준의 공동 책임자인 W3C는 명확하고 표상적인 마크업을 위하여 CSS의 사용을 권장한다.

더 많은 것을 알고 싶다면, 여기를 클릭하여 W3Schools에서 제공하는 튜토리얼을 확인해 보세요.

URL:

URL은 웹사이트 주소입니다.

다음은 위키백과의 소개입니다. 자세한 내용은 여기를 클릭해 주세요.

URL(Uniform Resource Locator 또는 통칭 web address, 문화어: 파일식별자, 유일자원지시기)은 네트워크 상에서 자원이 어디 있는지를 알려주기 위한 규약이다. 즉, 컴퓨터 네트워크와 검색 메커니즘에서의 위치를 지정하는, 웹 리소스에 대한 참조이다. 쉽게 말해서, 웹 페이지를 찾기위한 주소를 말한다. 흔히 웹 사이트 주소로 알고 있지만, URL은 웹 사이트 주소뿐만 아니라 컴퓨터 네트워크상의 자원을 모두 나타낼 수 있다. 그 주소에 접속하려면 해당 URL에 맞는 프로토콜을 알아야 하고, 그와 동일한 프로토콜로 접속해야 한다.

FTP는 FTP 클라이언트를 이용해야 하고, HTTP인 경우에는 웹 브라우저를 이용해야 한다. 텔넷의 경우에는 텔넷 프로그램을 이용해서 접속해야 한다.

Cookie:

쿠키는 서버가 사용자의 컴퓨터를 식별할 수 있도록 웹 사이트에 입력하는 텍스트(사용자 이름, 비밀번호) 등이 컴퓨터에 일시적으로 저장되는 데이터입니다.

다음은 Wikipedia의 소개입니다. 자세한 내용은 여기를 클릭해 주세요.

쿠키(cookie)란 하이퍼 텍스트의 기록서(HTTP)의 일종으로서 인터넷 사용자가 어떠한 웹사이트를 방문할 경우 사용자의 웹 브라우저를 통해 인터넷 사용자의 컴퓨터나 다른 기기에 설치되는 작은 기록 정보 파일을 일컫는다. 쿠키, 웹 쿠키, 브라우저 쿠키라고도 한다. 이 기록 파일에 담긴 정보는 인터넷 사용자가 같은 웹사이트를 방문할 때마다 읽히고 수시로 새로운 정보로 바뀐다. 이 수단은 넷스케이프의 프로그램 개발자였던 루 몬툴리(Lou Montulli)가 고안한 뒤로 오늘날 많은 서버 및 웹사이트들이 브라우저의 신속성을 위해 즐겨 쓰고 있다.

쿠키는 소프트웨어가 아니다. 쿠키는 컴퓨터 내에서 프로그램처럼 실행될 수 없으며 바이러스를 옮길 수도, 악성코드를 설치할 수도 없다. 하지만 스파이웨어를 통해 유저의 브라우징 행동을 추적하는데에 사용될 수 있고, 누군가의 쿠키를 훔쳐서 해당 사용자의 웹 계정 접근권한을 획득할 수도 있다.

정규 표현:

데이터를 필터링하기 위한 규칙이며, 스크래핑 중에 데이터를 추출하고 바꾸는데 사용됩니다.

다음은 위키백과의 소개입니다. 자세한 내용은 여기를 클릭해 주세요.

정규 표현식(regular expression) 또는 정규식은 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어이다. 정규 표현식은 많은 텍스트 편집기와 프로그래밍 언어에서 문자열의 검색과 치환을 위해 지원하고 있으며, 특히 펄과 Tcl은 언어 자체에 강력한 정규 표현식을 구현하고 있다.

컴퓨터 과학의 정규 언어로부터 유래하였으나 구현체에 따라서 정규 언어보다 더 넓은 언어를 표현할 수 있는 경우도 있으며, 심지어 정규 표현식 자체의 문법도 여러 가지 존재하고 있다. 현재 많은 프로그래밍 언어, 텍스트 처리 프로그램, 고급 텍스트 편집기 등이 정규 표현식 기능을 제공한다. 일부는 펄, 자바스크립트, 루비, Tcl처럼 문법에 내장되어 있는 반면 닷넷 언어, 자바, 파이썬, POSIX C, C++ (C++11 이후)에서는 표준 라이브러리를 통해 제공한다. 그 밖의 대부분의 언어들은 별도의 라이브러리를 통해 정규 표현식을 제공한다.

정규 표현식은 검색 엔진, 워드 프로세서와 문서 편집기의 찾아 바꾸기 대화상자, 그리고 sed, AWK와 같은 문자 처리 유틸리티, 어휘 분석에 사용된다.

파이썬 스크래핑 페이지의 키워드를 추출하기 파이썬 다운로드 파일 파이썬 크롤러 페이지를 word로 다운로드 URL 대량 생성 정기적으로 일치하는 이메일 주소 동영상 대량 다운로드 사진 대량 다운로드 php크롤러
关闭