크롤러 뜻? 크롤링과 스크래핑 2가지 의미

크롤러 뜻과 개념에 대해서 이야기해봅시다.

Table of Contents

크롤러 뜻과 개념에 대한 설명

크롤러 뜻(Crawler)은 웹사이트의 정보를 모으기 위해서 돌아다니는 검색 로봇을 의미합니다.

크롤러는 구글, 네이버, 다음과 같은 검색엔진이 사용하는 봇입니다. 봇은 자동화 프로그램의 일종입니다. 크롤러는 인터넷을 돌아다니면서 크롤링하는 역할을 하게 되는데 크롤러는 웹사이트에 접속하여 웹사이트 안에 있는 페이지 내용과 링크 정보를 다운 받아서 요약본을 만들어 내는 작업을 하게 됩니다.

검색엔진은 사용자가 검색을 하면 크롤러가 수집하여 만든 요약본을 통해서 이를 참조하여 내부 랭킹 로직에 의해 검색 결과에 보여주게 됩니다.

따라서 크롤러를 고려한 SEO(Search Engine Optimization) 대책은 중요합니다. 크롤러가 인식할 수 있는 페이지 정보는 문자로 구성된 텍스트 정보와 웹페이지의 링크, 사이트의 구조입니다.

웹사이트에 있는 이미지는 인식하지 못합니다. 따라서 SEO(검색엔진최적화)를 고려하여 크롤러가 인식하는 정보를 잘 요약하여 최적화를 시키는 것도 중요합니다.

크롤러의 크롤링은 검색엔진의 근간이 됩니다.

크롤러 뜻과 개념에 대한 이해

크롤러 뜻(Crawler)은 인터넷 상의 데이터를 수집하는 것입니다.

검색엔진은 인터넷 웹사이트들의 데이터를 수집하여 축적하고 있고 검색자가 검색할 경우 가장 최적의 조건의 콘텐츠를 사용자에게 보여주기 위한 구조를 만들어서 서비스를 제공하고 있습니다. 이러한 서비스를 제공하기 위해서 검색엔진의 검색로봇인 크롤러가 정기적으로 전 세계의 웹사이트를 돌아다니면서 정보를 모으고 있으며 웹사이트의 링크들을 타고 다니면서 정보를 수집하는 크롤러의 활동을 크롤링(Crawling)이라고 부릅니다.

크롤러는 일종의 검색엔진의 툴입니다.

크롤러는 웹 크롤러(Web Crawler), 스파이더(Spider), 검색 로봇, 웹 수집기, 로봇 에이전트로도 불립니다.

검색엔진은 겸색결과의 순위를 정해서 사용자에게 보여주는데 검색엔진은 크롤러가 수집하여 요약해 놓은 요약본의 정보를 활용합니다.

검색엔진은 검색한 키워드와 관련된 페이지를 검색 결과에 표시해주기 위해서 검색엔진이 구성하고 있는 판단 요소들을 종합적으로 분석하여 스코어링 작업과 모델링을 통해서 랭킹을 세우고 검색포털의 검색 화면에 보여줍니다. 검색포털은 검색 기능 뿐만 아니라 뉴스, 이메일 서비스 등 사용자가 인터넷을 사용하기 위한 입구 역할을 하는 웹사이트로 대표적으로 구글, 네이버, 다음이 있습니다.

이러한 구조를 고려하면 크롤러가 내가 운영하는 웹사이트의 정보를 가져갈 수 있도록 적극 유도할 필요가 있습니다. 구글에서는 구글서치콘솔(Google Search Console)과 같은 웹 마스터 도구를 제공하고 있고 이를 통해 크롤러가 나의 웹사이트를 크롤링해 가도록 유도할 수 있습니다.

크롤러는 웹사이트들의 웹 서버에 프로그램으로 접근하여 정보를 취득하기 때문에 단시간에 연속적으로 취득하면 서버에 부하를 줄 수 있는 부분도 있다는 것은 알아둘 필요가 있습니다.

크롤러가 진행하는 크롤링은 스크래핑 개념과는 구분해야 합니다.

스크래핑(Scraping)은 마케팅이나 업무, 서비스 제공 목적으로 다른 웹사이트의 웹페이지 정보 자체를 긁어서 가져오는 형태로 대상이 되는 웹사이트 입장에서는 서버 부하 문제가 발생하거나 저작권 문제, 또는 법적인 문제로 발전할 수 있습니다. 이에 따라 이용 규약 상으로 스크래핑 방식은 금지하는 경우가 많습니다. 그리고 스크래핑 방식을 보다 공식화해서 만들어진 개념이 API를 통해서 수집하는 방식입니다.

우리나라에서는 대표적인 예가 마이데이터 산업입니다. 크롤링은 크롤러가 하나의 페이지에서 웹 링크를 반복적으로 가져오는 구조로 스크래핑 방식과는 차이점이 있습니다.