Crawlab 一款开源、强悍的分布式爬虫管理平台_编程知识分享|编程教程|资源下载|源码下载

Crawlab 一款开源、强悍的分布式爬虫管理平台

介绍

基于Golang的分布式网络爬虫管理平台，支持Python、NodeJS、Go、Java、PHP等多种语言以及Scrapy、Puppeteer、Selenium等多种网络爬虫框架。

谁适合使用 Crawlab?

网路爬虫工程师：通过集成爬虫程序到 Crawlab，网路爬虫工程师可以聚焦于爬虫的核心解析逻辑，从而避免浪费过多时间在开发通用模块上，例如任务队列、存储、日志、消息通知等。
运维工程师： Crawlab 对于运维工程师来说最大的好处是部署便利（对于爬虫程序和 Crawlab 本身）。Crawlab 支持 Docker 或 Kubernetes 一键安装。
数据分析师：数据分析师如果能写代码（例如 Python），则可以开发爬虫程序（例如 Scrapy）然后上传到 Crawlab，然后就可以把所有脏活累活交给 Crawlab，它能够自动抓取数据。
其他：准确的说，任何人都能够享受 Crawlab 自动化带来的便利。虽然 Crawlab 尤其擅长执行网络爬虫任务，但它不仅限于此，它能够被用来运行其他类型的任务，例如数据处理和自动化。

快速开始

请打开命令行提示符并执行以下命令。确保您已docker-compose提前安装。

git clone https://github.com/crawlab-team/examples
cd examples/docker/basic
docker-compose up -d

接下来，您可以查看docker-compose.yml（包含详细的配置参数）和文档以获取更多信息。

运行

Docker

请用docker-compose来一键启动，甚至不用配置 MongoDB 数据库，「当然我们推荐这样做」。在当前目录中创建docker-compose.yml文件，输入以下内容。

version: '3.3'
services:
  master: 
    image: crawlabteam/crawlab:latest
    container_name: crawlab_example_master
    environment:
      CRAWLAB_NODE_MASTER: "Y"
      CRAWLAB_MONGO_HOST: "mongo"
    volumes:
      - "./.crawlab/master:/root/.crawlab"
    ports:    
      - "8080:8080"
    depends_on:
      - mongo

  worker01: 
    image: crawlabteam/crawlab:latest
    container_name: crawlab_example_worker01
    environment:
      CRAWLAB_NODE_MASTER: "N"
      CRAWLAB_GRPC_ADDRESS: "master"
      CRAWLAB_FS_FILER_URL: "http://master:8080/api/filer"
    volumes:
      - "./.crawlab/worker01:/root/.crawlab"
    depends_on:
      - master

  worker02: 
    image: crawlabteam/crawlab:latest
    container_name: crawlab_example_worker02
    environment:
      CRAWLAB_NODE_MASTER: "N"
      CRAWLAB_GRPC_ADDRESS: "master"
      CRAWLAB_FS_FILER_URL: "http://master:8080/api/filer"
    volumes:
      - "./.crawlab/worker02:/root/.crawlab"
    depends_on:
      - master

  mongo:
    image: mongo:4.2
    container_name: crawlab_example_mongo
    restart: always

然后执行以下命令，Crawlab 主节点、工作节点＋ MongoDB 就启动了。打开http://localhost:8080就能看到界面。