博客
关于我
nodeJs爬取图片
阅读量:494 次
发布时间:2019-03-07

本文共 822 字,大约阅读时间需要 2 分钟。

新建nodeJs爬取图片的小样例

1、新建node项目

这一步已经完成,生成默认的package.json文件

2、安装所需模块

爬取图片需要以下模块

  • request 模块简化http请求
  • cheerio 提供jQueryCore功能
  • fs 操作文件操作

注意:cheerio需要单独下载

3、编写抓取图片代码

新建app.js文件

代码示例:

const cheerio = require('cheerio');const fs = require('fs');const request = require('request');

function start(url) {request(url, function(err, res, body) {if (!err && res.statusCode == 200) {findImg(body, saveImgFile);}});}

function findImg(dom, callback) {let $ = cheerio.load(dom);$('img').each((index, dom) => {let imgSrc = $(dom).attr('src');callback(imgSrc, index);});}

function saveImgFile(src, index) {let ext = src.split('.').pop();imgName = index + '.' + ext;// 创建文件路径并存储图片let filePath = './pic/' + imgName;request(src).pipe(fs.createWriteStream(filePath));}

运行命令:node app.js

注意事项:

  • 请确保网络权限
  • 确保被爬的网站允许通过请求模块抓取
  • 爬取图片请遵守robots.txt规则

图片保存到pic文件夹

转载地址:http://rajcz.baihongyu.com/

你可能感兴趣的文章
php zookeeper实现分布式锁
查看>>
PHP 中 this,self,parent 的区别、用法
查看>>
PHP 中如何高效地处理大规模数据的排序?
查看>>
PHP 之ftp客户端类封装实现
查看>>
php 代码改进
查看>>
php 代码混淆
查看>>
PHP 使用 $_SERVER['PHP_SELF'] 获取当前页面地址及其安全性问题
查看>>
Redis系列之如何避免缓存击穿
查看>>
php 内存分析
查看>>
PHP 函数名前面加&
查看>>
php 删除包含某一字符的数组元素
查看>>
Redis学习总结(19)——Redis 5种集群方式对比
查看>>
php 反射
查看>>
php 处理 大并发
查看>>
php 大文件上传
查看>>
php 子进程监听消息,swoole学习笔记之多线程端口监听问题记录 多进程epoll模式...
查看>>
PHP 学习笔记 (四)
查看>>
Redis入门概述
查看>>
php 实现Iterator 接口
查看>>
PHP 实现N阶矩阵相乘
查看>>