博客
关于我
nodeJs爬取图片
阅读量:494 次
发布时间:2019-03-07

本文共 822 字,大约阅读时间需要 2 分钟。

新建nodeJs爬取图片的小样例

1、新建node项目

这一步已经完成,生成默认的package.json文件

2、安装所需模块

爬取图片需要以下模块

  • request 模块简化http请求
  • cheerio 提供jQueryCore功能
  • fs 操作文件操作

注意:cheerio需要单独下载

3、编写抓取图片代码

新建app.js文件

代码示例:

const cheerio = require('cheerio');const fs = require('fs');const request = require('request');

function start(url) {request(url, function(err, res, body) {if (!err && res.statusCode == 200) {findImg(body, saveImgFile);}});}

function findImg(dom, callback) {let $ = cheerio.load(dom);$('img').each((index, dom) => {let imgSrc = $(dom).attr('src');callback(imgSrc, index);});}

function saveImgFile(src, index) {let ext = src.split('.').pop();imgName = index + '.' + ext;// 创建文件路径并存储图片let filePath = './pic/' + imgName;request(src).pipe(fs.createWriteStream(filePath));}

运行命令:node app.js

注意事项:

  • 请确保网络权限
  • 确保被爬的网站允许通过请求模块抓取
  • 爬取图片请遵守robots.txt规则

图片保存到pic文件夹

转载地址:http://rajcz.baihongyu.com/

你可能感兴趣的文章
php_crond:一个基于多进程的定时任务系统-支持秒粒度的任务配置
查看>>
PHP__call __callStatic
查看>>
PHP——修改数据库1
查看>>
PHP——封装Curl请求方法支持POST | DELETE | GET | PUT 等
查看>>
PHP——底层运行机制与原理
查看>>
php一句话图片运行,【后端开发】php一句话图片木马怎么解析
查看>>
PHP三方登录,移动端与服务端交互
查看>>
Redis事务深入解析和使用
查看>>
PHP上传文件大小限制的调整 Nginx 413 Request Entity Too Large
查看>>
php上传文件找不到临时文件夹
查看>>
PHP下curl用法分析
查看>>
php与web服务器关系
查看>>
redis事务操作
查看>>
php中0,空,null和false的区别
查看>>
PHP中array_merge和array相加的区别分析
查看>>
PHP中Closure::bindTo的用法分析
查看>>
php中curl得使用
查看>>
PHP中curl特性
查看>>
PHP中date时间不对
查看>>
PHP中dirname(__FILE__)的意思
查看>>