我用 nodejs 爬了一万多张小姐姐壁纸

sxkk20082年前 (2023-11-23)知识分享191

前言

哈喽，大家好，我是Ai知识分享，为什么要下载这么多图片呢？前几天使用 uniapp + uniCloud 免费部署了一个壁纸小程序，那么接下来就需要一些资源，给小程序填充内容。

爬取图片

首先初始化项目，并且安装 axios 和 cheerio

npm init -y && npm i axios cheerio

axios 用于爬取网页内容，cheerio 是服务端的 jquery api, 我们用它来获取 dom 中的图片地址；

const axios = require('axios')
const cheerio = require('cheerio')

function getImageUrl(target_url, containerEelment) {
  let result_list = []
  const res = await axios.get(target_url)
  const html = res.data
  const $ = cheerio.load(html)
  const result_list = []
  $(containerEelment).each((element) => {
    result_list.push($(element).find('img').attr('src'))
  })
  return result_list
}

这样就可以获取到页面中的图片 url 了。接下来需要根据 url 下载图片。

如何使用 nodejs 下载文件

方式一：使用内置模块 ‘https’ 和 ‘fs’

使用 node js 下载文件可以使用内置包或第三方库完成。

GET 方法用于 HTTPS 来获取要下载的文件。 createWriteStream() 是一个用于创建可写流的方法，它只接收一个参数，即文件保存的位置。Pipe()是从可读流中读取数据并将其写入可写流的方法。

const fs = require('fs')
const https = require('https')

// URL of the image
const url = 'GFG.jpeg'

https.get(url, (res) => {
  // Image will be stored at this path
  const path = `${__dirname}/files/img.jpeg`
  const filePath = fs.createWriteStream(path)
  res.pipe(filePath)
  filePath.on('finish', () => {
    filePath.close()
    console.log('Download Completed')
  })
})

方式二：DownloadHelper

npm install node-downloader-helper

下面是从网站下载图片的代码。一个对象 dl 是由类 DownloadHelper 创建的，它接收两个参数:

将要下载的图像。
下载后必须保存图像的路径。

File 变量包含将要下载的图像的 URL，filePath 变量包含将要保存文件的路径。

const { DownloaderHelper } = require('node-downloader-helper')

// URL of the image
const file = 'GFG.jpeg'
// Path at which image will be downloaded
const filePath = `${__dirname}/files`

const dl = new DownloaderHelper(file, filePath)

dl.on('end', () => console.log('Download Completed'))
dl.start()

方法三：使用 download

是 npm 大神 sindresorhus 写的，非常好用

npm install download

下面是从网站下载图片的代码。下载函数接收文件和文件路径。

const download = require('download')

// Url of the image
const file = 'GFG.jpeg'
// Path at which image will get downloaded
const filePath = `${__dirname}/files`

download(file, filePath).then(() => {
  console.log('Download Completed')
})

最终代码

本来想去爬百度壁纸，但是清晰度不太够，而且还有水印等，后来，群里有个小伙伴找到了一个 api，估计是某个手机 APP 上的高清壁纸，可以直接获得下载的 url，我就直接用了。

下面是完整代码

const download = require('download')
const axios = require('axios')

let headers = {
  'User-Agent':
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
}

function sleep(time) {
  return new Promise((reslove) => setTimeout(reslove, time))
}

async function load(skip = 0) {
  const data = await axios
    .get(
      'http://service.picasso.adesk.com/v1/vertical/category/4e4d610cdf714d2966000000/vertical',
      {
        headers,
        params: {
          limit: 30, // 每页固定返回30条
          skip: skip,
          first: 0,
          order: 'hot',
        },
      }
    )
    .then((res) => {
      return res.data.res.vertical
    })
    .catch((err) => {
      console.log(err)
    })
  await downloadFile(data)
  await sleep(3000)
  if (skip < 1000) {
    load(skip + 30)
  } else {
    console.log('下载完成')
  }
}

async function downloadFile(data) {
  for (let index = 0; index < data.length; index++) {
    const item = data[index]

    // Path at which image will get downloaded
    const filePath = `${__dirname}/美女`

    await download(item.wp, filePath, {
      filename: item.id + '.jpeg',
      headers,
    }).then(() => {
      console.log(`Download ${item.id} Completed`)
      return
    })
  }
}

load()

上面代码中先要设置 User-Agent 并且设置 3s 延迟，这样可以防止服务端阻止爬虫，直接返回 403。

直接 node index.js 就会自动下载图片了。

爬取运行中

体验

微信小程序搜索 “西瓜图库” 体验。

最后

上面说的群是 @大帅老猿大帅带领的“猿创营”，群里有很多开发大佬可以互相帮忙答疑和交流技术，同时大帅还会分享做外包，搞副业等，感兴趣的小伙伴可以留言“入群”。

以上就是本文全部内容，希望这篇文章对大家有所帮助，也可以参考我往期的文章或者在评论区交流你的想法和心得，欢迎一起探索前端。

本文首发掘金平台，来源Ai知识分享博客

返回列表

上一篇：使用 phaser3 从零实现一个战疫小游戏

下一篇：如何使用 react 和 three.js 在网站渲染自己的3D模型

AI人脸识别技术：引领数字时代的安全卫士

　　随着科技的迅猛发展，AI人脸识别技术逐渐成为新媒体时代的关键应用。基于人工智能的人脸识别系统具有极高的准确性和效率，广泛应用于安全监控、金融行业、教育管理等领域，为社会带...

百度语音，助力人工智能发展的重要引擎

　　在当今信息爆炸的时代，人工智能正以前所未有的速度迅猛发展，而其中的新媒体领域更是焕发出勃勃生机。作为新媒体风格的中坚力量，百度语音凭借着其出色的语音技术，成为了人工智能发...

地址识别：从历史到未来的智能技术应用

　　地址识别是一项涉及到计算机视觉和人工智能的重要技术，它可以通过对图像或视频进行分析，从中提取出地址信息。随着科技的不断进步和智能化技术的快速发展，地址识别正逐渐成为现实生...

人工智能培训：揭秘未来科技的智慧之路

　　随着科技的飞速发展，人工智能已经成为改变世界的关键驱动力之一。无论是在工业生产、医疗保健、金融服务还是交通领域，人工智能的应用都取得了巨大的突破。为了满足这一需求，越来越...

视频数据我找了“译学馆”中的一个 API 作为我的初始数据，修改 main 函数来填充视频数据。

import example from './example.json" alt="使用 Next.js、 Prisma 和 PostgreSQL 全栈开发视频网站">


						使用 Next.js、 Prisma 和 PostgreSQL 全栈开发视频网站
						highlight: monokai theme: vuepress文章为稀土掘金技术社区首发签约文章，14 天内禁止转载，14 天后未获授权禁止转载，侵权必究！前言在前面的文章中，我们使用了 Not...


						AI接口：推动科技创新与社会发展的引擎
						　　随着人工智能(AI)技术的快速发展，AI接口成为连接人与机器之间的桥梁，推动科技创新与社会发展迈上新的高度。AI接口的出现不仅在各行业中发挥着重要作用，同时也对人们的生活...


    
        
	    	


    
         发表评论    
    
    
        
        
            
			
			
			
            
                名称(*)
                邮箱(*)
                网址
                            
            
                
                ◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。



    

    导航栏
    
        				首页
热点资讯
智能百科
AI生活
知识分享
		    

    搜索
    
        		Search 
				    

    随机文章
    
        				
		    

    标签列表
    
        				达闼科技(1)教育教学机器人(1)科大讯飞(1)优必选(1)能力风暴(1)小胖机器人(1)引导接待机器人(1)语音识别(1)导航系统(1)迎宾机器人(1)语音识别技术(1)图像识别技术(1)电机控制技术(1)酒店服务机器人(1)配送机器人(1)京东物流(1)AI绘画(1)TensorFlow(1)PyTorch(1)Keras(1)GAN(1)自动驾驶(1)AI人工智能(1)AI快速诊疗(1)未来人工智能机器人(1)
		    

    友情链接
    
        				SSL证书资讯网
PandeE AI导航


    
    
        
            易家机器人 @2024-2035 www.liferobots.cn& 陕ICP备20001986号-10 
            Powered By Z-BlogPHP. Theme by TOYEAN.

我用 nodejs 爬了一万多张小姐姐壁纸

前言

爬取图片

如何使用 nodejs 下载文件

方式一：使用内置模块 ‘https’ 和 ‘fs’

方式二：DownloadHelper

方法三： 使用 download

最终代码

体验

最后

相关文章

AI人脸识别技术：引领数字时代的安全卫士

百度语音，助力人工智能发展的重要引擎

地址识别：从历史到未来的智能技术应用

人工智能培训：揭秘未来科技的智慧之路

使用 Next.js、 Prisma 和 PostgreSQL 全栈开发视频网站

AI接口：推动科技创新与社会发展的引擎

发表评论 取消回复

易家机器人 @2024-2035 www.liferobots.cn& 陕ICP备20001986号-10

Powered By Z-BlogPHP. Theme by TOYEAN.

方法三：使用 download

发表评论