如何使用Node.js抓取任意網頁資源並輸出PDF文件到本地？

需求:

使用Node.js抓取web資源，並對其進行開箱即用的配置。

以PDF格式輸出抓取的網頁內容。

如果妳是技術人員，可以看我下壹篇文章，否則請直接去我的github倉庫直接看文檔。

倉庫地址:所附文件和源代碼。

本需求中使用的技術:Node.js和puppeteer。

木偶師官網地址:木偶師地址

Node.js官網地址:鏈接描述

Puppeteer是Google官方制作的通過DevTools協議控制無頭Chrome的節點庫。可以通過Puppeteer提供的api直接控制Chrome模擬大部分用戶操作進行UI測試或者作為爬蟲訪問頁面收集數據。

環境和安裝

Puppeteer本身依賴6.4以上的Node，但是對於異步且超級好用的async/await，建議使用7.6以上的Node。另外，無頭Chrome本身對服務器所依賴的庫的版本要求較高，centos server相對穩定。在v6中很難使用無頭Chrome，在升級依賴版本時可能會出現各種服務器問題(包括但不限於無法使用ssh)。最好使用更高版本的服務器。(建議使用Node.js的最新版本)

試試小刀，爬上JD.COM的資源。

const木偶師= require('木偶師')；//引入依賴關系

(async()= & gt；{//使用異步函數的完美異步

const browser = await puppeter . launch()；//打開新的瀏覽器

const page = await browser . new page()；//打開新網頁

Await page.goto('/download/)，Node.js中文官網下載相應的操作系統包。

第二步，下載安裝Node.js後，啟動windows命令行工具(啟動windows下的系統搜索功能，輸入cmd，回車，就出來了)。

第三步是檢查環境變量是否已經被自動配置。在命令行工具中輸入node -v。如果字段v10。***出現，說明Node.js已經成功安裝。

第四步如果在第三步進入node -v後發現對應的字段沒有出現，請重啟電腦。

第五步打開項目文件夾，打開命令行工具(在windows系統下，直接在文件的url地址欄輸入cmd即可打開)，輸入npm i cnpm nodemon -g g。

第六步是下載木偶師爬蟲包。第五步完成後，使用cnpm I puppeter-save命令下載它。

第七步第六步下載完成後，打開這個項目的url.js，替換掉妳需要抓取的網頁地址(默認為/)。