歡迎來到合肥浪訊網(wǎng)絡(luò)科技有限公司官網(wǎng)
  咨詢服務(wù)熱線:400-099-8848

谷歌“Excel”好強(qiáng):不用自己寫代碼就能爬蟲,網(wǎng)友問微軟慌不慌

發(fā)布時(shí)間:2022-10-20 文章來源:本站  瀏覽次數(shù):2756

家人們,要爬蟲——現(xiàn)在用一個(gè)電子表格就行了。

一行代碼也別寫,第三方軟件也甭安。

只需在表格里點(diǎn)幾下就ok。

不信,你瞧:

就這么兩下,網(wǎng)頁上的產(chǎn)品信息都有了。

網(wǎng)友看完都驚呆了,碼個(gè)不斷。


一看到這是來自谷歌的產(chǎn)品(Google Sheet,谷歌的“Excel”),大家就立馬cue起了微軟,問它慌不慌。

還有人稱這是在“跨界打擊”它。 (手動(dòng)狗頭)

好不熱鬧。

來看具體怎么實(shí)現(xiàn)。

具體過程

以爬亞馬遜某個(gè)手機(jī)產(chǎn)品的產(chǎn)品頁為例。

咱們先翻開谷歌Sheet(網(wǎng)友版即可),新建一個(gè)文檔。

然后copy一下要爬的網(wǎng)址,粘進(jìn)去。

剩下的都在Sheet里完成。

咱們先列一下要爬的元素,這兒依次為:

產(chǎn)品圖片-識(shí)別碼(asin,亞馬遜給每個(gè)產(chǎn)品生成的唯一標(biāo)識(shí))-產(chǎn)品名-價(jià)格-評(píng)分-圖片網(wǎng)址。

然后就能夠正式開端爬了。

要訣便是一個(gè)叫做ImportFromWeb的函數(shù)。

它也是個(gè)插件,沒有的需求先裝置一下(裝置地址放文末端),然后通過Google Sheet程序的“擴(kuò)展程序”菜單導(dǎo)入就行。

咱們只需把ImportFromWeb函數(shù)放進(jìn)asin那一列,然后第一個(gè)參數(shù)選中剛剛粘過來的網(wǎng)址,第二個(gè)參數(shù)把要爬的元素單元格拖一遍(除了“圖片”)。

稍等個(gè)1~2s,價(jià)格、產(chǎn)品名等信息就都出來了!

還差圖片。

簡單~基操~

用IMAGE函數(shù)把G3格子里得到的圖片網(wǎng)址值給曩昔就行。


至此,第一個(gè)產(chǎn)品頁里的東西就爬到了。

唯一麻煩的是,假如還需求爬更多產(chǎn)品的信息,需求把產(chǎn)品網(wǎng)址挨個(gè)粘一遍。

然后就沒啥了,除了給單元格地址的行標(biāo)列標(biāo)加一下絕對(duì)引用符“$”。

這兒能夠不學(xué)視頻,直接一個(gè)f4就行。

拖一下,全部搞定!

怎么樣?是不是非常方便。


看完整個(gè)操作,你也發(fā)現(xiàn)了,其實(shí)便是谷歌寫了個(gè)腳本給咱封裝好了直接用。

而據(jù)官方介紹,這個(gè)ImportFromWeb功能還能自動(dòng)更新爬取到的信息。

并且只要是用JS寫的網(wǎng)站都能夠爬(根本等于絕大數(shù)網(wǎng)站了),每個(gè)函數(shù)還可支持50個(gè)url,以及數(shù)千個(gè)數(shù)據(jù)點(diǎn)。

上一條:年薪15萬美元的亞馬遜工...

下一條:360周鴻祎:應(yīng)該樹立國...