网络爬虫实际上就是互联网上的“打工人”,专门负责把网站搬回家修房子的。别当作它像人一样有意识,本质上就是一个拿着魔法铲子的程序员,在网页这堆垃圾数据里挖金子。 打开网页,实际上就是一个庞大的拼图,由一个个 HTML 小块拼成的。爬虫的工作就是带着放大镜,把这些小块抠下来,把里面的文字、图片、就连隐藏起来的链接全找出来。
这过程跟老式打字员把一页纸里的字一个个贴到打字板上没啥两样,只是目前这页纸是动态生成的,你得一个个网页去跟进。 它最核心的任务就是走访问路线。就像是社畜上班打卡,先要登录网页,然后仔细扫视页面上方的导航栏。
要是导航栏有个“新闻”按钮,爬虫就顺着这个按钮往下戳,点进去看内容。
这时候就得特别小心了,网页里的链接地址随时在变,有的可能是直接跳转,有的可能是存个临时文件或邮件地址,有的就连藏在 `