摘要: 从爬虫到去重:一个Python脚本解决重复文件困扰 📌 问题起源 昨天写了一个百度图片爬虫,想搜点"斗图"素材。结果爬下来3000多张图片,但一半以上都是重复的!手动删除太费劲,于是写了个Python脚本来去重。本文将分享这个文件去重工具的实现原理、优化思路和使用方法。 🐍 一、文件去重脚本(完 阅读全文
posted @ 2017-05-19 17:20 一起走过的路 阅读(2304) 评论(0) 推荐(0)