精通Python编程,熟练使用requests、BeautifulSoup、Scrapy、Selenium等爬虫框架。
熟悉网页数据采集、动态页面抓取、反爬应对(User-Agent轮换、延时控制)。
掌握数据清洗、正则表达式、CSV/Excel导出。
熟悉MySQL、SQLite数据库操作。
了解自动化脚本开发(pyautogui),能结合爬虫实现数据处理自动化。
有多个独立完成的项目经验,能快速解决技术问题。
1. 豆瓣Top250爬虫:爬取250本书的书名、作者、评分、价格,自动分页,数据清洗后导出CSV。
2. 微博热搜爬虫:使用selenium模拟浏览器,自动滚动加载,爬取50+条热搜,保存为表格。
3. 图书网站全站采集:爬取1000+本书,自动翻页,正则清洗价格,导出CSV。
4. 京东商品采集:使用requests+代理IP,爬取商品名称和价格,处理反爬机制。
5. 自动化脚本:使用pyautogui实现自动填表、自动保存文件等操作。