熟练使用 Python 开展网络数据爬取相关工作,精通 requests、BeautifulSoup、XPath、Selenium 等主流爬虫与解析库,可高效完成静态网页、动态渲染页面的数据采集;掌握反爬应对方案,能通过设置请求头、代理 IP、延时策略、Cookie 处理等方式规避访问限制;熟练使用正则表达式、json 解析清洗结构化数据,可将爬取内容整理为 Excel、CSV、数据库等格式,具备规范的爬虫开发、数据清洗与批量采集能力,可承接各类公开网页信息抓取、数据整理类需求。
独立开发多套 Python 爬虫脚本,针对电商平台、资讯网站、行业公开数据页面完成批量数据爬取,可实现定时自动采集、增量更新、异常重试功能;对爬取的原始数据进行去重、格式整理、关键词筛选,输出规范可用的数据集;严格遵守网站 robots 协议,合规开展数据采集工作,能根据客户需求定制专属爬虫方案,稳定交付爬取成果。