1、 熟练使用 Python 语言,掌握基础语法。
2、 精通 Scrapy、BeautifulSoup、Selenium、Requests 等爬虫库,能够根据不同的网页结构和反爬策略,选择合
适的库和方法进行数据抓取。
3、 熟悉使用 Pandas 进行数据清洗、分析和处理;掌握 MySQL 数据库的基本操作,能够将抓取的数据进行有效
存储和管理。
4、 了解 HTTP 协议、HTML/CSS/JavaScript 基础知识,能分析网页结构。
5、 具备一定的反爬虫应对能力,如处理 IP 代理、Cookies、User - Agent 等,并且一直在学习 JS 逆向技术,能
够破解一些常规的加密算法。
6、 熟练使用Django框架搭建Web服务,掌握路由设计、中间件开发、ORM数据库映射(如Django ORM实现多表关联查询)。
7、 精通HTML5和CSS3页面布局,熟练使用JavaScript处理交互逻辑,了解Vue前端框架
分别对百度、最高人民法院、国家企业信息公示系统的失信人名单进行爬取,把以上三个爬取到的名单进行数据 清洗、整合、去重,最终存储到 MySQL 数据库中
技术方案:
1. 数据采集:采用 Python + Scrapy 框架构建分布式爬虫,针对不同网站特性制定策略:
百度:通过模拟用户搜索请求,解析动态渲染页面,使用 Selenium + ChromeDriver 突破 JS 反爬;
最高人民法院官网:分析 API 接口,利用 Requests 库携带定制化 Headers 模拟合法请求;
国家企业信息公示系统:应对 IP 访问限制,集成 ProxyPool 实现 IP 代理池轮换,并通过 Cookies 维持会话。
2. 数据处理:使用 Pandas 库清洗缺失值、异常字符,通过正则表达式提取结构化信息;利用哈希算法对重复数 据进行精准去重。
3. 数据存储:设计 MySQL 数据库表结构,通过 SQLAlchemy 实现数据高效入库,并建立索引优化查询性能。
项目成果:
1. 成功采集并处理超20万条失信人员数据,数据准确率达98%;
2. 构建统一化失信人员数据库,为后续信用风险评估模型提供核心数据支持;
3. 通过IP代理池与请求频率控制,将爬虫封禁率降低至5%以下,保障数据采集稳定性。