猿急送>

太原其它兼职程序员

ID：399926

bi8bo

无

公司信息：
无

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
可工作日驻场（自由职业原因）

所在区域：
太原
全区

技术能力

1、熟练使用 Python 语言，掌握基础语法。
2、精通 Scrapy、BeautifulSoup、Selenium、Requests 等爬虫库，能够根据不同的网页结构和反爬策略，选择合
适的库和方法进行数据抓取。
3、熟悉使用 Pandas 进行数据清洗、分析和处理；掌握 MySQL 数据库的基本操作，能够将抓取的数据进行有效
存储和管理。
4、了解 HTTP 协议、HTML/CSS/JavaScript 基础知识，能分析网页结构。
5、具备一定的反爬虫应对能力，如处理 IP 代理、Cookies、User - Agent 等，并且一直在学习 JS 逆向技术，能
够破解一些常规的加密算法。
6、熟练使用Django框架搭建Web服务，掌握路由设计、中间件开发、ORM数据库映射（如Django ORM实现多表关联查询）。
7、精通HTML5和CSS3页面布局，熟练使用JavaScript处理交互逻辑，了解Vue前端框架

项目经验

分别对百度、最高人民法院、国家企业信息公示系统的失信人名单进行爬取，把以上三个爬取到的名单进行数据清洗、整合、去重，最终存储到 MySQL 数据库中
技术方案：
1. 数据采集：采用 Python + Scrapy 框架构建分布式爬虫，针对不同网站特性制定策略：
百度：通过模拟用户搜索请求，解析动态渲染页面，使用 Selenium + ChromeDriver 突破 JS 反爬;
最高人民法院官网：分析 API 接口，利用 Requests 库携带定制化 Headers 模拟合法请求;
国家企业信息公示系统：应对 IP 访问限制，集成 ProxyPool 实现 IP 代理池轮换，并通过 Cookies 维持会话。
2. 数据处理：使用 Pandas 库清洗缺失值、异常字符，通过正则表达式提取结构化信息;利用哈希算法对重复数据进行精准去重。
3. 数据存储：设计 MySQL 数据库表结构，通过 SQLAlchemy 实现数据高效入库，并建立索引优化查询性能。
项目成果：
1. 成功采集并处理超20万条失信人员数据，数据准确率达98%;
2. 构建统一化失信人员数据库，为后续信用风险评估模型提供核心数据支持;
3. 通过IP代理池与请求频率控制，将爬虫封禁率降低至5%以下，保障数据采集稳定性。