ID:399926

bi8bo

  • 公司信息:
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 太原
  • 全区

技术能力

1、 熟练使用 Python 语言,掌握基础语法。
2、 精通 Scrapy、BeautifulSoup、Selenium、Requests 等爬虫库,能够根据不同的网页结构和反爬策略,选择合
适的库和方法进行数据抓取。
3、 熟悉使用 Pandas 进行数据清洗、分析和处理;掌握 MySQL 数据库的基本操作,能够将抓取的数据进行有效
存储和管理。
4、 了解 HTTP 协议、HTML/CSS/JavaScript 基础知识,能分析网页结构。
5、 具备一定的反爬虫应对能力,如处理 IP 代理、Cookies、User - Agent 等,并且一直在学习 JS 逆向技术,能
够破解一些常规的加密算法。
6、 熟练使用Django框架搭建Web服务,掌握路由设计、中间件开发、ORM数据库映射(如Django ORM实现多表关联查询)。
7、 精通HTML5和CSS3页面布局,熟练使用JavaScript处理交互逻辑,了解Vue前端框架

项目经验

分别对百度、最高人民法院、国家企业信息公示系统的失信人名单进行爬取,把以上三个爬取到的名单进行数据 清洗、整合、去重,最终存储到 MySQL 数据库中
技术方案:
1. 数据采集:采用 Python + Scrapy 框架构建分布式爬虫,针对不同网站特性制定策略:
百度:通过模拟用户搜索请求,解析动态渲染页面,使用 Selenium + ChromeDriver 突破 JS 反爬;
最高人民法院官网:分析 API 接口,利用 Requests 库携带定制化 Headers 模拟合法请求;
国家企业信息公示系统:应对 IP 访问限制,集成 ProxyPool 实现 IP 代理池轮换,并通过 Cookies 维持会话。
2. 数据处理:使用 Pandas 库清洗缺失值、异常字符,通过正则表达式提取结构化信息;利用哈希算法对重复数 据进行精准去重。
3. 数据存储:设计 MySQL 数据库表结构,通过 SQLAlchemy 实现数据高效入库,并建立索引优化查询性能。
项目成果:
1. 成功采集并处理超20万条失信人员数据,数据准确率达98%;
2. 构建统一化失信人员数据库,为后续信用风险评估模型提供核心数据支持;
3. 通过IP代理池与请求频率控制,将爬虫封禁率降低至5%以下,保障数据采集稳定性。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服