Web 框架方面,熟练使用 Django 搭建完整 Web 应用,包括 ORM、中间件、模板系统及 REST framework 开发 API;熟悉 Flask 轻量框架的路由、蓝图等。爬虫领域,能运用 Requests、BeautifulSoup、Scrapy 抓取和解析数据,掌握动态页面爬取(Selenium)、反爬应对(代理、验证码处理)。数据库操作上,精通 MySQL 查询优化、索引设计,了解 MongoDB 等 NoSQL 数据库。还需掌握 Git 版本控制、Linux 服务器部署(Nginx、Gunicorn),熟悉 Docker 容器化,了解 Redis 缓存及消息队列(如 Celery),具备基础的后端安全防护能力(防 SQL 注入、XSS 等)。
项目经验:负责多个数据爬取项目,均成功实现信息提取与存储。
疾病分类爬取:针对https://jib.xywy.com/,分析页面层级结构,先获取一级科室,再遍历二级科室链接,用 Requests+BeautifulSoup 提取简介、病因等信息,通过 pandas 保存为 Excel,含疾病分类标签,解决编码问题,最终爬取 10 类科室 200 + 疾病数据。
虎扑评论抓取:解析https://bbs.hupu.com/628721373.html动态加载机制,用 Selenium 模拟浏览,定位用户名、评论内容及时间标签,处理翻页逻辑,保存 300 + 条评论至 Excel,规避反爬限制。
中标信息爬取:针对水管相关招标页面,提取标书名称、金额、时间,通过随机 UA 和延时防反爬,多页爬取后用 Excel 存储,数据完整度达 95%,为业务分析提供支持。
角色 | 职位 |
负责人 | 爬虫工程师 |
队员 | 后端工程师 |