猿急送>

重庆其它兼职程序员

ID：415204

颖

数据分析工程师

公司信息：
重庆开开网络公司

工作经验：
5年

兼职日薪：
600元/8小时

兼职时间：
下班后

所在区域：
重庆
全区

技术能力

精通 Python，熟悉常用库（Requests, Scrapy, PySpider）。熟悉多线程、多进程及 asyncio 异步编程。熟练使用 Lxml (XPath), BeautifulSoup, PyQuery 以及正则表达式进行数据精准提取.熟练处理 JS 逆向（AST 解混淆、补环境）

项目经验

项目名称：垂直行业新闻数据自动化采集系统
项目角色：独立开发者

项目描述：
该项目旨在针对 5-10 个特定的行业门户网站（如 36Kr、IT之家、雪球等），实现资讯内容的自动化准实时采集。系统每日定时抓取最新文章，进行结构化处理后，自动推送至飞书/钉钉群组，用于行业动态监控。

核心工作与技术实现：

多源站点适配：针对不同网站的结构特点，分别编写基于 BeautifulSoup 和 XPath 的解析器，提取文章标题、正文、作者及发布时间。

动态内容抓取：针对部分采用 Ajax 异步加载的页面，使用 Selenium/Playwright 进行模拟滚动触发加载，确保获取完整列表。

增量爬取逻辑：引入 MD5 摘要算法对文章 URL 进行哈希处理，并存储在本地 SQLite 数据库中。每次运行前先进行去重校验，仅抓取未入库的新内容，节省带宽和计算资源。

异常监控与重试：编写了装饰器式的重试机制，针对请求超时或 403 错误自动更换 User-Agent 并延迟重试，提高脚本在无人值守时的稳定性。

自动化部署：将爬虫脚本部署在轻量应用服务器上，通过 Crontab 设置每 30 分钟定时触发，实现全天候自动监控。

项目成果：

实现了对目标行业的全天候覆盖，每日自动采集有效资讯 200+ 条。

成功解决了部分网站的防盗链图片展示问题（通过本地化存储或 Referer 伪造）。

系统运行三个月以来，维护成本极低，成功为团队提供了及时的竞品动态。