ID:415204

数据分析工程师

  • 公司信息:
  • 重庆开开网络公司
  • 工作经验:
  • 5年
  • 兼职日薪:
  • 600元/8小时
  • 兼职时间:
  • 下班后
  • 所在区域:
  • 重庆
  • 全区

技术能力

精通 Python,熟悉常用库(Requests, Scrapy, PySpider)。熟悉多线程、多进程及 asyncio 异步编程。熟练使用 Lxml (XPath), BeautifulSoup, PyQuery 以及正则表达式进行数据精准提取.熟练处理 JS 逆向(AST 解混淆、补环境)

项目经验

项目名称:垂直行业新闻数据自动化采集系统
项目角色: 独立开发者

项目描述:
该项目旨在针对 5-10 个特定的行业门户网站(如 36Kr、IT之家、雪球等),实现资讯内容的自动化准实时采集。系统每日定时抓取最新文章,进行结构化处理后,自动推送至飞书/钉钉群组,用于行业动态监控。

核心工作与技术实现:

多源站点适配: 针对不同网站的结构特点,分别编写基于 BeautifulSoup 和 XPath 的解析器,提取文章标题、正文、作者及发布时间。

动态内容抓取: 针对部分采用 Ajax 异步加载的页面,使用 Selenium/Playwright 进行模拟滚动触发加载,确保获取完整列表。

增量爬取逻辑: 引入 MD5 摘要算法 对文章 URL 进行哈希处理,并存储在本地 SQLite 数据库中。每次运行前先进行去重校验,仅抓取未入库的新内容,节省带宽和计算资源。

异常监控与重试: 编写了装饰器式的重试机制,针对请求超时或 403 错误自动更换 User-Agent 并延迟重试,提高脚本在无人值守时的稳定性。

自动化部署: 将爬虫脚本部署在 轻量应用服务器 上,通过 Crontab 设置每 30 分钟定时触发,实现全天候自动监控。

项目成果:

实现了对目标行业的全天候覆盖,每日自动采集有效资讯 200+ 条。

成功解决了部分网站的防盗链图片展示问题(通过本地化存储或 Referer 伪造)。

系统运行三个月以来,维护成本极低,成功为团队提供了及时的竞品动态。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服