• 熟练掌握python语言
• 熟悉国家电网项目系统上线流程
• 熟悉看K8s和docker容器化操作
• 熟悉linux系统常规操作
• 熟练django框架的开发与维护
• 熟悉各种反爬虫机制与反爬策略
• 熟练数据库:mysql、mongodb、redis
• 熟练的数据清洗技术:bs4 ,re, xpath,ajax
• 熟练使用selenium以及scrapy框架的和分布式爬取。
• 熟练使用弘玑、云扩、影刀等rpa开发工具
项目旨在通过Python编程实现一套网络爬虫系统,能够自动化地从指定网站采集文字数据,并结合数据清洗与分析技术,提供结构化的信息以支持机器人的训练。本人负责设计并实现可扩展的网络爬虫,支持多网站、多页面的数据抓取。清理采集到的原始数据,去重、规范化字段、处理缺失值,将清洗后的数据存储到数据库中,支持实时更新和高效查询。基于采集数据,进行分类展示,为机器人提供对话训练素材。并通过实现IP代理池与反爬虫机制,提升爬虫的稳定性和效率。
汇总每日各省分公司提交的日报内容,需统一格式并统计所需数据信息,提取每个省公司日报内的表格内容,将提取的内容重新写入汇总模板并发送给负责人。
国网文库巡检智能机器人是能按照预先设置好的规则模拟人工进行操作完成大量规则固定且重复性较高的工作,该应用可以有效快捷的对上百万个页面进行巡检,省掉了人工操作,达到了为员工减负的目的。