1.熟练掌握python编程语言;
2.掌握 urlib 和 requests 发送请求并熟练使用selenium自动化技术;
3.熟练掌握re,xpath,bs4等网页信息抽取技术及json序列化技术;
4.熟练使用scrapy及scrapy-redis分布式爬虫框架;
5.熟练掌握常见的反爬机制,如IP限制,动态UA请求头,Cookies模拟登录selenium自动化,fiddler抓包等;
6.熟练使用第三方打码平台进行验证码识别;
7.熟悉js逆向解决加密问题;
8.熟练使用MySQL,mongodb和redis数据库;
9.熟练使用PyEcharts可视化技术;
10.熟悉 HTML,CSS, Javascript;
11.熟悉app爬虫;
12.熟悉pandas,numpy 等第三方工具库
项目经验:
2023年4 月-2023 年8月 项目投融资平台
目简介:实时抓取各个业台上的web3行业项目投融资实时动态,比如 twitte
大V,discord 社区,和各大投融资平台。并根据项目分类,筛选总结项目基于海量数据加工出重要项目维度,如twitter ko1关注人数,twitter粉丝数,投融资数量,投融资轮数,投融资机构等。为业务人员提供一手最新的项目实
项目职责:
1.参与流处理平台的设计工作
2.参与爬虫架构的设计开发和爬取内容选取
3.平台数据联调,性能测试优化等。
项目业绩:
1. 深度融合了twitter, discord,各大融资平台的数据,为业务人员提供了一站式的投资决策平台。
2. 通过实时流的方式使项目看板实时化,包括项目最新发推,最新动态,实时提醒发信等功能,为投资决策提供准确实时的事实依据。
3. 通过本平台,团队可以通过各种指标估算出项目的ROI,提高了投资决策的成功率。
2023年6 月-2023年12月 自动化脚本集成平台项目简介:自动化脚本集成平台提供的是一个多号多开脚本运行的平台,平台提供并简化了脚本运行环境和动作。虎上传自己脚本,在乎台上可以指定脚本运行时间,运行个数,运行设备和网络环境。也可以通过平台实时查看脚本运行情况,包括成功,失败详情。平台省去了用户配置脚本运行环境,网络运行环境等的搭建过程,使用户把主要精力集中在业务建设上。提高了项目运行效率。
项目职责:
1.设计自动化脚本集成平台的架构
2.开发平台主要模块,如任务调度中心,任务执行单元等。
项目业绩:
1. 通过平台我们做了很多web3项目,如zeta,memecoin等知名项目,并最终拿到了很多项目的奖励结果。
2020年12月-2022年10月
数据流处理平台
项目简介:公司每天产生各个系统的各种生产数据,比如仓库储存系统,每天产生仓库相关数据。生产系统每天产生不同种类的产品的过站数据。订单系统每天产生订单相关数据。为了能及时的了解产线和相关系统的生产情况,很多系统都需要一个能够实时计算的业务系统来实时的反应客户或者老板关心的业务情况
。 但是如果为每一个业务场景定制化的开发实时计算逻辑代码,不仅耗时耗力,且项目与项目之间不能资源共享,存在很大的冗余性和资源不可复用性。所以为了 实现业务逻辑代码的复用性和降低开发者的开发周期和开发难度,数据流处理平 台应运而生。平台把流处理操作模块化,抽象化,让用户通过拖拉拽的形式进行 流处理操作和分析。使得业务人员也能够很迅速的根据自己的业务逻辑构建出一 个流处理流程,从而将更多的精力集中到业务本身。
项目职责:
1.参与流处理平台的设计工作
2.参与流处理平台的开发工作,包括:
2.1 flink 模块化开发
2.2 通用化模块开发
2.3 数据源,数据持久化模块开发
3.平台数据联调,性能测试优化等。
项目业绩:
1.通过拖拉拽形式已经成功将若干项目案例转化内平台实例;
2.通过不断优化,改进,平台可以在一定程度上解放生产力,为公司节省人力, 时间成本。能够更快的迭代项目,从而更加及时的生成报表,反应生产现实情况。3. 通过运用k8s + docker 技术,提高了平台的横向扩展
角色 | 职位 |
负责人 | 软件开发工程师 |
队员 | 后端工程师 |
这个文件整理工具可以帮您每天节省30分钟的手动整理时间, 我们可以为贵司定制符合内部文档管理规范的特殊版本 核心技术点 并发控制:智能线程池管理 MAX_WORKERS = min(32, (os.cpu_count() or 1) + 4) # 自动计算最优线程数
整理前: Downloads/ ├── cat.jpg ├── report.pdf ├── video.mp4 └── temp.zip 运行后: Downloads/ ├── 图片/ │ └── cat.jpg ├── 文档/ │ └── r
开发社交软件及新闻媒体信息采集系统 Elasticsearch, JFinal 在此期间,还维护了⼀些其他的项⽬,包括⽹信办签名平台和药材管理系统。主要负责修复bug并进⾏