编程语言:Python、Java、GO、
数据库:Mysql、MongoDB、Hive
深度学习框架:pytorch、tensorflow
机器学习算法:sklearn、XGB、LGB
深度学习算法:LSTM、CNN、Transformer、NLP、CV、YOLO
美团-反爬算法策略建设
项目描述:从 账号->设备参数 ->用户行为的⻆度建设爬虫的感知体系;爬虫分为协议爬虫->模拟器/改机爬虫 ->真机群控爬 虫->真人众包爬虫;
项目职责:
在美团主要实践业务场景就酒店场景;
1、针对协议和模拟器改机爬虫,建设联合概率的通用算法识别能力,该能力主要从请求中的各个参数或者参数组合 的概率 的对数值进行求和,得到正常人的取值范围,超出这个范围为异常;
2、参数异常感知的侧重点主要在流量突增和异常参数聚集上,主要覆盖模拟器、改机和群控等爬虫类型; 3、真人众包爬虫主要对竞对的众包模式的 SOP 进行刻画,构建“行为序列异常检测模型+XGB 分类模型+过滤规则”的识别 流程,对酒店的众包实施可控精度的有效打击;
达到效果:
1、从报出已有的 case 的口径统计分析,联合概率和参数聚集可对协议、改机等简易爬虫做到 80%的覆盖, 2、酒店众包爬虫的任务情报量级从 1W+ 下降至 6K 左右,任务单价由 5 毛涨到 6 毛;
电力现货价格预测,主要通过人工智能算法对第二天的现货价格进行预测,采用LGBM,XGB等机器学习算法,以及LSTM和transformer的模型构建模型,并基于交易中心公布的边界条件预测价格;
1. 通过登录后,获取目标网站的要获取数据; 2. 模拟请求,并请求接口爬取指定的数据; 3. 集成到chrome浏览器插件的形式,进行数据筛选和爬虫启动