熟悉 Scikit-Learn,机器学习框架, 熟悉pytorch深度学习框架。
熟悉 RNN, TextCNN, LSTM, Transformer等深度学习模型,有文本分类,文本相似度等实际工作。
了解 BERT 模型基本任务,有情感分析, 实体识别项目经验。
熟悉 gensim,jieba, nltk 等常用文本处理工具,能用gensim从零生成词向量。
熟悉 Scrapy,Requests,Selenium 等爬虫框架,搭建过千万级分布式网络爬虫。
带领小组搭建清洗系统,熟悉正则表达式,Xpath能够从结构化和非机构化的数据中获取信息。
有java后端基础, 熟悉常见的java开源组件
1. 对接oa平台, 负责三方系统与公司系统实现总对总对接
2. 公司项目整体改造升级,提高数据内容质量,对不同来源数据进行合并丰富化处理,数据量5亿。通过构建排重系统对多来源数据进行排重操作,同时利用深度学习技术解决跨语种数据的重复问题,从而对不同语种信息进行丰富,提高数据的完整程度。完善烟油敏感词过滤系统
角色 | 职位 |
负责人 | java工程师/初级算法 |
队员 | 后端工程师 |
熟悉 Scrapy,Requests,Selenium 等爬虫框架,搭建过千万级分布式网络爬虫。 带领小组搭建清洗系统,熟悉正则表达式,Xpath能够从结构化和非机构化的数据中获取信息。
熟悉 Scrapy,Requests,Selenium 等爬虫框架,搭建过千万级分布式网络爬虫。 带领小组搭建清洗系统,熟悉正则表达式,Xpath能够从结构化和非机构化的数据中获取信息。