猿急送>

武汉其它兼职程序员

ID：141849

Simon

数据挖掘工程师、爬虫架构师

公司信息：
湖北百旺金赋科技有限公司

工作经验：
3年

兼职日薪：
800元/8小时

兼职时间：
下班后
周六
周日

所在区域：
武汉
全区

技术能力

1、熟练并擅长使用Python进行各项程序开发、开发网络爬虫编写、算法演练和数据挖掘；
2、熟悉分布式集群的搭建，工作中有RPC架构，spark集群，Redis集群，Kafka集群，elasticsearch集群，hadoop集群，Hbase集群，Mongodb集群等各种集群与数据采集、处理和挖掘的经历；
3、熟悉scrapy、scrapy_redis和pyspider等各项爬虫框架，自主设计开发了mongodb_scrapy的分布式爬虫框架，深度改造开发了爬虫监控系统spiderkeeper，并实现了网页正文的通用解析方案；
4、熟悉NLP的常用处理技术，通用的如文本的各种分词规则切词，统计学的TF-IDF和Textrank的处理方法。深度处理手段，如gensim，word2vec和fasttext框架，利用词向量聚类分类、求相似度，词向量距离等深层次挖掘分析；
5、熟悉tensorflow框架中当下非常流行的CNN、RNN和CNN+RNN神经网络的处理技术，非常成功的运用于各种图像搜索，图像
文本识别和万能打码平台的处理等项目中；
6、目前担任爬虫架构师，负责管理公司平台数据部门网络爬虫组的各项项目演进工作，掌握了服务器、IP代理和数据等工作资源；
7、熟悉使用java进行基本的程序开发。

项目经验

1.自主设计开发了mongodb_scrapy分布式爬虫框架：
区别于scrapy_redis分布式框架，当数据量达到百万后redis-sentinel容易宕机，但使用基于磁盘IO思路的分布式框架mongodb_scrapy，虽性能略差，但是拥有更低的成本，爬虫的过程数据都可保存，减少piplines的阻塞，释放了各节点的内存空间。
2.通用的网页正文解析：
re,xpath,bs4等网页解析技术缺乏通用性。通过本方案，使用行块函数进行分割，快速解析web正文，正确率达95%，解析快，成功应用到自动化爬虫项目。
3.NLP处理实例：
自然语言的分类，正负向，观点提取，近义词，概要，错别字均可成熟稳定的实现。尚在探索的，运用rnn/cnn自动写作，吟诗作赋，创作歌词技术。
4.深度挖掘实例：
CNN的万能打码模型和图像中文本识别