熟悉Linux,windows操作系统,能熟练的在Linux,windows下完成开发;
熟练掌握python基础语法,具备良好的面向对象编程思想,有良好的PEP8编码习惯;
熟练掌握Scrapy、scrapy-redis分布式框架,了解各组件工作机制
熟练使用urllib、urllib2、requests等工具模块,熟练lxml、re、json、BeautifulSoup等数据解析模块
熟练使用Selenium+PhantomJS实施动态HTML抓取;
了解Tesseract机器图像识别系统,能处理简单的文字验证码;
熟悉css,js,html,熟悉AJAX,jQuery技术;了解Bootstrap框架能实现简单页面的开发;
熟练使用Mysql、MongoDB、Redis数据库,了解关系型数据库的优化;
熟悉django框架,有django开发经验,熟悉 shell脚本编程;
可使用numpy、pandas库能做简单数据处理;
可以使用git协同开发以及Ngiax使用和项目部署过程;
e聊转;
负责公司信息数据抓取、处理、提供相关信息
抓取以scrapy框架为主,ip代理、验证码、中间件等都熟练使用;处理从mongo转存mysql;最终提供精准的excel数据表
app使用情况分析;
对日常情况汇总,app内部模块使用频率,error情况分析,并图表展示
中文集团
针对数据抓取、Tesseract、TensorFlow等研究应用
采集任务的分析,并负责采集方案设计; 分析页面结构使用正则表达式、xpath、css选择器等方式采集确保数据不遗漏; 采用scrapy框架实现爬虫方案,并重写start_requests,对部分静态数据采用正则提取,使用redis对新增url资源去重以提高效率; 编写pip
案例内容包含京东、阿里、药师帮等网站内容关于药品部分的数据爬虫; 案例以多线程实现数据采集,mongo数据库去重,最终数据进入hbase库中 其中药师帮等网站实现js逆向获取密码加密方式,另外配置有单独的代理函数、日志文件处理、去重等
1、实现20+以上终端客户的药品进销存数据采集、清洗、整合、入库 2、通过配置有专门的文件,可实现批量终端客户添加,仅需添加终端客户名称、账户密码、采集进销存数据类型即可实现该终端历史数据(以终端支持的回溯时间为准)入库 3、数据整合后进入CDH平台下hive数据库,支持后续