chuan的案例列表

数据抓取简例

企业服务-数据服务 chuan

采集任务的分析,并负责采集方案设计; 分析页面结构使用正则表达式、xpath、css选择器等方式采集确保数据不遗漏; 采用scrapy框架实现爬虫方案,并重写start_requests,对部分静态数据采用正则提取,使用redis对新增url资源去重以提高效率; 编写pipline,加入ip、模拟浏览器Ua等以保证爬虫运行; 对接公司已有数据对采集的数据进行数据清洗(主要针对电话号码去重以及无省市地区添加省市归属地); 使用pandas库处理公司内部运营数据;...

数据抓取简例
数据抓取简例

京东等电商爬虫

医疗健康-专业细分服务 chuan

案例内容包含京东、阿里、药师帮等网站内容关于药品部分的数据爬虫; 案例以多线程实现数据采集,mongo数据库去重,最终数据进入hbase库中 其中药师帮等网站实现js逆向获取密码加密方式,另外配置有单独的代理函数、日志文件处理、去重等...

京东等电商爬虫
京东等电商爬虫
京东等电商爬虫

部分终端客户药品进销存数据采集

医疗健康-专业细分服务 chuan

1、实现20+以上终端客户的药品进销存数据采集、清洗、整合、入库 2、通过配置有专门的文件,可实现批量终端客户添加,仅需添加终端客户名称、账户密码、采集进销存数据类型即可实现该终端历史数据(以终端支持的回溯时间为准)入库 3、数据整合后进入CDH平台下hive数据库,支持后续详细数据分析 4、Selenium、Requests模块、或两者结合,高速快捷实现数据采集 5、数据采集与数据清洗以实现模块化 6、后续自动化生成报表待展示...

部分终端客户药品进销存数据采集
部分终端客户药品进销存数据采集
部分终端客户药品进销存数据采集
------ 加载完毕 ------
联系需求方端客服