职位ID:107918

百度文库爬虫

  • 合作方式:
  • 项目制 全国远程
  • 预估日薪:
  • 700
  • 预估总价:
  • 1400元
  • 预估工时:
  • 2天
  • 所在区域:
  • 全国远程

需求描述

需求分析:
1、提供百度文档的链接就可以导出百度文库的文档,要求爬取的文档清晰、格式与百度文库上的格式对应(doc、ppt、pdf等)
2、对于不可以全部预览的文档,可以不要求爬取(可以爬取更好),但要能准确判断该文档链接是否可以全部预览
3、支持批量下载,把待下载的url存放在txt中,导入后可以批量下载
4、程序稳定,批量下载中成功率高
说明
类似冰点文库的批量下载的核心功能
语言要求: python 或node.js (若是其他语言请先与我沟通)
交付方式:
1、nodejs环境下 js文件 或 python环境下的 py文件 都可以,或者是桌面执行软件或其他形式
2、代码需要有详细注释
3、可以稳定执行。
提供测试例子
1、WORD格式
https://wenku.baidu.com/view/8562f23d793e0912a21614791711cc7931b778f5
2、PPT格式
https://wenku.baidu.com/view/ce69153c7f21af45b307e87101f69e314332fad3
3、PDF格式
https://wenku.baidu.com/view/a2c724f6970590c69ec3d5bbfd0a79563d1ed467

其他测试例子:
https://wenku.baidu.com/view/8562f23d793e0912a21614791711cc7931b778f5
https://wenku.baidu.com/view/04d1b780f021dd36a32d7375a417866fb94ac064
https://wenku.baidu.com/view/ce69153c7f21af45b307e87101f69e314332fad3
https://wenku.baidu.com/view/7c1506b8690203d8ce2f0066f5335a8103d26672
https://wenku.baidu.com/view/c0e36a69f56527d3240c844769eae009581ba27d
https://wenku.baidu.com/view/34feda3e854769eae009581b6bd97f192279bf31
https://wenku.baidu.com/view/d1cdffb80875f46527d3240c844769eae009a3fc
https://wenku.baidu.com/view/fc37533c1fd9ad51f01dc281e53a580216fc500a
https://wenku.baidu.com/view/86af849d29ea81c758f5f61fb7360b4c2e3f2a22
https://wenku.baidu.com/view/427e692c32687e21af45b307e87101f69e31fbcc
https://wenku.baidu.com/view/24bd441ba22d7375a417866fb84ae45c3b35c29b
https://wenku.baidu.com/view/af777e2ca66e58fafab069dc5022aaea998f4190
https://wenku.baidu.com/view/c87eb87fe418964bcf84b9d528ea81c758f52e9e

信用行为

  • 发布项目
    1
  • 订单总数
    0
  • 退款单数
    0

完善简历

工程师完善技术能力和项目经验,更易接到订单

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信客服

需求方请加聘用方端客服沟通需求,工程师请加工程师端客服浏览推送职位

聘用方端客服
工程师端客服
联系聘用方端客服