ID:213048

不像

  • 公司信息:
  • tcl
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 周六
  • 周日
  • 所在区域:
  • 深圳
  • 宝安

技术能力

熟练掌握Python核心编程方法,熟悉基本数据结构
熟练掌握SQL语言和数据库表体系,掌握关系型数据库mysql、非关系型数据库mongodb和内存数据库redis的日常操作
熟练掌握Numpy、Scrapy、Matplotlib、pandas等数据科学分析库的使用,能独立进行数据清洗、处理、分析与可视化操作
掌握jieba和wordcloud的使用,可以根据需求进行文本信息处理分析
熟悉excel,csv、html可以对各项数据做各个维度的对比分析
熟悉朴素贝叶斯、决策树、线性回归、逻辑回归、聚类算法、PCA、推荐系统算法、k-邻近算法等。
熟悉爬虫基本库的使用,如requests,urllib,bs4,xpath,selenium,正则表达式等,能够独立进行爬虫项目的开发
熟悉Scrapy爬虫框架及网页抓取原理,可以高效地进行抓取海量数据、解析处理和入库等日常工作
熟悉Linux操作系统及git版本控制系统,熟悉掌握常用命令的操作

项目经验

智能电视用户语音行为分析
通过对智能电视的用户语音数据收集,使用ASR转换成用户情感语料文本。训练出能对用户的语音内容划分领域与识别,并作出相应的回复、动作、与功能的调整的模型,以提高用户体验和用户粘度。
责任描述:
1.将已收集并转换好的语料文本进行标注、分类、清洗,并保存到相应的Excel表中。
2.对文本信息进行预处理,利用Pandas读取Excel中分好领域的语料文本信息、标注、以及设计好的回复语料、相关功能调整、相关动作调整的标记,并转换成DataFrame格式的数据。
4.将读取好的文本数据量化,使用jieba分词提取关键字进行关键词提取和筛选及中文停用词过滤,针对词频,做特征选择构建向量空间模型,利用Tf_idf进行文本量化转换及使用max_df或min_df逆文档频率进一步进行关键词筛选,N-gram排除顺序干扰,调整相关程度关键词的权重,将化分好的数据进行归一化处理。
5.使用matplotlib进行可视化,减少数据方面的误差。
6.构建朴素贝叶斯(NBbiru)分类模型,将以5:1的比例划分为训练集与测试集。使用训练集数据进行分类算法,使用测试集对结果进行检测,调整超参数的值,使用混淆矩阵和分类评价报告筛选评分最优的参数的分类器并保存。
7.最后测试实验该分类器对比现实效果做出相应调整

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服