简单的经历

Hey,你好!

我叫沙韬伟,英文名是SladeSha五年的机器学习及深度学习相关的工作经验,数学与应用数学本科毕业。熟悉自然语言处理,推荐,CRM及风控领域,你可以在这里:知乎,简书,Github找到我

履历

2018.8 - 至今:运满满(物流调度)

  • 负责统筹物流货运自然语言相关的各项目、物流货运行业的论坛中的帖子推荐
  • 开源了python工具合集,用来快速复用,极致执行PyTls
  • 开源了文本预处理算法YMMNlpUtils
  • 用户流失预估算法DeepFM的应用及引入Attention机制
  • 从0到1建立南京自然语言处理算法团队
  • 专利:
    • Sensitive information recognition method
    • The forum post recommendation method
    • The user liveness prediction model training method
    • Registration probability estimation method
  • 荣誉讲师

2017.6 - 2018.8:yoho(潮流电商)

2015.10 - 2017.5:滴滴出行(出行调度)

  • 负责用户画像、用户风控
  • kaggle债务违约预测比赛,top3%
  • dbscan进行滴滴出行的”家庭/公司地址”识别
  • 基于Emsemble的滴滴司机曼哈顿分
  • Wide&Deep算法,在滴滴出行用户的流失预估的应用
  • 滴滴极致执行奖、滴滴最佳进步奖、滴滴夜校最佳分享

2015.7 - 2017.10:惠普中国(云服务)

  • 算法实习生
  • DistributedR贡献者,维护hpdRF_paralleltree的异常处理逻辑
  • Zeppelin研究

2014.7 - 2015.7:中国电信(通信服务)

  • 算法实习生
  • Abtest、漏斗分析、流失分析、渠道分析、决策推演
  • 电信年度优秀实习生

部分更多项目(#Visitor > 11000uv)

  • CRM
  • 风控
    • 谱聚类下的黑名单复杂网络识别
  • 推荐
  • 自然语言
    • 智能问答机器人,基于LSTM+CRF语音发货,语音找货
    • 应用ELMo/GloVe+lr针对论坛的黄色/反动/广告内容识别
    • 调研并在货运领域内应用Bert、XLNet、PKUseg等深度学习算法

工程(#star > 60+160)

  • R/distributedR,4年Python,3年Tensorflow,最近在鼓捣Java,熟悉Linux常用命令
  • 用过Teredata,Oracle,Vertica,Hive,Mysql等,写过4年Sql脚本
  • 用过Tableau,Spss等数据可视化工具 ,用Scala写过1年Zeppelin
  • 用过Hadoop,Spark等平台,接触过PyTorch、Caffe深度学习框架,写过一些SparkSteaming的流处理任务
  • 常使用一些比如Kafka、Redis、RabbitMq、RocketMq等的中间件
  • 目前以Python服务Tornado做主要的接口开发

算法(#follwer > 1400/#collect > 2500)

  • 树类算法:Random Forest、Gbdt、Xgboost、Isolation Forest
  • 线性算法:Logistic、Lasso、FM、FFM、Mixed Logistic Regression、Elastic Net
  • 聚类算法:LOF、Dbscan、Kmeans、谱聚类、Infomap、MLC、t-SNE
  • 神经网络:FNN、CNN、NFM、AFM,DeepFM、Wide&Deep、DCN
  • 文本处理:Word2Vec,GloVe,ELMo,GRU,LSTM,GPT,Bert,XLeNt
  • 其他: SVM、Word2vec、Doc2vec、Smote、协同过滤、N-gram、Bandit、RBM
    以上在我的博客和GitHub中有介绍和使用的详细过程。

我的bolg和我的github里面,时间跨度较久,很多最开始写的东西不免存在不成熟的地方,希望大家批评指导;14年开始一直从事的都是风控、推荐、CRM、NLP方向,也很喜欢做这些事情,且有得有失,欢迎stw386@sina.com联系我闲聊~