上回说到用F#来写爬虫,这只是F#学习第一阶段的第一步。最开始,就对第一阶段做了这样的安排:

1、爬虫爬取AV数据

2、数据处理和挖掘

3、数据可视化(使用ECharts)

4、推荐系统

第一步很快就搞完了,整个爬虫下载、解析和格式处理的代码,加起来几百行,爬了两个晚上。最终的数据是20G左右的图片和一份极简的data(大约50M)。包含三万多女优信息,八万多AV信息,以及各种分类、出品商、导演什么的。

数据分析有一个很重要的点:不要为了分析而分析。所以,第二步和第三步简单玩下就过了。

重点是第四步,推荐系统。

用业余时间看各种推荐系统的文章和算法,大概一周半时间。得出主要的点是:

基于内容推荐还是基于用户推荐,考虑到没用户数据,也不会公布外网,所以没法基于用户推荐,也自然用不到经典的协同过滤算法,自然也避免了冷启动问题。

最终,选择了一个最简单的算法:计算欧几里德距离、余弦相似性。

原理算法都不难,直接贴代码和效果图:

最新文章

  1. wcf第4步之原生调用简单封装
  2. SQL CURSOR
  3. 编码UTF-8
  4. Unity 联网小测试(WWW)
  5. nginx: [error] invalid PID number "" in "/usr/local/nginx/logs/nginx.pid"
  6. java实现mysql数据库的备份及还原
  7. 使用ArcGIS API for Silverlight + Visifire绘制地图统计图
  8. Another kind of Fibonacce(矩阵快速幂,HDU3306)
  9. 201521123088《java程序设计》第十周学习总结
  10. java——对象学习笔记
  11. ognl版本错误
  12. python之算法排序模块
  13. window scoop 修改默认安装路径
  14. spark on yarn模式:yarn命令杀除当前的application
  15. 牛客多校第十场-D- Rikka with Prefix Sum
  16. php四排序-选择排序
  17. chrome inspect 远程调试H5
  18. vs 2015
  19. 【原创】Eclipse导入Android项目报错解决
  20. 后端程序员如何玩转AJAX

热门文章

  1. React 组件性能优化探索实践
  2. CMake
  3. php 时间戳与日期的转换(转载)
  4. synthesize的作用
  5. 《锋利的jQuery(第2版)》笔记-第2章-jQuery选择器
  6. 《JavaScript高级程序设计(第3版)》笔记-序
  7. SpringMVC上传文件的三种方式(转)
  8. 深度学习笔记——PCA原理与数学推倒详解
  9. Django Restful Framework (二): ModelSerializer
  10. word20161224