【酷站档】从数据挖掘的角度看1024

  • A+
所属分类:酷站档

这是一个基于“使用PHP语言对网络数据进行采集与分析”的一次实验项目。实验目标为业界大名鼎鼎的1024大草榴社区

项目网站仅提供关于1024的数据统计,可视化结果不包含淫秽色情信息,营造健康上网环境从你我做起!

项目采用php爬虫技术,采集“达盖尔的旗帜”版块2015年6月~2015年9月的数据,然后进行统计,将最热门的关键词、最活跃的会员、最常使用的图床、访问时间段等信息汇总总结,得出结论。

大数据生活,大数据与我们息息相关!

项目围观:从数据挖掘的角度看草榴

【酷站档】从数据挖掘的角度看1024

后记:

忘记了从哪里看到过一句话:“互联网上没有垃圾信息,只有放错位置的资源”,web数据挖掘方面还是很值得研究的,开发语言也没有优劣, 用自己最熟悉的语言去解决问题就是最好的实现方式。先解决问题,再优化过程,结果最重要!

此次试验仅仅针对CL的一个版块进行了表面数据 的分析,我相信,如果更用心的话还能分析出更多的其他东西。比如:将采集到的10几万张图片下载下来,是不是可以作为图像识别系统识别色情图片的 训练素材?我只是采集了注册用户的用户名、注册时间、最后登陆时间等有限的几个字段,如果把用户在论坛内的等级、贡献值、回帖数量等信息也采集下来 结合其他字段进行加工和分析是不是能得出更多的有意义的结论呢?

档主

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: