前言
为什么要写这本书
随着大数据的概念越来越流行,越来越多的企业开始重视数据,期待从数据中寻找有价值的结论,以指导公司管理层决策,最终创造更大的价值。但是在游戏行业,数据分析的发展相对缓慢,很多游戏公司是在发现人口红利消失后才逐渐重视数据,希望利用数据驱动产品。而在各种数据分析技术中,R语言作为一个可进行交互式数据分析和探索的强大平台,拥有举足轻重的作用。R语言的免费开源使得很多公司用它来处理数据、展示数据、分析数据、完成模型。
使用R语言可以进行游戏数据分析系统的搭建,可以对累积的海量游戏数据进行挖掘,找出其中的特征和规律。对于有志成为互联网数据挖掘/分析师的读者来说,R语言将成为他们未来必备的技能之一。
笔者在历届中国R语言会议演讲时,都会遇到一些同学问类似这样的问题:“是否学好数据挖掘工具就能胜任数据分析工作?”虽然这些学生都具备很好的理论和工具使用能力,但是缺乏对实际生产数据的处理能力,即学生们很少接触到企业的真实数据,不知道如何将脏数据处理为可以建模的数据集。这也是笔者写这本书的初衷。在本书中,笔者希望结合自己多年的数据挖掘实战经验,将R语言与游戏数据分析有机结合,真正做到“授之以渔”。
本书特色
本书从实际应用出发,结合实例及应用场景,通过对大量案例进行详细阐述和深入分析,进而指导读者在实际工作中通过R语言对游戏数据进行分析和挖掘。
本书的核心是游戏数据分析实战,所以在案例讲解过程中均会对分析结果进行业务解读,进而帮助数据分析师提高“利用结果数据指导实际商务决策”的能力。
基于对业务的思考,本书从解决问题入手,以游戏为最佳切入点,辐射整个数据分析领域,并完成数据分析和挖掘建模工作,对其他行业的数据分析师如何做数据分析/挖掘也具有很大的启发性。同时,本书内容涵盖了R语言基础、数据挖掘理论与实战、交互式绘图和Web网页开发等,故也可以作为数据挖掘的入门书籍。
本书适用对象
❑游戏产品运营人员
❑游戏数据分析人员
❑各行各业的数据分析师
❑数据分析爱好者
❑具有数据分析背景的数据科学家
❑进行数据挖掘应用研究的科研人员
❑相关专业的在校生
如何阅读本书
全书一共13章,分为三篇:基础篇、实战篇和提高篇。基础篇介绍了游戏数据分析的基本理论知识、R语言的安装与使用、R语言中的数据结构、常用操作和绘图功能。实战篇主要介绍了游戏数据的预处理、常用分析方法、玩家路径分析和用户分析。提高篇介绍了R语言图形界面工具Rattle和Web开发框架shiny包。
第一篇是基础篇(第1~4章):第1章主要介绍了游戏数据分析的必要性和流程;第2章讲解了R语言和RStudio的安装及使用方法,并对数据对象和数据导入进行了介绍;第3章介绍了R语言绘图基础,包括常用图形参数设置、低级绘图函数和高级绘图函数;第4章介绍了lattice和ggplot2绘图包,并详细介绍了一些基于R语言可用于生成交互式图形的软件包,包括rCharts、recharts、rbokeh、plotly等。
第二篇是实战篇(第5~11章):第5章介绍了游戏数据预处理常用的手段,包括数据抽样、数据清洗、数据转换和数据哑变量处理;第6章介绍了游戏数据分析的常用方法,包括指标数据可视化、游戏数据趋势分析、游戏数据相关性分析和游戏数据中的降维技术;第7章介绍了事件点击行为常用的漏斗分析和路径分析;第8章介绍了留存指标的计算、留存率计算与预测、常用分类算法原理和模型评估;第9章介绍了常用用户指标计算、LTV计算与预测、用户物品购买关联分析、基于用户物品购买智能推荐和社会网络分析;第10章介绍了渠道数据分析的必要性和对渠道用户进行质量评级;第11章介绍了常用收入指标计算、利用用户活跃度衡量游戏经济状况、RFM模型研究。
第三篇是提高篇(第12~13章):第12章介绍了R语言的图形界面工具Rattle,该工具能够在图形化的界面上完成数据导入、数据探索、数据可视化、数据建模和模型评估整个数据挖掘流程;第13章介绍了Web开发框架shiny包,使得R的使用者不必太了解CSS、JS,只需要了解一些HTML的知识就可以快速完成Web开发。
勘误和支持
由于笔者的水平有限,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。你可以把意见或建议直接发至我的邮箱(jiabiao1602@163.com)。如果你有什么问题,也可以发邮件来提问,我将尽力为读者提供满意的解答,期待你们的反馈。书中全部数据及源代码都可以从GitHub网站(登录网站https://github.com/jiabiao 1602/Game_DataMining_With_R或扫描下方二维码)进行下载。
致谢
首先,感谢乐逗游戏CEO陈湘宇的支持,让笔者能把这几年在游戏行业中的一些数据挖掘实战写进本书,使读者能完整地看到如何对原始的数据源进行清洗转换以达到建模需求。书中介绍了对游戏行业付费用户行为研究的几种模型算法,相信对其他行业进行付费用户挖掘分析也可以起到很好地借鉴作用。
其次,感谢机械工业出版社华章公司副总编杨福川的信任,同时,也要感谢编辑李艺审阅本书的全部章节,有了他们的支持、鼓励和帮助,本书才能得以顺利出版。
最后,感谢家人,感谢你们一直以来的理解、陪伴和支持。
谨以此书献给我最亲爱的家人以及众多R语言的爱好者和数据分析师们!