电子商务数据分析(电子商务数据分析实践报告)
通过具体的项目案例,学习如何分析数据和业务问题。
以下是社区成员的作业。本文最后会给出项目的修改建议,通过这个项目提高你的分析思维。
一.背景介绍
这是Olist Store制作的巴西电商公开数据集。该数据集包含了2016年至2018年巴西各市场10万份订单的信息。
该数据集包含9个文件,即:
1)奥利斯特_客户_数据集. csv
该数据集包含关于客户及其位置的信息。使用它来识别订单数据集中的唯一客户,并查找订单的交货地点。
2)olist _地理位置_数据集. csv
该数据集包含巴西邮政编码及其纬度/经度坐标信息。用它来画地图,找出卖家和客户之间的距离。
3)olist_Order项目数据集. csv
该数据集包括每个订单中购买的商品的数据。
4)olist _支付数据集. csv
该数据集包含有关订单支付选项的数据。
5)olist_Order点评数据集. csv
该数据集包括关于客户所做评论的数据。
6)olist_Order Dataset.csv
这是核心数据集。您可以从每个订单中找到所有其他信息。
7)olist_Products数据集. csv
该数据集包括关于Olist销售的产品的数据。
8)olist_Sellers数据集. csv
这个数据集包括在Olist中完成订单的卖家的数据。使用它来查找卖家位置,并确定哪个卖家已经完成了每件产品的销售。
9)产品类别名称翻译. csv
将商标从葡萄牙语翻译成英语
每个数据集字段的详细描述可以从数据源中看到:
https://www.datafountain.cn/dataSets/22/details
二。问问题
观察数据集关键指标的趋势,暴露其中包含的问题,进而评估olist平台的运行情况和改进方向。分析思路从以下三个维度展开:
1.平台销售
平台上订单最多的产品品类是什么?
订单量最少的产品类别是什么?
哪个价格范围的订单最多?
订单变化和交易量变化趋势如何?
客单价的变化?
并根据2016-2017/2017-2018年的信息预测未来订单。
2.物流交付绩效
产品交付的平均时间和准时率是多少?
运费是多少?根据这些信息,可以改进物流模式和交付模式。
3.用户信息
用户的地域分布?
用户的评价如何?
通常的支付方式是什么?
不同消费群体的消费情况如何?
如何根据用户的评价改进平台的运营?
三。数据清理
根据要分析的问题,清洗数据。这个数据集中有很多表(一共9个),先根据要分析的内容查对应的表。例如,如果我想检查评论信息和评级,我会转到文件olist_Order Reviews Dataset.csv对每个表单中携带的信息有一个大致的了解。
对9个表进行分类,选择子集,重命名列名和文件名,使之清晰规范。
观察数据中的重复值、异常值和缺失值。未找到重复值,因为每个订单编号都是唯一的。存在异常值和缺失值,如下所示:
灰色部分为缺失值,灰色以下部分为异常值(因为实际交货时间不能早于交货时间)。对于这部分缺失值和异常值,删除。首先,这是一个匿名的公共数据集,无法追溯到数据源。第二,这些缺失值和异常值对基数较大的订单信息影响不大。
数据的一致性处理:这个数据集中的内容是比较一致的,不需要再次进行一致性处理。
用IF函数判断判断是否准时。
这样,根据交货时间和交货时间的差异,可以使用if函数来判断订单是否准时到达,为了方便,可以在透视表中使用if函数来判断订单是否准时到达。
四。分析
利用excel透视表、vlookup函数等函数得到待分析问题的结果。我们先来看看开头要研究的问题。
1.平台销售
1)交易限额信息
2)订单变化
3)客户单价:
4)不同产品类别的订单
2.物流交付绩效
在此项目中,仅计算已成功交付给客户的订单。未发货或取消的订单不计算在内。
3.用户信息
1)按州和用户地理分布的订单数量
2)用户评估
平台满意度是多少分?描述性统计分析用于显示得分概况和随时间变化的趋势。
3)分析1-2条客户评论(文字云图片展示)
4)消费分组+支付方式比例
动词 (verb的缩写)分析、总结和建议
1.平台本身的销量和订单量每年大幅增长。但从季度和月度细分来看,处于缓慢增长状态,需要及时调整以获取不在热图区域的用户。
另外,低消费人群庞大,但是高消费人群的消费也需要平台方的引导,高消费人群空的上升空间还是很大的。
2.物流配送情况也不乐观,因为运费价格略高,但用户支付高运费却享受不到匹配的配送服务,导致大幅上涨1-2个点。对于平台物流方的运营,需要共同商讨对策,及时调整。
3.客户满意度略有下降,主要表现在三个方面:
1)对于产品本身的质量问题,平台需要对销售的产品进行严格控制。
2)对于物流配送问题,如果不降低价格,就要相应提高服务质量。如果服务质量难以满足,平台应该从运营的角度帮助客户解决相应的运费价格。
3)优化平台本身的应用,这部分可以结合AARRR模型,讨论各个环节的客户流失率,优化客户购买和售后体验。提高留存率和复购率
以上来自社区成员的第二次修订项目。
(https://zhuanlan.zhihu.com/p/61309012)
以下是项目修改意见:
【问题】老师,如果我的数据集按照AARRR漏斗模型(分析方法)分析,有大量的相关数据。我该怎么办?
【回答】
1.分析方法不仅仅是AARRR漏斗模型,并不是所有的分析都要按照一个分析方法模板来做。分析方法要根据数据和题型来选择,不同的题型使用不同的分析方法。
2.你的每一个分析维度都是独立的,并不是通过关联来分析的。多角度思考数据,不仅要独立思考,还要结合多个维度思考。
3.第一时间给出的意见:一开始没写分析思路,也不知道在分析什么。这次看到你加了,真好。
很多人刚开始学数据分析的误区,就是数据一上来就清洗,没有任何分析思路,最后分析完也不知道自己在分析什么。
工作中分析数据的正常流程是,接到一个任务,你会先和业务人员沟通每个业务名称背后的含义,然后思考指标之间的关系。会召开专业会议讨论整个分析思路,然后根据分析目的找数据。如果数据不够,数据工程师会设置埋点收集相关数据。
所以分析思路就是要在分析开始前确定,然后去找数据分析问题。
4.第一时间给出的评论:PPT背景太明显。添加一个遮罩来覆盖背景,使文本更加突出。我看到这个被修改了。
需要改进的是,写项目文章时,和用ppt做分析报告的场景是不一样的。
用ppt做分析报告的时候,你面对的用户是在听你说话。ppt不用放太多文字,把图中的图表解释清楚就行了。
但是在写项目文章的时候,你面对的用户是在看你写的东西,所以这个时候不要把分析结论放在ppt里,而是用ppt展示你的可视化图表,然后用文字描述图表想要表达的分析结论是什么。
做项目的过程就是一个不断优化和学习的过程。我希望社区内的讨论和建议可以帮助社区成员更好地改进项目。
推荐:如何在最短的时间内找到初级数据分析师的工作?
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。系信息发布平台,仅提供信息存储空间服务。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。
本文来自网络,若有侵权,请联系删除,作者:张龙,如若转载,请注明出处: