10大行业公开数据免费下载:电商行业!
10大行业公开数据免费下载:电商行业!
- 电商婴儿用户
1)数据集描述
数据下载地址:Tianchi:Data sets
商品表格字段:
user_id:用户身份信息
auction_id:购买行为编号
cat_id:商品种类序列号
cat:商品序列号
property:商品属性
buy_mount:购买数量
day:购买时间
婴儿信息表格字段:
birthday:出生日期
gender:性别(0 male;1 female)
2)参考分析案例
- 淘宝用户行为数据
1)数据集描述
记录了一百万名有行为的淘宝用户行为记录样本,包含1,0015,0806条数据,987994个不同用户,4162024个不同商品,3623个不同商品分类, 4种行为(点击、购买、加购、喜欢)数据。各个字段含义和数据下载地址:天池数据集
2)参考分析案例
- 亚马逊智能产品评论
1)数据集描述
亚马逊智能产品评论(kindle,Fire TV Stick等),数据下载地址:Consumer Reviews of Amazon Products
数据集介绍在页面这个地方:
用下面红框中的数据集
数据集一共有34655行,17个字段分别为:
id-用户编号
name-产品名称
asins-产品编号
brand-品牌
categories-产品类别
keys-类别关键字
manufacturer-制造商
date-评论时间
dateAdded-追评时间
dateSeen-评论可见时间
doRecommend-评论是否被推荐
numHelpful-帮助性分子数
rating-评分
sourceURLs-评论链接
text-评论文字内容
title-评论标题
username-用户名
2)参考分析案例
- 亚马逊食品评论
1)数据集描述:
该数据集包括对来自亚马逊的精美食品的评论。这些数据的使用期限超过10年,包括1999年10月至2012年10月约500,000条评论。评论包括产品和用户信息,评级以及纯文本评论。它还包括来自所有其他亚马逊类别的评论。
数据形状为:568k 行x 10列,10个字段分别为:ID,产品ID,用户ID,用户名,帮助性分子数,帮助性分母数,评分(1-5),评论时间,评论概括,评论内容
数据获取地址:https://www.http://kaggle.com/snap/amazon-fine-food-reviews
2)数据集中各字段含义:
ProductId (产品ID)
UserId (用户ID)
ProfileName (用户名)
HelpfulnessNumerator (认为评论有用的用户数量)
HelpfulnessDenominator (表明他们是否认为该评论有用的用户数量)
Score (评分:从1至5)
Time (发表评论的时间)
Summary (对于评论的概括)
Text (评论的内容)
3)参考分析案例
- 亚马逊商品评论
1)数据集描述:
这份数据收集了亚马逊2017年有关商品的制造商,售价,评论,库存等10000条信息。
数据获取地址:https://data.world/promptcloud/fashion-products-on-amazon-com
2)数据集中各字段含义:
product_name- 产品名称
manufacturer-制造商
price-价格
number_available_in_stock- 库存
number_of_reviews- 评论数量
number_of_answered_questions-回答的问题数
average_review_rating-平均评价
amazon_category_and_sub_category-分类与子分类
product_information-产品信息
items_customers_buy_after_viewing_this_item-项目-客户_购买_后查看_此_项目
customer_reviews-客户评论内容
3)参考分案例
亚马逊kindle
1)数据集描述
来自亚马逊上关于kindle,Fire TV Stick等产品的评论。此数据文件为CSV格式,大小6MB。数据集包括每种产品的基本产品信息,评级,纯文本评论等。
数据集下载地址:Consumer Reviews of Amazon Products
数据形状为:34655行 * 17列,17个字段分别为:用户ID,产品名称,产品编号,品牌,产品类别,类别关键字,制造商,评论时间,追评时间,评论可见时间,评论是否被推荐,帮助性分子数,评分(1-5),评论链接,评论文字内容,评论题目,用户名
女鞋
1)数据集描述
这是关于女鞋及其产品信息的列表。
数据集包括鞋子名称,品牌,价格等。每个鞋子的每个价格都有一个条目,有些鞋子可能有多个条目。
数据集下载地址:Women's Shoe Prices
该数据集有23列,共33802行,各字段含义如下:
- id
- asins
- brand:品牌
- categories:类别
- colors:颜色
- count:计数
- dateAdded:添加日期
- dateUpdated:更新日期
- descriptions:说明
- dimension:尺寸
- ean:通用条形码
- features:特征
- imageURLs:图像URL
- keys: 主键
- manufacturer:供应商
- manufacturerNumber:供应商编号
- name:描述
- prices.amountMax:最高价格
- prices.condition:状态
- prices.currency:货币
- prices.isSale:是否销售
- prices.merchant :销售渠道
2)参考分案例
- ebay摩托车
1)数据集描述
kaggle平台采集的有关ebay的摩托车的销售情况,
数据获取地址:Ebay Motorcycle Prices
字段含义:
Condition:摩托车新旧情况(new:新的 和used:使用过的)
Condition_Desc:对当前状况的描述
Price:价格
Location:发获地址
Model_Year:购买年份
Mileage:里程
Exterior_Color:车的颜色
Make:制造商(牌子)
Warranty:保修
Model:类型
Sub_Model:车辆类型
Type:种类
Vehicle_Title:车辆主题
OBO:车辆仪表盘
Watch_Count:表数
N_Reviews:评测次数
Seller_Status:卖家身份
Auction:拍卖(Ture或者False)
Buy_Now:现买
Bid_Count:出价计数
2)参考分案例
- 英国在线零售业务
1)数据集描述
这是一个跨国数据集,其中包含2010年12月12日至2011年12月9日期间发生的所有在英国注册的非商店在线零售业务的交易。该公司主要销售独特的全场礼品,并且大部分客户是批发商。
数据获取地址:E-Commerce Data
2)字段含义
数据形状为:542k 行x 8列,8个字段分别为发票号,发票日期,商品码,商品描述,数量,单价,顾客ID,国家。
InvoiceNo: 发票号码,每笔交易分配唯一的6位整数,而退货订单的代码以字母'c'开头。StockCode: 产品代码,每个不同的产品分配唯一的5位整数。
Description: 产品描述,对每件产品的简略描述。
Quantity: 产品数量,每笔交易的每件产品的数量。
InvoiceDate: 发票日期和时间,每笔交易发生的日期和时间。
UnitPrice: 单价(英镑),单位产品价格。
CustomerID:顾客号码,每个客户分配唯一的5位整数。
Country: 国家的名字,每个客户所在国家/地区的名称。
3)参考分案例
- 巴西电子商务公共数据集
1)数据集描述
Olist的巴西电子商务公共数据集,数据源中的字段较多,其中比较关键的字段有:订购产品价值、订购商品数量、订购卖家数量、客户城市、产品类别名称和评分。
2)参考分案例
电商数据初探究之我上我也行(excel)
- 运营商用户流失率
1)数据集描述
数据下载地址:Telco Customer Churn
1,customerID(String)--用户ID
2,gender(String)--性别(男,女)
3,SeniorCitizen(Numeric)--用户是否属于老年人(1:是 0:不是)
4,Partner(String)--用户是否有伴侣(是,否)
5,Dependents(String)--用户是否有受赡养者(是,否)
6,tenure(Numeric)--用户在网多少个月
7,PhoneService(String)--用户是否有电话服务(是,否)
8,MultipleLines(String)--用户是否有多线服务(是,否)
9,InternetService(String)--用户的上网服务提供商(DSL,Fiber optic)
10,OnlineSecurity(String)--用户是否有在线安全服务(是,否)
11,OnlineBackup(String)--用户是否有在线备份服务(是,否)
12,DeviceProtection(String)--用户是否做了设备保护(是,否)
13,TechSupport(String)--用户是否有技术支持服务(是,否)
14,StreamingTV(String)--用户是否有stream Tv服务(是,否)
15,StreamingMovies(String)--用户是否有stream movie服务(是,否)
16,Contract(String)--用户的合同期是怎样的(一个月,一年,两年)
17,PaperlessBilli(String)--用户是否有无纸账单(是,否)
18,PaymentMethod(String)--用户支付方式(电子支票,邮寄支票,银行转账)
19,MonthlyCharges(Numeric)--用户每月缴纳的费用
20,TotalCharges(Numeric)--用户历史总共缴纳的费用
21,Churn(Numeric)--用户现在是否流失转
2)社群会员作业
第1关行业选择:数据分析小白的进击之路
- 爬取的数据:淘宝彩妆品牌colorpop
1)参考分案例
- 沃尔玛销售数据
1)数据集描述
数据收集了位于不同地区的45家沃尔玛商店的历史销售数据
字段含义:
features.csv 8191*12
此文件包含关于给定日期的商店、部门和区域活动的附加数据。它包含以下字段:
Store 商店号
Date 日期
Temperature 区域平均温度
Fuel_Price 区域燃料成本
MarkDown1-5 沃尔玛正在运行的促销标记相关的匿名数据。MarkDown数据只在2011年11月之后可用,并非所有商店都一直可用。缺失值都用NA标记。
CPI 消费价格指数
Unemployment 失业人数
IsHoliday 是否为特殊节假日
stores.csv 45k*3
Store 商店号
Type 类型
Size 规模
train.csv 422k*5
历史训练数据,涵盖2010-02-05至2012-11-01。在文件中将找到以下字段:
Store 商店号
Dept 部门号
Date 日期
Weekly_Sales 星期销售
IsHoliday - whether the week is a special holiday 是否为特殊节假日
test.csv 115k*4
需要预测的数据文件
Store 商店号
Dept 部门号
Date 日期
IsHoliday - whether the week is a special holiday 是否为特殊节假日
合并给出16个数据指标为
store 、dept、 date 、weekly_sales 、 lsHoliday
temperature 、 fuel_price 、 MarkDown1-5
cpi、unemployment、type、size
- 餐厅营业收入
1)数据集描述
餐厅营业收入预测建模竞赛提供了137家餐厅的信息作为数据,包括:开业时间、地点、城市类型、人口统计、房地产和商业等相关属性信息。
数据下载地址:
https://www.http://kaggle.com/c/restaurant-revenue-prediction
- 食品营养成分
食品营养成分数据包括10万多种食品的营养物质、有效成分、过敏原等组成,由全世界150多个国家的志愿者协作贡献生成。
数据获取地址:
https://www.http://kaggle.com/openfoodfacts/world-food-facts
- 亚马逊手机
1)数据集描述
来自kaggle的手机数据
数据下载地址:Amazon Reviews: Unlocked Mobile Phones
2)字段含义
商品名称,价格,评分,评价,评价推荐。
- 便利店数据
1)数据集描述
这个数据类似于国内很多便利商店 (商品种类有限),如seven-eleven,罗森,甚至专注于食品的盒马鲜生的销售数据分析和会员情况分析。
包括了558077个交易,总单品量240008,这个数据包括了7个字段。
数据下载地址:https://www.http://kaggle.com/sanjeet41/online-retail
字段含义:
Invoice_number: 发票代码
Stock_code:存活代码
Invoice_date:开票日期/购买日期,year month类型
Quantity:数量
Unit_Price:单价
Customer_ID:会员编号,非会员为missing value
Country:国家
- 黑五(国外的黑五类似国内的双11)
1)数据集描述
kaggle上面找到关于黑五的数据,一共有550000条数据。
零售商店中的交易数据,没有时间维度,职业、城市、婚姻状况进行了编码处理,产品分类进行了模糊处理。
数据获取地址:https://www.http://kaggle.com/mehdidag/black-friday
2)数据集中各字段含义:
数据包含12个字段,分别如下:
User_ID:用户编码
Product_ID:产品编码
Gender:性别(F表示女性,M表示男性)
Age:年龄(分0~17、18~25、26~35、36~45、46~50、51~55、55+共7个年龄段)
Occupation:职业(分为0~20 共20个类别)
City_Category:城市类别(分ABC共3个类别)
Stay_In_Current_City_Years:在当前城市停留的年数(分0、1、2、3、4+共5个类别)
Marital_Status:婚姻状况(0表示未婚,1表示已婚)
Product_Category_1:商品所属分类1,不可为空
Product_Category_2:商品所属分类2
Product_Category_3:商品所属分类3
Purchase:购买价格,以美元计算
【问】这个商品所属分类1(Product_Category_1)下面的数字代表的是啥?
【答】商品所属分类1(Product_Category_1)是个大类,下面包括其他小类。比如类别是钱,下面又可以细分为几类:人民币,美元,澳币等。
商品所属分类1(Product_Category_1),商品所属分类2(Product_Category_2),商品所属分类3(Product_Category_3)是什么关系?
一个商品可以属于不同类别,所以会有分类1,分类2,你打开一个亚马逊的网站里面的商品,可以看到这个商品属于不同类别。
【问】比如我通过数据筛选,确定一个产品编码,得到1类产品,下面数字都是5,按理说这是同一种商品吧?为啥价格完全不一样呢?
【答】这一列是消费金额,不是商品的单价,比如你买1个苹果是1元,买10个苹果是10元
学习资料见知识星球。
以上就是今天要分享的技巧,你学会了吗?若有什么问题,欢迎在下方留言。
快来试试吧,小琥 my21ke007。获取 1000个免费 Excel模板福利!
更多技巧, www.excelbook.cn
欢迎 加入 零售创新 知识星球,知识星球主要以数据分析、报告分享、数据工具讨论为主;
1、价值上万元的专业的PPT报告模板。
2、专业案例分析和解读笔记。
3、实用的Excel、Word、PPT技巧。
4、VIP讨论群,共享资源。
5、优惠的会员商品。
6、一次付费只需99元,即可下载本站文章涉及的文件和软件。
共有 0 条评论