博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
用Python告诉你:这些年,我们点过的的那些外卖
阅读量:2381 次
发布时间:2019-05-10

本文共 4600 字,大约阅读时间需要 15 分钟。

工作的这几年,点了不知道多少外卖。从最开始的石景山到后来的海淀再到朝阳。外卖已经成了大部分上班族生活中不可或缺的一部分,中午公司附近的餐厅人满为患,只能点外卖!晚上加班,还是点外卖!! 偶尔下班早了,路上买了菜买了肉准备大展身手,回到了合租的房子,发现隔壁小姐姐和男朋友在厨房做饭。得嘞,又一次打开App,点外卖!

在这里插入图片描述

有时候又会面临这样的烦恼,今天吃个啥?这家麻辣烫不错,另一家麻辣香锅也不错,突然发现又有一家的专享红包快过期了。

今天正好有空,想统计一下过去时间里我在饿了么上的订单情况,看看这些日子里,吃了什么?贡献了多少钱,当然再看看有什么好吃的已经很久没吃了。

经过多次测试,总结了以下几条

为了方便可以在网页访问饿了么,登录自己的账号

饿了么目前只能看到18年之后的账单
请求中只要携带包含登录信息的Cookie即可
近三个月订单与更早的订单,请求接口和参数稍有不同
通过手机&验证码登录自己的饿了么账号,成功之后会返回当前用户的user_id 和 登录Cookie。这两个信息为后续的请求提供必要的信息。

一开始访问订单,是这样的请求

h5.ele.me/restapi/bos/v2/users/26803312/orders?limit=8&offset=0h5.ele.me/restapi/bos/v2/users/26803312/orders?limit=8&offset=8h5.ele.me/restapi/bos/v2/users/26803312/orders?limit=8&offset=16

当继续下拉,出现"查看三个月前的外卖订单"按钮时,请求是这样的

h5.ele.me/restapi/bos/v2/users/26803312/old_orders?limit=8&from_time=h5.ele.me/restapi/bos/v2/users/26803312/old_orders?limit=8&from_time=1557718107

from_time的值在上次请求的响应中可以看到:

在这里插入图片描述

获取订单部分代码如下所示:

""" 获取近3个月订单"""def get_new_order(): num = 0 while 1: # 偏移量 offset = num * limit response = requests.get(url + f'?limit={limit}&offset={offset}', headers=headers, verify=False) resp_json = response.json() insert_mongo(resp_json) # 当响应订单数小于8时 跳出循环 if len(resp_json) < 8: print('====================') break num += 1"""历史订单"""def history_order(): from_time = '' while 1: response = requests.get(old_url + f'?limit={limit}&from_time={from_time}', headers=headers, verify=False) resp_json = response.json() from_time = resp_json['from_time'] orders = resp_json['orders'] # 经过测试,最后一个订单时,会在请求一次 响应为空 if not orders: break insert_mongo(orders)

运行之后发现,这一年多的时间,光外卖竟然花费了1W多一点。爬取的数据可以选择将数据保存在csv文件中,也可以选择Mongod。这里我是插入到了MongoDB中。

def insert_mongo(resp_json): if not resp_json: return  for i in resp_json: # 菜品 foods_group = i['basket']['group'][0] for j in foods_group: j['name'] = clean_data(j['name']) with open('foods_name_banxia.txt', 'a+') as f: f.write(j['name'] + '\n') # 将菜品写入文件,方便处理 # 配送费 deliver_price = 0 if 'deliver_fee' in i['basket'].keys(): deliver_price = i['basket']['deliver_fee']['price'] # 计算总花费 global total total += i['total_amount'] # 餐馆名 restaurant_name = clean_data(i['restaurant_name']) with open('restaurant_name_banxia.txt', 'a+') as f: f.write(restaurant_name + '\n') # 记录餐馆名 clo.insert_one({ # 餐馆名 'restaurant_name': restaurant_name, # 订单时间 formatted_created_at也可以取,但是近期的会显示xx小时之前 'created_timestamp': time_convert(i['created_timestamp']), # 价格 'total_amount': i['total_amount'], 'foods_group': foods_group, 'deliver_price': deliver_price })

在查看数据过程中,发现有的菜品和店铺名后面都有括号、或者方括号等特殊字符,里面的信息对我们来说也没有什么价值。可以简单的进行处理一下。

import redef clean_data(data): a = re.sub("\\(.*?\\)|\\(.*?\\)|\\[.*?\\]|\\【.*?\\】|[A-Za-z0-9\@\\!\/]", "", data) a = a.replace('盒', '').replace('克', '').replace('个', '')\ .replace('大份', '').replace('小份', '').replace('瓶', '').replace('组', '').replace(' ','') return a

这样,我们就将订单中的信息存在了数据库中。为了方便统计我将每个订单的菜品、以及餐馆名保存在了txt文件中。

可以通过wordcloud将餐品进行一个简单的可视化。

from random import randintfrom matplotlib import pyplot as pltfrom wordcloud import WordClouddef random_color(word=None, font_size=None, position=None, orientation=None, font_path=None, random_state=None): """Random Color func""" r = randint(30, 255) g = randint(30, 180) b = int(100.0 * float(randint(60, 120)) / 255.0) return "rgb({:.0f}, {:.0f}, {:.0f})".format(r, g, b)content = open('foods_name.txt', encoding='utf-8').read()wordcloud = WordCloud(background_color="white", width=1000, height=600, max_font_size=50, font_path='/System/Library/Fonts/PingFang.ttc', # 需要根据实际操作系统更换路径 color_func=random_color).generate(content)plt.imshow(wordcloud)plt.axis("off")plt.savefig('ele_wordcloud.png', format='png', dpi=200)

结果如下,有没有口味一样的同学呢?

用Python告诉你:这些年,我们点过的的那些外卖

同样我们可以在终端通过sort命令去常光顾的餐馆进行统计。

sort -n 按照数值大小排序 升序

sort -r 降序排列
uniq -c 去重和统计
head -5 展示前5条

cat mao_out.txt | sort | uniq -c | sort -rg | head -5

结果如下 去的最多的是贡贡米线和张亮麻辣烫,统计范围内均光顾了14次。

Python3XXXAir:$ cat restaurant_name.txt |sort|uniq -c| sort -rg| head -5

14 贡贡米线 14 张亮麻辣烫 13 京客隆 11 沁香缘家常菜 11 小巷麻辣香锅

可以通过matplotlib去统计一下每次定外卖的价格,并展示出来。

import pymongoimport matplotlib.pyplot as pltclient = pymongo.MongoClient('mongodb://localhost:27017/')db = client['ele']clo = db['info_banxia']result = clo.find({})y = [i['total_amount'] for i in result]x = [i for i in range(len(y))]plt.ylabel("The unit price")plt.xlabel("Times")plt.plot(x, y)plt.show()

结果图:在这里插入图片描述

可以看出,大部分价格在20 ~ 40 之间, 因为有时候为了满减,大部分都是跟同事朋友一起拼单。偶尔超过这个范围是买的水果、药等一些商品。

从这些数据中,我们同样得出,哪个月定外卖次数最为频繁。

# 该月定外卖次数count = []for i in data: ele_count = clo.count({'created_timestamp': re.compile(i)}) count.append(ele_count)plt.scatter(data, count)plt.xticks(rotation=45)plt.show()

在这里插入图片描述

可以看出 18年3月定了22次外卖是最多的一次。11月份的时候定外卖次数最少。

有人陪着一起,谁还愿意一直吃外卖啊!心塞!最后,大家辛苦工作的同时,也要多注意饮食卫生哟。

转载地址:http://itzab.baihongyu.com/

你可能感兴趣的文章
Eclipse Debug调试详解
查看>>
Type Dynamic Web Module 4.0 requires Java 1.8 or newer----彻底杀死Bug
查看>>
前端接口请求测试
查看>>
error RS102 too stale to catch up
查看>>
Nagios监控MySQL报错:NRPE: Unable to read output的详细解决过程
查看>>
YUM安装调试以及命令详解
查看>>
在MySQL中使用init-connect与binlog来实现用户操作追踪记录
查看>>
使用Duplicate target database命令恢复线上oracle datagard备库
查看>>
源码编译安装MySQL5.6.12详细过程
查看>>
Emoji表情符号录入MySQL数据库报错的解决方案
查看>>
Linux系统CentOS6.2版本下安装JDK7详细过程
查看>>
Android Studio之Activity切换动画(三)
查看>>
我是怎样和Linux系统结缘并通过红帽RHCE认证的
查看>>
DIYer最担心的事来了!CPU降价彻底无望
查看>>
WannaCry勒索软件还在继续传播和感染中
查看>>
为发展中国家儿童提供的OLPC OS 13.2.10 发布
查看>>
帅的代价!无框车门冻死:特斯拉一招解决
查看>>
美银美林提高Intel科技股的股票评级
查看>>
专家预测2019年的网络安全形势
查看>>
简单聊聊Linux学习经历
查看>>