# 1、因为每天用户练习次数可能不止一次,所以需要先将用户每天的练习日期去重。
# 2、再将用户id分组,按照练习日期进行排序。
# 3、计算练习日期减去第二步骤得到的结果值,用户连续练习情况下,相减的结果都相同。
# 4、按照id和日期分组并计数,筛选大于等于3的即为连续3天练习的用户。
## 供调试
# nowcoder = pd.DataFrame({'user_id':[3310,3310,3310,3313,3314,3315,3313],'question_id':['110','111','112','113','114','115','116'],'result':['right','right','wrong','wrong','right','right','right'],'date':['2021/12/20 08:00','2021/12/21 08:00','2021/12/22 08:00','2021/12/22 08:00','2021/12/23 08:00','2021/12/20 08:00','2021/12/27 09:00:00']})
import pandas as pd
from datetime import timedelta
nowcoder = pd.read_csv('nowcoder.csv')
nowcoder['date'] = pd.to_datetime(nowcoder['date'],format='%Y-%m-%d').dt.strftime('%Y-%m-%d')
nowcoder['date_m']=pd.to_datetime(nowcoder['date']).dt.strftime('%Y-%m')
data=nowcoder[nowcoder['date_m']>='2021-12']
df=data[['user_id','date']].drop_duplicates(['user_id','date'],inplace=False)
df['date']=pd.to_datetime(df['date'])
df['rank']=pd.to_timedelta(df.groupby(['user_id'])['date'].rank(),unit='d')
df['date_diff']=df['date']-df['rank']
_df=df.groupby(['user_id','date_diff'])['date'].count()
_df=_df.groupby('user_id').max()
print(_df[_df>=3])