小水滴真的是太可爱了吧

2020-09-22 21:53 已编辑门头沟学院产品经理

关注

【数据分析学习笔记day20】实战案例：全球食品数据分析

文章目录

- 全球食品数据分析

全球食品数据分析

项目参考：https://www.kaggle.com/bhouwens/d/openfoodfacts/world-food-facts/how-much-sugar-do-we-eat/discussion

# -*- coding : utf-8 -*-

# 处理zip压缩文件
import zipfile
import os
import pandas as pd
import matplotlib.pyplot as plt


def unzip(zip_filepath, dest_path):
    """ 解压zip文件 """
    with zipfile.ZipFile(zip_filepath) as zf:
        zf.extractall(path=dest_path)


def get_dataset_filename(zip_filepath):
    """ 获取数据集文件名 """
    with zipfile.ZipFile(zip_filepath) as zf:
        return zf.namelist()[0]


def run_main():
    """ 主函数 """
    # 声明变量
    dataset_path = './data'  # 数据集路径
    zip_filename = 'open-food-facts.zip'  # zip文件名
    zip_filepath = os.path.join(dataset_path, zip_filename)  # zip文件路径
    dataset_filename = get_dataset_filename(zip_filepath)  # 数据集文件名（在zip中）
    dataset_filepath = os.path.join(dataset_path, dataset_filename)  # 数据集文件路径

    print('解压zip...', end='')
    unzip(zip_filepath, dataset_path)
    print('完成.')

    # 读取数据
    data = pd.read_csv(dataset_filepath, usecols=['countries_en', 'additives_n'])

    # 分析各国家食物中的食品添加剂种类个数
    # 1. 数据清理
    # 去除缺失数据
    data = data.dropna()    # 或者data.dropna(inplace=True)

    # 将国家名称转换为小写
    # 课后练习：经过观察发现'countries_en'中的数值不是单独的国家名称，
    # 有的是多个国家名称用逗号隔开，如 Albania,Belgium,France,Germany,Italy,Netherlands,Spain
    # 正确的统计应该是将这些值拆开成多个行记录，然后进行分组统计
    data['countries_en'] = data['countries_en'].str.lower()

    # 2. 数据分组统计
    country_additives = data['additives_n'].groupby(data['countries_en']).mean()

    # 3. 按值从大到小排序
    result = country_additives.sort_values(ascending=False)

    # 4. pandas可视化top10
    result.iloc[:10].plot.bar()
    plt.show()

    # 5. 保存处理结果
    result.to_csv('./country_additives.csv')

    # 删除解压数据，清理空间
    if os.path.exists(dataset_filepath):
        os.remove(dataset_filepath)

if __name__ == '__main__':
    run_main()

全部评论

推荐最新楼层

11-25 00:08

陕西理工大学电子工程师

真心觉得25届的求职之路太艰难了

有没有经济学家能告诉我，三年后中国的就业市场会不会好转？我在校招中拿到了一份9k+的offer，还是行业的龙头企业，心里其实不想再考研了。但又总是担心，万一读研后薪资更高，我会不会后悔呢？

人才库七进七出人复活赛屡战屡败：别去赌，如果你考研也只是为了找一个好工作，那你不如现在就去

牛客创作赏金赛

点赞评论收藏

分享

11-20 00:14

西北工业大学 HTML5

我拒绝了秋招唯一的offer

日常加班和离家太远的工作状态让我无法接受，哪怕现在是就业寒冬，我也不想妥协。于是，我选择了重新出发，冬招，我来了！虽然现在是0offer，但我相信，总会有更适合我的机会出现。

牛客创作赏金赛

点赞评论收藏

分享

10-08 00:57

门头沟学院 Java

26届Java实习简历

这个简历可以投小厂么，就做了个点评项目，有点不敢投😰。实习的话八股建议看哪些呀，求大佬们给点建议😭

牛客779533466号：学历够了一个点评足够亲测

点赞评论收藏

分享

11-20 15:05

门头沟学院 Java

掌趣科技（客户端开发）11.20

1、自我介绍2、介绍实习工作3、从实习工作引出几个场景题4、线程池的配置，以及为什么这么配置？5、详细问了一下HashMap的扩容、get（）方法的过程？然后就是反问，无手撕。总共38分钟

查看6道真题和解析

点赞评论收藏

分享

点赞收藏评论

全站热榜

正在热议

# 25届秋招总结 #

329194次浏览 3111人参与

# 上班苦还是上学苦呢？ #

72842次浏览 654人参与

# 阿里云管培生offer #

37081次浏览 422人参与

# 地方国企笔面经互助 #

4520次浏览 12人参与

# 如果有时光机，你最想去到哪个年纪？ #

21828次浏览 406人参与

# 选完offer后，你后悔学本专业吗 #

21953次浏览 159人参与

# 百度开奖 #

184354次浏览 1155人参与

# 我的实习求职记录 #

6070897次浏览 83545人参与

# 如何一边实习一边秋招 #

996823次浏览 12664人参与

# 找工作时遇到的神仙HR #

553475次浏览 3801人参与

# 入职第一天，你准备什么时候下班 #

21640次浏览 144人参与

# 招聘要求与实际实习内容不符怎么办 #

10786次浏览 277人参与

# bilibili求职进展汇总 #

33259次浏览 357人参与

214815次浏览 2535人参与

# 学历or实习经历，哪个更重要 #

53958次浏览 423人参与

# 你今年的平均薪资是多少？ #

70884次浏览 345人参与

# 实习工作，你找得还顺利吗？ #

247779次浏览 2909人参与

# 通信硬件薪资爆料 #

609156次浏览 5193人参与

# 海康威视求职进展汇总 #

400790次浏览 3408人参与

# 携程求职进展汇总 #

135826次浏览 931人参与

# 正在实习的你，几点下班 #

53388次浏览 396人参与

# 工作两年想退休了 #

53125次浏览 672人参与

牛客网
牛客企业服务