2019-08-09 20:10 已编辑西北工业大学 Java

关注

sparkstreaming实时流处理项目（三）

1.产生日志

编写一段py脚本模拟数据的产生：

#!/usr/bin/env python
# -*- coding:utf-8 -*-
#@Time : 2019/3/3 21:01
#@Author: qianliu
#@File : __init__.py.py
import random

import random
import time

url_paths = [
        "class/112.html",
        "class/128.html",
        "class/145.html",
        "class/146.html",
        "class/131.html",
        "class/130.html",
        "learn/821",
        "course/list"
]

ip_slices = [132,156,124,10,29,167,143,187,30,46,55,63,72,87,98,168]

http_referers = [
        "http://www.baidu.com/swd={query}",
        "https://www.sogou.com/webquery={query}",
        "http://cn.bing.com/searchq={query}",
        "https://search.yahoo.com/searchp={query}"
]

search_keyword = [
        "Spark SQL实战",
        "Hadoop基础",
        "Storm实战",
        "Spark Streaming实战",
        "大数据面试"
]

status_codes = ["200","404","500"]

def sample_url():
        return random.sample(url_paths,1)[0]

def sample_ip():
        slice = random.sample(ip_slices,4)
        return ".".join([str(item) for item in slice])

def sample_referer():
        if random.uniform(0,1) > 0.2:
                return "-"

        refer_str = random.sample(http_referers,1)
        query_str = random.sample(search_keyword,1)
        return refer_str[0].format(query=query_str[0])

def sample_status_code():
        return random.sample(status_codes,1)[0]

def generate_log(count = 10):

        time_str = time.strftime("%Y-%m-%d %H:%M:%S",time.localtime())

        f = open("/home/hadoop/access.log","w+")

        while count >= 1:
                query_log = "{ip}\t{local_time}\t\"GET /{url} HTTP/1.1\" \t{status_code}\t{referer}".format(url=sample_url(),ip=sample_ip(),referer=sample_referer(),status_code=sample_status_code(),local_time=time_str)
                print(query_log)
                f.write(query_log + "\n")
                count = count-1

if __name__ == '__main__':
        generate_log(100)

tail命令监控某段日志：

tail -200f access.log

使用crontab表达式

crontab -e
#向里面写入，就会过一分钟时间执行一次/home/hadoop/data/project/log_generator.sh这个脚本，这个脚本里面是执行生成访问记录的py脚本
*/1 * * * * /home/hadoop/data/project/log_generator.sh

这样就实现了过一段时间实现一部分访问记录：

全部评论

推荐最新楼层

07-08 11:11

广东工业大学线下拓展运营

原来投简历发图片会被哔掉

人麻了，不知道是不是有人在背后做局阴我可能是我动了谁的蛋糕奶酪披萨汉堡桌饺馄饨火锅炸鱼薯条烤鸭鸡排臭豆腐马卡龙红烧肉白灼芥蓝玉子烧烤全羊苹果派涮羊肉方便面肉夹馍热干面天妇罗羊肉泡馍红烧狮子头巧克力螺狮粉咖喱猪排柠檬茶麻辣烫羊肉串白切鸡...资本，你们赢了...

点赞评论收藏

分享

07-11 11:14

门头沟学院产品经理

各个招聘软件海投了简历，突然有个自称快手的hr加我，越聊越感觉怪怪的，请问靠谱吗？

点赞评论收藏

分享

不愿透露姓名的神秘牛友

06-11 13:34

0实习双非进大厂，我做了什么

offe从四面八方来：我真的没时间陪你闹了

点赞评论收藏

分享

06-02 19:23

华南理工大学 Java

友友们看看简历，不玻璃心求拷打

五月中才醒悟，现在才学15天，项目全是网上烂大街项目，每天晚上都失眠😭，六月还有机会找到实习吗

屌丝逆袭咸鱼计划：心态摆好，man，晚点找早点找到最后都是为了提升自己好进正职，努力提升自己才是最关键的😤难道说现在找不到找的太晚了就炸了可以鸡鸡了吗😤早实习晚实习不都是为了以后多积累，大四学长有的秋招进的也不妨碍有的春招进，人生就这样

点赞评论收藏

分享

不愿透露姓名的神秘牛友

07-10 11:31

服了，面试还能通知错人。。。

简直是二次伤害了

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 实习生的蛐蛐区 #

57870次浏览 425人参与

# 运营面经 #

115943次浏览 1251人参与

# 你认为小厂实习有用吗？ #

22201次浏览 259人参与

# 如果公司给你放一天假，你会怎么度过？ #

15000次浏览 107人参与

# 应届生，你找到工作了吗 #

22239次浏览 157人参与

# 三一重工求职进展汇总 #

13594次浏览 62人参与

# 你的领导最像哪种动物，为什么? #

14684次浏览 107人参与

# 说说你知道的学历厂 #

41936次浏览 258人参与

# 材料人，你们签了哪个公司 #

7624次浏览 18人参与

# 哪一瞬间觉得自己长大了 #

10879次浏览 239人参与

# 如果重来一次你还会读研吗 #

176060次浏览 1780人参与

# 计算机有哪些岗位值得去？ #

17766次浏览 163人参与

# 面试尴尬现场 #

34246次浏览 229人参与

# 烟草笔面经互助 #

17943次浏览 184人参与

# 你找工作的时候用AI吗？ #

19808次浏览 240人参与

# 下班后的时间你怎么安排 #

10936次浏览 150人参与

# 硬件人秋招的第一个offer #

80314次浏览 1155人参与

# 电网笔面经互助 #

37089次浏览 359人参与

# 秋招最大的收获是什么？ #

36222次浏览 310人参与

# 社会教会你的第一课 #

38374次浏览 479人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务