虾皮本三社招,一二面凉经
个人本三java,投虾皮PFMS的后台开发(主要是golang和python)
2021.9.7一面,耗时70min
1.浏览器输入url到显示的过程
- DNS解析
- TCP连接
- 客户端发送请求
- 服务端处理请求并渲染页面返回
- 浏览器解析页面并显示响应内容
- 断开连接
2.客户端怎么连接到服务端?ip找到的是一台服务器吗?
根据DNS服务器查询到服务端的公网ip,严格意义上,ip对应的是一个路由器,由路由决定具体是一台服务器还是多台服务器。
3.ip找到的路由器宕机怎么办?(没有想法)
在最入口位置宕机了,连网关都没到,实在没有什么想法能保持这种情况下的高可用。
4.为什么不通过dns做负载均衡?(未答出)
dns解析是顺序轮询机制,无法根据服务器资源分配负载;
dns服务器本身无法检测域名服务端是否可用;
即使部分机器宕机,更新ip后,也没办法及时使用,需要等待缓存被刷新
5.dns使用查询方式?
迭代查询和递归查询,区别在于迭代查询由本地dns服务器与多个上游服务器进行查询,存在跨级查询,本地dns服务器需要发起多次查询;
而递归查询由每级上游服务器向对应的根服务器查询,只有逐级查询,本地服务器只需要发起一次查询。
6.dns使用什么协议?(知道53端口,但具体啥协议忘了)
DNS同时使用TCP/UDP协议,占用53端口
7.知道什么是dns污染吗?
真实的域名ip记录被dns服务商修改,指向错误的ip
8.传输的数据怎么到达进程?(未答出)
接收数据时,数据流动:网络=》网卡=》内核=》进程
- 数据从网卡到内核主要方式有2种,轮询和通知。前者需要不断询问,浪费cpu资源,后者虽然无需cpu空转,但是通知需要中断处理,也会导致性能问题。
linux下通过两者结合,在处理中断的同时进行轮询,以便在每次中断时多处理一些数据
- 数据从内核到进程,主要通过应用程序同步读取数据
9.linux的非阻塞io
poll、epoll、select
10.poll和epoll的区别
主要差异在于:
- epoll为应用程序管理了需要监听的文件描述符列表信息,以红黑树形式存储,每次epoll_wait时,直接返回就绪链表,时间复杂度为O(1);
- poll需要在poll时主动遍历待监听的文件描述符列表,该过程时间复杂度为O(n)
11.为什么epoll是O(1)
因为epoll创建实例后,需要为其注册待监听的文件描述符fd上的事件event,注册时,epoll将事件添加到红黑树并为其注册一个回调函数。
事件触发时,将对应fd上的event添加到就绪列表,等到应用程序调用epoll_wait时,直接返回就绪列表,无需等待。
12.http和https差异
https提供加密,安全的网络请求
13.什么是中间人攻击?
客户端A想要和服务端B建立HTTPS连接,由于客户端A操作问题,比如连接代理并手动信任其他非法证书,导致客户端A其实在与中间人C建立连接,而中间人C模拟客户端A与服务端B建立连接,此时,客户端A和服务端B之间的请求对于中间人C来说是透明的。
14.https怎么验证证书有效性?
客户端本地一般会保存权威CA的根证书,根证书中包含了该CA的公钥。
而证书由颁发该证书的CA使用的根证书的私钥进行签名,证书会包含持有者的公钥,颁发者等信息以及一个经过CA私钥加密的摘要(签名),客户端根据本地保存的CA公钥重算签名,当两者签名一致时表示证书有效(忽略证书时效问题)。
15.服务端怎么防止中间人攻击?
配置服务端将http请求跳转为https请求
16.TIME_WAIT状态的socket太多怎么处理?(未答出)
- 设置net.ipv4.tcp_tw_reuse = 1,表示开启重用,允许将TIME_WAIT的socket重新用于新的TCP连接,默认为0;
- 设置net.ipv4.tcp_tw_recycle = 1,表示开启TIME_WAIT的socket快速回收;
- 设置net.ipv4.tcp_max_tw_buckets = 5000,指定TIME_WAIT的socket最大数量,大于该值时直接清除TIME_WAIT的socket并打印警告信息,默认为180000;
- 此外,可以通过设置net.ipv4.tcp_syncookies = 1开启SYN Cookie;通过net.ipv4.tcp_max_syn_backlog = 8192指定SYN队列的长度用于容纳更多等待连接的网络连接
17.mysql怎么存储索引?
- 逻辑上使用B+树存储
- 物理上使用16K的页保存多条索引,同时每64个页作为一个区进行存储。
18.mysql的主键索引和非主键索引存储上有什么区别?
主键索引保存每一条行记录的完整数据,非主键索引只保存所建索引的列数据和主键。
19.mysql如何保证数据的安全(持久性)?
通过redolog和binlog来保证。产生事务时,redolog会保存每一次物理变更日志,而binlog在二阶段提交的prepare阶段保存逻辑变更日志,当发生宕机时,可以根据这两者进行数据恢复。
20.为什么redolog记录的时物理变更日志?
因为数据恢复需要保持幂等性(这点没答到),另外单页的多次更改在刷脏页时可以合并进行更新,加快性能,避免多次随机IO。
21.宕机时,数据怎么恢复,从哪开始恢复?
在commit时,redolog会添加commit标记,未添加上的根据是否存在对应binlog来判断该组redolog是否要恢复。
具体恢复时,检查mysql的checkpoint,在redolog上找到该checkpoint对应的lsn,按序恢复后续的redolog
存在联合索引a,b,判断4条sql对联合索引的利用情况
- select * from t where a = 0 and b = 0
- select * from t where a = 0 or b = 0
- select * from t where a > 0 and b = 0
- select * from t where a = 0 and b > 0
算法:单链表返回倒数第K个元素的值
前后指针实现即可
// 主要代码 private int getLastKth(ListNode root, int k) { ListNode left = root, right = root; for (int i = 0; i < n && right != null; i++) { right = right.next; } while(right != null) { left = left.next; right = right.next; } return left.value; }
尤其注意,虾皮使用的是自己的视频面试网站,代码模式是牛客的ACM模式,虽然一般不会要求写全,但是链表之类的数据结构需要自己手写,还需要写main方法并造点固定数据,另外代码提示功能一般般
2021.9.8二面,耗时55min,挂!
二面面试官是用人部门leader,完全针对项目询问,主要考察对业务整体逻辑的理解以及数据流向问题。
记得的几个主要问题:
1.数据库行锁是怎么实现的?(看过一回,实在没记住)
mysql的行锁记录通过哈希保存在lock_sys中,节点key由页号计算得到,value为锁信息,使用bitmap来保存该页面内被锁的行记录。
2.编码检查未重复后,如何保证插入时不再出现重复(编码上不可设置唯一索引)?
把各个编码构造字段和编码值一起做哈希,该哈希字段做唯一索引
3.如何保证数据不被DBA篡改?
1、重要数据字段增加签名,比如使用摘要算法时需要在应用程序上参数化salt值;如果使用非对称加密时也需要在应用程序上参数化私钥。
2、极度重要的数据进行分应用程序拆分,每个应用程序只获取一部分数据,最后的库也只能保存部分数据,完整数据需要通过前置组件的参数配置进行复原。(极度安全数据情况下,安全性大于效率时使用,面试没答到)
4.如何保证并发更新一条记录的多个字段时,不会导致哈希错乱。(回答请求排队🤣)
select for update
收到感谢信了,二面发挥确实一般,上个公司的工作太细太细了,个人对整体逻辑流向没怎么搞懂过,毕竟几百号人服务一个老系统,只要涉及一点点其他单据的事情就是跨部门交流。
#虾皮招聘##面经##社招##Shopee#