2027暑期-拼多多后端开发一面
手撕1:自己设置结构初始化ip路由表,有ip(可能有掩码也可能没有)与跳转ip,实现输入ip地址,输出下一跳ip地址的功能
手撕2:DNS域名可能对应很多ip,每个域名下的ip有自己的权重(0-100的整数),实现输入域名,按权重的概率输出一个ip地址,例如(ip1:1,ip2:2,ip3:3)输出ip1的概率是1/6,ip2的概率是2/6,ip3的概率是3/6
有没有监测过Redis上线后是否满足延迟要求?如果有告警的话怎么排查告警?
怎么部署上线的?是用了K8s/Docker吗,介绍一下?告警是怎么埋点获取到的?
数据库用的是什么?(Hadoop:大数据底层平台;Hive:基于 Hadoop 的 SQL 大数据仓库;Spark:通用分布式计算引擎;)介绍一下Hadoop、Hive与Spark?(Hive 主要用于离线分析,Spark 主要用于实时分析)为什么要用Hive?数据仓库、数据库有啥区别?
- Hadoop 是大数据生态的底座,由 HDFS(分布式存储)、YARN(资源调度)和 MapReduce(早期计算框架)组成,为海量数据提供可靠存储和分布式计算能力;
- Hive 构建在 Hadoop 之上,是一个使用 SQL(HiveQL)来管理和分析存储在 HDFS 上数据的数据仓库系统,本质是把 SQL 转成 MapReduce/Tez/Spark 任务执行,适合离线批处理和数仓建模;
- Spark 则是新一代通用分布式计算引擎,采用内存计算,速度比 MapReduce 快数十倍,支持批处理、SQL、流处理、机器学习等,并可直接读取 Hive Metastore,与 Hive 深度整合。
- 三者关系可以理解为:Hadoop 提供底层“地基”,Hive 提供“SQL + 数据管理”,Spark 提供“高速计算引擎”,它们不是竞争关系,而是共同构成现代大数据平台的核心。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Lowo's blog!
评论

