Hadoop依赖配置管理
Maven 仓库里的 Hadoop 依赖配置,说难不难,说简单也得踩过坑才懂门道。
Hadoop 的核心依赖像是 HDFS、MapReduce、YARN 这些,基本是搞大数据绕不开的老三样。HDFS 负责文件分布式存储,MapReduce 搞并行计算,YARN 就负责调度资源,说白了,就是让集群跑得更高效。
依赖管理的话,直接在pom.xml
里加上hadoop-client
或者hadoop-common
就行,像下面这样:
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>最新版本号</version>
</dependency>
Hive 也挺常用,是你想用 SQL 风格去操作 Hadoop 数据时。记得加上hive-jdbc
,让 Java 能愉快地和 Hive 对话:
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-jdbc</artifactId>
<version>最新版本号</version>
</dependency>
小提醒一下,最新版本号
别忘了去 Maven 中央仓库看下最新的稳定版,图个省心。
哦对了,如果你对默认的 Maven 仓库位置不满意,想把依赖放到别的盘,比如 D 盘,改下settings.xml
就行,加个
配置:
<localRepository>D:/my-maven-repo</localRepository>
想更深入了解 Hadoop 底层逻辑或者 Hive 实际用法,推荐你看看这些文章:
如果你正准备上手大数据项目,建议你先把这些依赖配明白。别到时候写着写着报 ClassNotFound,光排坑就一下午。
下载地址
用户评论