6. Flink学习之旅(六)

1. Flink DataSet语义注解

  • 语义注解可用于为 Flink 提供有关函数行为的提示。它们告诉系统函数读取和评估函数输入的哪些字段,以及未修改的函数将哪些字段从其输入转发到输出。
  • 语义注解是加快执行速度的强大方法,因为它们使系统能够推理出在多个操作之间重用排序顺序或分区。
  • 使用语义注解最终可以使程序免于不必要的数据改组或不必要的排序,并显着提高程序的性能。

1.1. ForwardedFields转发字段

  • 所谓转发字段,字面理解就是某个字段不经过处理直接存储到另一位置, ForwardedFields可以分为两类,一类是以map算子为代表的转发字段,另一类是join算子的转发字段,这两类算子的主要区别就是输入的DataSet个数。

1.1.1. 单输入算子转发字段

  • withForwardedFields("_n"):要求该算子输入数据的第n个字段与输出的第n个字段相匹配,若有多个类似匹配,可用分号分隔。

    val env = ExecutionEnvironment.getExecutionEnvironment
    val ds: DataSet[Point] = env.fromElements(Point("a", 10.0), Point("b", 20.0), Point("a", 30.0))
    
    val value: DataSet[(String, Double, Long)] = ds.map(t => (t.x, t.y))
      .map { x => (x._1, x._2, 1L) }.withForwardedFields("_1; _2") // 第一字段,第二字段个输入匹配
    value.print()
    

    在这里插入图片描述

    val env = ExecutionEnvironment.getExecutionEnvironment
    val ds: DataSet[Point] = env.fromElements(Point("a", 10.0), Point("b", 20.0), Point("a", 30.0))
    
    val value: DataSet[(String, Double, Long)] = ds.map(t => (t.x, t.y))
      .map { x => (x._1, x._2, 1L) }.withForwardedFields("_1; _2")
      .reduce{(p1, p2) => (p1._1, p1._2 + p2._2, p1._3 + p2._3)}.withForwardedFields("_1") // 第一个字段匹配
    value.print()
    

    在这里插入图片描述

  • withForwardedFields("_n->x"):要求该算子的输出类型是某个class,并且x是该class中的某个属性,且输入数据的第n个字段与输出类型中的属性x相匹配

    val env = ExecutionEnvironment.getExecutionEnvironment
    val ds: DataSet[Point] = env.fromElements(Point("a", 10.0), Point("b", 20.0), Point("a", 30.0))
    
    val value: DataSet[Point] = ds.map(t => (t.x, t.y))
      .map { x => (x._1, x._2, 1L) }.withForwardedFields("_1; _2")
      .reduce { (p1, p2) => (p1._1, p1._2 + p2._2, p1._3 + p2._3) }.withForwardedFields("_1")
      .map { x => new Point(x._1, x._2 / x._3) }.withForwardedFields("_1->x")
    value.print()
    

在这里插入图片描述

  • withForwardedFields("*->_n"):要求该算子输入数据的所有字段与输出的第n个字段相匹配

    val env = ExecutionEnvironment.getExecutionEnvironment
    val ds: DataSet[Point] = env.fromElements(Point("a", 10.0), Point("b", 20.0), Point("a", 30.0))
    
    val value: DataSet[(Int, Point)] = ds.map(t => (t.x, t.y))
      .map { x => (x._1, x._2, 1L) }.withForwardedFields("_1; _2")
      .reduce { (p1, p2) => (p1._1, p1._2 + p2._2, p1._3 + p2._3) }.withForwardedFields("_1")
      .map { x => new Point(x._1, x._2 / x._3) }.withForwardedFields("_1->x")
      .map(t => (1, t)).withForwardedFields("*->_2")
    value.print()
    

    在这里插入图片描述

  • withForwardedFields("_n1->_n2"):要求该算子输入数据的第n1个字段与输出的第n2个字段相匹配

    val env = ExecutionEnvironment.getExecutionEnvironment
    val ds: DataSet[Point] = env.fromElements(Point("a", 10.0), Point("b", 20.0), Point("a", 30.0))
    
    val value: DataSet[(String, Int)] = ds.map(t => (t.x, t.y))
      .map { x => (x._1, x._2, 1L) }.withForwardedFields("_1; _2")
      .reduce { (p1, p2) => (p1._1, p1._2 + p2._2, p1._3 + p2._3) }.withForwardedFields("_1")
      .map { x => new Point(x._1, x._2 / x._3) }.withForwardedFields("_1->x")
      .map(t => (1, t)).withForwardedFields("*->_2")	
      .map(p => ("test", p._1)).withForwardedFields("_1->_2")  // 输入的第一个字段和输出的第二个字段匹配
    value.print()
    

    在这里插入图片描述

1.1.2. 双输入算子转发字段

  • withForwardFieldsFirst 函数的第一个输入规则定义,定义内容语法与 withForwardedFields 一致
  • withForwardedFieldsSecond 函数的第二个输入规则定义,定义内容语法与 withForwardedFields 一致
    val env = ExecutionEnvironment.getExecutionEnvironment

    val ds1 = env.fromElements((1, "a"), (1, "b"), (2, "c"), (3, "d"))
    val ds2 = env.fromElements((1, "just"), (2, "have"), (3, "a"), (4, "try"))

    val result = ds1.join(ds2).where(0).equalTo(0) {
      (p1, p2) => (p1._1, p1._2 + " " + p2._2)
    }.withForwardedFieldsFirst("_1")

    result.print()

在这里插入图片描述

  • 注意:如果某一个算子使用的是创建RichMapFunction富函数的方式对数据集进行操作,则可以通过添加@ForwardedFields(Array("*->_2"))注释的方式定义转发字段。

1.2. Read Fields(读取字段注解)

  • 在指定读取字段信息时,必须将在条件语句中评估或用于计算的字段标记为已读。只有未经修改的字段转发到输出,而不评估其值或根本不被访问的字段不被视为被读取。

    @ReadFields("_1; _4") // _1 and _4 2 个字段分别用于函数条件语句判断与结果计算.
    class MyMap extends MapFunction[(Int, Int, Int, Int), (Int, Int)]{
       def map(value: (Int, Int, Int, Int)): (Int, Int) = {
        if (value._1 == 42) {
          return (value._1, value._2)
        } else {
          return (value._4 + 10, value._2)
        }
      }
    }
    
    

2. Flink 1.10源代码编译,基于Flink release-1.10分支Centos6

本次编译是基于hadoop-2.8.3和hadoop-2.9.2两种情况进行编译

2.1. maven的安装

  • maven官方下载地址

    • 拷贝下载链接
      cd /home/hadoop/fanjh
      wget https://archive.apache.org/dist/maven/maven-3/3.5.4/binaries/apache-maven-3.5.4-bin.tar.gz
      
  • 解压

    tar -zxvf apache-maven-3.5.4-bin.tar.gz
    mv apache-maven-3.5.4 /usr/local/
    
  • 配置环境变量

    vi /etc/profile
    export MAVEN_HOME=/usr/local/apache-maven-3.5.4
    export PATH=$PATH:$MAVEN_HOME/bin
    source /etc/profile   #使配置文件生效
    
  • 测试

    mvn -v
    

    在这里插入图片描述

  • 编译构建工具,最好在构建maven环境时将maven运行的Xmx和Xms参数适当调大

  • 在Maven settings.xml中配置阿里的maven仓库地址,可加速依赖下载速度.

        <mirrors>
         <mirror>
             <id>nexus-aliyun</id>
             <mirrorOf>central</mirrorOf>
             <name>Nexus aliyun</name>
             <url>http://maven.aliyun.com/nexus/content/groups/public</url>
         </mirror>
       <!--
         <mirror>
             <id>cloudera</id>
             <name>cloudera</name>
             <url>https://repository.cloudera.com/artifactory/cloudera-repos</url>
             <mirrorOf>*,!mapr-releases,!confluent</mirrorOf>
         </mirror>-->
         <mirror>
             <id>nexus-aliyun-apache</id>
             <mirrorOf>central</mirrorOf>
             <name>Nexus aliyun apache</name>
             <url>http://maven.aliyun.com/nexus/content/repositories/apache-snapshots/</url>
         </mirror>
     
         <mirror>
             <id>nexus-aliyun</id>
             <mirrorOf>*,!jeecg,!jeecg-snapshots,!mapr-releases</mirrorOf>
             <name>Nexus aliyun</name>
             <url>http://maven.aliyun.com/nexus/content/groups/public</url>
         </mirror>
     
         <mirror>
             <id>mapr-public</id>
             <mirrorOf>mapr-releases</mirrorOf>
             <name>mapr-releases</name>
             <url>https://maven.aliyun.com/repository/mapr-public</url>
         </mirror>
     </mirrors>
    
  • 注意!!! 最好将配置好的settings.xml同时放到/home/hadoop/.m2/路径下一份

2.2. Linux下安装git

  • 安装教程

  • 注意

    • 确认安装gcc
    • 环境变量配置注意事项:echo “export PATH=$PATH:/usr/local/git/bin” >> /etc/profile
      • 这里的双引号是英文的引号·

    在这里插入图片描述

  • 测试

2.3. 开始构建

  • 创建工作目录mkdir flink_code_location

  • [flink] 项目仓库fork到自己的github
    在这里插入图片描述

  • 从自己的github中pull flink的源代码git clone [email protected]:fanjianhai/flink.git

    • Git配置SSH访问GitHub

      • 生成秘钥对:ssh-keygen -t rsa -C "[email protected]" (注意:此处邮箱为github账号邮箱)
        在这里插入图片描述

      • 拷贝公钥到github id_rsa.pub -> Github -> Settings→SSH kyes→Add SSH key
        在这里插入图片描述

      • 测试

        git config --global user.name "xiaofan"
        git config --global user.email "[email protected]"
        ssh -T [email protected]
        

        在这里插入图片描述

      • 注意:根据测试的warning信息,需要修改/etc/hosts文件
        在这里插入图片描述

      • 不同的机器用同一个账户访问github时,同样需要重新生成ssh key
        在这里插入图片描述

    • 配置管理SSH key
      当本地存储使用多个ssh key时,需要通过config文件(/home/hadoop/.ssh/config)来切换默认账户,ssh config文件常用配置如下:

      Host github.com
      Hostname github.com
      User git
      Identityfile ~/.ssh/id_rsa_github
      
      • Host: “personal.github.com"是一个"别名”,可以随意命名, 像github-PERSONAL这样的命名也可以;
      • HostName:比如我工作的git仓储地址是ssh://[email protected]/abc.git, 那么我的HostName就要填"baidu.com";
      • IdentityFile: 所使用的公钥文件;
    • 多个SSH key测试
      在这里插入图片描述
      在这里插入图片描述

    • 从自己的github中pull flink的源代码成功效果展示
      在这里插入图片描述

  • 分支准备:进入flink代码目录,cd flink;

    • 切换到flink-1.10分支, git checkout release-1.10
    • 从此分支构建自己的分支, git checkout -b my_branch_base_release-1.10
  • 执行编译mvn clean package -T 4 -Dfast -Pinclude-hadoop -Dhadoop.version=2.8.3 -Dmaven.compile.fork=true -DskipTests -Dscala-2.11

  • 参数说明:

    mvn \
      #清理往次的maven构建记录和结果
      clean  \
      #安装/打包
      install /package  \
    
      #支持多处理器或者处理器核数参数,加快构建速度,推荐Maven3.3及以上(本次编译用的maven3.5.4.版本)
      -T 4 \ 
      
      #在flink根目录下pom.xml文件中fast配置项目中含快速设置,其中包含了多项构建时的跳过参数.
      #例如apache的文件头(rat)合法校验,代码风格检查,javadoc生成的跳过等,详细可阅读pom.xml
      -Dfast \         
       #官方文档中声明有预构建完成的几个版本,可参考官方文档.本地版调试学习如果不涉及到state的文件系统存储持久化则不需要开启此配置项
      -Pinclude-hadoop -Dhadoop.version=2.8.3 \
       
      #允许多线程编译,推荐maven在3.3及以上
      -Dmaven.compile.fork=true \
      
      -DskipTests \ #之所以不开启-Dmaven.test.skip=true而使用此选项时因为如果要完整构建flink项目,
      #其中flink-test*模块中的代码非test范围,而其中使用了flink-runtime中test代码构建,
      # 所以如果不在根目录pom.xml中注释掉flink-test*模块,使用此选项会报错找不到相关包或者类
      
      -Dscala-2.11  #制定flink的scala版本代码
    
    
  • 编译结果
    编译成功以后可用的flink文件夹资源在flink/build-target文件夹下
    在这里插入图片描述
    在这里插入图片描述

  • 集群本地模式启动
    在这里插入图片描述
    端口冲突了,依据log日志修改一下端口
    在这里插入图片描述

  • 大功告成!!!

2.4. 对于在编译过程当中找不到flink-shaded-hadoop-2的情况

  • 报错情况
    在这里插入图片描述
    原因是cdh 的 flink-shaded-hadoop-2 的jar 包在mvn 中央仓库是没有编译版本的,我们需要先对flink 的前置依赖 flink-shaded-hadoop-2 进行打包,在进行编译

  • 创建flink-shaded-hadoop-2编译工作目录mkdir flink-shaded-hadoop-2

  • 进入,flink-shaded-hadoop-2 github仓库, 获取flink-shaded git 源码

    • 注意:要先fork到之前自己配好的github仓库,然后进行克隆
      在这里插入图片描述
  • 如何选择flink-shaded的版本

    • 根据报错情Could not find artifact org.apache.flink:flink-shaded-hadoop-2:jar:2.9.2-9.0 in central (https://repo.maven.apache.org/maven2),此处缺少版本9.0

    • 检测当前flink-shaded对应版本的分支git tag
      在这里插入图片描述

    • 根据自己缺少的版本切换对应的代码分支,这里我缺少的是9.0版本的flink-shaded-hadoop-2

      git switch -c release-9.0
      

      在这里插入图片描述

  • 修改flink-shaded项目中的pom.xml 这里修改是为了加入cdh 等中央仓库,否则编译对应版本可能找不到cdh 相关的包

    <profile>
    	<id>vendor-repos</id>
    	<activation>
    		<property>
    			<name>vendor-repos</name>
    		</property>
    	</activation>
    	<!-- Add vendor maven repositories -->
    	<repositories>
    		<!-- Cloudera -->
    		<repository>
    			<id>cloudera-releases</id>
    			<url>https://repository.cloudera.com/artifactory/cloudera-repos</url>
    			<releases>
    				<enabled>true</enabled>
    			</releases>
    			<snapshots>
    				<enabled>false</enabled>
    			</snapshots>
    		</repository>
    		<!-- Hortonworks -->
    		<repository>
    			<id>HDPReleases</id>
    			<name>HDP Releases</name>
    			<url>https://repo.hortonworks.com/content/repositories/releases/</url>
    			<snapshots><enabled>false</enabled></snapshots>
    			<releases><enabled>true</enabled></releases>
    		</repository>
    		<repository>
    			<id>HortonworksJettyHadoop</id>
    			<name>HDP Jetty</name>
    			<url>https://repo.hortonworks.com/content/repositories/jetty-hadoop</url>
    			<snapshots><enabled>false</enabled></snapshots>
    			<releases><enabled>true</enabled></releases>
    		</repository>
    		<!-- MapR -->
    		<repository>
    			<id>mapr-releases</id>
    			<url>https://repository.mapr.com/maven/</url>
    			<snapshots><enabled>false</enabled></snapshots>
    			<releases><enabled>true</enabled></releases>
    		</repository>
    	</repositories>
    </profile>
    
  • 编译cdh flink-shaded-hadoop-2 mvn clean install -DskipTests -Drat.skip=true -Pvendor-repos -Dhadoop.version=2.9.2
    在这里插入图片描述

  • 将编译的源码包下的/home/hadoop/flink_code_location/flink-shaded-hadoop-2/flink-shaded/flink-shaded-hadoop-2-uber/target/flink-shaded-hadoop-2-uber-2.9.2-9.0.jar拷贝到$FLINK_HOME/lib/下即可。这里一定要使用flink-shaded-hadoop2-uber下的包,如果使用flink-shaded-hadoop2会缺少类。
    在这里插入图片描述

  • 编译flinkmvn clean package -T 4 -Dfast -Drat.skip=true -Pinclude-hadoop -Dhadoop.version=2.9.2 -Dmaven.compile.fork=true -DskipTests -Dscala-2.11
    在这里插入图片描述

  • 至此,就编译好了基于hadoop-2.9.2Flink-1.10版本,可以部署集群提交到yarn集群了(我们公司目前用的hadoop2.9.2

  • 注意:先编译flink-shaded,再编译flink,编译完flink,相应的flink-shaded-hadoop-2-uber-2.9.2-9.0.jar包就会进入flink的lib目录
    在这里插入图片描述

2.5. 参考链接

3. git/github学习笔记

3.1. 通过git命令提交文件到github演示

在这里插入图片描述
在这里插入图片描述

3.2. git命令大全

在这里插入图片描述

3.3. 详细实战

  • 常用名词
    在这里插入图片描述

    Workspace:工作区
    Index / Stage:暂存区
    Repository:仓库区(或本地仓库)
    Remote:远程仓库
    
  • 新建代码库

    # 在当前目录新建一个Git代码库
    $ git init
    # 新建一个目录,将其初始化为Git代码库
    $ git init [project-name]
    # 下载一个项目和它的整个代码历史
    $ git clone [url]
    

    在这里插入图片描述

  • Git的设置文件为.gitconfig,它可以在用户家目录下(全局配置),也可以在项目目录下.git/config(项目配置)。

    # 显示当前的Git配置
    $ git config --list
    # 编辑Git配置文件
    $ git config -e [--global]
    # 设置提交代码时的用户信息
    $ git config [--global] user.name "[name]"
    $ git config [--global] user.email "[email address]”
    
    git 修改当前的project的用户名的命令为:
    $ git config user.name 你的目标用户名;
    git修改当前的project提交邮箱的命令为:
    $ git config user.email 你的目标邮箱名;
    如果你要修改当前全局的用户名和邮箱时,需要在上面的两条命令中添加一个参数,–global,代表的是全局。
    命令分别为:
    $ git config  --global user.name 你的目标用户名;
    $ git config  --global user.email 你的目标邮箱名;
    

    在这里插入图片描述

4. 寄语:愿你可以有能力选择战衣,也有资本选择战友

发布了85 篇原创文章 · 获赞 12 · 访问量 3709

猜你喜欢

转载自blog.csdn.net/fanjianhai/article/details/104855082