周总结一大数据采集技术与应用(徳拓)五次实验总结

徳拓公开课

实验一:大数据同步技术datax的使用

目的:利用datax将.csv文件中的数据同步导入mysql中(乱码问题可通过输入命令 CHCP 65001解决)

1.Navicat里面建立数据表

 2.仿照datax\job中的job.json进行修改,新建立job_yq.json文件

reader中修改输入源

index 对应数据表三个字段 0 1 2

 3.修改输出源 用户名及密码

 4.输出源中添加数据表对应字段

 5.连接数据表修改表名

 

 附上我的json文件可以参考修改

{
    "job": {
         "setting": {
           "speed": {
                "channel": 3
            }
        },
        "content": [
            {
                "reader": {
                    "name": "txtfilereader",
                    "parameter": {
                        "path":["D:/Projects/phython/pycharm/PythonEX/learn_six/疫情省.csv"],
                        "encoding":"GBK",
                        "column": [
        { 
                            "index":0,
                            "type":"string"
                        },
                        {
                            "index":1,
                            "type": "string"
                        },
                        {
                            "index":2,
                            "type": "string"
                        }
              ],
                         "fieldDelimiter":","
                    }
                },
                "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
               "username":"root",
                        "password":"root",
                        "column": [
         "riqi",
                              "pro",
                              "que_num"                     
              ],
                 "preSql": [
                            "truncate table yq_province"
                        ],
                        "connection": [
                            {
                                "jdbcUrl":"jdbc:mysql://localhost:3306/demo",
                                "table":[
                                "yq_province"
                                ]
                            }
                        ]
                    }
                }
            }
        ]
    }
}
View Code

到此配置好后直接运行命令: python datax  json目录即可,  这里需要在datax/bin目录下运行此命令。

例如:python datax.py E:\xitong\major\datax\job\job_yq.json

易错点:这里路径一定要用/ 反斜杠会出错

实验二:大数据清洗技术kettle的使用

实验三:大数据日志采集技术Logstash

实验四:大数据实时采集技术Kafka

实验五:动态感知舆情热点大数据采集技术

猜你喜欢

转载自www.cnblogs.com/zzstdruan1707-4/p/12403895.html
今日推荐