导出数据处理建议
最后更新于
这有帮助吗?
最后更新于
这有帮助吗?
数据处理建议采用Hive或者Spark平台工具,若是需要导入自有BI平台,可能需要进一步调整数据格式(csv转成其他符合数据处理需求的格式),针对以上的需求,给出相应的数据处理建议。
建议下载数据后,将下载的压缩文件放于hdfs的以日期建立目录结构,同一小时或者同一天的数据放在同一目录下,然后通过spark streaming的fileStream接口监控根目录,读取变动的文件内容。
在依赖中添加:
具体数据操作参考spark-csv()
以java为例
新建maven project,在prm.xml中添加以下依赖
而后在读取数据的方法中:
上例中,数据读取依赖于commons-compress与commons-csv库,同样在python中有类似的数据处理库。