关于用于建模和机器学习的技术方案？

目前是技术方案选择的问题

我们目前拥有离线区块链交易数据

数据体量：30亿条交易数据，每条交易包含10个字段（主要的字段：发送地址、收款地址、交易类型、交易金额）

我们想做的：

根据业务需求提出分析策略，利用机器学习建立模型输出分析结果，为交易地址打上标签

策略比如：

实体聚集：多个账号行为、交易路径相似度高的

路径符合：在有商品上架后，在限定的时间内进行了购买的地址。然后卖出，又买入了同一个其他商品的地址。

（几百万种商品在不同的时间上架）

整体工作包含

1，数据获取（完成）》

2，建设大数据平台〉导入数据》数据清洗〉

3，基础数据建模分析（抽象化分析）

4，机器学习算法分析

我们的疑问是：想要完成能够适配这个数据量的大数据分析（能够用于建模和机器学习），用什么大数据平台方案

我们现在打算使用hadoop和spark来完成此事

是一个好的选择吗

参与5

2同行回答
%E9%93%B6%E8%A1%8C
全部行业 银行
|
按赞同排序
按时间排序

针对您的需求，使用Hadoop和Spark来完成大数据分析是一个不错的选择。Hadoop是一个分布式计算框架，可以处理大规模数据，而Spark则是一个快速的数据处理引擎，可以在内存中进行数据处理，提高处理速度。

对于您的数据量，使用Hadoop和Spark可以帮助您快速地进行数据清洗、建模和机器学习算法分析。同时，您也可以考虑使用Hive或Impala来进行SQL查询，以便更好地处理数据。

另外，您还可以考虑使用云计算平台，如阿里云、腾讯云等，来搭建大数据平台。这些云计算平台提供了强大的计算和存储能力，可以帮助您更好地管理和处理数据。

总之，使用Hadoop和Spark来完成大数据分析是一个不错的选择，但具体方案还需要根据您的具体需求和预算来进行选择。