基于人工智能技术《量化投资AI系统》的集群架构设计与实现

news/2024/9/9 12:11:10

乔总:

前些日子你我的共同朋友潘总,推荐您来聊聊将ChatGPT应用于量化投资的合作。在与您及您的团队进行了超过2个多小时的沟通后,恕我直言,不客气地说,感觉您的团队对人工智能技术几乎是空白。为了让您的团队对人工智能技术有一个更真实的了解,而不是“人云亦云”,特意将一些人工智能的真实信息写成技术型文章,作为对您的回复。作为普通的科学工作者和一个纯粹的程序员,历来说话直来直去,其中有冒昧之处请谅解。

本文中的很多内容仅仅是扼要介绍,如需详情,再叙。

一、真实的人工智能

1.1 人工智能的派别与简史

人工智能技术发展了几十年,实际上至今(2023年)从未取得突破性的进展,其根本原因是计算机器的“存算不均衡”。目前的计算机技术过渡依赖于“算”,而导致无法获得实质性突破。笔者对于“存算均衡”有过人的思考与想法,以后有机会再叙。本文主要关注于如何将人工智能技术应用于“量化投资”领域,并力求取得实际效果。

人工智能技术分为“逻辑派”与“经验派”。这两个派别自AI诞生起,就存在。专家系统是典型的逻辑派。ChatGPT是典型的经验派。逻辑派认为人类智能主要体现于知识与逻辑推理,因而期望构造严格的规则与逻辑关系来重现人类的智能。经验派则基于数据统计,认为人类的智能主要是训练出来的,只要有足够的数据,训练即可重现人类的智能。这个就是培养学生常用的”题海战术“,导致至今不能帮助国家更多的学者获得诺贝尔奖。在ChatGPT等诞生之前的很多年,就已经出现过不少经验派的产品。

以美国IBM为首的逻辑派,长时间在医疗领域进行尝试,最终以失败告一个段落(不是告终)。以互联网企业为主的经验派,在天生的大数据环境下,自然而然地进行了经验派的新尝试,创造出了轰动一时的ChatGPT这样的大玩具,是经验派“大力出奇迹”的典型代表。

经验派的产品,在声、光(图片、照片、视频)、电等确定性物理数据范围内,是可以取得不错的应用效果的。但在基于文化、知识、情感等等人自身都无法管控的领域,是无法取得实质性进步的。ChatGPT对于预测更是毫无价值。

经验派之所以短暂的成功在于其充分利用了唾手可得的大数据,而经验派目前之所以无法再前进一步也是有因为囹圄于大数据。ChatGPT已经走入死胡同了。

1.2 飞蛾扑火

国内的大模型无非更是在浪费资金与时间,因为:(1)算法就那么一个;无论怎么改进,无非是装修工程;(2)数据集也都差不多。无非是互联网数据(国内+国外)。

最要命的是,做过大数据的人都知道,互联网数据的质量实际上极其低下,千万分之一的数据可能才是有价值的,其他都是凑数而已。有些大模型号称是自有数据,比如医疗。然而,事实是,这些数据不是完整的“数据链”,没有证据也没有技术手段保证这些数据的可信。总之,就是一个“凑数”。没有好的数据,谈何训练?谈何推理?

飞蛾扑火一般地投入ChatGPT热潮的无非是机会主义者。

马上2024年了,现在还在跟风ChatGPT者,智商和前途都堪忧。

1.3 杞人忧天

参加过几次的人工智能会议,有不少学者(一般都不是数学、计算机方面的),唾沫横飞地谈论AI的风险、伦理等等。这个就是古人“杞人忧天”的重现。在ChatGPT等等的智能都达不到受精卵的程度,没有什么可以担心的?而且,事实是,这样的担心,在AI历史上,被假学者们炒作无数次了。

炒作风险与伦理者,无非是蹭热度写文章谋取不当之名利而已。

1.4 未来属于逻辑派

逻辑派是人工智能的唯一希望。

当然不是目前意义的专家系统级别的逻辑产品。以经验派产品为工具,对数据进行清洗与标注,提高知识到规则的自动转换效率是逻辑派未来的主要发展思路。

您是量化投资的翘楚,咱们就以量化投资为例,来简单描绘未来的人工智能系统在量化投资领域的应用前景和实现途径。

咱们先叙述几个事实:

(1)统计学是基于过去的数据;是过去式;是预测未来的基础;是辅助,不是核心;

(2)投资策略是人的智能;是日积月累的真智能;是预测未来的核心内容;

(3)但一个人的智能有限,如果快速、方面地集成团队成员的智能是主要挑战;

(4)投资策略不是万能的,精确无误的推理反而是不能的;基于模糊逻辑的推理是其中的内核;

可见,如果咱们能够获得国家、行业、企业的大量历史数据,进行基于统计学、NLP的数据清晰与预分析,结合数据与团队智能,就可以进行良好的投资策略规划。

二、量化投资的大数据与大数据应用

2.1 数据来源

量化投资依赖于各种各样的大数据。包括但不限于:

2.1.1 宏观数据

(1)全球及主要经济体 经济(总)数据;

(2)全球及主要经济体 金融市场数据;

(3)全球及主要经济体 大宗交易数据;

(4)全球及主要经济体 能源/交通——数据;

(5)全球及主要经济体 生产力数据;

(6)相关舆情数据;

2.1.2 实时数据

(1)金融市场数据;

(2)大宗交易数据;

(3)其他数据;

2.2 数据加工

各分系统获得的数据,无法直接用于决策与投资策略的计算;必须经过各种方式与算法的清洗与分析。

2.2.1 数据清洗

(1)金融数据 清洗;

(2)工业数据 清洗;

(3)舆情数据 清洗;

2.2.2 数据分析

(1)主资金 流向分析;

(2)模型 提取与分析;

(3)金融大模型 训练;

(4)工业大模型 训练;

(5)投资规则 人机互补库;

三、量化投资与人工智能

量化投资的人工智能应用主要有:

(1)投资策略 智能推理;

(2)长期投资 辅助决策;

(3)短期投资 辅助决策;

(4)实时投资 辅助决策

四、量化投资AI系统的集群架构

4.1 团队架构

人的智能比人工智能要主要千万倍,因此请务必在人员架构方面舍得投资。

量化投资AI系统的核心成员有:

(1)有经验的量化投资顾问或实操专家;

(2)指定投资策略数据分析、标注的专家;

(3)基于逻辑推理的人工智能系统专家;

(4)大数据清洗专家;

4.2 系统架构

量化投资AI系统的核心包括大数据系统与AI系统。

大数据系统需要按集群设计,获取与清洗是重头;基于逻辑与推理的AI系统,无需大数据的训练,负担较轻;实时投资系统对网络与系统性能要求极高,另外给您提供资料。

系统架构的示意图在文章开头,可供参考。

4.3 系统预算

数据获取、清洗需要较多的服务器与网络带宽;其他的费用不算太多。

一般而言,这样的系统固定资产投资额在 5000-10000 万之间,每年的费用在1000万左右。

以上价格非常宽泛,仅供参考。

联高软件

2023.12


http://lihuaxi.xjx100.cn/news/1870782.html

相关文章

ARM预取侧信道(Prefetcher Side Channels)攻击与防御

目录 一、预取侧信道简介 1.1 背景:预取分类 二、Arm核会受到影响吗? 2.1 先进的预取器

MySQL三 | 多表查询

目录 多表查询 内连接 隐式内连接 显示内连接 外连接 左外连接 右外连接 自连接 子查询 多表查询 笛卡尔积:集合A和集合B的所有组合情况 A * B 在多表查询时应消除无效的笛卡尔积 内连接 查询的是两张表交集的地方 隐式内连接 SELECT 字段列表 FROM 表1&#xf…

80后土味英语引关注 专家称外语学习要尊重规律

近日“80后”胡振兴在非洲给员工开会,因其一口极具河南口音特色的“土味英语”引发关注。 据了解,胡振兴因外派工作中存在语言交流障碍于是开始零基础自学英语,在学习期间通过大量的听广播、看视频、请教身边的国际友人进行学习,…

Python创建交互式Web应用:Shiny库详解

更多资料获取 📚 个人网站:ipengtao.com Shiny是一个基于Python的交互式Web应用框架,专注于简化Web应用的开发流程。本文将深入探讨Shiny库的基本用法、高级功能以及实际应用案例,以帮助开发者充分发挥Shiny在Web应用开发中的优势…

【干货】顺序执行

方法1:脚本顺序执行 testFun001(){api.commonAjax666({}).then((res)>{if(res.code200){console.log("第一个执行!")this.testFun002()}}) }, testFun002(){console.log("第二个执行!") } 方法2:new Pro…

vmware虚拟机17 安装macos14过程及问题处理亲测

前期准备 1、可引导可虚拟机安装的macOS Sonoma 14 ISO镜像安装文件 我找到得地址,下载自行解决啦 2、VMware虚拟机应用软件 官网下载就好,搜个码搞定 3、解锁工具macOS Unlocker 开始安装: 1、打开VMware软件,新建一个系统…

C/C++ 前缀和与差分

个人主页:仍有未知等待探索_C语言疑难,数据结构,算法-CSDN博客 专题分栏:算法_仍有未知等待探索的博客-CSDN博客 目录 一、前言 1、什么是前缀和 2、什么是差分 3、优势 1.朴素做法: 2.用差分数组 二、代码实现 1、给一个数组去求其差…

学习mongoDB

最像关系型的非关系型数据库 无模式(没有列)文档型数据库 应用场景 不要求事务,高并发读写,高可用。 数据库-集合-文档 不支持表连接 特殊的数据类型 :对象id(UUID)自动生成 支持正则查询 索…