暨南大学汤景泰:如何利用社交媒体数据进行科学有效的炒股

核心提示:12月12日,由21世纪经济报道主办的“2017财经全媒体峰会” 在广州四季酒店隆重举行。本次峰会以“赋能·智媒体时代”为...

12月12日,由21世纪经济报道主办的“2017财经全媒体峰会” 在广州四季酒店隆重举行。本次峰会以“赋能·智媒体时代”为主题。

暨南大学新闻与传播学院教授汤景泰发表了主题为“舆情大数据与股票投资”的演讲。

暨南大学新闻与传播学院教授汤景泰

重点观点:

1,利用社交媒体的大数据的舆情平台的分析,可以更加科学有效地进行股票投资。 

2,通过分析社交网络上的相关情绪的搜集和量化分析,可以找到一个有价值的投资策略和进行相关的股市波动预测。

3,个人投资者投资一些在社交媒体上长期受关注度较高的股票,其投资回报会低于受关注度较低的股票。 

全文如下:

 各位领导,各位来宾,大家好。我今天的题目是,舆情大数据与股票投资。后面和大家分享一下,我们对这个问题的认知和目前做出的一些探索。

 毫无疑问,今天社交媒体已经成为舆情的主要产生和传播渠道,承载并放大着亿万用户的喜怒哀乐;另一方面,股市作为人性的试验场,股价的波动直接反映了投资者对股票价值的判断和信心。于是,利用社交媒体的数据来更加科学有效地进行股票投资,看上去是一个再自然不过的想法了,事实上,在过去近十年中,这样的探索从来没有停止过,而且呈现出一种欣欣向荣的势态。

那么,当前市场上具体有哪些方法和工具?成效究竟如何?他们的策略是建立在怎样的理论依据之上,以及我们有可能做出什么有效改进呢?

 近年来比较流行,是所谓的情绪量化分析法,也就是相信,在实际的交易行为发生前,促使投资者最终行动的情绪,已经在社交媒体上弥漫和发酵。而在此期间,通过对社交媒体数据的广泛收集,和高速的量化分析,有可能得到有价值的投资策略。

 这方面的先驱是在2011年5月,“德温特资本市场”公司(Derwent Capital Market,简称DCM)推出的规模为4000万美金的对冲基金——德温特绝对回报基金(Derwent Absolute Return Fund Ltd)。号称是首家基于社交媒体的对冲基金,通过分析Twitter 的数据内容来感知市场情绪,从而指导进行投资,并且声称能够提供年化15-20%的回报,第一个月,就取得了不俗的成绩,回报高达1.85% ,同期标普500 跌了2.2%,其它的对冲基金平均回报只有0.76%,还入选了时代周刊2011年度50大最佳发明。公司的 CEO在基金发布仪式上宣言:“多年以来,投资者已经普遍接受了一种观点,即恐惧和贪婪是金融市场的驱动力。但是以前人们没有技术或数据来对人类情感进行量化。”

 虽然短时间这只基金就因为种种原因关闭了,不过创始人保罗•霍廷(Paul Hawtin)再接再厉,又创办了Cayman Atlantic投资管理公司,继续运用实时社交媒体数据挖掘新闻和人们的情感倾向,进行分析预测。根据其官网披露的基金历史收益数据,截止2015年12月,该基金累计收益率高达63.21%,年化收益率为15.02%,可以说是完全实现了当年的承诺。

这种思路很容易被理解,因为对于市场的非理性认识根植于人们心中。在《混乱中的混乱》(Confusion of Confusions)中,其作者约瑟夫·德·拉·韦加(Joseph de la Vega)就是交易所中的一个投机分子。他曾说过,“消息往往无甚价值”,这句话在备受巴菲特推崇并亲自推荐给比尔·盖茨的《商业冒险》一书中,被作者约翰布鲁克斯在回顾1962年的“肯尼迪暴跌”时所引用并补充到,“在短期内,投资者的情绪才是最重要的。”

然而,事实的确如此,或者说仅仅如此吗?

让我们回到刚才的德温特绝对回报基金,它的背后,是《推特情绪预测股票市场》这篇近年来反复被提及的研究报告。该报告由美国印第安纳大学研究数据和金融关系的教授约翰·博伦(Johan Bollen)主笔发表。霍廷就是看完这份报告后与博伦教授取得了接触,他们短暂但成功的合作期间推出了上述基金。

博伦教授使用两款推特情绪追踪工具,对2008年3月至12月间的近千万条推文进行了研究。这两款追踪工具分别为OpinionFinder和Google-Profile of Mood States。前者可以衡量积极与消极情绪,后者则可以衡量喜悦、悲惨、冷静、紧张、确定和积极等情绪。

他的策略是不只华尔街交易员、公司CEO等企业和金融界人士的情绪,而是无分地域、职业等因素,最大范围地随机抽取样本来进行预测,他将每天量化好的情绪分值连成走势图,跟道琼斯工业指数的走势图做对比。报告发现,如果将推特情绪中的“冷静”走势图向后挪3天,两条走势线走势相似,吻合度达87.6%,这表明推文可以预测股市。

但是,Twitter 情绪指标,仍然不可能预测出会冲击金融市场的突发事件。例如,在2008年10月13号,美国联邦储备委员会突然启动一项救市计划,令道琼斯指数反弹,而3天前的Twitter冷静指数自然毫无征兆。而且,研究者自己也意识到,Twitter 用户与股市投资者并不完全重合,这样的样本代表性还有待商榷。

这说明,信息还是有用的,而且在今天会比400年前或者上个世纪更有用。让我们先来看更多的例子:2015年4月28日,Twitter官方原本应该在第二天发布的2015Q1财报在收盘前被放到自家官网,并被Selerity公司抓取到,通过Twitter发布,导致推特股价暴跌。

成立于2009年的Dataminr是一家实时社交网络分析公司。其愿景是为进入和政府客户从社交媒体中析取价值。该公司与Twitter建立了战略合作伙伴关系,可以访问其海量的公共微博库Twitter Firehose of Public Tweets。该公司2012年发布的产品可以让客户设定感兴趣的关键信息,然后返回经过定制的相关结果。其算法利用了Twitter的自修正能力—一旦某人发出的微博是有误的,马上就会有人指正,这种行为会通知Dataminr的算法引起注意。 

除了借助于这种专业公司,最终和投资者自身利害相关的关于特定股票的实时信息,并抢在信息扩散开来之前展开行动之外,更积极地做法是找到对自己所投资的股票影响巨大的信息来源并直接进行观测。值得注意的是,上述例子表明,除了上市公司官方账号和相关突发事件之外,还存在着更强有力的影响者,例如刚才提到的专业做空公司和社会名流。于是,我们就不得不提到以一己之力重新为Twitter注入动力的特朗普了。

一个名为Trump2cash的开源自动交易程序,在初期表现出了很高的回报率, 特朗普的言论对提及的上市公司股价影响非常明显,然而随着市场的适应,其回报率又趋于一般了。 

下面我们来总结一些当前国内外学界对舆情大数据与股票价格波动的研究成果:

1、 当前的研究表明,一支股票的讨论热度(以Twitter为例),和其成交量有着较强正关联关系,并且可以在一定程度上预测其在未来1-3天的成交量,这种关联在权重股上表现的更为明显。但是,公司的股价并不太受讨论热度的影响。只有在热门股票(如苹果的股价)存在一定的影响。实际上在讨论热度上,其明显滞后于股价的波动,呈现的是,股价大幅波动可能会带来讨论度的提升。

2、 从一个大尺度来说,个人投资者投资一些在社交媒体上长期受关注度较高的股票,其投资回报会低于受关注度较低的股票,这个与目前现行的“价格压力假说”理论相吻合。 

3、 在社交媒体情绪对股价的反应有如下研究:

a.  Twitter呈现的情绪对于股市呈现整体的情绪与道琼斯指数的收盘价存在相关性

国外的分析,注重Granger causality分析,即确定Twitter的情绪是否先于股价波动。注意这个分析不能确定“Twitter的情绪是否导致了股价波动”

b.  Twitter的情绪对于个股表现之间存在一定关联,但是这样的关联在国内(微博与主板个股)并不明显与确切,当然这部分研究还较少。可能原因是国外主要是大投资机构参与股市,而国内以散户为主,其投资决策受社交媒体氛围影响更大

国内研究了故事关键词(如牛市、熊市、利好、利空)热度与上证指数的联系。首先这些词的热度的较大变化均可以归结于时政事件的出现。另外这些词的热度在SVM模型中能较好较好地预测上证指数收盘价。

总体说来,在一个时间尺度上(time series),股价、社交媒体、媒体情绪之间存在何种关联与相互作用,还没有明确的结论。我们只知道,这几者关系是密切的,并且联系和作用是客观存在的。特别是在短期交易中,投资者情绪的影响非常显著,严重的整体信心崩盘往往会导致灾难性的后果比如股灾。然而市场终归会回归理性,如果通胀、货币政策、GDP增长、信贷环境等经济基本面因素良好,会相对快速地回到正轨,正如之前提到的1962年“肯尼迪暴跌”之后发生了迅速回暖,和其他几次股灾形成了鲜明的对比。

这就促使我们想到,社交网络给予了大众一个前所未有的舆情平台,这个平台的信息价值还远未被充分挖掘。如果仅仅将普通用户的总体情绪和特定用户的关键信息作为短期交易的风向标,一方面可能会放大或是承载股市大规模波动的风险,另一方面也未免显得过于投机?接下来具体谈谈我们的想法和一些探索。

首先是对于当前主流研究发现的上述现象的一些初步想法,还有待实验来验证。

1,讨论热度对股价影响不大,可能是没有研究情感强度的关系。单纯考虑热度(转发、用户关注等)指标,是不足够的,需要定义临界情感强度。会不会存在一个临界情感强度的概念,未达到阈值之前,股价不会受社交舆情影响,但一旦突破阈值,会带来巨大的影响。

2,另一个重要原因是,社交网络的讨论对大机构的投资决策不构成直接影响,而一个话题不同的人有不同的理解,散户对同一个话题会做出不同的投资决策,从总体上对冲了股价的波动,但还是可以呈现交易量的增长。

首先,请允许我简单介绍一下我们实验室的现状,我们拥有50台高性能服务器的私有机房,可以实现主流媒体与社交媒体数据的实时索引入库,以及数十亿条文本数据的秒级全文检索和可视化分析,在此基础上,我们实现了对单个平台如微博的自动发现和相邻时间周期的视频变化对比,如每日新词、每日热词和应用了贝叶斯平均之后得到的综合新热词排名。这一工作可以服务于多种研究,在投资领域我们目前觉得可以考虑结合词性标注特别是实体识别,建立热度高、变化剧烈的词特别是新名词和上市公司主营业务之间的联系,从而服务于长期投资。

例如,在没有做任何情感判断和情绪识别的前提下,仅仅统计热度,就能看到腾讯和网易两家公司的股价和他们主打业务手机游戏中最热门的产品之间,存在很高的相关度。这里我们甚至无需太在意其天数级别的先后,只要在系统找到了诸如游戏名、角色名、新车型……等新词,并持续观察发现了明显窜升势头之后,结合其他渠道的信息,进行稳健持仓即可,这时候离可能的波峰还有很久。

另一方面可以看到,一些我们记忆中的负面消息(例如人民日报痛批王者荣耀),因为最终没有形成实质性严重后果,对股价的确没有产生太大影响,这也是符合常识的。但如果在这种特殊时刻,只看到争议性带来的热度上升,而不考虑现实因素,显然是不够理智的。请注意即使在这种情况下,对所有信息进行情感分析依然是不必要的……

此外,我们还在逐步建立实体识别基础上的行业、公司、意见领袖等细分的数据库,用以研究指导短期交易的可行性。

(编辑:曾妮)