人工智能+金融的实践与想象：从如何识别一只猫开始

央观编者按

正如人工智能专家李开复所说，人工智能最早的应用将是金融。如今，AI在金融领域上的应用越来越广泛，在国内，AI已经在智能资产配置、小额短期贷款等领域上大显身手，一些年轻的创业者们正在用超长的工作时间和巨大的耐心，将基于数据驱动的金融展现在消费者面前。

在这些前沿的实践者中，智融集团就是其中之一，本文为智融集团CTO齐鹏在“央观智融”新知培训分享会上的分享，齐鹏先生曾先后供职于百度和高德地图，拥有丰富的互联网产品研发和项目管理经验，在这两家中国著名的互联网企业工作后，齐鹏如今又选择在人工智能的前沿领域进行创业，目前他主导着智融集团产品和项目的研发。据其介绍，智融集团旗下小额短期借贷APP用钱宝60天vintage坏账率长期稳定在同行业平均水平的60%（Vintage是消费金融领域中计算坏账率的一种正确方法，只计算同期账户的坏账率），月贷款笔数超过150万笔。2017年3月，智融集团刚刚完成4.66亿元人民币的C轮融资。

齐鹏的演讲分为两部分，第一部分从机器学习如何识别一只猫开始，谈及人工智能是什么，第二部分谈了人工智能在金融领域的应用。本着开放、透明、共享的理念，我们将演讲速记整理出来，为了读者在微信上的阅读体验，有删节。

智融集团CTO齐鹏在央观智融新知分享会上的分享

一、人工智能是什么？

1.1 人工智能如何识别一只猫

最开始的命题是如何识别一只猫，猫应该带毛，但是有些猫就是没毛，有些猫应该有耳朵，但是有些猫耳朵是趴着的，根本看不出来耳朵，有一些猫总该有胡须眼睛，有的猫是背对着你的，有些猫总要有一些颜色，晚上看起来是一只猫，它可能还不一定是猫，还是狗呢，总之看起来像猫，但是看颜色的分布看不出来。

最近一次图形图象的识别竞赛，计算机的识别准确率已经超过了人类，为什么人工智能的识别率已经超过人？不是把一些规则以专家的方式告诉计算机怎么干。

现在图形图象的识别怎么准确率就高了，因为采取的技术方案不一样了，我们看Google是怎么干的，刚开始做的一个项目来做调研，是通过一些机器学习的方式，让机器学习出来，图片上到底是猫是狗，到底是不是一个人，以及是不是同一个人。

机器学习的方式是怎么来解决的？里面有几个维度，比如我要识别一只猫，我给你一千万张图片，这一千万张图片每一张图片背后都有一个答案，答案的结果：是或不是。当把所有的结果都告诉计算机以后，然后再告诉计算机这样图形图象的问题用什么样的模型去学习，它接收到的学习知识点是所有这些象素背后的各种颜色的RGB三通道，拿过这些知识点（每个图像的象素）和参考答案（人为标记的是猫或者不是猫），也叫目标函数，计算机自己去学习，学出来结果以后，它就具备了一种能力，再给它图片让它判定，就能预测这张图片到底是猫不是猫。

1.2、什么叫模型

刚才说的事情有几个问题需要重新解释一下，什么叫做模型？模型其实就是一个用来描述现实问题的数学函数，从最简单的开始，如果我遇到一个二分类问题，白天晚上只分这两个类，我做的事很简单，实数轴明确一个点，这个点就是10点，超过这个10点叫白天，比这10点小叫晚上，问题解决了，这是二分类问题最简单的描述。

当我要描述一个问题，一辆车加速度在多少的情况下，经过多长时间最后速度是多少，这个事儿是很简单的公式，叫做加速度×时间+起步速度等于最终的时间（V1=V0+at），这里面有两维的向量组成一个函数，这个函数就是一条线，这条线是在二维的空间里，有X、Y轴的这么一条线，在这里面做一个描述。

当我描述一个问题的时候，我要知道问题对应的结果在二维图象上的分布是什么，我为了能够去描述分布下的每一个点，我应该用一个什么样的函数去描述，这个函数就叫做模型。

如果我对一个点的分布就是一条直线，我要做的事情很简单，用一个一维的函数，去拟合所有在上面的点，形成的那条直线问题解决。如果我发现这个点分布，是一个曲线形的，有一个波峰，它直接是一个二次函数就可以了，我发现它不光有一个波峰，下面多了一个波谷，这样的问题可能是一个函数的变种，我又发现它不是一个波谷，它其实就是两个波峰、两个波谷，直接无限逼近最大的值，我想说这样的数学问题的描述，其实是一个组合函数三次方的函数描述。

像这样的问题描述能力是什么？是一种函数。一个函数的复杂程度决定了我对于现实世界描述的复杂程度。所以拿图形图象识别的问题来说，我给你基本的数据结构，你给我一个描述程度，如果就是一个简单的一次函数，一条直线甚至一个点，你能不能解决我图形图象的问题，对不起解决不了，在图形图象上为了能够去充分地描述这个问题的复杂度，用了一个神经网络模型[1]，神经网络模型模拟的是人的神经元之间互相信息传播的方式，这种模型是从生物学演进过来的。

[1] 人工神经网络（英文：artificial neural network，缩写ANN），简称神经网络（英文：neural network，缩写NN）或类神经网络，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构，是一种自适应系统。（维基百科）

1.3、人工智能的三个组成要素：模型、样本、目标函数

为什么人工智能到现在才出现？是因为你要做推导，前提是依赖于大量的数据和计算能力，过去根本不支持这样一个复杂函数推导下这么多数据的应用。而现在为什么火了，计算能力具备了，而数学模型早就有了，在这个细分领域下，因为我的能力具备了，所以我对于现实世界描述的能力变强了，从而产生一种新的手段。

人工智能绝对不是规则，再举一个例子，图形图象说我告诉你纹理、轮廓是什么样子，所以是一个什么结果。当你把所有样本都输入模型以后，其实在自己递归迭代的时候，模型是自己不断地找相应的依据，这个事情所有问题都是计算机自己去找到相应的依据，在推导的过程当中，有一个衡量的方式，这个衡量方式就是当我用一个最笨的模型输入以后，你告诉了我结果，我发现我最笨模型的预测结果和你的正确答案之间的差距，这个差距在人工智能里叫损失函数，这个损失函数描述了我在对这个问题预测的时候的误差，我发现我的误差大就需要调整模型里涉及到的所有参数，目的是逼近你给我样本告诉我答案的正确，这个过程叫拟合，当我能够对已有答案的数据充分拟合的时候，意味着我的函数具备一个非常好的拟合能力。

预测能力需要验证，你给我一千万份的数据告诉我有答案，我只拿其中800万份去学习，那200万份从来没见过，当我学习出来一组参数以后，我再拿我的模型去测那200万的结果，看一下我的预测和你的答案之间差距有多大，来验证我们到底是好的还是不好的，这就是对于一个模型评价的方式。

人工智能改变了人机交互方式，人告诉计算机的事情不是你该去怎么做，而是你按照这个模型去学，怎么学我不管，但是我告诉你的目标是我给你录入的样本，你的学习对象就是各种各样的特征，我要管的是监督你的学习过程。

模型是需要参考大量数据来做定量的，什么叫定量？我再举一个例子，刚才说到白天晚上，如果是一个“0或者1”问题好解决，人干的一定比机器好。但是其实白天和晚上没有那么明确的区分点，所以我们出现了清晨和傍晚，傍晚叫做50%度灰，清晨叫60%度的明，到底是0.5还是0.6，人只能描述是天亮了，有亮光了，人这样的描述叫定性，而计算机能够把什么叫亮，什么叫暗，0和1明确下来中间怎么去过渡，具体的定量告诉你这是0.49的亮，这叫0.51的暗，定量的事情只有计算机比人做的更充分，因为计算机参考的数据多，运算能力强，所以这一块会比人类有一个更好的定量能力。

如果要做一件人工智能的事儿，必须要有模型、数据（学习参考），有你学习的目标叫样本，这三点其实是一个人工智能、机器学习的最基本的组成要素。我再举个例子，人工智能是什么？它其实就是大数据加机器学习。

大家对人工智能有不同的理解，技术发展到当下，我们对当下计算机技术的一种归纳总结和对未来的憧憬，我们认为人工智能可以解决很多问题，但是这个太抽象，咱们具体一点，就是机器学习的方法加上足够的数据量。

机器学习又是什么？咱们再对比一下人的学习来理解，比如我要学习高中的知识，我要考大学，你给我的输入是书本，书本里的知识点，给我以后我按照这个知识点解的题是什么，题库，按照这个题库能够拿知识点应用下来，知识点没问题，我学会了如何用知识点去解不同的题，当我能把这些问题解决掉，其实人的学习过程完成了。机器学习就是知识点给我，目标告诉我，我来学习，我一样达到人的效果。本质上机器学习和人的学习没有大的差别，只是学习的主体发生了变化，机器学习能够比人学习更强的地方在于，人能够学20本书，能学2万本书吗？机器可以，当你能够有更充分的结果去参考，更充分的输入给你学习，咱们大家做金融，有一个风险，抽样不充分风险，就意味着机器能比你抽样充分的程度高太多，对于实际样本空间的抽样会更准确，当你来一个实际的问题，我一定会比你判断的更好，机器比人强的地方就在这里。

刚才举了这么多例，要明确的就是人工智能到底能解决什么问题，和人类学习有什么差别，背后的逻辑就是用一种数学的函数描述了一个现实的世界，函数的复杂程度决定了描述能力的大小，描述能力大小决定了在这个问题的复杂度下，能够去解决的充分程度。

二、人工智能在金融领域的应用

人工智能如何应用于金融领域？我从我们公司的业务举例。我们服务的人群不是银行服务的高净值人群，我们要服务的是传统金融机构服务不了的人群，比如月收入3000元到5000元的用户，我们提供一种风险定价能力，在风险定价的基础上，为他们提供适合的金融产品。

我们给一个人做风险定价，其实就是看你违不违约，违约无非就两点，还款意愿和还款能力，在极小额下，5000块钱以下，绝对意义上不存在还款能力的问题，什么情况会导致这个人有还款能力的问题，有一个指标叫失业率，我就赌一件事儿，国内不可能发生失业率大幅上涨的问题，你要大幅上涨了，确实我的日子都没法过了，我拿什么还你钱，但凡失业率这个指标不受到影响，小额上应急的钱不会出现绝对意义上的还款能力问题，这个事情也是一个统计意义上的。因此，问题变成了看还款意愿，也就是判断想不想还，我怎么知道你想不想还，那些传统维度的数据我又没有。

移动互联网的发展会让一个人各种生活行为信息沉淀在线上，包括衣食住行娱乐各方面的数据，我就知道这个人是什么样的社会关系网、什么样的消费能力、什么样的爱好等等，所有这些信息都可以帮我们刻画一个人，但是这些信息对一个人的金融风险有没有刻画能力我不知道，我要验证一件事，叫有可能有，刻画能力是不是很强？一定不强，如果把它加在一起能不能对人做一些分类，兴许能分类，定量的事情让机器去做，当我分类以后，是不是有一波人或者不同波的人，金融风险会不一样，这是我们做这件事情之前的一些基本的大胆的假设。金融里最重要的问题是识别风险，任何风险都有一个生意可以去控制这个风险，只要我能有效的识别风险。

我们有一个这样的假设，我们就去做这样一个验证，机器学习本身的逻辑是，你给我这几种数学函数描述这个世界，我有几个基本的假设，你给我结果，我参考你的数据，我看看跟你标准答案之间的差距，我来做不断的验证和调整，最后我能不能达到你的预期效果？它有几个因素解决：

因素一，你给我学东西要有相关性。因素二，你让我学的东西和预测的东西是一回事儿。因素三，我学的东西和预测的东西是一回事儿，我学习的目的就是无限逼近认识上限。这三个事情搞定了，学习的效果就出现了。

数据和特征的差异是什么？从学术上来说，特征工程是把原始数据加工成机器学习可以去使用的矢量数据的过程，矢量数据比如说我是一个向量型的，里面有100个列，每个列代表一个含义，每个列有一个取值区间，每个列可以做一个标准化，这个事情我加工好了以后，跟原始数据千差万别，但是我给你做了一些加工以后，成为了一个向量，这就是一个矢量数据。特征工程要做的事情就是把原始数据都加工成什么样的向量的过程，它是一个反复的过程。

原始数据之间没有关系吗？也可能有，当我把原始数据之间的关系，通过组合的方式放到一起，也是一个新的信息。特征之间通过组合会产生新的信息量，特征工程需要解决各种各样的问题，至于上面如何做一些特征发现、特征挖掘、特征处理的方法，如何做一些线性的拟合，如何做离散化，离散化如何做一些泛化能力的处理，如何做区间化的努力等等，所有这些东西在特征工程里都是需要考虑的一些数学问题。

下一个问题是学习的能力，在金融领域里，到底用什么样的数学模型去描述是最合理的？现在没有任何一个标准答案，至少金融领域里还有一个问题是周期，你连完整的周期都没经历过，怎么就有一个结论告诉我，这个模型能够解决这个金融问题，对于我们来说要保证效果、预测能力，周期要经过时间验证，我要尝试不同的方法去看不同周期下效果怎么样、稳定性怎么样。

我需要有一个比较强的计算能力，里面的技术怎么干？技术实现数据计算的时候，如何接入，我如何保障足够快、足够安全、足够稳定、足够大的吞吐，接入进来以后要面临的下一个问题是数据要落地，落地叫做持久化，持久化我要考虑一个问题，未来用了，用的时候是不是任何都可以，拿硬件复制一下就可以，但是用的时候发现读取速度不行，寻址能力不够强，数据读取慢，我持久化的时候要选择一个合适的方案，根据你的数据结果和应用场景来定。数据结果有图，图得考虑图数据结构应该怎么来存，就选择一个技术选型，比如你里面有非结构化的，OSS可以解决的问题，也是不同技术，关键数据库也可以干，关键数据库就可以用一些开源的技术方案帮我解决这样的问题。

你对外提供服务的时候，要看你是一个实时性的给我提供服务，还是可以延迟性提供服务，在我这儿决定了我怎么去读，是否有缓存，缓存如何做失效，以及数据传输如何保证质量、不丢消息，这个使用是不同技术方案的解决。最后的效果要保证你的东西是可靠、准确、快速、足够大的吞吐能够解决对应的计算问题，这个问题就完美。我们解决所有问题，就要干这个事儿，要没有这个能力，你有再强的大脑都没有用，因为没有给你输入。

样本这一块需不需要做一些事？样本是我的目标，样本一定要调整，样本是对现实世界的抽样，你之所以拿样本作为一个目标函数，是因为你认为未来的数据和你的样本之间有代表性，在里面的所有样本难道都是OK的吗？一定有异常值，异常值意味着因为某一个异常值的存在，会让你在整个预测结果上看起来效果好，但是这个预测是有偏的，因为样本是有偏的，所以样本的调整、样本的选择，不同渠道到底是不是样本，不同人群是不是样本，不同设备是不是样本，不同时间段来的是不是不同样本，这个东西都需要我们反复论证去验证，到底样本选择在我的模型下学习的时候，怎么去学，样本的事情也非常重要。

大家都会提，我在里面有什么逻辑回归，有什么决策树，有什么随机森林，有什么神经网络，这些都是不同的数学描述函数，这些函数的不同意味着它们对现实世界描述的能力会有差异。我在做基础选型的时候，到底选的哪一个描述能力的函数去描述它，取决于我对业务的理解，我拿一个我认为可以解决这个复杂度的函数来测试一下，看能不能解决掉，我看看你是因为拟合有问题，还是效果有问题了，这个时候去做一个策略调研的过程，从这个角度来说，我希望大家能够去了解，人工智能到底是能够帮我解决什么类型的问题，哪些比人还做的好，以及人工智能真的能帮我解决所有问题吗？能帮我解决所有问题的前提就那三个，你得有一个描述能力的函数，你得有一个学习的对象在，你得告诉我一个目标函数，如果没有目标、没有学习对象、没有一个描述的函数，什么事都干不了。

三、关于智融集团

我们公司之前叫用钱宝，今年3月份刚完成C轮融资，C轮融资以后我们品牌升级叫做智融集团，智融就是智慧的金融，我们公司从成立第一天开始就希望能够从普惠金融的角度通过技术给每个人提供智慧的金融服务。我们发现在传统信贷领域，其实有若干种能力，一种叫获客，一种叫风控，一种叫放款，一种叫贷后，中间有一个决策叫坏账计提。传统银行的方式都是一个功能体打包，按照门店的方式在线下成立，承担了这几个职责。因为互联网的出现可以让我因为有新的手段，能够让这几种能力单独分离出来，能有更强的能力，获客不用通过线下门店获客，在线上可以通过一个APP获客；风控不仅能为自己的产品服务，一样可以为其他的产品服务；贷后不仅能够减少自己的不良资产，也一样可以为其他的公司不良资产服务，这一块相当于我们具备了不同种的能力，不同能力我们希望能够服务自己的产品，也希望能够向行业输出我们的能力。

我们的风控引擎，我们把它叫做I.C.E.，每个字母都有含义，I叫识别（Identify），特征学习知识点，C叫更强的计算能力（Calculate），E对应的是定价的能力（Evaluate），这三个能力加一起是对我们人工智能风控引擎核心能力的描述。

这是我们自己的风控引擎能力，我们做的还不错，背后计算能力还挺强，数学函数的描述方法还挺多，我们对于一些原始数据的理解和加工能力也非常强，这里面体现在你有多少维的特征，参考多少维的数据，我们其实蛮多的，但这个事儿跟大家说有点太广告，简单说我们做的还不错。最后的表现，我们在一个用户严格算Vintage（每个月分母不变）的情况下，按照严格的方式去算逾期率，而不是某一个期末逾期率，那会因为你的分母变大，你的逾期率肯定不准，就按照我们综合逾期率60天算坏账，一直都稳定在同行业平均水平的60%。

大家在不同类型的资产上，逾期率可能可比性会比较差，但在我们这部分非传统银行人群下，我们能够做到的结果，在行业里面是最好的。机构都说你们说假的吧？我说咱们不用说数字是真还是假，我既然找你来合作，我们希望能够建立合作，既然建立合作有一个环节一定跑不了，就是尽调，尽调的时候你给我相应的数据，我还要抽样，我要抽样至少15万笔可以支持你抽15万的数据，不管是所有月还是某一个月，看我最后的表现，并且能够逐笔的回溯，有流水的方式可以看到，到底你的表现是不是真的，这个一定是说一个非常准确的数据，因为未来大家一旦在一起合作，信用就非常重要。金融领域里有一个核心的点是信用，一个企业的信用需要很长时间的积累，我如果在外面说一些虚的事儿，大家一看不是那么回事儿，这个事情大家在金融领域都是半透明的，不管是对资金方还是对资产方。

牛顿说，自己好比是沙滩上玩耍的小孩，这边捡个贝壳，那边捡个鹅卵石，但是真理的大海就在他的面前。300年后的今天咱们已经积累了非常多的鹅卵石和贝壳了，我们需要做的事情是什么？用AI这艘能够带我们去远航的船，帮我们去探索未来的这些未知的世界。