这是一个金融机构欲言又止的领域。
随着互联网消费金融的兴起,不依赖线下营业网点,仅通过线上实现展业放贷,这一“轻模式”不仅快速推广开来,也受到资本市场等的追捧。
一位腾讯资深风控人士表示,互联网消费信贷的特征一是“快”:线上化、非接触、场景化、秒批秒放。二是“白”,客群缺少征信信息。他表示,以2016年来看,估算消费信贷市场规模约为6.6万亿,其中不良信贷规模超过2000亿元。
与传统银行信贷相比,互联网信贷呈现不同的特征。此前,央行总行金融市场司副处长、百行征信顾问唐磊此前接受21世纪经济报道记者采访时表示,互联网金融和消费金融机构产品模式比传统金融机构更为复杂。如较常见的循环贷、联合贷等产品,前者给予借款人一定额度可多次借贷,后者为多家机构联合给借款人放贷。互联网贷款呈现小额、快速、高频特征,市场上存在大量秒批、十几分钟就要放款的产品。新金融展业对征信数据的查询速度要求较快,有的互金机构要求服务器毫秒级反应,数据期限T+1隔日信息。
这使得互联网金融类机构以不同的模式从事展业。上述风控人士表示,大数据风控三要素中,数据决定了风控的天花板,决策引擎决定了接近天花板的程度,计算平台决定了研发的效率。
需要搜集哪些数据?
包括传统银行、持牌消费金融机构、互联网金融机构等,均已大量从事互联网信贷。21世纪经济报道记者根据各互联网信贷产品的用户借款协议、隐私协议等梳理,这些线上放贷的产品所需要的数据一般包括个人信息、手机设备信息、征信信息、联系人信息等。
互联网巨头中,包括百度、阿里巴巴、京东、小米等一般将互联网信贷产品的隐私权协议与母公司账户体系打通,利用其在体系内手机的数据核算个人信贷额度。
蚂蚁金服的“花呗”要求读取支付宝、银行、商户等留存的姓名、证件类型及号码、联系电话及地址、支付宝账户信息、履约情况;芝麻信用等信用报告;政府机构、司法机关及公共事业单位、行业组织(法院、中国互联网金融协会)等的信息,如诉讼信息;关联人姓名及联系方式等。
百度“有钱花”与百度账号体系打通,收集的个人账户信息包括:设备信息、设备位置、设备连接、设备状态、日志信息、位置信息、唯一应用程序编号、本地存储、Cookie和匿名标示符等工具。其中,设备信息包括硬件型号、操作系统版本、设备配置、唯一设备标识符、国际移动设备身份码IMEI、网络设备硬件地址MAC、广告标识符IDFA等。设备位置信息包括:通过GPS、蓝牙或WIFI信号获得的位置信息。设备连接信息:浏览器的类型、电信运营商、使用的语言等。设备状态信息包括:设备传感器数据,设备应用安装列表。日志信息包括:使用情况、IP地址、所访问服务的URL、浏览器的类型等。位置信息包括:IP地址、GPS、Wi-Fi接入点、基站等信息。
部分互联网金融机构则强制要求App读取某些权限,否则无法正常打开App或提示可能无法正常使用。
如小米贷款App要求获取设备信息(IMEI、MAC地址)等。其收集的信息包括设备信息、应用信息、位置信息、登录日志信息等。设备信息包括:IMEI编号、IMSI编号、MAC地址、序列号、MIUI版本、安卓版本、屏幕显示信息、设备输入信息、设备制造商信息和型号名称、网络运营商、连接类型、硬件使用情况(电量、设备温度等)。应用信息包括:应用列表、状态记录、应用ID、SDK版本、系统更新设置。位置信息包括:地区、国家代码、城市代码、移动网络代码、移动国家代码、小区代码、经纬度信息、时区设置和语言设置。登录日志信息包括:Cookie、IP、网络请求、临时消息、标准系统日志、错误崩溃信息。其他信息包括:环境特征值(ECV)(小米账号、设备标识、链接WiFi产生的信息和地理位置)。
招联金融App要求必须读取存储空间、拨打和管理电话权限。在数据搜集上,包括在央行征信、公安、公积金、社保、税务、民政、物流、通信运营商、电子商务平台、互联网社交平台等平台上查询个人征信、财产信息、联络方式、关系人、资信情况、就业情况、收入情况、婚姻情况、学历情况、工作地址、居住地址、位置数据、通信行为、通讯信息、互联网使用信息、互联网使用行为等。
中原消费金融App要求必读读取设备信息权限、设备存储权限、定位信息等。收集的数据包括:在白骑士大数据、鹏元征信、芝麻信用、中智诚征信、北京集奥聚合、上海诚数等平台查询身份信息、行为信息、交易信息、设备信息等。
刚刚在港上市的51信用卡搜集的数据包括:导入银行账单、手机号、浏览器和手机信息、IP、访问日期和时间、软硬件等特征信息;身份信息、联系地址、职业信息、联系人联系方式、历史借贷情况、设备及位置信息、通话记录及短信记录等。
用户画像标签
搜集数据的目的,在于获取用户画像。
京东金融明确提出,收集用户身份信息、银行卡信息、手机号、个人基本信息、身份信息、财产信息、交易信息及行为信息、浏览信息、关注信息、软件信息、设备信息等,进行数据分析以形成用户画像,用来展示用户感兴趣的产品或服务信息。
21世纪经济报道记者调查获悉,在拥有全面、海量数据的基础上,金融机构会对数据进行分类。一般而言,互联网机构和金融机构会通过丰富和全面的标签体系,采用成千上万个动态或静态字段信息。
例如:平安集团大数据平台中的数据规模高达8.5PB,单个用户数据标签达20000个。
腾讯的用户画像中,标记在每个用户身上的标签人均2000多个,大概可以归类为账户数据、交易数据、商户数据、QQ平台数据、微信平台数据、安全平台数据,日均计算量达到1.5万亿次。不过,腾讯旗下微众银行的微粒贷,用于风控的标签此前不超过40个,在近期增加两个与邮箱相关的标签后,也仅有42个。
通过这一标签系统,将散乱无章的数据整理为清晰分层、逻辑清楚的结构化数据,从而可以被大数据风控模型所用。