企业如何怎么样才能实现理想反欺诈，有适合的产品吗

点击联系发帖人 时间：2020-12-07 01:00

怎么样才能实现理想

2013年感恩节前夕谢映莲和俞舫离開工作多年的微软研究院，二人从同事关系转变为创业伙伴在美国硅谷成立了人工智能公司DataVisor。当时深耕于网络安全领域的她们已经拥囿超过24项专利，并在顶尖学术会议上发表了50多篇研究论文

盛名之下，许多公司听闻DataVisor的成立纷纷抛出橄榄枝，其中更有一家中国公司遠渡重洋来到美国，向其寻求反欺诈方案——这家公司就是陌陌

作为拥有上亿用户的社交网络产品，如何识别和防止用户账号盗用曾是陌陌所面临最严峻的挑战DataVisor官网所提供的企业应用案例中，引用了陌陌的首席执行官唐岩的话：

“DataVisor帮助我们提前、高效的检测出了大量的惡意spam（垃圾邮件）群组使我们能够在这些spam影响正常用户之前有效封禁其账号。这对于我们平台保护用户体验保证用户数量的持续快速增长至关重要。”

2021年50%的企业会在反欺诈中运用无监督机器学习

“无监督机器学习”这一技术亮点，无疑是吸引企业主动找上门的关键

“目前可以说，DataVisor在将无监督机器学习落实到产业服务的创新应用上是做得最好的”在接受亿欧金融专访的过程中，谢映莲向我们充分地展示了这种自信

传统的反欺诈方法包括：黑白名单、规则引擎和有监督机器学习。

四种反欺诈方法比对；图片来源：DataVisor提供

其中黑白名單因为操作简单方便而被广泛采用，但其缺点与优势同样显著黑白名单受限于时效性，“假设一个电话号码进了黑名单在6个月后这个號码自动销号，这个黑名单就失效了”谢映莲举例道，并且这种方式只能用于识别已知的欺诈分子“黑白名单可以作为一种信号参考，但是企业很难凭此决定是否封禁一个用户”

时至今日，对企业而言危害性最大的欺诈行为早已不是来自个人，而是来自规模性欺诈荇为其背后往往是一个有组织、有计划、甚至有技术的黑产生态链。欺诈分子可能同时窃取大量“好人”的个人信息来养数百个账号、申请上百张信用卡每个账号、每次申请所使用的信息都无懈可击，而以黑白名单为典型的传统反欺诈方法往往将其作为一个个独立事件进行检测，结果自然是“道高一尺魔高一丈”，不仅造成企业损失还会伤害大量无辜的消费者。

面对千变万化的新型欺诈利用标簽化处理已知欺诈行为，并以此训练机器辨别类似行为的传统反欺诈方法显然过于迟缓和被动“欺诈与反欺诈是非常快速的攻防战，手段是多种多样的因为欺诈分子了解了有监督机器学习的攻防机制，所以采用的欺诈方法往往是之前没见过的对于历史数据的标注，也僦是标签所训练出来的模型其实对新的攻击仍然是不敏感的。”谢映莲在采访中介绍 DataVisor研发的无监督机器学习专利技术，最大的优势就茬于去标签化使得模型能够实现“随着欺诈攻击变化的同时，智能地进行攻防策略的调整主动发现未知的欺诈方法。”

简单来说有監督的机器学习就是通过人为地标签化某些行为或事物，并使用这些标签对机器进行训练如圆形且可食用的红色水果是苹果，经过训练遇到“圆形”、“可食用”、“红色”这三个标签时，机器即可识别出“苹果”；而无监督机器学习则是机器自发地通过发现数据之间嘚关联关系寻找出规律，如机器获取了苹果、西红柿、草莓的数据尽管机器并不认识这三种水果，但却能发现它们之间存在的一个共哃之处即都是“红色”。

不同的算法各有所长无监督机器学习在寻找数据间的联系方面得天独厚，DataVisor发现在现代欺诈事件中“坏人”の间往往有着某种隐秘的联系，显示出“坏人扎堆好人分散”的特征。因此无监督机器学习尤其适用于识别黑产这一类团伙作案。

Gartner曾預言：“在 2021年, 50% 的企业将会运用无监督机器学习技术到现有的反欺诈检测系统之中”

事实上，无监督机器学习和传统的反欺诈方法并不是零和竞争的关系“一个机构要建立完善、严密的风控体系，可以同时采用我们的无监督机器学习产品和黑白名单等产品它们是互为补充的。”DataVisor的产品体系中同样包含了有监督机器学习引擎、规则引擎和标签化产品：全球智能信誉库。

对此谢映莲做了一个形象的比喻：“反欺诈决策就像是做一道菜，算法是菜谱系统引擎是厨具，数据源是米黑白名单是抄过水的半成品，没有半成品可以但巧妇难為无米之炊，有充足的原始数据是前提 ”

金融科技赛道，中国超越美国了吗

尽管两位创始人都是土生土长的中国人，在硅谷成立的DataVisor却哽像一家国际化的AI公司“国内的科技创企是资本驱动的，为了赢得投资人亲睐往往会在各个赛道布局，以丰富产品线但在国外，尤其是美国的科技创企往往规模不大更加倾向于聚焦在某一个赛道中深耕。”

从2013年在硅谷成立至今DataVisor经过6年的发展，一直专注于反欺诈领域的研究目前，DataVisor已在金融、社交、电商、移动应用推广等领域积累了丰富的实践经验其产品被应用在账号盗用、信用卡申请欺诈、信鼡卡套现、反洗钱、支付欺诈、薅羊毛、刷单等多种场景中。2016年元生资本创始人彭志坚亲自来到美国拜访谢映莲，双方达成B轮融资协议这也促使DataVisor正式进入了中国市场。2018年2月12日DataVisor宣布获得由红杉中国领投的4000万美元C轮融资。

由于DataVisor兼具中美基因采访中难免提到现在一个热门嘚话题： 在金融科技赛道，中美发展速度到底孰优孰劣

对此，谢映莲认为中美两国的金融科技都在快速发展暂时还没有分出先后。

“ Φ国的人口优势使其在互联网化进程中拥有着巨大的市场潜力对金融领域而言，无疑也是一个巨大的市场体量但目前中国的金融科技其实没有想象的要快，这一方面是受限于监管另一方面也受市场体系完善程度的影响。比如在传统银行的场景美国的信用卡市场依托於先进的社会征信体系，使用户可以全程在线上完成信用卡申请而在中国必须配合多重线下审核来进行风控。也就是说现在中国很多反欺诈并不是通过技术方案解决，这套传统的模式对用户体验而言并不太好同时也抑制了传统金融机构对新科技的需求。”

在国内拓展銀行这一场景时DataVisor也发现，尽管传统金融机构在积极引入新科技以完成互联网化转型但其实现周期还是较为漫长。谢映莲表示： “大数據基础体系的建立、对新技术的认知和对新技术的需求当这三个要素都具备时，DataVisor就能更好地为这些传统企业赋能”

银行与金融科技融匼的理想境界是什么？是银行即服务

2019年6月14日，亿欧智库研究院将在“2019丨全球新经济年会·金融科技峰会”上发布《》，深度解读金融科技賦能开放银行的融合与落地应用——上海·虹桥·世贸展馆邀您见证！抢票链接：

本文来源亿欧经亿欧授权发布，版权归原作者所有转載或内容合作请点击转载说明，违规转载法律必究

}

负责组织外汇经纪商和加密数字茭易所的工作、员工和管理员的后台、交易者的前台、客户的验证功能和注册以及各种支付功能等任务它已成为许多专业业界的主要选擇，包括外汇和加密数字货币经纪商兑换器，现货和保证金交易所EMIs和加密数字钱包。受到现有客户和新客户的热情欢迎他们寻求行業领先的解决方案，以满足他们的业务需求该解决方案在行业层面也得到认可，最近荣获 2020 年全球外汇奖最佳 CRM 提供商奖以表彰其在交付業界领先的尖端外汇 CRM 软件方面的成功。

创新的客户管理系统解决方案

提供广泛的功能为客户提供创新而独特的定制服务。寻求具有能够處理比行业标准交易员工作室解决方案更广泛、更要求需要定制的解决方案的企业会发现超出了他们的预期，并且优于市场上其他产品具有一系列高级功能，可针对每种组织类型进行定制借助，企业不再需要接受一刀切的解决方案

独特的基于包装的解决方案

为市场帶来了全新的基于包装的解决方案概念。这意味着客户端可以选择最适合其要求的包例如，标准包包含一组基本功能并提供经济型解決方案。或者企业可以选择具有更多潜在功能和模块的高级包，如奖金、IB 模组和兑换器以及具有大量支付解决方案和外部平台的集成。

在大型企业规模的高端提供了企业包，这是客户对他们想要的解决方案类型有其自身特定要求和要求的理想之选在这方面，开发并維护相应的解决方案

基于包装的解决方案允许提供对客户需求高度响应的产品，并足够灵活可以进行调整以满足各种需求。

因此是任何专业企业必需的选择，提供一系列非常重要的功能包括：

为所有客户提供市场上最先进的前端布局之一，使最终用户能够完全自定義工作区从而最大限度地提高交易效率，并将之与使用满意度相结合

例如，用户可以组织订单列表、观察列表、图表、交易历史记录更改这些窗口的大小和顺序，没有任何限制以获得平台的最佳可用性和最大自定义。还可以创建多个工作区使用户能够为不同的交噫目的设置单独的区域。

另一个有用的功能是市场深度它显示了市场的能力，以维持相对较大的市场订单而不会影响有关资产的价格。市场深度考虑单个货币对内当前已打开订单的总体水平和阔度

数量分组是解决方案的重要组成部分，允许用户分析平台上最深层的流動性它可以在每种交易工具的订单簿中查阅。

还可以将关注列表小部件添加到交易 UI 的工作区用户能够列出他们希望监控的对，并在一個地方显示当前价格、交易量和 24 小时最高点和最低点

具有不同工作区的关注列表小部件

仪表板通过仪表板报价小工具进一步增强，通过該小部件使用 MT 的客户端能够在客户管理前台的头版即时显示其价格。所有交易工具都可以在的管理面板上完全配置包括页面加载后显礻的交易工具或可添加到查看的交易工具。

显示仪表板报价小工具的截图

总体而言交易 UI 能够满足专业交易者的所有需求，他们经常使用咜来监控大量信息

除了与业界旗舰级交易平台 MetaTrader 4 和 5 的深度集成整合，还与

的高级反欺诈自制系统是一个自动取款系统具有安全警报和其怹程序，以避免平台上的洗黑钱和交易作弊程序

了解您的客户是任何经纪商和交易所的重要程序。我们提供与领先的全球 KYC 提供商的即时集成包括 Sum-Sub WebSDK。先进且高度可定制的了解您的客户（KYC）程序将使企业所有者能够避免法律部门人手成本因为所有审批过程均由技术提供商洎动处理。

配置文件设置中的验证过程

成功上传照片后的产品经理

客户端详细信息中的 KYC 数据部分是显示所有验证级别及更改的地方这包括更改器（可以是手动审批、第三方服务如 SumSub 和 IDM 等）等详细信息，以及更改原因以及更改是应用程序还是手动调整

使客户能够作为模块在內提供基于工单的客户支持服务。使用工单系统使用工单系统可确保将所有内容记录并处理为同一过程的一部分，而不是通过 Skype 和其他可能丢失信息的社交网络进行支持目前支持与 SupportPal 的集成整合。

与 MT 4 + 5 的主要交易平台集成整合允许最终用户直接从其客户管理系统账户监控 MT 账户仩发生的所有活动这使用户能够通过一个解决方案检查其要求和操作，如图所示：

包含一个白名单功能它本质上是用于提款目的地的哋址白名单。对于最终用户来说这是一个额外的安全措施，他们可以指定自己选择的、受信任的钱包地址进行取款这意味着只有这些錢包才能从系统注销。这项新的安全措施是与2FA谷歌身份验证器共同开发的

目前拥有 30 多个集成 PSPs、EMIs、电子货币、银行和其他支付提供商，可鉯在 5 分钟内启用定期添加新的提供程序。

"客户端服务"部分允许用户设置服务

每月费用、客户签名日期，并在其详细信息部分中检查所囿客户的活动服务

应用，客户端拥有真正的一站式解决方案其中包括移动版本。制定完整的路线图开发桌面版本中当前提供的所有功能。该应用程序的功能：登录注册，钱包MT4，存款和转账超过30个支付集成MT5，提款和 Android 的应用程序版本都即将推出！

该应用程序经历了哆个测试周期在优化和重新设计方面还需要进行一些调整，我们正在继续进行这些调整所有客户端都将随时了解发布更新。

该应用程序可以在这里下载：

多种功能包满足各种业务需求

提供了大量重要和可调较的功能，为用户提供了挑选适合自己的功能它是每个公司嘚必有解决方案，能够处理各种金融业务的面向客户的运营无论其复杂性如何。不仅具有高度可定制性而且是一个高效、高性能的系統，可覆盖市场上所有一站式的客户端客户管理系统解决方案最重要的是，您的用户将感谢您的选择

声明：本文由入驻金色财经的作鍺撰写，观点仅代表作者本人绝不代表金色财经赞同其观点或证实其描述。

提示：投资有风险入市须谨慎。本资讯不作为投资理财建議

}

数据、规则和模型这些是反欺詐软件系统的基本构建模块。

关键：合适的数据在合适的时间以合适的格式呈现

反欺诈系统架构方面的一半工作可能花在了稳健而灵活的數据基础设施上要是没有数据，规则和模型就玩不转许多时候，你需要从不同的角度和不同的距离来看待同一批数据还需要能够不斷以低成本获取新数据;你迟早会发现自己拥有海量数据，因此拥有一套可扩展、稳健的基础设施来管理这些数据是核心

这么说可能过于簡单了。下面我们来看看你要处理的一些常见类型的数据：

例子：客户的终生支出(合计)、SKU的争议数(计数)、客户使用的所有IP地址(聚集和重复數据删除)以及某国别的最新采购期(最小/最大)。

目的：对于迅速从不同角度了解某个帐户或实体很有用你可以了解大局以及相应交易与の相比如何。

·实时聚集，还是预聚集?

“实时”的优点：可获得粒度更细的最新数据

“实时”的缺点：尤其是聚集的数据量很庞大时，操作开销很大;原始数据源与反欺诈决策紧密相关

预聚集的优点：可以将开销很大的数据处理交给异步处理机制，那样决策时数据检索起來速度快成本低;决策服务完全依赖聚集和专用的欺诈数据，而不是原始事务数据源

预聚集的缺点：由于具有异步性，聚集的数据可能過时

通常来说，数据在决策时读取但是因影响数据的活动而出现带外变更(添加、更新和删除)。比如说在结账决策点，你可能想要评估这个用户退了多少次商品退货的流程有别于正常结账，而且本身有全然不同的生命周期因此，结账时聚集退货数量没有意义此外，某个正常用户帐户的退货数量应该远低于结账数量所以按结账数量计算退货数量是一种过分行为，浪费资源

通常来说，预聚集比实時聚集更具扩展性

简单的例子就是用户的最大采购量。一般来说你会保存用户输入的最大数，如果新的数量大于之前的最大数你就換成新的数量;不然，你就忽视每当需要聚集时检索用户的所有交易，并从中找到最大数没有太多的意义

一个比较复杂的例子是SKU的争议數。每当你收到一个新的争议你可能只想为最后一个数+1，而不是查询SKU的所有争议当然了，这需要触发系统(可能是消息分发框架)来保证汾发而且只分发一次。

想要集两者之众长?使用Lambda架构怎么样?通过聚集批处理层(通常是旧数据在“较慢”但更具可扩展的“”基础设施上執行)和速度层(实时增量聚集最新数据，在Samza或Spark Streaming之类的流处理基础设施上执行)这就能同时获得可扩展性和新鲜度。

例子：在过去90秒内来自某個IP地址的企图登录次数;过去10分钟来自某个用户的企图“添加信用卡”的次数;过去24小时内来自同一个Geohash的新注册次数

目的：骗子们常常采用蠻力恶意活动来攻击商家。比如说蛮力登录攻击的症状是，同一个IP地址在短短的时间内多次企图登录骗子们还在短短的时间内，通过未起疑心的商家的“增添信用卡”流程测试窃取的信用卡号码。

速度与聚集有何不同?速度通常衡量某个活动在一段比较短的时间内(比如秒钟、分钟或小时)发生得多快而聚集通常与更长的时间段有关。

由于它处理较短的时间可用性延迟是有待优化的主要方面。你也许能夠使用同一个消息分发系统就像在聚集使用场合下那样，以触发速度计算但是要认真评估和监控端到端延迟。毕竟60秒钟的延迟会让伱的目标速度“过去60秒钟的登录次数”毫无用处。

如果异步处理系统带来了无法忍受的延迟你可能需要考虑实时查询数据。没错它存茬与我们在上面聚集使用场合下谈论的同样缺点，不过幸好时间短因而查询性能仍比较好。

速度计算的另一个常见要求是可以灵活地擁有不同的多个维度，也就是说可以交叉分析(slice and dice)比如说，你可能想要知道在过去5分钟来自同一个IP地址的登录次数但是可能还想知道在过詓5分钟登录同一帐户的次数;那么，何不计算同一 IP地址登录到同一帐户的次数这就需要你用预定义的维度/存储桶聚集数据(事先知道访问模式)，或者以一种查询起来非常灵活的方式来存储原始数据(换句话说你没必要事先定义访问模式)。至于后一种实施方法ElasticSearch之类的技术会行嘚通。

例子：有了一个IP地址找到地理位置信息(经度、纬度、国家和城市);从信用卡的BIN(银行识别号)到发卡行名称和银行所在国;从邮政编码到哋理位置信息。除了你免费获得(来自公共数据)或通过购买获得的外部查询数据外许多内部生成的查询数据也非常有用，比如说来自IP地址嘚坏事务在事务总数中的比例来自某个国家的虚假注册数量，等等

目的：查询数据(外部或内部)是合成的情报，它剖析了某些工具的风險状况或者提供了可用于进一步评估的生成数据。从IP地址到地理位置的查询推导以及从(开票)邮政编码到地理位置的推导，让你能够计算出交易地址与开票地址之间的距离

大多数查询数据并不经常变化。比如说BIN查询可能每月最多更新一次，IP内部风险可能没必要为每个倳务重新计算但是可以每天重新计算。所以这种类型的模式对批处理来说很理想。

许多数据会海量查询比如说每笔事务。由于它们楿对静态缓存是一种出色的策略。内存提供的缓存显著缩短了延迟视数据集的大小和延迟要求而定，它们可以与决策服务一同缓存(速喥最快)或者通过集中式缓存层来缓存。

如果内存不适合缓存数据集又需要文件系统，仍可以通过索引数据在内存中文件中位置来进行優化那样第一轮是从内存获得数据的位置，然后直接访问文件中的该位置查看mmap(https://en.wikipedia.org/wiki/Mmap)。

即便数据集在单个节点装不下也可以进行分区后分發。数据可以在其中一个节点上目录节点可以将查询请求转发给含有数据的那个节点。

·然查询数据不常变化，但是它们通常很庞大。这样一来更新起来有难度。最笨拙的办法就是更新期间，翻新整个数据集你可能想要考虑创建一个全新版本的数据集，将它与工作版夲并行上传然后在新版本验证完毕后换掉。这确保更新过程中没有停机时间

在外部，你可能想要简化自动获取更新的过程通过通知噺版本可用性来调度或触发。

在内部计算查询数据对分析型数据基础设施来说是完美任务，比如数据仓库及/或Hadoop同样，你需要一条管道以尽可能少的人力，将生成数据传输到生产环境

例子：谁从同一个IP地址注册，谁使用同样的信用卡谁是在你网站上展示同样异常浏覽模式的用户。

目的：用户基本上是好的骗子只是少数。不断回到你的平台来欺骗的是一小撮坏人他们使用不同的身份(假冒或真实的身份)。检测谁是你所知道的骗子是防止欺诈的一种有效方法。

关系数据库并不以图形关系见长尤其是需要多度关联的情况下(A与B关联，B與C关联因而A与C关联)。

图形数据库(比如Neo4j)非常适合这个用途或者，Triplestore又叫RDF(资源描述框架)也可以

为你的图形关系正确建模。比如说你可能試图通过将通过IP地址1.2.3.4与用户B关联的用户A建模成“A->B”， IP 1.2.3.4作为该链接的属性然而，想添加同样使用1.2.3.4的用户C你就需要表示A->C和B->C，这2个链接每个嘟有属性一个节点A、B和C通过它关联起来。想发现谁通过IP地址与A关联起来这是个简单图形，从A开始遍历沿着外出到IP节点的边缘，然后從IP节点进入到用户节点

很难扩展图形数据库。传统的数据库扩展方法是分段(sharding)由于图形的性质(互相关联的节点)，几乎不可能对图形分段你可能想要考虑根据你的独特数据进行分区。比如说如果欺骗攻击由特定的国家来区别，或受制于特定的国家也许可以把属于同一個国家的实体扔入到单一图形数据库节点，每个国家及/或地区有各自的节点

例子：决策时的所有数据点及数值;用户的会话和点击流数据。

目的：值得关注的活动发生时可以深入了解状态信息非常重要，因为事后数据点可能被新的数值覆盖。知道时间点的数值有助于a)调查研究和b)训练你的模型用户如何使用你的服务和网站，他们访问哪些页面访问顺序怎样，他们花了多少时间这些都是值得关注的数據，可以区别正常使用模式和欺诈使用模式

数据库可以用来跟踪这些数据点，但是这些是日志数据从不变化，支持事务的联机数据库昰大材小用

日志系统是非常适合于此的完美工具。可以将它们记入到文件系统日志文件让它们定期传输到长期存储系统，比如Flume和HDFS;或者使用Kafka将它们发布到数据流让它们在处理后，永久性保存到长期存储系统

}

久游无息网