一、十年前各大公司支付系统架构图 看一下十年前各大互联网公司支付系统架构图,就会发现最基础的偏底层的那部分到现在也很有参考价值,但是性能、可用性、基础架构等已经发生了天翻地覆的变化。 比如根据公开资料,2019 年双11 支付宝的支付峰值为54.4 万笔/秒,真实承载能力应该远高于此。创新的业务也发生了极大的变化,比如京东白条的横空出世,在海外旅游可以直接用支付宝或微信扫码付款等。 晒几个网上公开的图(来源在图片右下角的水印上有,版权归原作者),图虽然有点老,但基础的产品功能到现在也适用。 某团的: 某Q旅游的: 某东金融的: 某蚁金服的: 二、基本概念 下面描述的概念大部分做了极致简化,只是用于入门,对于理解概念应该是够用的。真实的实现会复杂非常多。 这些概念如同支付核心系统拼图的一些小碎片,串起这些小碎片,就是一个完整的支付系统大图。 另:后面的描述中,经常混着用“支付系统”、“支付平台”,“支付机构”,“收单机构”,本质是一个东西。在内部来说,就是一个支付系统,但从和外部机构交互来说,就是一个支付平台。对用户来说是支付,对商户来说就是帮商户收单。 2.1. 最简支付流程 说明:
2.2. 最简清结算流程 说明:
2.3. 最简本对本收单流程 说明:
2.4. 最简跨境收单流程 说明:
如果换成时序图,如下: 说明:
2.5. 稍复杂的跨境支付示例我们以最典型的电商购物举个例子(只是举例):小明使用PayPal在拼多多电商(海外)通过多多钱包(海外)支付了50美金。 经过简化后的交互图如下: 说明: 1)持牌的第三方支付机构和电商是独立的法律主体,所以多多钱包和多多电商是互相独立的,需要走独立的结算。 2)为突出重点,中间省略了很多中间机构,比如花旗通过清算网络才能转账到汇丰,清算网络先略过。 3)为简化描述,还有几个假设:
2.6. 最简信息流与资金流 说明:
2.7. 加入结算的极简信息流与资金流在支付流程中,就是商户委托收单机构(支付平台)把用户的钱收回来,然后再把钱结算给商家。 下面以典型通过外部渠道的卡支付为例说明。 说明:
2.8. 极简跨境收单的协议关系 说明:
2.9. 极简跨境资金方案 说明:
2.10. 渠道路由 渠道路由核心作用是当有多个渠道同时满足业务诉求时,综合支付成功率、支付成本、用户体验、渠道状态等多种因素挑选出最优的一条渠道。 具体如下:
2.11. 简明复式记账金融机构的记账一定是基于复式记账法。下面以用户通过支付平台使用银行支付500块为例做个简要说明。 假设:支付平台使用CMB做为收单行,在CMB开设有备付金账户。 涉及的支付平台内部账户: 记账步骤: 说明:
2. 借贷简要公式(不太严谨,但是够用):
3. 复式记账的专业书籍很多,这里只摘录几个重要的说明:
2.12. 账户分类 在账务系统中,通常包含以下几种账户类型:
2.13. 记账方向 说明:
DR:用户余额(负债类账户)100 CR:提现过渡户(负债类账户)100 2.14. 实时记账与缓冲记账一般来说,客户账户的记账需要是实时的,比如用户充值、提现,商家提现,用户退款等。 这些账户如果不做实时记账,一来有损用户体验,二来有资损风险。比如用户充值100块,如果延时不到账,用户可能会投诉。如果提现不实时记账,用户有可能重复提现成功。如果退款不实时记账,有可能在退款场景下被透支。 假设记账需要几十毫秒(数据库性能决定的),一个账户最高也就只支持几十个TPS的记账请求,对于一些高并发的账户(也称为热点账户)一定是性能不足的。这个时候一般使用缓冲记账,以提高性能。开通缓冲记账的,通常是内部账户或允许商户透支的流出场景。 缓冲记账通常就是先记录流水,然后起定时任务去捞取流水,汇总后进行记账。前提是一定要做好资损防控。 除了缓冲记账外,还有拆分账户的方式来解决热点账户问题。 2.15. 会计科目与会计分录会计科目就是把会计要素进行分类,比如资产、负债等。通常都会有多级分类。 会计科目示例: 说明:
2.16. 记账方案有了账户和会计科目,发生一笔交易时,如何让系统自动去记账?这个是记账方案做的事。其中一个解决方案就是给不同的交易场景制定不同的交易码,通过交易码来驱动记账。 下面是一个典型的支付系统的记账方案示例。 2.17. 会计日与日切 会计日,也称为会计结算日或账务结算日,是支付平台在会计周期中进行账务处理和结算的特定日期。比如在分布式环境下,各机器可能存在时间差,一笔交易在零点时有可能跨天处理,如何判断一笔交易归属于哪天,就依据会计日来计算。 所谓日切,简单理解就是切换到下一个会计日。主要做的工作:
日切试算平衡核心逻辑:
2.18. 对账差异处理对账一般有几种结果:
因为我方和渠道之间有一定的时间差,所以长短款在T+1对账对不上时,往往先进入存疑清单里面,第T+2对账还是对不上,才会进入差异处理。 2.19. 银行通道三层对账体系 第一层是信息流明细对账。我方流水和银行清算文件的流水逐一核对。可能会存在长短款情况。 第二层是账单对账。就是把我方流水汇总生成我方账单,然后把银行流水汇总生成银行账单,进行对账。可能会存在银行账单和我方账单不一致的情况,比如共支付100万,渠道分2次打款,一笔98万,一笔2万。 第三层是账实对账。就是我方内部记录的银行头寸和银行真实的余额是否一致。可能存在我方记录的头寸是220万,但是银行实际余额只有200万的情况。 2.20. 支付记账我们通常说的记账,哪怕是一笔简单的支付,也会有多次记账。具体在什么节点记什么账,一般由财务人员决定。 下面是一个典型的使用银行通道进行支付的记账,会涉及网关过渡户,渠道待清算,商户待结算,手续费,银行头寸等多个内部户。 说明:
2.21. 商户结算记账商户结算和用户支付是两个独立流程。 以典型的商户结算到卡记账为例,通常涉及商户待结算户,网关过渡户,渠道应清算,渠道已清算,银行头寸等内部户。 说明:
三、简明产品架构图 所谓产品架构图,简单的理解,就是站在产品角度,提供什么样的服务能力。下面是一个典型的支付系统的产品架构图。实际实现时差异会很大,尤其是上面的产品或应用层,有很多机构为特殊的行业提供一些特殊的能力,比如携程的支付就会有航空方面的B2B业务。但基础的能力基本也就这些。 说明:
四、极简支付系统架构图 说明:
五、完整支付系统架构图及各子系统简介 跳过几个支付公司,这些基础的概念在几家公司都差不太多,区别是底层技术实现。比如RPC框架,数据库,业务流程,部署架构等。 说明:
5.1. 核心系统依赖图 说明:
5.2. 开放网关主要对接商户,比如下单、支付等接口入口。通常要求有比较高的安全性。部分公司可能会把移动端网关、PC门户网关、商户通知等能力集成在开放网关,也可能会单独拆出部署。 5.3. 收单结算负责把商户的单收下来,并给商户发起结算。承担的收单产品包括有:线上收单,线下收单,担保交易、即时到账等,每个公司的商业策略不同,开出的收单产品会有差异。 有些公司把结算划到出款中心,对接银企直连的渠道。 5.4. 资金产品承担无买卖标的的纯资金转移能力。典型的有:充值、转账、提现、代发。和支付的区分在于支付是有买卖标的,而资金产品没有。也就是在系统中没有买卖记录发生,但在线下可能有。 资金产品一般需要独立的牌照。 5.5. 收银核心渲染可用支付方式。包括查询账户是否有余额,查询营销是否有营销券,查询渠道网关是否有可用的外部渠道,最后组合成可用支付方式,供前端渲染。 收银核心就像一个大内总管,收到请求后,找商户平台核实身份,找合约平台核实权限,找会员平台核实用户身份,找收单看一下这笔单是否可以继续支付,找账务中心获取余额信息,营销看看有没有可用的券,找渠道网关看看没有可用的渠道,找额度中心看看是否超限额了,找风控问一下当前支付是否安全,找会员平台校验支付密码 … … 5.6. 支付引擎负责真正的扣款或转账。有些公司叫支付核心。 如果是余额就调账务扣减余额,如果是红包就调营销做核销,如果是外部银行通道就调渠道网关。 5.7. 渠道网关负责去外部渠道扣款。通常还会提供渠道路由、渠道咨询等能力,做得细的公司可能会把渠道核心和报文/文件网关单独拆出来。其中渠道核心就提供渠道路由、渠道咨询、渠道开关等服务,报文/文件网关负责报文转换、签名验签等。 5.8. 会员平台管理会员的生命周期,比如注册、注销、登录等。同时还提供核身服务(比如登录密码,支付密码,短信验证码等)、实名认证服务等。 5.9. 商户平台管理商户的入驻签约、KYB、交易管理等。 5.10. 产品中心管理对外提供的产品能力,比如快捷支付,代扣等。一般大的支付系统才会独立成一个子系统。 5.11. 账务中心负责账户开立,记账等。 5.12. 会计中心会计科目管理、分录管理、日切管理等。 监管报表有时候也放在这里,有些公司也会独立出去。 很多集团公司往往有一套独立的专业财务系统,这个时候往往需要会计中心做完日切后,要把记账信息合并到集团公司的财务系统中去,简称并账。 5.13. 对账中心负责明细对账和资金对账。 5.14. 营销平台提供满减、红包等营销工具。 5.15. 风控平台针对账户和交易,提供实时、离线风控,控制交易的风险。反洗钱、反欺诈是基本要求。 通常各公司对风控规则看成是机密,研发也可能看不到运营配置的规则。经常看到有网友问:“有xx公司的人在吗?我有xxx场景下的支付总是提示风控不过,是否知道是什么原因,怎么才能通过?”,完全是浪费口舌,谁会对外公布自己的风控规则,让人去钻空子呢? 5.16. 运营平台订单管理、渠道管理、产品管理等综合运营工具。 5.17. 数据平台主要用于数据汇总和分析。当前各支付公司基本都是分布式部署N多个应用,数据都在散落在各子系统中,需要汇总到数据平台用于经营分析。 5.18. 卡中心负责管理用户的绑卡信息。需要经过PCI认证。 5.19. 额度中心累计用户、商户的额度,通常有日、月、年,单卡等各种分类。 5.20. 外汇平台负责外汇报价和兑换。 5.21. 流动性与调拨中心一些跨境支付公司,在多个国家多个银行有头寸,各头寸之间经常需要做流动性管理,提高资金利用率。 毕竟在国外不需要把备付金强制存到央行还不给利息。当资金量大的时候,这笔收益可不少。 5.22. 差错中心负责差错处理。比如渠道退款失败(银行账号销户,过了银行的退款有效期等),需要通过其它的方式退给用户。 5.23. 拒付中心处理用户的拒付和举证。在跨境支付场景下,信用卡用户联系发卡行说卡被盗刷或商品没有收到,或商品有问题等,拒绝支付给商户。 国内基本没有看到拒付场景。 六、一些拓展知识 6.1. 技术风险与资损防控一般来说,技术风险主要包含稳定性和资损两个方面。其中稳定性风险就是大家经常说的几个9,比如99.999%可用,就是5个9。资损风险就是平台或用户的资金损失。 虽然资损也是技术风险的一种,但是因为对于专业的持牌支付公司来,资损是一种非常严重的事故,容易引发客诉、网络事件、甚至监管介入,所以又较一般的风险更为严重,常常把资损防控单独拿出来说。 技术风险体系过于庞大,这里只谈几点通用知识。 识别风险来自哪里 我们通常先需要知道风险来自哪里,才知道如何去防控。而风险往往来自变化。举几个例子,抛砖引玉:
应对风险 根据变化去应对风险。比如大促引入了流量变化,那就做压测、扩容、限流、降级非核心业务等应对。比如原来只有支付,这些有了用户提现,针对用户提现,内部多个子域可能状态/金额不一致,和银行渠道的状态/金额也可能不一致,那就加入各种对账手段,以及对应的应急预案。 内部系统实时与离线对账 对账是资损防控中最效的手段之一。 前面讲过的三层对账主要是和银行渠道对账,除了这个之外,一般的支付平台还会有内部系统之间的两两核对,这种核对主要是信息流层面的核对,主要核对状态、金额的一致性。 说明:
6.2. 幂等幂等是针对重复请求的,支付系统一般会面临以下几个重复请求的场景:
幂等解决方案 所谓业务幂等,就是由各域自己把唯一性的交易ID作为数据库唯一索引,这样可以保证不会重复处理。 在数据库前面可以加一层缓存来提高性能,但是缓存只用于查询,查到数据认为就返回幂等成功,但是但不到,需要尝试插入数据库,插入成功后再刷新数据到缓存。 为什么要使用数据库的唯一索引做为兜底,是因为缓存是可能失效的。 在面临时经常有同学只回答到“使用redis分布式锁来实现幂等”,这是不对的。因为缓存有可能失效,分布式锁只是用于防并发操作的一种手段,无法根本性解决幂等问题,幂等一定是依赖数据库的唯一索引解决。 大部分简单的支付系统只要有业务幂等基本也够用了。 6.3. 分库分表当数据量大的时间,分库分表是再所难免的。一个经典的面试题是:如果分了100张表,按商户来分表,还是按商户订单号来分表?如果按商户分表怎么解决各表流水数据量平衡问题?如果是按商户订单号来分表,商户想按时间段查询怎么办? 解法有很多种。一种典型的解法,就是线上数据库按商户订单号分表,同时有一个离线库冗余一份按商户号分表的数据,甚至直接使用离线数据平台的能力,把商户的按时间段查询需求从在线库剥离出来。 6.4. 分布式事务分布式事务是个好东西,但是复杂度也高,还经常出现所谓的事务悬挂问题,且虽然各家都号称简单易用,对业务代码侵入少,但事实并非如此。 所以我个人更倾向于避免使用分布式事务解决方案,而是采用最终一致性来解决。对大部分中小公司来说,最终一致性已经够用。 6.5. 金额处理规范对于研发经验不足的团队而言,经常会犯以下几种错误:
带来的后果,通常就是资金损失,再细化一下,最常见的情况有下面3种:
最佳实践:
6.6. 业务ID生成规则数据库一般都会设计一个自增ID作为主键,同时还会设计一个能唯一标识一笔业务的ID,这就是所谓的业务ID(也称业务键)。比如收单域的收单单号。 也有人采用所谓雪花算法,但其实不适用于支付场景。 下面以32位的支付系统业务ID生成为例说明。实际应用时可灵活调整。 第1-8位:日期。通过单号一眼能看出是哪天的交易。 第9位:数据版本。用于单据号的升级。 第10位:系统版本。用于内部系统版本升级,尤其是不兼容升级的时候,老业务使用老的系统处理,新业务使用新系统处理。 第11-13位:系统标识码。支付系统内部每个域分配一段,由各域自行再分配给内部系统。比如010是收单核心,012是结算核心。 第14-15位:业务标识位。由各域内部定,比如00-15代表支付类业务,01支付,02预授权,03请款等。 第16-17位:机房位。用于全球化部署。 第18-19位:用户分库位。支持百库。 第20-21位:用户分表位。支持百表。 第22位:预发生产标识位。比如0代表预发环境,1代表生产环境。 第23-24位:预留。各域根据实际情况扩展使用。 第24-32位:序列号空间。一亿规模,循环使用。一个机房一天一亿笔是很大的规模了。如果不够用,可以扩展到第24位,到十亿规模。 6.7. 状态机设计状态机,也称为有限状态机(FSM, Finite State Machine),是一种行为模型,由一组定义良好的状态、状态之间的转换规则和一个初始状态组成。它根据当前的状态和输入的事件,从一个状态转移到另一个状态。 下图就是收单子域设计中交易单的状态机设计。 从图中可以看到,一共4个状态,每个状态之间的转换由指定的事件触发。 常见代码实现误区 经常看到工作几年的同事实现状态机时,仍然使用if else或switch case来写。这是不对的,会让实现变得复杂,且容易出现问题。 甚至直接在订单的领域模型里面使用String来定义,而不是把状态模式封装单独的类。 还有就是直接调用领域模型更新状态,而不是通过事件来驱动。 限于篇幅,这里就不给正确的示例了。有兴趣的可以去网上看看,良好的示例有很多。 6.8. 日志规范只要在公司写过代码,就一定打印过日志,但经常发现一些工作多年的工程师打印的日志也是乱七八糟的。我曾经在一家头部互联网公司接手过一个上线一年多的业务,相关日志一开始就没有设计好,导致很多监控无法实现,出了线上问题也不知道,最后只能安排工程师返工改造相关的日志。 我们要明白日志是用来做什么的。只是先弄明白做事的目的,我们才能更好把事情做对。在我看来,日志有两个核心的作用:1)监控,诊断系统或业务是否存在问题;2)排查问题。 对于监控而言,我们需要知道几个核心的数据:业务/接口的请求量、成功量、成功率、耗时,系统返回码、业务返回码,异常信息等。对于排查问题而言,我们需要有出入参、中间处理数据的上下文、报错的上下文等。 接下来,基于上面的分析,我们就清楚我们应该有几种日志:
6.9. 支付安全支付安全核心关注点 支付安全是一个很大的范畴,但我们一般只需要重点关注以下几个核心点就够: 1)敏感信息安全存储。 对个人和商户/渠道的敏感信息进行安全存储。 个人敏感信息包括身份证信息、支付卡明文数据和密码等,而商户/渠道的敏感信息则涉及商户登录/操作密码、渠道证书密钥等。 2)交易信息安全传输。 确保客户端与支付系统服务器之间、商户系统与支付系统之间、支付系统内部服务器与服务器之间、支付系统与银行之间的数据传输安全。这包括采用加密技术等措施来保障数据传输过程中的安全性。 3)交易信息的防篡改与防抵赖。 确保交易信息的完整性和真实性,防止交易信息被篡改或者被抵赖。一笔典型的交易,通常涉及到用户、商户、支付机构、银行四方,确保各方发出的信息没有被篡改也无法被抵赖。 4)欺诈交易防范。 识别并防止欺诈交易,包括套现、洗钱等违规操作,以及通过识别用户信息泄露和可疑交易来保护用户资产的安全。这一方面通常由支付风控系统负责。 5)服务可用性。 防范DDoS攻击,确保支付系统的稳定运行和服务可用性。通过部署防火墙、入侵检测系统等技术手段,及时发现并应对可能的DDoS攻击,保障支付服务的正常进行。 极简支付安全大图 支付安全是一个综合性的系统工程,除了技术手段外,还需要建立健全的安全制度和合规制度,而后两者通常被大部分人所忽略。 下图是一个极简版的支付安全大图,包含了支付安全需要考虑的核心要点。 说明: 1)制度是基础。 哪种场景下需要加密存储,加密需要使用什么算法,密钥长度最少需要多少位,哪些场景下需要做签名验签,这些都是制度就明确了的。制度通常分为行业制度和内部安全制度。行业制度通常是国家层面制定的法律法规,比如《网络安全法》、《支付业务管理办法》等。内部安全制度通常是公司根据自身的业务和能力建立的制度,小公司可能就没有。 2)技术手段主要围绕四个目标:
对应的技术手段有:
七、结束语 所谓提纲挈领,就是先掌握核心主干,有了这个前提,再去深入了解细节,才不至于“乱花渐欲迷人眼”,解决问题时才能如庖丁解牛,行云流水。伟人邓公提倡的“抓住主要矛盾”,也是这个道理。 本文主要讲了一些支付核心系统相关的基本概念,希望能为大家在学习在线支付系统相关知识时能提供一些有益的参考。 犹记得N年前那天早上,我穿上最帅的衬衣、笔挺的西装裤、贼亮的皮鞋,推开房门,清风徐来,朝阳灿烂,一如我的心情,意气风发。那是我进入正值蓬勃发展的第三方支付行业的第一天。 入职当天老板扔了很多文档给我,看了一周,没看懂。想起老祖宗说的“读书百遍,其义自见”,继续苦读一周,仍然是雾里看花。不幸中的万幸,是挺过了试用期。直到多年后的一天,整理老旧硬盘的资料,才发现一方面是自己愚钝,另一方面也是那些资料写得过于晦涩难懂。于是萌发一个念头:要不我自己也总结总结?这是其中的一篇。 斗转星移,外面的阳光依然灿烂,衬衣、西装裤、皮鞋却已不知何处去了。 作者:隐墨星辰,公众号:隐墨星辰 本文来源 @隐墨星辰 。未经作者许可,禁止转载 文章来源:“隐墨星辰”,未经允许不得转载。 文章代表作者观点,版权归原作者所有,热传平台仅提供信息存储空间服务。 |
2024-09-29
2024-09-26
2024-09-26
2024-09-24
2024-09-24
2024-09-24
2024-09-24
2024-09-22