ShakeProof

2017年4月26日 #

LeanCloud 调研报告

LeanCloud 是一家做后端即服务(BaaS)的厂商,目标是让移动互联网开发者能更加方便的开发应用。
出于工作关系,对 leancloud 进行了一番调研;主要目标是学习其后端即服务的产品化思路等。

整体体会

先说一些整体的感受:

  • 文档质量很高。
  • 关键组件的产品形态清晰,围绕关键组件搭建「业务脚手架」。
    典型案例是账号系统(AV.User 以及一系列基本的业务操作)基于 lean-storage 对象存储来构建。
  • 对客户的数据安全负责。
    完善的访问控制策略、跨域安全等;每天备份一次应用数据(用户若误删数据可找 leancloud 恢复)。

数据存储

数据模型

https://leancloud.cn/docs/relation-guide.html

整体:
基于 mongoDB 的数据模型。

RDBMS MongoDB LeanCloud
Database Database Application
Table Collection Class
Row Document Object
Index Index Index
JOIN Embedded,Reference Embedded Object, Pointer/Relation

索引:
复合索引,唯一索引,数组索引,地理空间索引(geospatial 类型的数据),稀疏索引(默认都是创建稀疏索引)。

  • LeanCloud 后台会根据每天的访问日志,自动归纳和学习频繁使用的访问模式,并自动创建合适的索引。也可以在控制台为每一个 Class 手动创建索引。

建模:
建议根据场景,按照「Pointer/Relation」或者「中间表」的方式来建模。

lean-storage

  • 对象存储:不超过 128KB 的对象存储。
  • 文件存储:集成七牛等第三方文件存储。

对象存储的一些细节:

  • 属性值类型:字符串、数字、布尔值、数组或字典。
  • 内置属性(任何对象都有的属性):
    objectIdACL(一个包括 ACL 权限配置 JSON 对象),createdAt/updatedAt(对象创建和修改的时间)。
  • 数据同步的模型:
    通过 get()/first()/fetch()/find() 等获取对象数据。之后可在本地做各种操作。本地的各种操作都不会 auto commit 提交给云端。调用 save() 后同步本地和云端的对象数据。
  • 原子操作:
    整型属性的 increment 操作;数组属性的 add/addUnique/remove 操作;数据同步 save() 选项 fetchWhenSave 以及 query 带条件的存储。
  • 嵌入/引用数据:
    mongoDB embedded(直接内嵌对象,牺牲数据冗余、换取查询性能);reference(一对多/多对多建模)。
    leancloud 将 reference 包装成 AV.Relation 以及 Pointer
    • AV.Relation 是在「一对多」的「一」这一方保存一个 AV.Relation 属性,保存的是「多」这一方 Pointer 集合。
    • Pointer 是一个概念,没有具体化的系统类型,可看做类似 RDBMS 里的外键指针。但是没有直接的 cascade 级联操作,必须在上层来做关联对象的删除

leancloud 文档非常清晰,也挺人性化。在 LeanStorage 的开发指导页面上,提供了影响查询性能的一些因素。并指出如有问题,可以联系他们进行指导。此外,提供了付费咨询的服务「LeanCloud 咨询师」,方便开发者更高阶的深度咨询业务。

  • 不等于和不包含查询(无法使用索引)
  • 通配符在前面的字符串查询(无法使用索引)
  • 有条件的 count(需要扫描所有数据)
  • skip 跳过较多的行数(相当于需要先查出被跳过的那些行)
  • 无索引的排序(另外除非复合索引同时覆盖了查询和排序,否则只有其中一个能使用索引)
  • 无索引的查询(另外除非复合索引同时覆盖了所有条件,否则未覆盖到的条件无法使用索引,如果未覆盖的条件区分度较低将会扫描较多的数据)

数据安全

authentication(通过签名做身份认证)和 authorization(通过 ACL 做鉴权)机制都有。
https://leancloud.cn/docs/data_security.html

认证

  • 每个应用都使用唯一的 appId 标识;appKey masterKey 分别对应普通访问、超级权限访问。
  • 签名计算规则,是 md5(appKey+timestamp)。使用 md5 而非当前更主流/安全/政治正确的 HMAC,让人略惊讶
    尽管如此,由于文档质量非常高,前后文的背景铺垫、场景描述都很足,可能也不会觉得不妥…… 此外实时通信组件 LeanMessage 的签名都是 HMAC-SHA1。

鉴权

粗粒度:Collection/Class 数据集级别的 ACL 鉴权配置。
细粒度:Document/Object 对象级别的 ACL 鉴权配置。

鉴权策略:RBAC(role-based access control),可指定角色/特定用户对资源的访问权限(-/r/rw)。
鉴权执行:先查粗粒度,再查细粒度,白名单匹配。

Web 跨域安全

配置安全域,防止跨域的资源盗用(恶意部署造成的服务器资源被盗用)。

其他举措

  • 每天备份一次应用数据。
  • 全站 https。
  • 文档中明确推荐对客户安卓 app 通过爱加密来做混淆。

ACL 权限管理

在上面的《数据安全/鉴权》部分,已经描述了一部分。下面的链接则更详细的阐述了 ACL 的理念和最佳实践。
https://leancloud.cn/docs/acl-guide.html

  • 粗粒度和细粒度的 ACL 鉴权管理相结合。
  • 鉴权策略:RBAC(role-based access control),可指定角色/特定用户对资源的访问权限(-/r/rw)。
  • 鉴权执行:先查粗粒度,再查细粒度,白名单匹配。
  • 超级权限:masterKey,越过 ACL 直接操作,适用于在云引擎这种相对安全的运行环境中使用。
  • Document/Object 级别的权限配置粒度很细,在客户端众多的情况下,细粒度配置 ACL 的代码将散布在各处、不易维护。对此,最佳实践是使用云引擎钩子函数beforeSave() 钩子。

云引擎钩子函数

lean-engine hook functions,这个名字取得非常契合 serverless 潮流(手动点赞)。

钩子函数列表见此

钩子函数主要是围绕对象存储操作(新建、更新、删除)、账号管理(短信邮箱认证、登陆)、实时通信组件(收到消息、消息接收方离线、开启对话组前后钩子、拉人、踢人等)。

应用数据共享

将某个应用下的 Class 分享给另一个应用。典型应用是用户账号(内置的 _User)在不同应用间共享。

https://leancloud.cn/docs/app_data_share.html
https://docs.mongodb.com/manual/reference/database-references/#DatabaseReferences-DBRef

实时消息系统

leancloud 的实时消息系统主要是面向 IM 场景,如点对点聊天、群组聊天、聊天室、直播弹幕、聊天机器人等。

特点:

  • 独立性强,和其他组件的耦合度低。
    • 不包括用户、好友关系、设备、系统机器人等语义,统统抽象成 clientId 即聊天参与实体的ID。
    • 认证(签名是否合法)/鉴权(是否允许某个操作)也都解耦,在适当的时候(如加入对话、拉人踢人等)调用远程认证鉴权服务器进行检查。
  • 对话类型丰富:
    • 普通对话(专供常见的单聊群聊场景)
    • 暂态对话(专供聊天室场景)
    • 系统对话(专供系统广播消息、聊天机器人等场景):所有的全用户广播消息都是系统对话类型。
  • 消息业务类型丰富:
    在 sdk 层面上,除了普通的文本消息外,还封装了包括文件、图片、音频、视频、地理位置等一系列富文本消息(其消息中的富文本对象则是 AV.File AV.GeoPoint 等系统对象)。
    可以方便的使用 leancloud 文件存储组件,打一套「组合拳」满足客户需求。
  • QoS 之消息投递优先级:
    暂态对话类型中,还存在 QoS 保障,以满足聊天室中丰富的送礼物(消息可靠性要求高)、弹幕(消息可靠性要求低)等丰富场景。其他类型的对话里不存在投递优先级。
  • QoS 之消息投递可靠性:
    消息分为「普通消息」和「暂态消息」。
    普通消息会提供接收回执(默认不开启)、云端持久化存储、离线推送等功能。
    暂态消息不会在云端持久化,没有离线用户推送;典型使用场景是「对方正在输入中」这样的状态信息。
  • 同 app 推送的结合比较紧密
    支持静态内容推送,和基于云引擎 Hook 的动态内容推送。
  • 丰富的实时通信相关的云引擎 Hook 函数
    可实现许多丰富的业务特性,比如敏感词过滤,消息接收方过滤,推送更个性化的离线消息,实现丰富的对话鉴权操作,批量处理消息发送完毕后的耗时操作等。

另外几个小特点:

  • 扩展对话属性非常简单。同理上文提到的用户系统 _User 表,对话是在 _Conversation 表,也可以在创建对话时,设置各种 attributes,比如是否置顶(pinned)等。
    默认的一些对话属性(以及对应的操作方法),比如 mute 用户列表,也就是从大量常见的聊天需求中提炼出来的通用属性。
  • 单点登录。内置支持类似微信的单点登录,允许且仅允许一个用户登陆一个客户端。
    具体的实现是通过在 createIMClient() 方法中设置 tag,相同 tag 的用户登录将彼此互斥,后续登录的 session 将踢掉之前登录的 session。被踢掉的 session 会在 sdk 层面收到 conflict 事件,方便开发者给出友好的「强制下线/登出」提示。

posted @ 2017-04-26 09:36 mirrorwheel 阅读(1049) 评论(0) 推荐(0) 编辑

2017年2月19日 #

[译] 为何流处理中局部状态是必要的

摘要: 译者注: 原文作者是 Jay Kreps,也是那篇著名的《The Log: What every software engineer should know about real time data's unifying abstraction》的作者。 [本文][4]是意译为主,非逐字翻译,因此同 阅读全文

posted @ 2017-02-19 12:19 mirrorwheel 阅读(708) 评论(0) 推荐(0) 编辑

2014年5月31日 #

Z-Stack - Modification of Zigbee Device Object for better network access management

摘要: 写一份赏心悦目的工程文档,是很困难的事情。若想写得完善,不仅得用对工具(use the right tools),注重文笔,还得投入大把时间,真心是一件难度颇高的事情。但,若是真写好了,也是善莫大焉:既可让人明白「为何如此设计」,即「知其然更知其所以然」;也能剥离一些琐碎的细节,让更多没那么多时间与 阅读全文

posted @ 2014-05-31 18:38 mirrorwheel 阅读(2068) 评论(3) 推荐(1) 编辑

2014年4月13日 #

Think twice before starting the adventure

摘要: 杂文一篇。 1. 取名字真心是一件特别困难的事情。这位独立开发者花了将近两天的时间,给他的私人项目取了个名字;这篇博客《为何我不鸟你的开源项目》里显然还忽视了一个原因,就是名字取得太烂以至于让人无法记住…… 经过半个上午的考虑,决定给新启动的长期计划,取名 Haddock - 丁丁历险记里的 cap 阅读全文

posted @ 2014-04-13 14:41 mirrorwheel 阅读(299) 评论(0) 推荐(0) 编辑

2014年3月19日 #

Multi-pattern string match using Aho-Corasick

摘要: 我是擅(倾)长(向)把一篇文章写成杂文的。毕竟,写博客记录生活点滴,比不得发 paper,要求字斟句酌八股结构到位;风格偏杂文一点,也是没人拒稿的。这么说来,arxiv 就好比是 paper 世界的博客,整了篇论文,管他三七二十一,放到 arxiv 上自嗨一番(如果不是自鸣得意的话)再说…… 话说在 阅读全文

posted @ 2014-03-19 00:36 mirrorwheel 阅读(733) 评论(1) 推荐(0) 编辑

2014年3月17日 #

C pointer again …

摘要: 记录一个比较基础的东东…… C 语言的指针,一直让人又爱又恨,爱它的人觉得它既灵活又强大,恨它的人觉得它太过于灵活太过于强大以至于容易将人绕晕。最早接触 C 语言,还是在刚进入大学的时候,算起来有好些年头了;我当年做过的一个最糟糕的决定(也是如今回想起来依然觉得很 2B 的决定)也和 C 语言有关( 阅读全文

posted @ 2014-03-17 22:16 mirrorwheel 阅读(777) 评论(8) 推荐(1) 编辑

2014年3月14日 #

Javascript Engine, Java VM, Python interpreter, PyPy – a glance

摘要: 提要: url anchor (ajax) => javascript engine (1~4 articles) => java VM vs. python interpreter => pypy ## 前两天在写《HTTP 初步探究》时,碰见一个问题,放到了 stackoverflow 上,简单 阅读全文

posted @ 2014-03-14 00:36 mirrorwheel 阅读(440) 评论(0) 推荐(0) 编辑

2014年3月12日 #

HTTP 初步探究

摘要: 网络上存在很多资源,也持续不断地生成新的资源。为了新建、获取和操作这些资源,引来了两个问题:如何定位资源,如何对他们进行操作。第一个问题引申出了 URI / URL 即 uniform resource identifier / locator,第二个问题则引申出了 HTTP 超文本传输协议。(刚接 阅读全文

posted @ 2014-03-12 00:20 mirrorwheel 阅读(245) 评论(0) 推荐(0) 编辑

2014年2月26日 #

Unicode vs. UTF-8 etc.

摘要: 目测是个老问题了。随便一搜,网上各种总结过。这里不辞啰嗦,尽量简洁的备忘一下。 几个链接,有道云笔记链接,都是知乎上几个问题的摘录;阮一峰的日志,1-5 还是值得参考,但是之后的部分则混淆了 Windows Unicode 和更广泛意义上的 Unicode 的区别,前者最早是将 UCS-2 标准的编 阅读全文

posted @ 2014-02-26 14:10 mirrorwheel 阅读(407) 评论(0) 推荐(0) 编辑

2014年2月23日 #

Note on Preliminary Introduction to Distributed System

摘要: 今天读了几篇分布式相关的内容,记录一下。非经典论文,非系统化阅读,非严谨思考和总结。主要的着眼点在于分布式存储:好处是,跨越单台物理机器的计算和存储能力的限制,防止单点故障(single point of failure);常见方法是,做数据分区(data partition / sharding) 阅读全文

posted @ 2014-02-23 22:48 mirrorwheel 阅读(284) 评论(0) 推荐(0) 编辑

导航

统计信息

点击右上角即可分享
微信分享提示