Into the Deep Web: Understanding E-commerce Fraud from Autonomous Chat with Cybercriminals

笔记作者:r1se

原文作者:Peng Wang (Indiana University Bloomington), Xiaojing Liao (Indiana University Bloomington), Yue Qin (Indiana University Bloomington), XiaoFeng Wang (Indiana University Bloomington)

原文标题:Into the Deep Web: Understanding E-commerce Fraud from Autonomous Chat with Cybercriminals

原文来源:NDSS 2020

原文链接:https://www.ndss-symposium.org/wp-content/uploads/2020/02/23071-paper.pdf

本文发表于 NDSS 2020,通过使用聊天机器人在匿名即时聊天中主动收集现实世界中网络犯罪的情报。第一作者为 Peng Wang 为印第安纳大学Bloomington 分校的一名 Ph.D. 学生,其研究方向主要是安全和隐私。

0x1 背景

与电子商务相关的欺诈活动(销售量膨胀,产品排名操控等)通常依赖于基于 IM(Instant Message) 的社交网络如 Telegram, QQ 等来实现。不法分子在即时群聊中宣传自己的攻击工具以及相应的服务,并通过一对一互动来提供购买链接。

这种通信行为轨迹对于了解电子商务欺诈具有无价的威胁情报,但获取情报往往需要和不法分子直接进行互动。

0x2 挑战

谨慎的不法分子一般都只会在一对一互动中来分享有价值的情报,就导致了以往被动的情报收集方法(研究人员通过潜入 IM 聊天群组来被动的去收集多播信息)获取到的情报不那么的有价值。

而一对一的互动往往又需要人为的介入,并且新出现的电子商务不法行为的数量持续增长,从成本效益的角度来看,人为处理一对一对话是不可取的。

聊天机器人能够替代人为介入与不法分子进行交互,然而市面上可用的聊天机器人都不能够直接用于收集网络犯罪的威胁情报。有研究表明,为某种知识域设计的聊天机器人并不能很好的运用于其他域。我们首先需要了解针对特定犯罪的对话,才能够不被怀疑的与不法分子进行沟通。更复杂的是如何从战略上引导目标讨论各种地下活动,例如假帐户购买。

0x3 主要内容

本文提出了 Aubrey,一个能主动从电商不法分子那里收集有效威胁情报的聊天机器人。

基本思想:一些人通过地下 IM 群组寻求资源(SIM卡)以及相应的工作(刷单),他们与那些不法分子(卖资源,工作提供者)的聊天模式通常是问题驱动的。即,他们问一个问题,并期望能够获得相应的资源或工作的答案,然后再进行下一个回合。这样的对话模式就使得我们可以通过有限状态机来对与给定不法分子的交互进行建模,从而实现自主对话。此类FSM由对话管理器运行,以引导与相关不法行为者的对话,从而主动收集威胁情报。

0x4 Aubrey

Fig2

Aubrey的结构如图2所示,Target Finder用于识别地下IM聊天群组中的不法分子以及其的角色。Strategy Genrator构建有限状态机(FSM)以及检索模型的对话资源。Dialog Manager通过运行FSM以及检索模型来指导与指定不法分子的交互,并输出对话以及威胁情报。

Target Finder:识别地下聊天群组中不法分子的角色

Fig1

1.首先运行两个二分类器来判断一个给定对象是upstream actor (SIM farmer,account merchant)还是downstream actor(fraud order operator)。如图1所示,upstream通常是用于提供一些攻击资产(如虚假账号等),downstream提供非法网络(如刷单平台等)。2.由于SIM farmer和account merchant的群组消息具有相似的关键词,所以当给定对象的角色被判定为upstream actor的时候,还需要进一步利用情报来判定他们是SIM farmer还是account merchant。

Strategy Generation:构建有限状态机以及用于检索模型的知识源

1.

识别对话中可以有哪些状态以及状态之间的关系。图3为三种不同角色的状态机示意图,其中圆圈代表了状态,连线代表状态之间的关系。

•首先是要通过基于语义相似性的聚类算法将完整的对话分为多个对话块。对话块是对话中一段关于同一主题的连续消息。•然后,使用与给定角色相关的关键词来识别每个对话块的主题。•主题,从对话中提取出的问题及其扩展构成了一个FSM状态。2.

知识源扩展。当给定角色开始提问题时,系统就会开始从知识源中检索相应的响应,然而当下并没有现成的标注数据用于这个目的。所以本文作者从采集到的数据集中自动寻找与给定角色相关对话中的问题-解答对,并建立了建立状态与对话对之间的关系来让Aubrey更好地提问(即扩展FSM状态)。

•首先使用(1)中的方法将对话分成对话块。•然后独立地在每个对话块中寻找问题,并将紧跟其后的消息作为回答,以此构成一个(问题,回答)对。•去掉停用句以及一些问题形式的回答。•利用jieba从对话块中提取关键字列表,并使用Word2Vec来扩展这个关键字列表。•寻找包含这些关键字的对话对,并比较这些对话对中的问题与某个FSM状态中的问题的语义相似性,相似性大于0.9就可以把这个问题加入到这个状态。

Fig3

Dialog Manager:指导状态间的过渡并利用检索模型处理问题

1.

Dialog Manager首先会从当前状态中随机选择一个问题向不法分子提问。2.

不法分子回答了问题之后,Dialog Manager就如图4所示对其的回答进行分析并调用相应的函数来转换系统的状态。

•回答分析:确定不法分子的回答是否定(”No fraud account available”),疑问(”How many accounts do you want?”),是否带有目标情报(”This is my store link”),还是什么都没有。

Fig4

•否定是通过LTP库分析句子的语法结构检查其有无否定词来判断。•疑问是通过基于规则的检测技术来进行判断。例如:疑问词(5W1H + ?)。•是否携带威胁情报是首先通过检查回答中是否有相应的实体(通过URL正则匹配和关键主题词匹配),再比较回答是否与状态中对话回答语句有语义上的相似来确认。•情报以对的形式呈现(entity, type),是状态转换的根本依据。例如:(shop.91kami.com, store link) or (“new account”, account type)。3.

状态转换。表1展示了每个状态相应的转换表。状态转换可以用一个元组表示:(当前状态,条件,下一个状态)。

Table1

•如果某个回答是否定的,那么状态转换就可以表示为((Start state), R is negative, (Cross-role state))。•如果回答是一个问题,那么Aubrey就会在检索模型找到一个最相关的答复。状态转换就可以表述为(S, R is interrogative, (Retrieval model state))。检索模型比较问题与收集的对话对中的问题,找到最相似的那个问题,并返回该问题的答案。•如果回答中带有情报,那就可以跳过与该情报相关的状态,直接跳到收集下一个情报的相关状态。如图3(a)所示如果回答中包含了 SIM gateway 的情报,那么 Gateway 状态会直接被跳过,并来到 SimSource 状态。•如果回答里啥也没有,Dialog Manager就会保持当前的状态,并随机挑选另一个问题问卖家。如果两次尝试无果,就会切换到 Cross-role 状态。。

0x5 模型评估

数据集

Table2

本文使用了如表2所示的三种数据库,分别包含了IM群组的聊天日志,对话种子以及地下论坛帖子。

Seed dialog dataset:种子数据集包含来自某公司安全分析师在与不同电子商务不法分子对话中的20个会话跟踪样本,平均长度为40条消息。•

IM group chat logs:该数据集中采集的数据来自QQ,本文作者搜索了某公司提供的50个与电子商务欺诈相关的种子关键词,并加入到搜索结果中前50名最活跃的小组。对于每个人小组,作者跟踪了07/2017-10/2018这16个月的聊天记录。共计100万个小组聊天记录,生成了50K个对话对。这些对话不仅与欺诈活动有关还与正常话题有关。•

Undergrand forum threads:会话线程来自两个主流的地下电商论坛htys123.com以及zuanke8.com。其中25K个会话线程,250K个对话对来自htys123.com,110K个会话线程,450K个对话来自zuanke8.com

评估结果

采用 ground truth 数据集,其中包含 500个 upstream 提供商,180 个 downstream 提供商以及3000个不相关人员。最终 upstream 分类器实现了 87.0%的精度,91.2%的召回率, downstream 分类器实现了81.1%的精度,95.6%的召回率。在第二步分类中,以 SIM farmer 为正样本,最终的精度为89.0%,召回率为92.8%。

此外,本文在20,265个IM组成员的聊天记录上运行了Target Finder。 它报告了1,044位SIM farmer,700位帐号卖家和2,648个欺诈订单操作员。 图5显示了两个月新出现的活跃角色的数量,平均每月290个。 此外,Aubrey观察到的活跃角色总数在16个月内从707增加到2,064以及6月和11月由购物节带来的活跃角色数量的激增。

Fig5

0x6 总结

本文提出了一个用于主动收集威胁情报的聊天机器人 Aubrey,其使用了问题驱动的对话模式来对对话交互过程进行建模。结果显示了Aubrey 能够有效的收集电子商务中的威胁情报,并曝光未知的欺诈相关的信息。

该文为将情报收集从被动化为主动开了一个很好的头,收集了更多高价值的高隐蔽性的情报。其中的产出如SIM卡相关信息等可以用做欺诈未知账号检测的重要特征。同时,也为电子商务公司防御这类欺诈行为提供了新思路。另外,该研究分析了整个欺诈生态系统中的链条,其中账号交易是处在最核心的地位,所以我们可以通过在账号注册过程中使用多重认证甚至是人机识别来提高注册的门槛,以减少电子商务欺诈行为。在文中,Aubrey仅仅用于在中国的电子商务平台中收集欺诈相关的情报,但我们只需要基于给定的目标,重新训练Aubrey中相应的模块就可以使其对其他国家相应的欺诈活动进行情报收集,甚至是与其他网络犯罪活动(经济诈骗,恶意软件倒卖等)中的不法分子进行交流。

但问题也随之到来。Aubrey在设计中并没有考虑不法分子的警惕性,尤其是在知道了 Aubrey 的存在之后,他们可能会问一些与相关交易无关的话题来测试对话者是否是个机器人,所以之后需要更多的实验来增加 Aubrey 的健壮性,比如对一些其他领域的问题也需要能够应答。同时,在网络犯罪中,不法分子通常会使用到一些行话来规避检测,本文提出的Aubrey暂时还没有考虑到这个问题,后续可以在其中增加一个行话识别的模块来解决这个问题。

安全学术圈招募队友-ing,有兴趣加入学术圈的请联系secdr#qq.com

为您推荐

Leave a Reply

Your email address will not be published. Required fields are marked *