收藏本站 | 联系我们 | 设为首页 | English
当前位置:主页>计算机论文>
基于最大熵方法的垃圾邮件过滤插件的设计与实现
来源:  作者:本站

  摘要:结合邮件的半结构化特征,将最大熵模型引入垃圾邮件过滤中,构造出基于最大熵模型的垃圾邮件过滤系统框架。在此基础上,将其与Outlook提供的PIA相结合,利用.NET技术开发出基于最大熵模型的垃圾邮件过滤插件,在客户端实现了基于内容的垃圾邮件过滤,较好地解决了垃圾邮件的问题。
  关键词:最大熵模型;邮件过滤;.NET;Outlook插件
 
  电子邮件以其方便、快捷、低成本等优点逐渐成为人们日常生活中主要的通信手段之一。但大量垃圾邮件的出现,给全球用户带来了巨大损失。据调查,我国用户平均每人每周收到的垃圾邮件数量占收到的总邮件数量的61.63%[1]。垃圾邮件的泛滥已带来严重后果,因此有效地区分正常邮件和垃圾邮件成为一项紧迫的任务。近年来,有关垃圾邮件过滤技术的研究逐渐兴起。常见的过滤方法有黑、白名单技术和规则过滤等,但由于邮件发送者在不断变化,规则难以维护,准确率不高,使这些方法都具有一定的局限性。将垃圾邮件过滤与机器学习、文本分类和信息过滤技术相结合,对邮件正文内容进行分析,已成为目前研究的热点[2]。
  最大熵模型是一种广泛应用于统计自然语言处理领域的技术。结合邮件的半结构化特性,本文将最大熵模型应用到垃圾邮件过滤中,构造出基于最大熵模型的垃圾邮件过滤系统框架,并将其与Outlook相结合,基于.NET平台开发出了Outlook垃圾邮件过滤插件,在客户端利用最大熵模型实现了基于内容的垃圾邮件过滤。
  
  1基于最大熵模型的垃圾邮件过滤
  
  1.1最大熵模型
  
  2.1互操作程序集
  .NET框架中提供的COM Interop技术,使开发人员可以在.NET代码中直接访问COM组件。其基本原理[4]是,针对用户要访问的COM组件,.NET框架自动生成一个互操作程序集(Interop Assembly,IA)。IA是一个完全的托管程序集,其命名空间、类、方法等都与COM组件相对应。这样,在.NET程序中可以直接引用IA,由IA完成对真正COM组件的访问。图2说明了IA的作用。
  微软公司为Outlook 2003提供了一个“正式的”互操作程序集,即主互操作程序集(Primary Interop Assembly,PIA),驻留在名称为Micrsoft.Office.Interop.Outlook.dll的全局程序集缓存中。在Outlook的安装过程中,选择“.NET可编程性支持”,或者下载客户端PIA安装包来完成PIA的安装[5]。
  
  2.2Outlook 2003对象模型
  Outlook通过对象和对象集合的层次系统(称为对象模型)为开发语言提供功能,开发人员利用可用的对象和功能与Outlook进行交互,创建自己的解决方案。下面对其中几个重要的对象进行介绍[6]。
上一页12 3 下一页

关于本站 | 会员服务 | 隐私保护 | 法律声明 | 站点地图 | RSS订阅 | 友情链接
免责声明:凡本站注明来源为xx所属媒体的作品,均转载自其它媒体转载目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。