古早互联网情报挖掘计划
随着年龄的增长,黑鸟爱上了阅读之前无人详细研究的各类杂七杂八的情报数据,甚至开始看古早互联网时期的八卦类开源情报调查报告。
从近期的几篇文章可以看出一丝的不对劲。
RuBee:隐匿于军工与核设施的小众无线协议
美国紧急通信系统:保障国家紧急状态下通信畅通
在阅读过程中,黑鸟认为人类对于古早互联网情报挖掘不足百分之一,比如各类国外解禁文档(上个时代的东西),而大模型的出现让这一切成为了可能,举个简单例子,分析图1来自斯诺登泄露文件:XKEYSCORE 中的 CNE 分析。(09年的ppt),并参考其系统思路。
XKEYSCORE是美国国家安全局NSA的一个高度机密的计算机系统,主要用于搜索和分析全球互联网数据。
该系统不是直接进行数据收集的工具,而是处理 NSA 通过其他渠道(如光纤电缆拦截)已获取的全量数据(full-take data),包括电子邮件、浏览历史、聊天记录、IP 地址、用户名、密码以及其他元数据和内容,并提供用户友好的界面,让分析师像使用搜索引擎一样查询信息。
自 2010 年起,XKEYSCORE整合机器学习,以应对PB级增长的数据爆炸。
模仿上述处理流程,即通过黑鸟Ai情报处理系统对文档进行清洗,对模糊图片清晰化图3(中文清晰的效果还是不够,但是图片文字提取却还行),然后再自动解读后的成果图4图5。
未来(拖更预警)会自动分析处理类似的古早情报,再自动化发知识星球做一下测试,如果有比较好的素材会发公众号。总之开个新坑,也欢迎投稿比较好的古早情报数据或文章,目前需要有价值的互联网情报语料进行训练。
#古早互联网情报挖掘计划