AI处理海量数据 - 元君策AI

元君策 AI处理海量数据

yjcdata@yuanjuncedata.com

AI处理海量数据

联系我们

元君策AI处理海量数据

AI处理海量数据

元君策以机器视觉和人工智能等前沿技术为核心，专注为客户提供定制化的海量数据处理解决方案，精准筛选与甄别声、图、影音等多种格式的电子数据。

多年来，元君策凭借领先的技术优势，已协助客户成功处理数百起内部调查、合规审查及审计案件，覆盖互联网、电子商务、游戏、医药、快消、保险、化工、航运等众多行业，为客户的合规运营和风险控制提供了有力支持。

成功案例

从监控视频中自动识别出偷拍工作电脑屏幕的员工

某跨国企业发现其内部系统的保密数据被非法出售于暗网，但经查询该系统后台，并未发现任何异常的下载记录。内部合规部门决定对拥有后台权限的员工工作电脑进行抽查，但电子数据检查结果并未发现任何异常，遂委托元君策调查。

元君策接受委托后，发现由于该系统权限向众多员工开放，无法通过后台访问记录等log缩小排查范围，加之系统后台下载记录并未发现异常。基于这一情况，元君策技术团队推测嫌疑员工可能采用拍屏的方式窃取数据。为验证这一推测，技术团队搜集了案发前三个月内的办公室监控视频，结合目标检测和姿态估计等相关技术，创建训练样本，并结合开源姿态数据集，训练动作分类模型。通过对监控视频中所有员工的动作进行精准识别，最终成功锁定了涉嫌偷拍后台页面的员工。

元君策的解决方案不仅快速、高效地帮助企业排查数据泄露源，还大幅节约了调查时间与人力成本，在最短时间内阻止了保密数据的进一步泄露。

在数百万张审计附件中精准筛选重复提交的照片

某跨国公司审计部门发现公司部分经销商使用在同一商超拍摄的堆头和陈列照片，重复申请堆头费、陈列费，遂提出排查需求。但公司旗下各品牌的SKU多达数千种，每个月上传到公司系统后台的照片数量以百万计，且这些照片未按照SKU分类，单靠人工难以发现重复提交的堆头和陈列照片。

元君策接受委托后发现，客户本次需求与常规图像检索工作不同，任务重点不是找到目标物体，而是寻找相似场景。然而，商品海报、大型包装盒以及连锁店招牌等元素本身具有重复性或高度相似性，并占据照片的大部分画面，极易干扰图像检索的准确性。

针对这一挑战，元君策技术团队创新性地结合语义分割技术，精准去除商品海报、大型包装盒以及门店招牌等干扰因素的影响，聚焦于店面或店内场景的相似性比对。

这一解决方案取得了显著成效，重复的场景照片通过AI系统实现了高效自动比对和筛选，为客户的审计工作提供了强有力的支持，大幅提高了排查效率，助力客户快速发现问题，优化管理流程。

利用数千段电话录音锁定恶意退保的职业退保代理人

某美资保险公司近期频繁接到客户全额退保的请求。经过对部分客户的核实调查发现，某些职业退保代理人以“与监管部门合作”或“拥有内部资源”等虚假名义，谎称能够办理全额退保、减免债务、修复征信和保单升级，怂恿并诱导客户退保，并向客户收取高额手续费或促使客户购买其他公司的产品。此类代理人还通过编造事实和虚假信息进行恶意投诉，试图迫使保险公司退还高额保费。

元君策接受委托后，发现仅通过来电号码无法区分正常客户和职业退保代理人，因为这些代理人在获取客户信任后，往往利用客户的手机冒充其身份与保险公司沟通。对此，元君策技术团队请求保险公司提供一年内数千段客户退保请求电话录音，通过声纹识别技术对录音进行深入分析，提取声纹特征，对比不同客户录音之间的相似度，寻找异常匹配。

最终，元君策成功识别出上百组可能由同一职业代理人拨打的电话录音，为保险公司的维权提供了有力支持。

在五千名员工的VDI录屏中精准识别违规访问信息系统的操作

某金融公司信息安全部门发现，个别涉案销售人员利用公司系统漏洞违规访问客户个人信息，但由于该服务器log保存期限较短，部分时间段的访问记录已无法查询。为进行全面排查，公司决定审核所有销售人员近一年的VDI录屏（VDI，即虚拟桌面基础架构，是一种将桌面操作系统和应用程序集中存放在服务器上，而不是在终端用户的本地设备的技术），查找利用漏洞违规访问客户信息的销售人员，并统计被违规访问客户信息数量。

元君策技术团队介入后发现，该公司销售人员多达五千余人，VDI录屏总时长极其庞大，无法通过人力完成审核。为此，团队采用了机器视觉算法处理视频流数据的解决方案。技术团队首先采集涉案的信息系统界面特征，随后通过模板匹配和目标检测相结合的方法，逐帧或每隔数帧快速识别界面内容，并利用OCR技术精准提取关键字段。

元君策采取上述方案，在短期内高效完成了所有销售人员VDI录屏的分析，成功发现数十名违规访问客户信息的销售人员，统计出一万余条被违规访问的客户信息，为企业提供了全面、精准的调查支持，有效维护了信息安全与合规管理。

从海量聊天软件缓存图片中直接锁定员工收取贿赂的截图

某跨国企业收到举报，称多名员工涉嫌对外泄露并变卖公司重要数据。初步调查显示，涉案员工可能多达10余人，公司随即决定对相关人员进行电子数据调查。

元君策技术团队在分析涉案员工的工作电脑数据时，发现每台电脑中均存有数十万张甚至上百万张图片，若采用人工逐一浏览，不仅耗费大量时间和人力成本，还极有可能遗漏涉案线索。如能使用AI对图片进行分类查看，将大幅提高涉案相关图片调查的工作效率。技术团队决定运用AI技术对图片进行分类处理，首先将可能包含涉案重要线索的图片分类整理，确定关心类别并收集图片，创建训练数据集，随后通过这些数据集训练出精准的图片分类模型。调查人员使用AI图片分类后，仅用数日便完成了大规模图片数据的筛查工作。

通过初步分析微信聊天记录、微信、银行转账记录等重要涉案图片后，调查人员快速锁定了重要线索，包括涉案员工通过微信传输公司数据的聊天截图，以及员工使用微信或银行卡接收外部人员贿款的截图等，为后续公司挽回损失提供有力支撑。

调查发现了关键证据，包括:

员工通过 WeChat 共享公司数据的屏幕截图。
员工通过微信或银行转账收受贿赂的截图。

这些发现有助于帮助公司解决数据泄露问题并减少进一步的损失，展示了 AI 在简化复杂调查方面的力量。

公司技术能力背书

上海元君策科技有限公司（简称“元君策”）团队多年来专注于机器学习领域的深度研发，其团队在国际AI赛事中屡获佳绩。

元君策成员曾在Kaggle和阿里云天池等平台举办的多项顶级赛事中脱颖而出，成功解决计算机视觉和数据挖掘等多领域复杂问题，其中Kaggle总竞赛分最高排名全球第59位。凭借丰富的AI算法设计与开发经验，元君策始终走在行业创新前沿，为客户提供精准、高效的技术解决方案。

部分代表性竞赛获奖经历

	项目	奖项	平台
1	CVPR Image Matching Challenge 2022	金牌 Gold Medal	Kaggle
2	ION GNSS+ Google Smartphone Decimeter Challenge 2022	金牌 Gold Medal	Kaggle
3	UNiLAB Algorithm Competition：SRP for high-frequency load data	亚军 Runner-Up	天池 Tianchi

应用技术简介

结合计算机视觉（Computer Vision）、信号处理（Signal Processing）、模式识别（Pattern Recognition）、自然语言处理（Natural Language Processing）和数据挖掘（Data Mining）等人工智能技术，实现多模态数据的深度分析与高效处理。

图像与视频（Image and video）

图像分类（Image Classification）: 提取图像中物体或场景的特征，并分配到预定义的类别中。
图像检索（Image Retrieval）: 包括以图搜图和以文搜图，对图像或文本描述进行特征提取，并计算其与数据库中图像之间的相似性，快速找到相关或相似的图像。
人脸识别（Face Recognition）: 通过提取、分析和对比图像中的人脸特征，识别或验证个人身份。
图像篡改检测（Image Tampering Detection）: 识别图像中可能的编辑痕迹或伪造部分，确保图像内容的真实性。
深度伪造检测（Deepfake Detection）: 利用人工智能技术识别和防范通过深度学习生成的伪造图像、视频或音频，防止信息篡改与欺诈。
目标检测（Object Detection）与语义分割（Semantic Segmentation）: 目标检测是从图像或视频中识别并定位特定的目标物体，框出物体所在区域并分类；语义分割则对图像进行像素级别的理解，为每个关注的区域分配类别标签。
目标追踪（Object Tracking）:通过连续的图像帧序列，实时追踪并确定一个或多个目标在空间中的位置变化。
姿态估计（Pose Estimation）: 通过分析图像或视频中的人体或物体，准确估计出其各个关键点（如关节、骨骼等）的空间位置。
视频事件检测（Video Event Detection）: 通过分析视频中的图像帧序列特征，识别出与预定义事件或行为相关的片段。

音频（Audio）

语音识别（Automatic Speech Recognition）: 识别不同语音输入，将人类语音转化为可理解的文本或命令，需要适应多种语言、口音与噪声环境。
情感分析（Speech Sentiment Analysis）: 通过语音的音调、语速等特征，识别说话人的情感状态，应用于语音交互与情绪识别。
声纹识别（Voiceprint/Speaker Recognition）: 通过分析和提取人的语音特征来验证或识别个体身份。
音频事件检测（Audio Event Detection）: 通过分析音频信号中的特征，识别并分类特定的声音事件，如警报声、交通噪声等。

文本（Text）

光学字符识别（Optical Character Recognition）:从图像中提取文字信息，并将其转化为可编辑文本，应用于文本数字化与文档处理。
信息抽取（Information Extraction）: 通过自然语言处理技术从大量文本中自动提取结构化信息，识别实体、关系及事件，为数据分析和决策提供支持。
情感分析（Sentiment Analysis）: 通过分析文本中的情感倾向，对文本进行情感分类，帮助理解客户反馈、社交媒体情绪等。
自动摘要（Automatic Summarization）: 通过自然语言处理技术自动提取文本中的关键信息并生成简洁的摘要，快速提取关键信息。
文本检索（Text Retrieval）: 包括文本相似性匹配与检索，通过对文本特征的提取，计算文本之间的相似度，快速从大规模文本库中找到相关内容，提高检索效率。

其他（Other）

知识图谱（Knowledge Graph）: 通过结构化的图数据表示实体及其关系，结合推理技术（如图神经网络）进行复杂的关系分析与知识扩展。

微信扫一扫联系我们