版权声明:本文为博主原创文章,未经博主允许不得转载。http://blog.csdn.net/LuoXianXion https://blog.csdn.net/LuoXianXion/article/details/88823220
目录
在我之前的帖子中,我提供了用于从Internet 选择,提取,清理和理解内容的工具和技术,以支持您的业务用例。在本博客中,我将讨论如何将处理后的数据用于您自己的自定义搜索,分析和商业智能(BI)应用程序。
互联网下载内容的输出通常采用结构合理的数据形式:
- 元数据字段和值 - 来自标记内容,实体提取或自然语言处理(NLP)提取
- 类别和标签 - 来自统计标记和/或群集系统
- 表行 - 来自NLP提取事实
- 对象关系三元组 - 来自NLP关系提取
您的互联网数据已被清理和处理。下一步是什么?
这些信息有几个地方可以去:
- 搜索引擎 - 增强完整文档(其他方面或过滤器的其他元数据字段)并支持基于搜索的可视化仪表板(例如Kibana,Banana,Hue或ZoomData)
- 关系数据库 - 与可视化和业务分析的其他业务数据相结合(Tableau,Pentaho或其他)
- 图形数据库 - 用于复杂关系分析
- 监控和警报工具 - 适用于需要立即关注的情况(例如违规行为,趋势负面情绪,糟糕的客户服务情况等)
- Apache Spark - 用于进一步的实时分析和机器学习
- 业务规则引擎/ ESB /工作流 - 通过进一步的手动和业务处理发送输出。例如,要检查输出的质量,检查合规性违规等。
- 自定义应用程序 - 用于质量审查和分析,众包审查等。
使用Internet内容的搜索和分析应用程序示例
实际的最终用户应用程序将位于这些目标之上。最终用户应用程序的一些示例包括:
- 随时间变化的趋势报告活动,市场份额或情绪
- 标准搜索引擎界面 - 提取的元数据或标签可以表示为新的构面和过滤器,也可以表示在高级搜索页面内
- 探索性关系查看器 - 查找人物,地点或事物,然后查看它们与其他人,地点或事物的关系
- 关于您的每个客户及其需求的信息报告/摘要/带有参考的头脑倡议
- 通过电子邮件发送有关检测到的客户问题和社交媒体投诉或强烈负面趋势的警报
- 可搜索的实体,规则,法规或类似的数据库
- 增强的文本文档,包含指向外部/丰富信息的嵌入式链接
- 关于趋势主题的词云
现在您已经使用Web数据挖掘工具和技术的组合构建了搜索,分析和BI应用程序,不断对应用程序进行质量分析和改进是持续性能的关键。我将在下一篇文章中讨论质量分析。