文本分析,也称为内容分析,涉及通过应用语言学理论来检查包含在非结构化(或文本)数据中的消息的内容、结构和功能。
在计算机处理能力和内部和外部非结构化数据快速增长的推动下,文本分析现在被用于会计和审计环境。它允许会计师识别租赁协议中的关键条款并跟踪客户合同以确认收入,审计师审查日记帐分录描述,以及投资者比较公司之间的管理讨论和分析 (MD&A)。
由于越来越重视对非结构化数据的会计处理,文本分析在今天尤为重要,其中不仅包括文档,还包括电子邮件、文本消息、日志和通知、视频和音频文件以及静止图像。文本分析允许会计师和审计师分析这些数据并使用它来推动决策。此外,文本分析为会计师提供了超出定量数据的额外知识,包括洞察人类思维和语言使用的复杂模型。
Textual Analysis in Finance and Accounting三个关键方法
文本分析软件由多种方法驱动,其中最常见的是机器学习、自然语言处理 (NLP) 和网络分析。
机器学习:机器学习使用人工智能训练计算机寻找可用于会计的模式。通过机器学习,文本分析软件检查字数,使用词树连接常用词,并运行雾索引以获得文档的整体色调。机器学习有助于文本分析的成功,并有助于会计领域的发展。
自然语言处理:NLP 建立在机器学习之上,并从非结构化数据中提取意义。它通常用于将会计文件从一种语言翻译成另一种语言。NLP 还可以对文档进行汇总,以便投资者更快、更轻松地阅读它们。
网络分析:网络分析发现不同类型数据之间的联系。特别是在文本分析中,这种方法是用词树来实现的,以将不同的文本准确地分组为所谓的“笔记”。这些注释包含在图像中,以展示它们如何根据它们的共同词相互连接。在会计领域,网络分析可用于根据每个文档中的关键字将不同类型的公司报告(10-Ks、10-Qs、年度报告等)相互连接起来。
文本分析的一些实际用途
主题标注
分析文本数据以识别新兴主题,以识别金融市场的上升和下降趋势。
意图检测
分析与客户交互相关的非结构化文本并识别意图。将客户引导至正确的人并改善客户支持体验。
性别检测
了解您的客户是市场研究的一个重要方面。识别客户的性别以加强市场规划。
语义相似性
通过文本分析解锁市场情报。比较所有有竞争力的产品和解决方案,并检查它们之间的接近程度。识别相似的功能并利用这些洞察力将您的产品与竞争对手区分开来。
情绪分析
分析从多个来源提取的客户反馈并确定作者的情绪。对正面和负面反馈进行分类以衡量市场声誉。
情绪分析
分析来自多个来源的客户反馈数据并识别消费者的情绪。找到满意和不满意的客户以及需要改进的地方。
特征提取
银行交易需要大量处理文本数据。使用特征提取来识别和构造来自各种来源的文档。
关键词提取
从非结构化文本中自动提取商业和竞争情报。分析反馈数据并发现有价值的见解。
实体提取
从非结构化文本和文档中识别相关实体。从文本数据中提取有价值的见解或跟踪您的竞争对手。
金融代考:Textual Analysis in Finance and Accounting高分案例
1. What one is TRUE?
A. BERT has an encoder only
B. BERT is bi-directional and has both decoder and encoder
C. BERT has a decoder only
D. BERT is unidirectional
2. The process of obtaining the root word from the given word is known as __________?
A. Lemmatization
B. Stemming
C. Tokenization
D. Vectorization
3. What are word vectors and how do they help with NLP?
A. They are similar to bags of words, just with numbers. You use them to count how many tokens there are.
B. Word vectors are sparse arrays representing bigrams in the corpora. You can use them to compare two sets of words to one another.
C. Word vectors are multi-dimensional mathematical representations of words created
using deep learning methods. They give us insight into relationships between words in a corpus.
D. Word vectors don’t actually help NLP and are just hype.
4. Which of the below is the most reasonable model to use when training a new supervised model using text vector data?
A. Random Forests
B. Naive Bayes
C. Linear Regression
D. Deep Learning
Question 1
How would you use the Named Entity Recognition (NER) in the KYC (Know Your Customer)
process in an industry that you are familiar with (e.g. Banking and Financial Services)?
Question 2
What is POS tagging and why is it important in NLP applications (such as chatbot, language translator, sentiment analysis, text-to-speech, etc.)?
Question 3
Describe how topic modelling can be used in a content-based recommendation system (e.g. book recommendation engines)?
Question 4
Describe how NLP can be used to devise a stock trading strategy? (In your answer, you have to mention which text analytics techniques/methods you will be used and how do you apply them in the process.)