沃顿商学院商业人工智能笔记-六-

news/2024/10/19 8:48:49

沃顿商学院商业人工智能笔记(六)

P46:12_简介.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

嗨,我是迈克尔·罗伯茨。我是威廉·H·罗伯茨教授。

我是宾夕法尼亚大学沃顿商学院的金融学劳伦斯教授。

在这一系列视频中,我们将讨论金融、机器学习。

以及人工智能。因此,当我想到金融、数据和技术时,我认为没有什么新意。

金融一直是以技术为导向、以数据为导向以及以模型为导向的。我是说。

你可以追溯到20世纪初的穆迪手册。

数据在金融中始终扮演着核心角色,技术的发展也是如此。

因此,机器学习和人工智能在大众中的近期关注。

从某种意义上说,金融领域的新闻并不是什么新鲜事,它一直处于前沿。

数据技术的前沿,以及建模。至于应用方面,随便谷歌一下,金融领域。

在机器学习或金融和人工智能的领域,你将会得到一大堆信息。

我意识到我在说这句话时有些过时,但你会看到一个非常长的列表。

我在这一张幻灯片上列出了一些常见示例,但这个列表还在不断延续。

实际上,如果你仔细想想,很难找到一个金融应用,其中数据不发挥核心作用。

而且根据你对机器学习的具体定义。

机器学习当然存在,回归分析自从人们在20世纪上半叶手动进行时就已经存在。

20世纪。因此,考虑到该主题的广度和深度,金融、机器学习和人工智能。

我们在这里要做什么?我想专注于一个应用,以提供一种感觉。

以说明其用法,而不是在你可以找到800篇不同文章的更流行的环境中。

我想专注于企业信用风险。我要强调的是这个过程,特别是科学方法。

以及数据科学工作流程。我想强调经济学。

对经济现象和经济原则的理解。

企业信用风险背后的制度细节。

这样我们就可以避免一些常见的陷阱和错误,这些通常与盲目推动有关。

通过一些复杂模型、黑箱来处理数据,我们只能交叉手指,寄希望于结果。

它为我们提供了某个问题的正确答案。实际上。

我认为,对人工智能和机器学习的失望与实际应用有很大关系。

这与对模型和算法的过度依赖有关,认为它们是解决一切的灵丹妙药。

解决问题,而不仅仅是认识到数据、经济学和制度。

对问题的设定和理解在任何应用中都至关重要。

机器学习和人工智能在金融中真的适用于任何东西。

我想在后端展示一个机器学习问题的简单应用。

这是一个分类问题,我们将尝试推测信用评级。

信用风险的感觉,企业信用风险对于可能未被评级的公司。

那我们要怎么做呢?如果你还没有想明白。

这将是非正式的。我想进行一场对话。

我从来不喜欢脚本对话。尽管听起来更清晰,但对我来说显得有些不自然。

但我们将以非脚本方式进行。因此你会听到我口吃、结巴。

我会犯错并努力纠正自己,希望如此。

不是太频繁,并且希望不会以令人分心的方式出现,而是让你容易理解的方式。

这在你脑海的背后潜意识或意识上与之互动。

我也希望这能是动态的。就像你坐在我旁边,我们一起在电脑前工作。

我们正在回顾一些数据、模型等。在这个意义上。

你能够了解或洞察我的思维过程或想法。

更广泛地说,过程的呈现。因此总体来说。

这种非正式的动态方法希望,至少能如此。

目的是希望这能导致更有趣且更具生产力的结果。

以及教育经验。背景噪音来了。那么,目标是什么呢?

目标是我想确保传达一些关于实证分析的想法。

或金融分析。尤其是,我想强调重要性。

正如我之前提到的,过程,具体的过程。

并不是说它们会限制创造力。

但它们会规范我们分析数据的方式。

我想强调数据的重要性。我也想强调经济和制度细节的重要性。

与此同时,我希望在一定程度上弱化复杂性、魅力、算法的重要性。

流行词汇,实际上是过程的黑箱方面。

我想在这里小心,因为我真正想做的是传达重要性。

在这两种理想之间找到平衡。理解并具备领域专业知识的理想。

对于我所研究的现象,数据和经济的清晰理解。

但我也必须理解算法或模型的重要性。

将数据处理并输出我感兴趣问题的答案。

所以我真的想强调这两个方面的平衡。

因为我过去几年的经验是,人工智能和机器学习。

这个组件受到了大量关注,关注过于不成比例。

在一定程度上,这是有充分理由的,因为有了很大的进展,但代价是什么呢?

我相信这些都是整体金融分析过程中同样重要的组成部分。

正如我刚才提到的,这些是数据和经济学等内容。[BLANK_AUDIO]。

P47:13_过程科学方法.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

因此,在任何形式的机器学习或人工智能,或者更一般的财务分析工作之前。

我们总是希望有一个解决问题或提问的流程。

我认为最经过考验的方法是大多数人所称的科学方法。

方法。我喜欢理查德·费曼这位伟大物理学家的这句名言,它很好地总结了。

以非常简洁而优雅的方式描述科学方法。如果是,他指的是理论。

与实验相悖就是错误的。而这个简单的陈述是科学的关键。

我认为对解决问题的科学方法的这种描述是。

对于解决商业问题来说,这非常有用,就像解决科学问题一样。

那么让我们在这里更明确一些。那么什么是科学方法?

有许多方式可以描述它,我发现以下这种方法非常有用。

所以首先,你要清楚地表述一个具体的问题。

你想解决什么问题?然后你猜一个答案。

统计学家会说你假设一个答案。同样的思路。

所以你提出一些潜在的答案或假设、解决方案、建议的解决方案。

针对这个问题。第三步,我们希望识别这些假设或猜测的经验含义。

对于这个问题的答案或假设。如果答案或假设是正确的。

我们在数据中应该看到什么?最后,我们希望将我们猜测的经验含义与实际观察到的进行比较。

在数据中看到的。如果我们的假设是正确的,这就是我们在数据中看到的。

我们应该在数据中看到,但我们实际上在数据中看到吗?这实际上是最后一步。

那么让我们考虑一个例子并应用科学方法。

这里有一个人可能会问的问题。为什么我们的收入增长在放缓?

许多商业领袖可能会问他们的公司什么问题。现在看起来答案是明确的。

这是一个具体的问题,但实际上,我对那个问题有很多疑问。

如果我们想查看数据以提取答案,其实并没有那么明确。

对于那个问题的答案。那么例如,我们在谈论什么收入?我们是在谈论合并的?总收入。

净收益、折扣等等。时间跨度是多少?

那么我们是在讨论过去一年的收入增长,还是过去两年的收入增长。

五年?所以如果我们想要“说”数据,我们需要非常谨慎。

要具体且清晰地提出问题。所以让我们想象一下,我们真正感兴趣的是为什么收入增长在。

过去三年?抱歉,打字有误。我们假设这是在综合层面上进行的。

而不是针对特定产品。为什么过去三年的合并收入增长放缓?

我最终会学会在这里打字。这就是我们的问题。

记住第二步是猜测一个答案。一些潜在的答案是什么?你认为为什么。

实际上,暂停视频并尝试提出一些答案?

你不知道我们讨论的是哪家公司的事实并不重要。

只需运用你的商业常识和对推动收入的一般理解。

尝试对此问题提出一些答案。好的,希望你回来了。

如果你想到了什么,那么这里可能的答案是什么?

有一些假设可以解释为什么收入增长放缓。可能有一件事情正在发生,那就是需求。

产品需求在放缓。可能还存在其他情况,实际上需求并没有放缓。

但我们面临供应问题。因此,我们的产品需求量很大。

但出于某种原因,我们就是无法将产品上架。

也许正在发生的事情是定价策略发生了变化。记住。

收入等于价格乘以数量。因此,收入随时间减少或增长放缓。

更准确地说,可能通过数量或价格渠道实现。

因此,我们可以测试一些假设。然后第三步是确定我们猜测的经验含义。

这些不同假设的经验含义实际上相对简单。

如果定价策略发生变化,我们可以查看数据中的定价。

我们的产品是否在降低价格,也许过于激进以维持需求。

所以我们应该看到产品价格的降低。也许正在发生的事情是,我们看到的却是产品销售数量的放缓。

有趣的是,这是我们在供应问题中看到的相同含义。

增长将影响数量。因此,如果事实证明我们只是销售的单位减少了。

我们稍后将需要更深入地探讨一下。

但关于我们收入增长放缓的问题,还有一些潜在的假设。

作为这些假设的一些经验含义。

最后一步是将这些含义与数据进行比较。这是我们的最后一步。

所以我们需要查看一些关于产品销售和产品价格的数据,以了解。

如果这些假设在数据中确实存在。

这虽然是一个非常风格化的例子,但希望能强调其重要性。

清晰地阐明一个具体问题,以便你可以进行数据分析。第二。

猜测一些问题的答案或假设。三。

确定这些假设的经验含义。这是我们在数据中应该看到的。

最终将这些含义带入数据中,以查看哪些是存在的,若有的话。

事实上是真的。[BLANK_AUDIO]。

P48:14_过程数据科学工作流程.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

所以在这个视频中,我想谈谈数据科学工作流程。在深入探讨之前。

让我提醒你我们刚才谈到的,即科学方法。

所以这是一个四步过程,我们首先要明确地阐述一个具体或精确的问题。

然后我们猜测一个或多个答案。也就是说,我们对那个问题假设答案。

然后我们识别这些不同假设或猜测的经验影响。也就是说。

如果这些假设或猜测是正确的,我们应该在数据中看到什么?

然后最后一步是将这些影响与数据中实际存在的内容进行比较。

在这个视频中,我想重点关注最后一步,因为有一个实际的过程来比较这些影响与我们在数据中看到的内容。

这个过程被称为数据科学工作流程。

像往常一样,我们从谷歌搜索数据科学工作流程开始,在这种情况下,你会得到。

超过9500万次点击。或许更有趣的是,有很多不同的图像描述数据科学工作流程。

有些非常色彩丰富,正如你在屏幕上看到的那样。

但是,虽然描述这个工作流程的方法有很多。

对于不同步骤的许多不同标签,我想保持简单和直观。

让我用以下四个步骤来描述数据科学工作流程。

第一步骤是获取和验证。所以首先你得获取数据。

你必须获取数据,这可能是一个非常简单的过程,就像从本地计算机上抓取电子表格一样简单。

这可能涉及从组织的不同部分获取数据。也可能是。

这可能涉及连接外部API来下载数据。

这可能是从网络上抓取数据,也可能是从不同的供应商那里购买专有数据。

数据无处不在,获取数据的方式几乎同样多。

但这本身就是这个过程的一部分。当然,一旦我们有了数据。

你必须验证它。里根曾经说过,要信任但要验证。

在处理数据时,这一点尤其真实。

所以数据通常会附带某种数据字典或文档。

千万不要轻信这一点。我们总是想通过实际查看数据来验证它。

通过开始使用数据并确保我们理解它。

现在,经过获取和验证数据后,确认它确实是我们认为的那样。

第二步是为分析准备数据。

这听起来可能是一个简单的步骤。但正如我稍后提到的,事实并非如此。

数据通常有多种格式。我们将不得不整理这些数据。

我们需要清理数据,并通过探索性数据分析来探索数据。

也许是EDA。再次提高我们的理解以进一步验证。

也许我们需要回到第一步以获取更多或不同的数据。

但准备工作本身就是数据科学工作流中的一个重要步骤。

一旦我们准备好了数据,再次确保我们理解它且它是正确的。

使其处于我们打算进行的任何分析所需的格式。

然后我们分析数据,分析数据可以简单到得出一个平均值或标准差。

一些总结统计,或者复杂到运行机器学习或人工智能管道以进行探索。

我们训练和测试多种不同的模型,以得出最终的模型,投入生产。

数据科学工作流的最后一步稍微被提及。

但不常被视为正式步骤的我称之为沟通。

所以经过获取、准备和分析数据的过程。

这可以说是最重要的部分,或者至少是同样重要的部分。

能够以清晰而有说服力的方式向决策者传达你的结果,以便他们能够采取行动。

通常,步骤一到三与步骤四之间存在脱节,这对职场中的数据分析造成了损害,限制了数据分析的强大和实用性。

因为数据科学家或其他使用数据的人只是。

能够以一种能够引起管理层共鸣的方式传达他们的发现,而管理层可能并不熟悉数据的使用。

统计学家和其他人可能也是如此。这就是数据科学工作流的四个步骤,我在幻灯片上放了一个非常简单的饼图,来说明我认为的数据科学工作流中时间和努力的总体分配。

饼图中的数字对应于数据科学工作流中的数字或步骤。

你会看到,准备工作在饼图中占大多数。

这肯定是我的经验,也是我几乎所有同事的经验。

准备、清理和理解数据花费了很多时间,这是我个人的经验。

至少有75%到80%的时间,而你知道的。

一旦数据整理成干净的格式,实际分析相对简单。

将数据推入模型相对容易,但对输入模型的数据有信心是完全不同的事情。

因此,你可以看到,仅准备工作就需要大量时间,不要低估这一点。

当然,总会有例外。这不是一条规则,只是一般的特征描述。

[BLANK_AUDIO]。

P49:15_企业信用风险.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

所以我现在想在这个视频中开始讨论我们的。

这是金融分析和一些机器学习的应用或示例。

我想讨论的背景是企业信用。

风险。因此,作为一些动机的背景,这里有一个新义务的图示。

在美国经济中不同发行者的债券发行情况。

好的,我们在这里有资产支持,称其为棕色。海军色是。

联邦机构证券。这种橙色代表企业债务。我们有抵押。

相关的债券发行情况。国债是联邦政府发行的债务。

这里是绿色的政府和市政债券,由各州和市政当局发行的债务。

我们将要关注的。

本部分的橙色部分。因此,我们将重点关注企业债券。

发行情况,从这个图的比例来看,几乎在。

截至2018年,金额达到数万亿美元,但当然公司不只是。

通过发行债券来借款,它们还会申请贷款,所以如果我只看一个。

在这种情况下,联合贷款是贷款市场中的一个小组成部分。

联合贷款的金额,而联合贷款只是由几个不同的金融机构所有的贷款。

由几个不同的金融机构拥有的联合贷款。

而不是仅由一家机构拥有。你可以看到金额。

目前未偿债务至少超过两万亿美元。

总体而言,你可以看到相对风险的轻微区分,低风险与高风险。

这两张图片的重点是强调企业。

企业债务贷款是贷给公司的一个非常大的市场。

包含几个不同的市场,但它们都通过这一点相关联。

企业信用风险的概念,那么我们所说的企业信用风险是什么意思呢?

这就是一家公司可能无法偿还其财务义务的风险。

现在,这为何重要,希望最后两张幻灯片给人留下深刻印象。

这影响了借款金额,涉及到大量资金。

企业所欠的款项以及不同投资者所欠的款项,因此它影响到。

信贷的可获得性影响信贷价格。那么,信贷是给谁的?

风险对许多不同利益相关者非常重要,因此有投资者。

我恰好拥有债券共同基金的股份,所以我是一个。

企业债务的投资者。员工关心企业信用风险。

因为如果公司违约并不再存在,员工将不再有工作。

客户关心企业信用风险,想想我总是回想起。

2008年的大萧条以及汽车公司的遭遇,你不会。

想从即将破产的汽车制造商那里买车。

因为一方面你可能在车上得到一个好交易,另一方面。

如果公司破产,你将从中获得服务。反面情况是。

当然,供应商对信用风险的担忧。

将会更加不愿意向他们的。

购买者如果面临大量信用风险和可能的违约风险。

最后我列出了纳税人,因为再次要考虑。

回到2008年金融危机或大萧条,你知道最后的结果是。

纳税人承担了某些债务的风险。

财务中介无法支付。这就是,救助的原因。

所以让我给你一个大纲,介绍我们在接下来的这些视频中要讨论的内容。

我想思考如何量化和评估企业信用风险,我不想通过示例来做。

我想要。

然后进入一个风格化的机器学习示例,实际上我们正在。

将预测信用评级,或者至少是信用的一个非常狭窄的定义。

评级只是为了突出这一过程以及其背后的运作。

思考的内容。然后我们当然可以在后端讨论。

示例的不同扩展以及其他领域的应用。所以那就是。

大致大纲。[BLANK_AUDIO]。

P5:4_数据管理工具.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

在你的公司能够使用数据并开始AI项目之前。

建立数据基础设施是很重要的。在这次讲座中。

我将讨论公司在开展大规模AI项目之前必须具备的数据管理工具。

首先,我们将稍微谈谈数据仓储。首先。

很多人可能对数据库的概念比较熟悉。

数据库可以简单地理解为一个结构化的数据集合。非常简单。

Excel电子表格可以被视为一种数据库。现在,在实际操作中。

我们通常需要更好的工具来管理数据。所以数据库管理系统或DBMS是允许用户更好地访问和管理数据库的系统。

所以Excel再次提供了一些简单的功能。

但来自微软、Oracle和其他许多公司的更先进数据库确实帮助企业更好地管理他们的数据。

有时我们也简单地称数据库管理系统为数据库。

数据仓库是一种特定类型的数据库管理系统。它在两个方面是专业化的。

首先,它在数据仓库存储的数据类型上是专业化的。

通常这是来自企业许多来源的历史数据。

数据仓库在其服务的目的上也是专业化的,那就是分析。

普通数据库可能服务于操作。例如。

当一家银行的客户登录网站并想查看他们的当前账户信息时。

然后你实际上与一个操作数据库进行交互,或者说客户正在与之互动。

它能够快速提取数据并响应客户查询,比如他们的当前余额。

相比之下,分析需要访问公司可能拥有的所有数据或大部分数据。

其目的通常不是速度,而是能够提供更全面的。

并且提供公司所有数据的全局视图。

数据仓库则服务于该目的。它不一定是最快的数据库。

但它是专门用于分析功能的。

因此,它提供了一个更完整的组织数据视图。

数据仓库的例子包括微软的Azure SQL数据仓库和Google BigQuery。

Snowflake 和 Amazon Redshift。

现在,我们来谈谈数据仓库的工作原理。通常在大多数公司。

操作数据分散存储在许多不同地方。例如。

客户数据可能存储在CRM系统中。还有一些其他的企业信息。

包括关于合作伙伴和供应链的信息,可能存储在ERP系统中。

客户账单信息可能存储在另一个独立的数据库中。现在。

如果我们想要一个公司所有数据的统一视图。

我们首先需要将所有数据提取到数据仓库中。ETL工具对此很有用。

ETL代表提取、转换和加载。这些工具将数据从不同的单独数据库中提取出来。

例如,他们将从CRM系统中提取客户数据。

客户的账单数据从账单系统中提取等等。所有这些数据都被提取出来。

数据按需转换,然后加载到数据仓库中。

流行的ETL工具包括由Informatica和Stitch等公司构建的工具。

现在,它是一个名为Talon的公司的一部分,还有许多其他公司。

数据仓库现在包含来自所有不同来源的所有数据。

一旦我们将这些数据集中在一个地方,你现在可以构建报告和数据可视化工具。

在此基础上。例如,像Tableau这样的商业智能工具位于数据仓库之上。

当分析师输入查询时,这些系统可以进入数据仓库。

并提取必要的信息。接下来,让我们谈谈数据仓库的价值。

数据仓库的主要目的或价值在于它作为单一访问点。

公司的所有数据的中心。并且它存储所有数据的历史。

正如我之前提到的,数据仓库帮助将操作与分析分开。

通常操作数据是快速的,以便当客户登录时。

你可以快速提取数据并响应客户余额等信息。

另一方面,某些分析查询可能需要更全面的访问。

历史数据和数据质量的保障。例如,如果分析师想知道。

在过去10年中,各产品线带来了多少收入?

我们希望这些数据按月份、城市和州分开。

这样的查询需要访问过去10年的大量历史数据。

数据仓库提供数据质量保障和单一访问点。

关于所有这些数据。现在,关于数据仓库就稍微介绍到这里。

作为数据基础设施的一部分,我们还应该谈谈大数据工具,如Hadoop和Spark。

现在,像Hadoop这样的工具有两个主要目的:存储和处理。现在。

存储大数据通常面临一些独特的挑战。如果我们想存储少量数据。

几个文件,我们通常可以将其存储在我们的计算机中。

但如果有大量数据怎么办?过去10年中数百万或数亿客户的数据。

20年来的数据。这样的数据无法存储在单台计算机上。

所以像Hadoop这样的一个大数据工具的作用之一就是将其存储在。

以分布式方式在多台计算机或多个节点之间。接下来,这些系统也会。

处理这些数据。通常这种处理涉及分布式处理。

在多个节点或多台机器之间处理数据并进行并行化。

尽可能多地进行计算或数据处理,这有助于提高速度。

Hadoop是一个由Apache基金会提供的开源工具,Apache基金会是一个非营利组织。

提供开源软件的基础。Hadoop最受欢迎的发行版是由一家。

一家名为Cloudera的公司,尽管还有其他几家公司。而Spark是一个更新的版本。

实际上,我会说它是Hadoop的一个更具主导性的替代品,二者的目的相似。

但解决了Hadoop过去面临的一些问题。Data bricks是最好的。

以Spark为核心的主导公司。接下来我们将更详细地讨论数据。

在我们与Snowflake的一位高管讨论中,提到了房屋以及像Hadoop和Spark这样的大数据工具。

[BLANK_AUDIO]。

P50:16_信用风险KPI.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

现在我想开始讨论信用风险KPI或关键绩效指标。

我将首先讨论如何评估信用风险,然后逐步引入这些内容。

我想这样做,让我们看看一些数据。

坦率地说,这是小而简单的数据,但仍然是数据。

这里屏幕上显示的是英特尔公司的损益表和资产负债表。

我认为这是他们2014财年的数据。这只是一些历史数据,用来说明我想讨论的一些概念。

让我们先看看他们的损益表,这里是他们的收入表。

你可以看到,他们的收入稍微超过550亿美元。

他们的营业收入超过140亿美元。净收入或收益约为100亿美元。

从信用风险的角度来看,仅看他们的损益表,我们可以看到这是相当的。

盈利的公司,但这并不一定意味着他们能够偿还所有。

我们无法知道他们的财务义务是什么。

那么让我们看看他们的资产负债表,看看他们有哪些义务。

现在他们有一些非财务债务,比如应付账款,我们。

目前我们将忽略的。我们将专注于财务义务。

特别是短期债务和到期债务。所以这是将在一年内到期的债务。

可能是因为它的到期时间非常短,比如商业票据。

或者因为其长期债务即将到期,所以稍微超过1美元。

短期债务为60亿美元。长期债务约为120亿美元。

所以财务债务稍微超过137亿美元。

有趣的是,他们实际上有140亿美元的现金和短期投资。

当然,它并不是真的坐在某个银行的储蓄账户里,而是在。

短期流动资产,易于转换为现金。

从一个非常高的层面来看,他们的收入表和资产负债表。

从表面上看,英特尔似乎不是一个特别高风险的公司。

在偿还其财务义务时,要考虑它所持有的现金数量。

以及它的年收益。但是这非常松散。再一次。

我想朝着更正式的方向发展。

那么我们为什么不看看与信用风险相关的一些关键绩效指标呢。

那么让我在我的电子表格上移动一下,让你关注这个表格。

就在这里,如果你愿意。现在让我们开始看一些流动比率,因为可以说大多数偿付能力问题开始于。

作为流动性问题,不是每个流动性问题都转变为偿付能力问题。

但流动性对于违约的重要性是众所周知和理解的。

所以让我们看看三种试图捕捉公司流动性状况的比率。

我所谈论的是流动比率、速动比率和现金比率。

首先,从顶部开始。流动比率,我在这一栏A.G.中有定义。

流动比率只是流动资产的比例。

这指的是公司所有可以在一年内轻松转换为现金的资产。

除以流动负债,即公司所欠的所有债务或所有钱。

在一年内。现在这个比率是1.73,可以简单理解为如下。

好的,每一美元流动负债有$1.73的流动资产。这是$1。

它有73的流动资产,可以轻松转换为现金以偿还每一美元。

在接下来一年内需偿还的债务。这似乎还不错。

所以它有足够的资产来覆盖其负债。

但当然,这种流动资产易于转换为现金的概念,并非全部。

流动资产是一样的。因此,速动比率通过从分子中排除库存来承认这一点。

所以它只考虑现金和应收账款。一旦我们排除库存,速动比率。

流动比率减去库存,从1.73降至1.15。

我们有现金和应收账款,每一美元流动负债有$1.15。

如果我们真正专注于现金,每一美元的流动资产有88美分现金。

债务。因此,这些数字会因为我们越来越多地排除库存而下降。

从分子中移除它,以优先考虑相对的方式。

每种资产的流动性。到底哪个指标是正确的,其实是错误的思考方式。

每个指标提供稍微不同的信息。

我们正从一个更激进的流动比率转向一个更保守的现金比率。

不管我们关注哪个指标,显然英特尔的库存是合理的。

可以用来偿还其流动负债、即即将到期或短期的流动资产。

现在从流动性转向覆盖比率,从这开始。

利息覆盖比率。这是大多数金融信贷协议中非常常见的比率。

大多数情况下是银行贷款。作为契约,企业需在其生命周期内保持一定的覆盖比率。

贷款以避免违反特定的契约。

利息覆盖比率只是EBIT或营业收入与利息支出的比例。

对于英特尔来说,每一美元的利息都有$343.42的营业收入。

费用。想想这意味着什么。这意味着他们可以轻松处理一年内的所有利息费用。

营业收入,别说他们的流动资产了。

但我们不仅要支付借款的利息,还要偿还本金。

因此,债务服务比率通过包括不仅仅是利息支出来考虑这一点。

但也包括在分母中到期的债务。

因此,我们看到覆盖比率在从利息到债务服务的转变中大幅下降。

正如你可能预期的那样,但英特尔几乎每一美元都有将近9美元的运营收入。

关于下一年到期的利息和本金。换句话说。

他们的运营产生了足够的覆盖来应对财务义务。

他们的财务义务。此外,还有一种叫做现金覆盖比率的东西,关注这个比率。

从资产负债表的现金资产到利息支出。正如我们之前看到的那样。

他们有超过140亿美元的现金资产,完全足够应对任何利息支出。

所以,再次强调,不要在森林中迷失。英特尔相对于其当前义务拥有相当可观的流动性。

相对于其财务义务,它产生了大量的运营收入。

当前的财务义务。然后我想关注的最后一组比率是杠杆比率。

这些是稍微不同的看法。杠杆比率在关注公司如何融资其运营。

其中一个更受欢迎的比率是债务与EBITDA的比率。

这与利息覆盖比率类似,在许多不同的银行贷款中作为一种流行的指标出现。

借款人必须遵守的契约。他们必须保持低于某一阈值的杠杆比率。

比如三或四,无论是什么,以免违反那个特定的契约。

你可以看到英特尔的债务与EBITDA比率是0.59倍,对吗?因此债务的数量。

短期和长期债务是其运营收入的0.59倍。

通过EBITDA而非EBITDA来衡量。想一想这一点。

这是否意味着他们相对于运营有巨额债务?几乎不是,对吧?

他们生成的运营收入足够支付几乎所有的债务。

他们的整个债务账单几乎是两倍。剩余的杠杆比率,债务与股本比率。

资本债务与资产、资产与权益的比率又是如何从不同角度看待公司资金来源的。

仅仅关注资产负债表,而不是同时关注资产负债表和损益表。

我们可以看到,例如,债务与资产比率是0.15,意味着每一美元。

在资产中,这些资产的15美分是由债务融资的,另外85美分由股本融资。再一次。

这并不是一个高度杠杆化或低杠杆化的公司,正如这些不同的比率所暗示的。

现在让我们将其与另一家芯片制造商AMD进行比较。

所以同样的行业,我会把他们的损益表拉出来,在我查看其他表格之前。

我们可以看到,至少在2014年,AMD是亏损的,至少在其财务表现上。

从根本上说,它生成了大约1.49亿美元的正营业收入,但也遭受了损失。

这里的收益损失几乎达到五亿美元。

如果我们看看它的资产负债表,你可以看到它的现金少了很多,但。

当然,这是一家规模更小的公司。因此,这里确实是苹果与橘子的比较。

更有趣的是查看信用KPIs。

如果我们看看AMD的流动性覆盖和杠杆比率,以及它们与英特尔的比较。

我们得到了一个非常有趣的对比。

所以让我们从流动性比率开始。令人惊讶的是,AMD的比率类似。

如果不更强,这取决于你查看的比率,流动性比率相对于英特尔。

它有更高的流动比率,更高的速动比率和略低的现金比率,但。

仅仅查看流动性比率,似乎AMD并没有面临任何迫在眉睫的危险。

这意味着它拥有重要的流动资产或流动资产来处理其。

即将到来的或短期的负债。

然而,当我们开始查看他们的覆盖比率时,情况发生了相当大的变化。

那么让我们看看利息覆盖比率,记住这是他们的营业收入。

除以他们的利息费用。我们可以看到,这实际上低于一,是0.86。

因此,对于他们明年到期的每一美元利息,他们仅生成。

86美分的营业收入,这意味着如果他们要支付利息。

他们将不得不在其他地方寻找资金,可能在资产负债表上的某个地方。

他们的流动资产。如果我们看债务服务,那就是即将到期的债务。

我们看到这个数字大幅下降,减半以上,因此每一美元。

明年到期的利息或本金欠款,他们只有42美分的。

营业收入。再一次,这告诉我们他们必须在其他地方寻找资金,因为运营并不。

足够产生以覆盖债务负担。

你可以看到它最有可能的来源,这个漂亮的流动性缓冲。

似乎必须使用。还有额外的借款或股权发行。

它将被用于帮助制作。

这些债务服务支付。

这就是现金余额与利息费用比率如此高的原因,他们正坐拥着。

相对较大的一笔现金。这也与英特尔形成了有趣的对比。见。

英特尔可以通过其运营来处理所有。

其债务服务需求。这意味着它可以将流动资金用于战略和运营原因,而不是。

帮助偿还债务,而AMD显然需要这些流动资金来偿还债务。

至少要为其债权人提供一些信心,表明它将能够履行债务。

用于支付即将到来的债务。现在这种差异再次出现在AMD和英特尔的杠杆比率中。

而英特尔则是。

根据EBITDA,AMD每赚取1美元的营业收入就有59美分的总债务。AMD的债务是6美元。

它的杠杆比率是EBITDA的六倍。同样。

而英特尔用15美分的债务和85美分的股本来融资其资产。

AMD的资产几乎是用60美分的债务和40美分的股本融资的。

所以,AMD使用了更多的债务,相对来说情况更为紧张。

现在停下来想一想这意味着什么。这告诉你关于这两家公司相对信用风险的什么信息?

事实上,它们是不同的。如果你还没有意识到这一点。

尽管我想大多数人都明白,但应该很清楚AMD的财务状况远不如英特尔稳健。

英特尔在履行财务义务方面的状况远好于AMD。

因此,从信用风险的角度来看,AMD是一家风险更大的公司,相比之下英特尔则要好得多。

所以,把这一切结合起来,我们学到了什么?

我们实际上学到了一些信用风险分析的基本知识。

现在还有很多内容,但在阐明一些事情上我们已经走得相当远。

识别流动性和潜在偿付能力问题的相关KPI。

我们看到它们在同一行业、同一业务中甚至可以有不同的表现,其实并不完全一样。

相同的商业模式,但同样的行业,这里指的是芯片制造商。

我们看到英特尔和AMD的信用风险存在显著差异。

[空白音频]。

P51:17_信用风险信用评级.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

现在我想在我们至今讨论的信用风险基础上继续深入。

这是企业信用风险。我想介绍信用评级,这是许多你们。

很多人可能已经熟悉这些内容。所以让我放一个小幻灯片,这实际上是维基百科页面的截图。

这里有很多信息,让我们尝试逐一梳理。

一步一步来看,看看它与我们讨论的内容有什么关系。好的。

实际上有很多评级机构,但在规模和评级范围方面,三家最大的机构是。

分别是穆迪、标准普尔和惠誉。信用评级背后的理念其实很简单。

这是一个试图表征,而不是完全量化的过程。

但要表征不同公司和金融工具的信用风险。

所以当我们谈到英特尔比AMD风险小的时候,就像我们在之前的视频中提到的。

你知道,问“风险低多少”是个自然的问题,对吧。

或者AMD相比于英特尔的风险到底高多少?因此,信用评级是我们量化这种风险的一种方式。

或至少提供一种相对排名的概念。

让我们来看看左侧的第一列,穆迪的长期评级。

我们可以看到,它们的评级从AAA一路降到单C。

随着我们从AAA降到单C,我们正从风险较低的公司转向风险较高的公司。

从信用风险的角度来看,最安全的公司被评为AAA。而最具风险的公司,实际上。

几乎处于违约状态的公司,如果不是已经违约,穆迪的评级是单C。

标准普尔和惠誉有相似的评级标准,只是字母标记略有不同。

所以标准普尔再次以AAA开始,但并不是直接到AA1。

它比最安全的评级低一个档次,达到AA+。然后一路降到单C。

不过,这在某种意义上略高于穆迪的单C评级。

而且惠誉实际上非常相似,甚至可以说是完全相同。

在其长期评级方面与标准普尔相比。现在。

短期和长期之间是有区别的。我现在先把这个放一边。

我不想承担超过我们能力范围的任务。让我们专注于长期评级。

这些公司可能更为知名,引用也更广泛。

你可以把这些评级类别视为在企业信用风险方面的松散相似公司集。

现在,这与违约概率有什么关系?所以在这一列。

维基百科很友好地列出了构建页面的相关人员和一些默认率。现在。

我不会完全依赖它们,但它们会给你一个大致的感觉,因为我确实检查过。

他们与实际的违约率相差无几。每个信用评级,每个单独的评级。

AAA、AA+、AA,各自有自己的违约率,还有不同类型的违约率。

但我不想深入探讨这个问题。所以我们还是关注大局吧。

对于相对安全的公司,按照标准普尔的评级,评级为AA或以上的公司。

或者对于穆迪来说,或者其他评级机构,这家公司违约的概率是多少?

嗯,概率是0.1%。所以10个基点,0.1%。这是非常低的。随着我们在评级等级上向下移动。

你可以看到违约的概率开始逐渐上升。

但请注意,即使我们降到BBB评级的公司。

违约的概率只有1%。对于评级为BBB-或以上的公司来说,这仍然是极不可能的。

或者在穆迪评级中被评为BAA3或以上的公司。

他们违约的概率非常低。

但一旦我们降到单B或AA评级以下。

一旦我们降到BB或BA1以下。

我们看到违约率从1%跃升至7.5%。

一旦你跨越这个界限,就会发生这种情况。

所以从标准普尔的BBB-到BB+。

并且在穆迪评级中,从BAA3到BA1也是如此。

你正在从所谓的投资级评级,转向投机级评级。

这个区别出于很多原因是重要的。

不仅仅是因为我们看到违约可能性几乎是一个离散的跃升。

但也是因为对某些类型的机构投资者有许多规定,关于他们可以投资于哪些公司的资金量。

或者被评级为投资级以下或投机级的工具。

所以我在这里画的这条线是一个重要的划分。

你可以在这里看到评级描述,对吗?我们有投资级别在上面,对吧?

投资级以下,抱歉。投资级以下或在这条线以下的投机级。

那么这次讨论的要点是什么呢?信用评级是信用风险特征的有用描述。

他们稍微抽象一下,但与违约率密切相关,但获得评级。

我喜欢把它想象成课堂上的成绩,对吧?A、B、C、D和F,对吧?

如果你在课堂上得了A,你的表现非常出色,好吗?就像如果你被评级为AAA或AA一样。

那是非常安全的。这是一家非常安全、信用风险低的公司。如果你在课堂上得了B。

你表现得不错。虽然不是很好,但你做得还可以。

所以如果你被评级为单A或高BBB,你仍然是一家相对安全的公司。

违约的概率非常低,但这显然不同于AAA或AA评级的公司。

同样,评级越低,违约概率也越低。因此,它们是信用风险的有用描述。

它们是一种流行的描述。尽管它们受到了很多关注。

在经济中,相对来说,拥有信用评级的公司非常少,我指的是相对少的上市公司。

事实上,这甚至还不到大多数。如果我凭记忆猜测,大约在30%到40%之间。

所以,你知道,在整体上,并没有多少公司拥有信用评级。

但是那些公司往往非常庞大,并且对大量经济活动负有责任。

因此,信用评级理所当然地获得了大量关注。所以,你知道。

信用评级的旋风式介绍,对吧?

它们代表了信用风险,并区分了从低到高的不同信用风险类别。

这将为我们在接下来的视频中想要做的事情提供背景。

我们要开始思考如何对信用评级进行建模。

[沉默]。

P52:18_信用风险信用评级预测.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

好的,现在让我们过渡到考虑机器学习的背景。

企业信用风险,特别是在预测信用评级的背景下。

所以我们应该根据科学方法精准一点,明确我们所做的事情。

我们正在尝试做的事情。

我想做的是开发一个能够区分的模型。

在投资级评级公司和投机级评级公司之间。

为了提醒你,让我回顾几张幻灯片,明确我们所指的内容。

通过投资级和投机级。记住。

这条线就在我正在悬停的地方,三重之间的界线。

标准普尔或惠誉评级中B减和双B加之间。

B双A三和B单A一,这条线划分了投资级,对应于。

对于所有在该线以上评级的公司和投机级,这对应于所有。

评级低于该线的公司。这就是我们想要做的。

现在我们可以更加精准,开发一个模型,分类每个。

级别。因此理论上我们可以区分AAA和AA+评级。

我们可以写出一个模型,区分这些单个的。

但暂时我们还是保持相对简单,试着分配给。

这两个大类的投资级和投机级。

现在问题是,你知道,我们将如何衡量成功?

我们如何知道我们的模型表现良好?这并不像你想的那么简单。

换句话说,我们的原假设是什么?让我们在这里假设。一种假设是。

你知道,我们有一个表现好于仅仅抛硬币的模型。换句话说。

每当我们看到可以是投资级或投机级的观察时。

我们总是可以抛硬币。希望我们的模型表现好于这个。

但想象以下模型。想象一个为每个公司预测的模型。

我们将讨论在不同时间点的公司。

那么让我们思考公司年度观察,对吧?例如。

例如2014年的英特尔或2017或2018年的AAMD。让我们想象一个模型,总是预测投资级。

所以如果我们预测每家公司的年度观察,因为我们会跟踪公司,随着时间的推移。

但是如果我们,我们观察的公司的每一个预测都是这样的。

如果是投资等级,投资等级公司的分类准确率将为100%。

当然,投机等级公司的分类准确率将为零。

我们会每一个都错,因为我们会将那些投机等级公司分类。

现在一方面,你可能会想,嗯,我们每个。

我们对投资等级公司100%正确。另一方面。

我们没有正确分类任何投机等级公司。所以这实际上归结为清晰地。

清晰地定义成功。在这种情况下,以及大多数分类上下文中。

这分解为你可能犯的不同类型错误的成本。

所以让我们把这些整合到一个视觉图中,以便我们能更清楚地讨论。

所以看看幻灯片和幻灯片上的每个框。

每一行对应于数据中的实际观察。

所以在数据中我们将拥有的每一个公司年观察,例如2014年的英特尔。

或者2018年的AMD,无论是什么,要么是投机等级,要么是投资等级。

这就是实际的分类。我们的模型将预测为投机等级或投资等级。

所以我们可以看到四种可能的实际预测组合,对吧?

我们可以正确预测一个被称为真实负例的投机等级公司。

或者我们可以正确预测一个投资等级的公司,真实的正例。

正如我所说,存在两种类型的错误。我们可能错误地将投机等级公司预测为投资等级公司。

或者我们可能错误地将投资等级预测为投机等级公司。

现在我刚才说过,使用那种总是预测投资等级的天真模型,我们可以。

使我们的真实正例率达到100%,对吧?但是我们永远不会正确分类任何投机等级。

所以我们需要认真思考的是,造成这两种错误的成本是什么?

如果它们是相同的,如果错误地将投机等级分类为投资等级的成本。

将公司视为投资等级的成本与错误地将投资等级分类的成本相同。

如果等级公司是投机等级,那么我们只想平衡这两种错误,对吧?

或者等效于两种准确率,两种分类的准确率。

如果另一方面,相对另一种错误的成本特别高,那么。

我们将更重视避免这些代价高昂错误的模型。

好的,让我们用一个例子来具体化。打开你的银行,借钱给你。

现在,如果你错误地将潜在借款人归类为投资级,而他们实际上不是。

实际上,投机级的确可能非常昂贵,因为你将无法赚到足够的钱。

你将给该公司提供相对宽松的贷款条件,低利率。

可能会有松散的契约,这样你就更可能在那笔贷款上亏损。

而如果你将投资级公司分类为投机级,那损失就很大。

假设他们接受贷款,这并不是太糟糕,对吧?因为你将向安全公司收取相对高的利率。

你会赚更多的钱。当然,论点是,如果你尝试这样做,你不会获得业务。

首先,这也有成本。

但有人可能认为将风险公司错误地归类为安全公司可能特别。

在任何重大时间段或大量交易中,给贷方带来的成本都很高。

在这种情况下,我们特别关注的就是这些错误的负面。

我们不希望错误地将投机级公司归类为投资级。

所以我们真的想减少那些错误。

例如,当然,如果我们开始收费,这里并不是没有成本。

每一个安全的借款者走进门时,利率都很高。

没有人会想从我们这里借款。好的。

这只是一个例子,说明不同类型的错误可能会带来相对不同的成本。

与不同类型错误相关的成本。因此,成功的模型真的取决于你的目标函数是什么。

这在你开始建模过程之前需要清楚表达。换句话说。

我们需要回答这个问题。成功是什么?在我们深入建模之前,要非常清楚和准确地定义。

尝试达成。好的。让我来总结一下。

我们的目标是尝试开发一个模型,区分投资级和投机级公司。

成功在我们的例子中将是一个能最小化这两种错误的结果。

我们不会对任何单独的层施加更多或更少的权重。

我们将看看我们能多准确地分类投机级和投资级。

这将是我们的目标。我们要去的方向。好的。

好的。好的。好的。好的。

P53:19_信用风险数据.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

在这个视频中,我想开始谈谈我们将用于分类模型的数据。

好的,记住,我们先退一步。

一切都始于科学过程,明确阐明问题。

从一些假设的提出和对问题的猜测与回答开始。

理解这些假设的实证含义,然后在数据中进行测试。

我们现在所处的阶段实际上是在用数据进行测试。

这是数据科学工作流的开始。这始于获取和验证。

因此,我将抓取一个标准和开放的CompuSAT数据库,其中包含美国大多数上市公司的信用评级和财务信息。

以及一些私有公司。这将成为我们数据的基础。

我将进行一些筛选,做一点清理和验证,正如我们一直做的那样。

但此时不会让你感到无聊,这并不是为了降低其重要性。

而只是简单地掩盖了一些为了准备这些数据而必须完成的繁琐代码。

结果是一个包含10540个观察值的样本。

涉及1995年至2016年的400家公司。因此,记住我在上一个视频中提到的公司年观察。

我们有1400家公司的数据,在多个时间点上。因此,让我们看看我们的数据。

特别是,让我们做一些探索性数据分析(EDA)。

我将在这里绘制样本中评级的分布。

为了简化呈现,我已经对评级进行了合并。

这些是标准普尔评级,分成完整的字母桶。所以。

我所说的是,双A级桶由双A减去双A和双A加组成。

三A级桶由三A减去三A和三A加组成。

对于大多数相关的其他评级也是如此。

我们可以看到的东西大致是对称的,在某种意义上几乎呈钟形。

并不是说它是正态分布的,原因有很多。

其中一个原因是数据是离散的,但你可以看到大部分数据。

大多数观察值聚集在这个虚线附近。

这旨在区分右侧的投资级和左侧的投机级。

所以大部分数据在B级和A级公司之间。实际上。

我们观察到的三A级评级中,只有相对少量的93个,而双C评级则更少。

其中一些接近违约。当然,这并不是我们的结果变量。

我们在这个练习中并不是在尝试,这是一种风格化的表现。

但希望能够直观地预测具体的评级等级,甚至在这种情况下的字母评级桶。

我们试图区分投资级。

投资级和投机级。如果我看这里的分布,其中1对应投资级。

零对应于投机级,你可以看到我们的评级几乎是五五开。

在10540个观察值中,51.1%是投资级,48.9%是投机级。

从某种意义上说,这实际上会让我们的工作变得更容易,因为我们对这两类都有很好的代表性。

两类公司。与一些数据集(例如银行欺诈)形成对比。

绝大多数(百分之九十九,甚至更多)数据是非欺诈交易,而你只有很小的比例。

你试图识别的欺诈交易数量非常少。但在这里并不是这样。

在最后这张表中,我将实际将样本分为两组,基于你是投机级还是投资级。

然后我将计算我们之前讨论过的每个组的平均信用风险KPI。

接着我将进行一项小的配对t检验,并在第三列展示t统计量。

因此,如果我们看第一行,我看到投机级公司有一个平均流动比率。

请记住,流动比率是流动性的一个衡量指标,流动资产。

流动负债约为1.78。

投资级公司的流动比率实际上略低,为1.64。

乍一看可能会显得有些奇怪。但请记住。

投资级公司不需要流动性来支持其财务。

他们可以在流动性方面运行更精简的操作,因为他们从运营中获得了更多的资金,远超任何财务义务。

我们看到,投机级公司与投资级公司之间的流动比率在统计上显著较大,t统计量为负3.29。

因此,我们需要关注流动比率、速动比率和现金比率。

我们发现,投机级公司平均上实际上更倾向于拥有更多的流动性。现在。

当我们转向覆盖比率时,特别是利息覆盖比率。

债务服务和现金覆盖率上,我们看到完全相反的情况。

投资级公司比投机级公司具有更强的覆盖能力。

让我们聚焦于利息覆盖比率,使讨论更具体和精确。

记住,利息覆盖率是EBITDA与利息支出的比率,EBITDA是运营收入的代理。

所以,平均投资级公司每一美元利息支出有$13的运营收入。

而平均投机级公司仅有$5.38。

如果我们考虑本金,这两个数字都会下降。

但你可以看到我们几乎接近投机级的1:1。

投机级公司每欠一年利息一美元的本金,运营收入为$3.55。

相比之下,投资级公司为$6.27。

而且在投机级与投资级的差异不仅在经济上显著。

它们在统计上也是显著的,正如大t值所示。最后。

信用风险指标的最后一个类别,杠杆比率。

显示一些与我们的覆盖比率相对一致的内容,尽管是反向的。

所以,让我们考虑债务与EBITDA,投机级公司的债务与EBITDA比率或杠杆比率是4。

25 表明,他们平均每产生一美元的运营收入就有$4.25的债务未偿还。

所以,与投资级公司每一美元运营收入的$1.97的未偿债务相比。

所以,显然,投机级公司杠杆率相对较高,我们在所有流动性方面都看到了这一点。

所有杠杆比率。

因此,如果我们看看债务与资产,每个资产的45美分是通过债务而非股权融资的,针对投机级。

相比之下,投资级公司每一美元资产的债务融资为26美分。

这些都是高度显著的。你可以看到信用风险特征之间的明显差异。

信用风险KPI在投机级和投资级公司之间。

这很重要,因为这在我们想要预测或分类公司为投机级时会非常有用。

等级或投资级,因为我们会得到很多差异。

覆盖比率、流动比率等之间的巨大差异,以及在某种程度上的其他方面。

流动比率,换句话说。这些似乎可能是我们下一个分类问题的有用预测指标。

谢谢。

你。

P54:20_信用风险模型准备.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

好的,我们正朝着模型训练和测试迈进。

继续准备这个建模过程。为了明确,我们来重置一下场景。

对吧?这里的目标在某种意义上是估计一个函数 F。

使用一系列输入变量或预测变量,帮助分类。

我们的结果变量 y 要么是投资级,要么是投机级。对吧?

所以 y 是我们的结果变量,若为投资级则为一,其他情况为零。

是一和负一,这无关紧要。这些 x 代表我们的模型输入或预测变量。

因此,在上一个视频中,我们开始了这个练习的起点。

将是我们一开始讨论的所有信用风险 KPI,以便获得经济。

了解企业信用风险是什么以及我们如何衡量它。

说到这里,我要查看这些预测变量的相关矩阵。

我已经以热图的格式完成了这一点。让我解释一下这个五彩缤纷的图像所展示的内容。

每一行和每一列对应不同的变量组合。对吧?

第一行对应当前比率,第一列为当前比率,第二行。

速动比率,第二列,速动比率,依此类推。

矩阵中的每个数字对应一对变量之间的相关性。

现在你会注意到,在对角线上,它们全是 1,因为。

这些代表变量与自身之间的相关性。

所以当前比率与当前比率之间的相关性为一,正如相关性。

资产与股本比率和资产与股本比率之间。

着色只是为了帮助识别更强或更弱的相关性。

较强的相关性被识别出来,我需要在这里保持谨慎。

你的正相关通过较深的颜色来识别。

这是规模,1 是最强的。较强的负相关通过较浅的颜色来表示。

我们没有任何完美负相关的情况,但我们确实有一些相关性。

低于负 0.4 的值,甚至负 0.5 的情况,例如债务与资产比率和利息覆盖比率。

现在我为什么要向你展示这个?我在幻灯片上标注了冗余的问题,因为我们第一次介绍这些。

我们在度量时,基本上是根据它们不想要测量的内容进行了分组。

所以第一组流动性指标,包括当前比率、速动比率和现金比率。

他们都在尝试获取流动性指标。现在这并不令人惊讶。

它们也是正相关的,仅仅从观察来看。

数字以及阴影的深度,它们是非常强的正相关。

同样,我们也有一些非常强烈的负相关指标。

当我们考虑债务与资本化比率相对于利息覆盖比率时。

或者债务与资产比率与利息覆盖率,我们的分子和分母都是债务。

分母。所以这里有一个非常强的负相关。

这个练习的目的是提出一个想法,即我们可以把这些。

将变量放入模型中,让它解析哪些有效,哪些无效。

这并不总是最佳策略。模型的简约性或简单性是非常重要且相当有用的。

当涉及到样本外预测时。因此,我们可能需要削减我们所看的变量数量。

这也是我们稍后会调查的内容,但需要注意。

当然,任何完全相关的东西都会造成各种问题。

针对模型。所以这是我们可以从这个相关矩阵中识别的其他内容。现在。

在数千个变量的情况下,查看并可视化那个矩阵是完全。

不切实际,但我们当然可以通过编程方式逐步分析,或者我们。

可以使用数据压缩技术,例如主成分分析,这样的东西有点。

超出了我们今天要讨论的范围。好吧。现在。

我想讨论的下一件事是训练测试拆分,这应该在。

这个过程的开始。所以我在这里做了一些不该做的事情。

但这在某种程度上缓和了讨论的流畅性。我们需要做的是将那份数据样本拆分成几部分。

一个我们将用于训练模型的训练部分,估计我们的模型,尝试。

找到最佳模型,然后是一个测试部分或保持样本,我们只看一次。

我们已经确定了一个模型。看,我们想要避免的是过拟合。

我们不想建立一个能够非常好地描述我们拥有的数据的模型,因为那样就会。

当新数据进入时,它可能表现得非常糟糕。分类准确性可能非常差。

所以我们真的希望在我们拥有的数据上训练模型,只有在我们确定之后。

在一个模型上,确定在测试数据的后端是否值得。

所以我们要对我们的样本进行训练测试拆分。我将会执行这个操作。

所以这里是我们的完整数据集,共有10,540个观察值。我的训练数据有8,432个观察值。

我的测试数据有2,108个观察值。我在这里展示的是我们所有预测变量的平均值。

以及结果变量。所以投资等级是一个指示符,当观察值为投资等级时,等于1。

否则为零。我在这里展示的是这些变量在完整数据集中的平均值。

训练和测试子样本非常相似。实际上,如果我真的。

我在这里没有向你展示的是我们的测试统计,统计上。

测试这些数字之间的差异,它们都非常小。

因此,它们在经济上和统计上是不可区分的,这正是你应该预期的。

如果你随机分配观察值到训练集和测试集。所以让我总结一下。

我们已经完成了所有的数据采集验证,以及数据准备/模型准备。

而我们现在准备过渡到实际建模,这就是接下来的内容。

接下来是。[空白音频]。

P55:21_信用风险模型训练.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

好的,现在让我们训练我们的模型。我们来估计一下,看它在训练数据上的表现如何。

我将使用一个相对基础的logit模型。

试图预测我们的训练数据中的投机级别和投资级别结果。

训练样本。我在屏幕上显示的表格称为混淆矩阵。

这正是我们在之前视频中讨论的内容。

但这些是模型的实际结果。所以请记住。

行对应于数据中的实际观察结果。

列对应于模型的预测,在这种情况下是logit模型。

我们的训练数据中总共有8,432个观察结果。

432个观察结果被分配到这四种不同的可能结果中,具体如下。

现在,准确的预测在对角线上。因此,当一家公司实际上被预期为。

今天的挣扎实际上是投机级别,我们为该公司预测投机级别。

我们对的次数为3,181次。同样,当一家公司是投资级别时。

我们预测其投资级别时,对的次数为3,330次。我们错的次数略低于1。

在两种情况下都为000次。所以当我们在数据中有一家投资级别公司时。

但我们预测投机级别的次数为959次。

同样适用于投机级别的公司。

但我们预测投资级别的次数为962次。我已在表的周边统计了行和列的总和。

所以我总是发现混淆矩阵并不混淆。

这是你认为我会说的,但我总是发现它是其他统计数据的基础。

我认为这些更具信息量。所以我将把这里的所有内容转换为概率。

特别是,我将对每个数字进行分析,让我回顾一下。

我将取这些数字中的每一个并将其除以8432。

要获取矩阵中间这四个数字的正确值。然后我将再次进行。

计算列和行的总和。这些数字告诉我概率。

我认为这些统计数据更容易解释。所以我们正在得到。

我们正确预测投机级别公司的比例为37.7%。

投资级别的比例为39%。因此,我们的模型得分,模型评分。

请原谅我,准确率为77.2%。我们准确分类投机级别。

投资级别观察结果的比例为77.2%。那算好还是坏?再一次。

这取决于这些错误的代价,对吗?我们有22个。

我们在8%的时间里犯错,但这肯定比随便抛硬币要好得多。

在这种情况下,我们的准确率大约在50%左右。

鉴于数据的平衡性,几乎一半的数据是投资级别。

一半是投机级别。所以模型在相对那个基准下表现得很好。

但我们在这里犯了不少错误。现在,考虑到之前的讨论,我想做一些事情。

我们在早期视频中提到的,我想看看会发生什么。

如果我删除一堆我称之为冗余的变量,对吧?最初,在这个模型中我们有。

有11个变量用于预测这个结果。如果我去掉其中七个会怎样?

我只关注当前比率、利息覆盖率、债务与 EBITDA 比率和债务与资产比率。

换句话说,我从流动性覆盖率中选择了一个,从杠杆比率类别中选择了两个。

这个模型在只有四个输入变量的情况下表现如何,相对于包含所有变量的模型?

这是概率混淆矩阵。在这种情况下,模型评分较低,为76.5%。

但与11个变量的模型相比,仅差0.7%。所以,你知道。

这是一个重要的区别吗?可能是。这0.7%可能非常昂贵。

另一方面,我们有一个非常简约的模型,一个小巧紧凑的模型。

这可能更有可能在样本外做出更好的预测,而不是更大的模型。

这是一个参数化更高的模型,包含11个输入。我的意思是。

拥有11个变量与4个变量相比,在计算上并不会增加我们的成本。

但我在考虑样本过拟合和样本外预测。

当我转向这个更简约的模型时,在某种意义上。

鉴于每个信用 KPI 组内的高相关性,这样做几乎不令人惊讶。

流动性覆盖率和杠杆比率。我在这个视频中想要讨论的最后一件事是我们可以查看的一些额外指标。

对吧?我们在实际和预测结果方面拥有丰富的数据。

在模型评分中,还有一些额外的指标经常出现。

尤其是在二元分类中,精准度的概念。

这是在正向预测的情况下,真正正面的条件概率。也就是说。

准确分类投资级公司有多大的概率?

条件是预测观察到的是投资级别吗?

你实际上可以通过取真正正面的数量得到这个数字,76.5%。

结果,基于预测正面结果的总数。

召回率是真正正面结果的概率。

但这次是基于实际结果,而不是预测结果。

因此,我将准确分类的投资级结果数量除以。

通过投资级观察总数来计算召回率。

在这种情况下,77.6%。现在,精准度和召回率之间存在权衡。如果你在一个方面有所改善。

你在另一个方面会表现得更差。两者之间存在这种推拉张力。

所以还有一个额外的指标叫做 F1 分数,这只是。

这是一个华丽的名称或简单名称,用于称为调和平均数的内容。

只是精准度和召回率的加权平均,结果大约是77.1%。看。

这些只是需要注意的其他衡量标准。

哪一个更重要则取决于你究竟想预测什么。

所以这里有一些结束的想法来将这一切结合在一起。

一旦我们得到了模型并且它在进行预测。

我们希望检查它的混淆矩阵,即混淆矩阵的概率版本。

模型评分。但是最终,无论我们查看精准度、召回率、F1评分。

或者混淆矩阵中的某个特定数字,这总是取决于我们的目标。

制造不同类型错误的成本等等。

所以在整个过程的最外层是至关重要的。

我们心中有一个非常明确的目标,这正是科学方法真正想要强加的。

你需要做的就是明确并清晰表达一个具体的问题,并有一些假设。

可以采取的数据来尝试回答你想要实现的目标。

[BLANK_AUDIO]。

P56:22_信用风险模型与数据.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

现在我想谈谈模型与数据。

让我提醒你我们到目前为止所做的事情。

我们估计了一个logit模型,以预测一个公司是投资级别还是投机级别。

我将重复我们之前讨论的11个预测变量的结果。

11个信用风险KPI。我将展示它们的精确度、召回率和F1分数。

我们的logit模型在这里,为了比较提供一个基准。以刷新你的记忆。

请记住,精确度是正确预测的概率。

条件预测投资级别结果时,预测投资级别更为普遍。

对吧?当我们预测投资级别时,我们要么预测正确,要么预测错误。

所以我们的正确率为76.8%。然后,召回率是正确预测的概率。

当数据中是投资级别结果时,投资级别结果。

数据可以是投资级别或投机级别。我们的正确率为77。

3%的时间。我们在数据中与模型重叠。

F1分数是精确度和召回率的调和平均值或加权平均值。

大约为77.1%。然后,我查看了几种替代模型。

分类投机级别和投资级别公司。具体而言,K最近邻。

一个决策树、一个随机森林和一个支持向量机。

我还对所有模型进行了交叉验证,包括logit模型。

确保我不是仅仅在一个特定样本上过拟合。好的。

细节并不重要。我们保持在相对高层次上。

我想表达的观点是,当我查看替代模型时。

我在不同维度上确实看到了一些改善。例如,K最近邻模型的表现非常好。

召回率相对较高,为84%,与其他所有模型相比,虽然这并不令人惊讶。

与logit随机森林和支持向量机相比,精确度似乎有所下降。

决策树在任何指标上都表现得不好。

相对其他模型而言。在整体精确度和召回率F1分数方面。

我们可以看到随机森林和K最近邻表现得不错。

K最近邻模型略微获胜,达到了79.6%。

因此,我们确实看到不同模型的预测准确性有所变化。

鉴于我们当前的输入规格,我们可以比logit做得更好。

我现在想谈的是比较不同模型之间的表现。

但也包括不同的预测变量。请记住,我们最初的预测变量是这11个信用KPI。

然后我去找了一个旧的,不是太旧的模型。

有些旧的穆迪研究报告详细描述了一些预测因素。

他们在信用评级模型中使用的。现在,这不会导致完全准确的预测。

有各种原因,尤其是我关注 S&P 信用评级。

但也因为信用评级不仅仅涉及这些。

企业的可量化利润和资产负债表数据。讨论很多。

有行业分析、竞争分析等。

但我想看看,如果我通过模型推动更好的数据、更具信息量的数据。

这会导致改进吗?而这种改进与我获得的改进相比如何?

通过观察不同模型。因此我把所有这些都放在了屏幕上。

让我逐步讲解一下这意味着什么。

所以前面三列测量了我们五个模型的精准率、召回率和 F1 分数。

不同模型使用我们之前提到的 11 个原始预测因素。

本系列的开始。最后三列展示了相同模型的相同指标。

但使用不同的输入、不同的 X 变量、不同的预测因素。

我将其称为穆迪的预测因素。我认为从这张表中重要的是增长。

在所有度量中,从原始数据转变为预测准确性。

或者原始预测因素与穆迪的预测因素。

显著大于从其他模型获得的任何准确性提升。

所以我们只关注 F1 分数,以使事情具体而简单。

我们可以看到,使用原始预测因素时,F1 分数从 71 到 79.6% 不等。

但当我们使用穆迪的预测因素时,这些数字跃升至 88.6%。

在随机森林的情况下。那么这里的信息是什么?信息是数据,而不是模型。

这就是导致成功的机器学习实现的原因。让我再说一遍。数据。

不是模型。模型可以帮助。我并不否定模型的重要性。

我只是说,在相对排名方面,你想花费你的。

资源在于更好的数据,更好地理解数据生成过程。

这将推动成功的机器学习工作。

这将使这些工作转化为价值。

增长的可行决策。[BLANK_AUDIO]。

P57:23_信用风险误差分析.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

因此,我们探索了许多不同的模型。我们探索了不同的数据来推送这些模型。

过程中的另一个重要因素是我所称的误差分析。

换句话说,我们在哪里出错?我们是如何错误分类公司的?

让我们尝试理解这一点。因此,我在这里做了一个小表格。

每一行代表一个不同的评级类别,从 AAA 一直到表格的底部或顶部。

评级为 B-,这是在变为投机级之前仍然是投资级的最后一个评级。

低于投资级。我们在这一列中有总的观察数量。

我有错误的数量或错误率。

这仅仅是这两个数字的比率。然后我得到了每个输入的平均值。

数据输入,输入变量。

输入模型的预测变量。因此在这个例子中。

我正在使用穆迪的规范,包括利息覆盖率、杠杆率和盈利能力。

杠杆波动性、收入稳定性和公司规模。

因此,对于 BBB- 评级的公司,在训练数据中有 862 个。

我们错误地将 234 个分类为投机级,错误率为 27%。

那些公司的平均利息覆盖率为 6.44,杠杆率为 0.50,盈利能力。

为 0.04,波动率为 4.96,等等。

这只是给我们提供了一个关于我们在分类中出错的视角。

以及那些公司的某些特征,而不是错误,而是那些。

更广泛的公司。好的。现在,请注意,我们没有错误分类任何 AAA。

了解这些信息很重要,因为如果我们漏掉了 AAA,如果我们把这些搞错了,可能会出现问题。

输入数据一定存在严重错误,因为它们与投资级相差甚远。

投机级界限。它们应该很容易识别。

我们不准确地将四个 AA- 进行了分类。

因此,我将查看这些。我在屏幕上有三个指标。

这是三种错误,它们都与上世纪 90 年代中期的宾夕法尼亚州有关。

当我查看 1110 的利息覆盖率并将其与 AA- 进行比较时。

这个评级低了不少,但仍然舒适地保持在投资级。1110 仍然是 AA 评级。

所以我认为这不是问题所在。

杠杆比率大约为30%,杠杆实际上相当保守,正如我们所看到的。

盈利能力再次为0.09,舒适地处于投资级范围内,对吧?

投资级公司往往拥有更高的盈利能力。

所以到目前为止这有点令人困惑。也许它的波动性非常高,这确实是一种波动性。

它的杠杆波动性非常高。2.6。不是,几乎没有。虽然。

对于评级较高的公司,杠杆波动性似乎相当高。

我想将其与投机级公司的杠杆波动性进行比较,但。

这可能正是一个原因。

它似乎有点低。坚决的稳定性,5.5。

嗯,它的收入稳定性相当低,所以这有点令人不安。

不过,真正引人注目的是,看看公司的规模。所有信息都表明其公司规模。

我认为这是以百万美元计算的总资产。我们在看大约2.34亿美元,2.75亿美元。

274万美元到275万美元,假设。

当我看投资级公司的规模时,它们很大。

这些资产以十亿计。你可以看到,规模在某种程度上几乎是单调关系。

可以说,随着我们从风险更高或投资更低的方向移动,稳定性确实在增加。

等级较高的公司与更高投资级评级的公司。

但是当你将2.5亿美元的资产与70亿美元进行比较时,这就显得有些奇怪。

就像一个小公司。而我很确定这一点,虽然程度较小。

收入稳定性和杠杆稳定性,正是导致情况混乱的原因。

这正是导致情况混乱的原因。

现在,目标,明确一点,不是要获得每一个公司的观察或。

正确分类。我们可以用最高度参数化和复杂的模型做到这一点,从而获得每一个。

观察是正确的,但一旦我们将其移出样本,它就会出现问题。

它将会表现得很糟糕。

所以我们自然会漏掉一些。但我们想做的是理解为什么我们的模型会犯错。

因为如果它以系统的方式犯错。

我们希望能够将某种衡量标准纳入模型,以捕捉这种变化。

所以,如果我查看这些其他错误,如果我打印出数据,应该看看。

看看我为什么会错误分类一些公司的投机评级,如果我看到它不断出现。

关于公司规模和收入稳定性,也许我想转向更灵活的模型。

功能性。

例如,公司的规模形式。或者也许公司规模并不重要。我确实知道它是重要的。

但我想试着找出我错误中的一些共同主题。

从中学习,并改进模型。事实上,这正是提升模型的过程所做的。

它是否从自己的错误中学习。好的?好吧。那么。

模型过程中的另一个重要元素是错误分析,以便我们能够理解。

理解模型为何出错,从这些错误中学习,并改进模型以提高性能。

分类准确率。

谢谢。[BLANK_AUDIO]。

P58:24_信用风险总结思考.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

好的,让我们在最后一个视频中将事情结合起来。

正如我们一开始所说,金融数据技术密切相关。

自金融几乎开始以来,数据就扮演了核心角色,随着技术的发展。

随着进展,它逐渐渗透到金融领域,至少是金融实践,更不用说。

学术研究几乎立即开始。因此,三者之间形成了良好的结合,引领我们走到了这里。

今天的环境中,机器学习和AI等概念扮演着核心角色。

在这一系列视频中,我们实际上谈论了各种事情。

所有这些都是以线性方式相关的。一些解决方案始于科学方法。

清晰地表达一个问题,非常精准,假设问题的答案。

理解这些答案的含义,关于你可能在数据中看到的内容,然后通过数据检验这些假设。

数据科学工作流程的组成部分,从数据的获取和验证开始,随后。

通过准备数据,使其准备好进行分析,进行探索性数据分析。

最终在其基础上进行建模。我们在一个应用的背景下展示了所有这些,作为一个说明性工具。

专门针对企业信用风险。我们讨论了企业信用风险的含义。

了解这一点是多么重要,不仅对公司,还有各种不同的利益相关者。

我们讨论了通过查看企业财务的基本面来评估信用风险的基础知识。

通过查看关键绩效指标来分析报表。

然后我们过渡到讨论信用评级,认识到信用评级是。

我们正朝着基于我们开始的分析构建信用风险量化的方向迈进。

在财务报表分析中开始。然后我们实际上决定对信用评级进行建模。

尽管以一种相对粗略的方式观察,投机等级与投资等级之间的区别。

然后我们实施了一个机器学习过程,从逻辑回归模型开始,并探索了。

其他各种模型,包括K近邻算法。

我们避免了技术细节,因为现在既不是时候也不是地方。

我们只是想对这些概念有一个总体的概述介绍。

对于有兴趣的人,其他地方有大量关于那些可怕细节的信息。

但是,从中得出的一个教训并不常被强调,那就是。

数据与模型的重要性。如果你要花费资源,花在数据上。

不是为了更复杂的模型,因为模型受限于输入的数据,至此而已。

我们学习的另一件事是,了解你在哪些地方犯错误同样重要。

这可能比你成功的地方更重要,因为那是。

改进将体现在建模过程中。通过这一切。

你可能会想,“人工智能呢?我们还没有谈论人工智能。”

我喜欢将人工智能视为一个包含机器学习的超级集合,但还有其他。

其他内容也一样。为了保持内容可消化,以及让这个视频系列控制在合理的时间范围内。

让我稍微即兴说几句。

人工智能在金融领域可以扮演许多不同的角色。

我认为值得强调的一点是在克服或减轻某些行为偏见方面。

人类决策中固有的偏见。看看一些最近的诺贝尔奖得主。

无论是丹尼·卡尼曼还是理查德·塞勒。真正的经济学,更广泛地说是行为金融学。

这点非常重要,因为它照亮了个体投资者所犯的错误。

人类在经济决策或财务决策方面所犯的错误。

我们总是会犯错误。我认为人工智能能做的事情之一,当然还有很多其他功能。

它可以真正帮助我们规范决策过程。它可以帮助我们避免在投资决策中犯一些常识性的错误。

或其他与金融相关的决策。这里有巨大的潜力,我们已经在一些机器人投资中看到了这一点。

还有建议,但我并不觉得这样说有什么冒险,因为这只会不断增长。

人工智能在帮助人们做出更好财务决策方面的角色只会。

随着时间的推移,随着我们获得更多数据和计算能力的提升,这一角色会变得越来越重要。

所以让我停下来不再说话。

谢谢。 [BLANK_AUDIO]。

P59:25_Apoorv Saxena访谈.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

我们讨论过使用投资组合来管理人工智能项目。

我们谈论了机器学习的民主化。

这是我与曾在的Apoorv Saxena广泛讨论的主题。

谷歌并帮助实施了许多人工智能项目。

目前他是摩根大通的全球人工智能负责人。

我们所写的这些文章作为这门课程的一部分,提供可选阅读。

我鼓励大家去了解一下。现在让我们开始与Apoorv的对话。你好。

现在与我一同参与的是Apoorv Saxena,他是摩根大通的全球人工智能负责人。Apoorv。

感谢您加入我们。如果可以,请简要介绍一下自己和您的背景。

谢谢你,Karthik,邀请我参与这次对话。正如你所说。

我领导摩根大通的人工智能和机器学习团队。我在这里快一年了。

我根本相信人工智能对金融行业是非常具有变革性的。

这是我在过去几年中的主题,在此之前,我在摩根大通,与谷歌共事。

我负责谷歌人工智能垂直团队。基本上是将人工智能应用于医疗、金融。

人工智能应用于工业。我们根本相信,人工智能是一个贯穿始终的主题。

关于转型多个行业。我正在摩根大通实现这一点。>> 很好。

事实上,关于这一点,我很想听听人工智能在金融服务中的影响。

你能帮助我们了解人工智能如何被使用的全貌吗?

人工智能在金融中是如何应用的?>> 如果你看看金融历史,它一直是一个技术驱动的行业。

从自动取款机到使用数字银行。这是一个非常数据驱动的行业。

人工智能转型所需的两个基本论点是,您必须拥有大量数据。

这必须是数字化的。这两个关键因素在金融中一直存在。

第三个非常有趣的方面是,通常不存在代理问题。

其他行业中存在于医疗领域。拥有数据的人有巨大的激励来实现盈利。

作为任何人工智能决策过程的结果。

金融领域的转型速度非常快。所以我认为这三个组合使人工智能在金融行业非常成熟。

通过人工智能的颠覆。有多种事情正在发生。

人工智能现在被用来颠覆您与前台的互动方式,一直到。

在后台,可以给您多个例子说明这一点是如何实现的。>> 好的。

那么我们也许可以从前台开始,前台的含义是什么。

公司如何与客户互动。所以请告诉我们这是如何改变的。

金融服务公司与客户互动的方式。>> 我想再说一遍。

在前台,最重要的是客户互动。

因此,AI正在被用来从根本上转变多渠道、全渠道的体验。

无论你现在谈论的是哪种方式,是否只是访问一个在线网站。

你可以与银行进行对话。这是一个正在利用对话AI进步而转变的领域。

更好的目标定位,微目标定位,使用通常的独特信号。

银行在目标客户群体时从未使用这种方式。而第三个是个性化。

个性化已经存在一段时间,但创造个性化的金融产品。

还有正在前端发生的事情。>> 好的。

你所说的创造个性化金融产品是什么意思?

我们在本课程中确实讨论过个性化。这是一个重要主题。

不仅限于金融服务,还有零售和许多其他场景。

但这也是一个已经存在一段时间的想法。

那么,请多告诉我们一下如何个性化产品本身。>> 这是一个非常好的问题。

个性化已经存在很长时间了。因此,信息传递的个性化也已经存在一段时间。

在电子邮件方面比较长,但电子邮件的目标定位,使用正确的语言。

这正是目标定位。但在过去几年发生了什么。

在过去的几个季度中,产品的创造越来越多。

一个例子是主题投资组合。因此,你可以拥有一个基于你兴趣的非常独特的创意投资组合。

嘿,我想投资于可持续发展的公司。

我想投资于针对特定地区的公司。

那么,如何在不实际挖掘他们的SEC数据和文件的情况下做到这一点?

他们的投资关系,然后提出一个特定主题。

这就是一个AI用于创建主题投资组合的例子。>> 有趣。

你还提到AI也在后台使用。

那么,请告诉我们AI在后台设置中是如何使用的。>> 再次说明。

AI在金融领域已经使用很长时间了。传统上,后台处理如欺诈和反洗钱。

反洗钱。因此,发生了什么变化,新深度学习技术正在转变。

技术正在被用来创建非常复杂的欺诈检测模型。

这就是你可以在某种程度上操纵数据的规模。

利用数据和新数据源。这就是正在发生的巨大转变。

反洗钱也是一样。现在例如,摩根大通处理大约三分之一的所有交易。

在世界上发生的事情通过某种方式与摩根大通相关。

我们正在使用实时极其复杂的知识图谱来创建见解和反欺诈警报。

这就是一个例子。其他领域,呼叫中心的传统领域。

与其说你的IVR体验是完全的,我们通过对话体验来转变客户体验。

你甚至可以与银行账户进行体验对话,谈论如何。

银行的支票账户里有多少余额,你可以做什么。

你现在可以完全通过对话方式进行简单的电汇,而无需与人类交谈。

这就是传统上存在的后台操作类型。

现在通过AI正在进行转型。另一个我应该提到的例子是合同。因此,银行。

银行的许多后台操作与合同相关。

谈判和维护合同。因此,在这一方面有很多令人兴奋的新事物发生。

机器理解合同并识别差异。

在合同中提醒相关方采取行动。

因此,在这一领域也有很多出色的工作。 >> 所以作为全球AI负责人。

显然,无论是你个人还是整个组织,正在大量投资于AI。

当公司在AI上进行大量投资时,问题是需要具备哪些条件。

你想从中获得回报?因为正如我们所见。

有很多公司正在投资AI,但尚未看到回报。

那么告诉我们你对此的看法。你认为哪个AI策略效果很好?

长期来看,这可能会产生回报? >> 这是一个非常好的观点。

我认为需要注意的一点是,开始使用AI非常简单。

我认为实际上可以雇佣几位数据科学家。

给他们一台笔记本电脑,他们应该能够迅速开始进行AI。

从事机器学习或数据科学。我认为你需要关注的是如何产生巨大影响。

AI的变革性影响?我认为我们看到的工作有三种方式。

首先,你必须拥有适合大规模AI的基础设施。这意味着什么?

这基本上意味着要确保你的数据就位。数据易于发现,易于注释。

还有训练大型模型的能力。

这基本上就是我所称之为的AI基础设施,例如Facebook和Google。

或者世界在这方面进行了大量投资。这就是他们能够跨越行业的原因。

第二个要素是你必须从业务流程的角度进行审视。

从端到端的视角来看,看看如何应用AI。

从头到尾的过程,而不是整个过程的一小部分。

我会说第三个要素是你必须提出并。

你可以使用AI并且应该使用AI来创造新的数字体验。

而这是你会看到随着时间推移影响最大的地方。

有什么新的数字体验可以通过AI创造的例子?

我认为AI无法做到的,已经能够做得很惊人。

通过对话创造新体验。语音转文本的准确性大大提高。

创建新文本的能力,完全由AI生成的文本大大增加。

现在你可以想到两三年前根本不可能的体验。

就在两三年前。所以正确的例子是。

如果你在私人领域讨论,实际上有很多低接触。

你通常作为银行想要自动化的高频交易。例如嗨。

你早上醒来,想检查你的投资组合。

它怎么样,为什么会下降?所以,嗨,你醒来,跟Alexa对话。

数字体验助手之一,并且说,为什么我的投资组合下降了两个百分点?

然后人工智能助手分析你的投资组合。

它给出了非常好的理由说明为什么会下降,并给你这个交易。当然。

在所有这些体验中,如果你想深入挖掘,可以深入研究。

你实际上拨打了你的财富顾问的电话。但这就是我们所谈论的体验。

所以很清楚你可以如何应用人工智能来改善现有体验。

但当你谈论创造新体验时,你到底是什么意思?

所以人工智能实现了完全变革的体验。

你与机器的对话方式,以及你如何生成新的、机器生成的文本。

所以这两个进展可以用来改变你与银行的互动。举个例子。

通常是低接触、高频率的互动。

你的私人财富顾问通常是银行想要自动化的内容。

这方面的一个例子是你早上醒来,通过Alexa与银行对话,并说。

嗨,我的投资组合今天怎么样?实际上,昨天表现如何?而且它说,嗨。

它下降了两个百分点,然后你开始深入挖掘,嘿,为什么会下降两个百分点?

它说这是你的投资组合是如何构建的。

这就是它出现问题的原因等等。

所以这种互动非常低接触,非常高频率。

但今天你可以轻松自动化的事情。

这就是我所说的体验。>> 好吧,这就是结果。

三个支柱支持建议。第一个是在我们启动大型人工智能项目之前。

让我们确保基础设施、数据基础设施和平台到位。

第二个是不要仅仅考虑单个接触点,而是实际上。

考虑整个端到端的过程,看看人工智能如何能改变整个流程。

最后,当然可以利用人工智能来转变现有体验,但。

还要深入思考人工智能如何创造完全新颖的体验。

客户以及这些体验可能对公司是战略性的和颠覆性的。Appurf。

再次感谢你加入我们。>> 感谢你的邀请。[BLANK_AUDIO]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/73331.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

沃顿商学院商业人工智能笔记-九-

沃顿商学院商业人工智能笔记(九) P82:19_更广泛的隐私和伦理问题.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK 所以让我们讨论一下关于使用数据科学和人工智能的一些更广泛的问题。一般来说,在工作场所管理人际关系。这些是伦理问题,也是隐私问题。 所以让我们谈谈这些问…

沃顿商学院商业人工智能笔记-三-

沃顿商学院商业人工智能笔记(三) P123:22_AI的风险.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK 在这次讲座中,我们将讨论AI的一些风险。我将以一个简单的统计风险开始,它有重要的管理意义。 然后我会谈论社会和伦理风险。 所以我想讨论的第一个风险是过拟合风险。 现在,…

沃顿商学院全套笔记-三十三-

沃顿商学院全套笔记(三十三) 沃顿商学院《实现个人和职业成功(成功、沟通能力、影响力)|Achieving Personal and Professional Success》中英字幕 - P8:7_成功的两面.zh_en - GPT中英字幕课程资源 - BV1VH4y1J7Zk When you unpack the word success for the first time,…

沃顿商学院全套笔记-三十二-

沃顿商学院全套笔记(三十二) 沃顿商学院《实现个人和职业成功(成功、沟通能力、影响力)|Achieving Personal and Professional Success》中英字幕 - P68:4_从德梅洛获取的启示.zh_en - GPT中英字幕课程资源 - BV1VH4y1J7Zk What can we learn about power and influence …

沃顿商学院全套笔记-三十-

沃顿商学院全套笔记(三十) 沃顿商学院《实现个人和职业成功(成功、沟通能力、影响力)|Achieving Personal and Professional Success》中英字幕 - P37:9_建立信任-脆弱性.zh_en - GPT中英字幕课程资源 - BV1VH4y1J7Zk We often think that once we trust somebody, we c…

10.18 %你赛总结

10.18 日模拟赛总结 T1 一维围棋 思路 由于本人太蒟了,不会 \(O(n)\)。求教。 简单题目。首先,看到数据范围 \(|s| \le 100\),于是得到可以有 \(O(n^4)\) 做法。先 \(O(n)\) 枚举 \(s_i\) 对于是 . 的位置变成 W。然后 \(O(n^2)\) 枚举修改后的数组的每个子串,对于 \([l,r]…

帆软报表-数据权限控制与实现

1、组织表设计(同数据库设计)工号用户名监管机构code监管机构名大区code大区名区域code区域名机构等级机构.S(user_code)机构.G(user_name)机构.G(org1_code)机构.G(org1_name)机构.G(org2_code)机构.G(org2_name)机构.G(org3_code)机构.G(org3_name)机构.G(level)2、登陆人信…

VMware Data Services Manager 2.1 - 数据库管理和数据服务管理

VMware Data Services Manager 2.1 - 数据库管理和数据服务管理VMware Data Services Manager 2.1 - 数据库管理和数据服务管理 在 vSphere 环境中按需配置和自动管理 PostgreSQL 和 MySQL 数据库 请访问原文链接:https://sysin.org/blog/vmware-data-services-manager/ 查看最…