微软全球媒体和娱乐战略总监Simon Crownshaw谈到了Gen AI

在这个内容广泛的采访中微软全球媒体和娱乐战略总监西蒙·克朗肖(Simon Crownshaw)说，我们讨论微软的客户是如何利用的生成的人工智能在流媒体工作流程的所有阶段，以及他们如何在内容交付中使用它，并在一系列用例中增强用户体验. Crownshaw还深入探讨了微软是如何构建资产管理架构的，以及元数据在有效的大语言模型(llm)中扮演的关键角色。, 最大化可用数据的价值.

Nadine Krefetz: 你的客户是如何谈论生成式人工智能的，他们是从哪些用例开始的?

西蒙Crownshaw: 资产管理、用户体验、视频分发、压缩. 为什么所有这些模型必须一起工作，为什么我们的客户考虑的不仅仅是一种模型，这是一个共同的线索, 但许多.

Krefetz: 为什么元数据如此的重要?

Crownshaw: 今天，大多数人找不到任何东西. 我们需要做更多的自动化内容检索, 无论是新闻还是流媒体平台上的直播内容, 以便更快地找到所有的东西. 如果你看一下我们用 nbc环球和康卡斯特围绕着奥运会还有艾尔·迈克尔斯的画外音, 例如, 将所有这些资产带着正确的标签放入Cosmos数据库，使观众能够快速地进行自然语言搜索以找到一些东西.

当你引入模型和认知服务来覆盖声音, 如果所有元数据都一致地根据能够与大型语言模型协同工作的数据模型进行组织，则会容易得多. 当你不得不从一些随机的Excel文件或所有内容中可能存在的不一致的元数据中提取数据时, 这很难做到.

Krefetz: 你能描述一些资产管理架构吗?

Crownshaw: 我们考虑数据摄取层时，考虑的是如何引入内容——原始媒体文件, 元数据摄取. 了解如何将媒体与正确的描述联系起来, 我们将通过从视频中提取帧并使用Apache或将其放入文本来处理所有不同的元素 TensorFlow. 然后生成AI部分就建立在上面.

用于场景检测模型, 你想了解如何识别和分类不同类型的场景. 你可以做一个序列到序列类型的片段, 就像GPT变压器一样, 要懂得如何把那些简洁的文字总结出来, 字幕, 或者把脚本放在正确的地方. 通常，我们会通过一些深度学习框架来做到这一点.

其中一些工具在Azure上是可用的，比如开源工具拥抱的脸变形金刚. 一些视频分析可以通过基于时间卷积的长短期记忆(TCLSTM)网络来理解这一点.

Krefetz: 元数据终于得到关注了吗?

Crownshaw: 我见过的绝大多数决策者都选择修正他们的数据. 超过一半的人明白有必要改善他们的数据, 因为从长远来看, 这对他们有帮助, 不管他们是建立自己的模型还是利用别人的模型.

如果你有非常糟糕的数据，你会要求它进行更多的计算. 它的效率越高，就越能降低所需的计算能力. 你还将消除一些你要求生成人工智能解决的复杂性.

Krefetz: 如何定义一个大型语言模型?

Crownshaw: 大型语言模型是一种人工智能，旨在理解从大量文本数据中学习到的类似人类的基于文本的模式. 通常, llm使用变压器架构等深度学习技术来处理和生成语言.

法学硕士的三个关键要素是规模、预培训和上下文理解.

法学硕士是在具有不同主题和风格的大量数据上进行培训的, 这能让你得到很多不同的答案. 大多数模型都经过了某种形式的预训练或微调以提高性能. 上下文理解意味着他们可以理解并生成文本，让任何看文本的人都能理解.

Krefetz: 如果您没有正确地完成这些训练阶段，或者没有正确地设置数据模型, 那么生成式人工智能将如何表现?

Crownshaw: 它会给你一些随机的结果. 我们与客户所做的很多工作都是基础数据模型工作，以提供用于音频的结构, video, 文本, 当你把这些多模态的东西拉回一起的时候(这样它就知道该怎么处理)一个字符列表, 场景, 和脚本.

我们首先限制我们使用的数据，使其始终从同一模型中提取. 当人们学习如何在幕后使用不同类型的提示或数据时, 它们能够减轻那些可能发生也可能不会发生的幻觉.

Krefetz: 数据模型是否有标准化的方法，还是取决于公司?

Crownshaw: 我从未见过一个适用于所有人的标准数据模型. 我看到很多客户都有不同的做法. 我上一家公司, 迪斯尼, 有他们所谓的“映射练习”，将通过所有不同类型的视频或内容的许多元素被创建，并通过过程映射它. (这将包括)它来自哪个相机的所有东西, 敬里面的人, 哪个场景, 等等......, 以及他们如何从数据模型的角度来安排这些. 但我一直认为这是一件非常定制的事情.

因为你要处理的是随着时间的推移而自然增长的大量旧资产, 它需要以大型语言模型能够理解的方式进行合成. 你所看到的是，在过去的20年或30年里，由于需要快速获取内容，这些数据可能被忽视了. 现在它正在赶上他们, 我们需要回过头来改进数据，这样我们才能有效地使用这些模型.

Krefetz: 你能谈谈其他一些资产管理方面的考虑吗?

Crownshaw: 显然，资产管理的计算成本很高. 处理和生成高分辨率视频摘要需要大量的欧洲杯在哪投注, 所以以一种能让我有效、快速地吸收内容的方式来构建这些内容是很重要的.

使用生成式人工智能来查看最相关的内容，以及在哪里标记和使用它是至关重要的. 您确实需要部署和扩展服务. 然后还需要监视、记录和分析.

当你在这个过程中收集到更多的数据, 你需要分析来洞察这些模型是如何运行的，以及人们是如何与内容互动的. 可能是微软Azure Synapse 它可以帮助你理解数据发生了什么，甚至可能是微软的Fabric, 我们在哪里把多个数据源放在一起.

微软azure synapse

微软Azure Synapse

Krefetz: 在多个云中拥有内容如何影响生成式AI用例?

Crownshaw: 越来越多的媒体客户正在使用混合方法, 将多个云与本地内容块结合在一起. 他们需要使用将所有这些整合在一起的服务，以便更实时地访问这些数据.

客户可以在AWS和Azure中拥有内容, 但在某种程度上, 我需要知道这一切是怎么运作的, 因为这有助于我理解工作流程和交付流程. 为此，微软提供了 Azure弧，它使您能够从其他云提取内容并连接其他部分.

微软azure弧

微软Azure弧

我们还有微软织物，它使您能够直接在AWS中查询数据，并将所有数据集中在一个地方. 你需要这种能力，因为很难移动数据, 进行所有这些基础设施和数据库更改. 随着这些大型语言模型越来越多地用于资产管理等领域, 我们需要访问所有的数据, 即使它和其他东西不在同一个云中.

微软织物

Krefetz: 你的客户如何在内容交付中使用生成式AI?

Crownshaw: 在内容分发方面, 我们的编码伙伴, 和声与媒体, 和我们的一些客户合作，比如国际足联, 例如, 使用生成式人工智能实时动态调整流媒体质量和比特率，确保流畅的流媒体体验.

在中东,我们正在使用生成式人工智能模型将内容实时翻译和本地化为多种语言，以自动配音和字幕或删除单词(根据国家特定法规)。.

Krefetz: 使用自适应比特率编码，使用生成AI的好处是什么?

Crownshaw: 生成式AI模型将分析大量内容，并理解具有复杂视觉效果或高动作的场景. 它可以预测这些因素是否有比特率要求, 然后根据已经完成的内容分析动态调整. 如果模型检测到一个高动作的场景, 它可能会建议提高比特率以保持视觉质量. 相反，对于静态场景，它可能建议降低比特率以节省带宽. 这不是典型的人工智能模型所能做到的. 这真的很新——生成式人工智能，它是动态完成的.

个性化体验, 该模型可能根据个人用户偏好或设备功能调整设置，并进行动态调整. 它还将进行网络状态监测. 在实时情况下，它可以预测网络拥塞并进行调整，而无需任何人做任何事情. 自动化开始发挥作用，以尽量减少缓冲或中断.它做的最后一件事是预测性缓存. 通常, 我们过去看到的是，你会试图了解是谁(验证了请求), 他们想要什么内容, 在哪里[最接近缓存内容], 但现在有了生成式人工智能, 我们可以使用历史数据和机器学习模型来预测内容需求，并以适当的质量水平预缓存内容, 因此，它有助于平滑不同比特率流之间的转换.

Krefetz: 服务质量监控/交付是否比元数据创建更具成本效益?

Crownshaw: 我们现在可能处于一个不知道答案的阶段. 我想是否一个比另一个便宜还没有定论. 我们看到的是，就它们如何向前发展而言，每一个都将提供关键的收益和机会.

Krefetz: 让我们来谈谈流媒体内容推荐和最终用户体验，以及它们如何受到从传统人工智能到生成人工智能的转变的影响.

Crownshaw: 传统的人工智能已经使用了很长时间. 生成式AI是不同的. 有了生成式人工智能，在架构上，我们有:

一个庞大的数据收集层，了解我们如何与内容交互
元数据收集有关类型、演员、标签和所有其他信息的元数据
反馈数据，记录你我是否喜欢它
某种类型的数据处理层，用于理解所有交付的内容发生了什么

我们如何聚合所有这些部分，并在上面应用模型来提供建议? 我们在奥运会期间做了一些，制作个性化的元素. 你必须确保应用层能够提供个性化的体验, 你将需要一个庞大的基础设施层(通过Azure等云服务), 例如)来部署存储, 计算, 以及人工智能模型将所有这些结合在一起.

当用户观看和评价内容时，我们可能会看到收集到的交互数据. 一旦我们处理和分析了它，数据就干净了. 提取所有不同的特征, 并将相关数据输入生成式人工智能模型.

然后, 我们将使用该模型为新内容创建一个推荐引擎，同时生成动态缩略图和交互式内容. 用户看到个人推荐和动态缩略图, 然后当用户与之互动时，反馈循环就会完成，然后持续监控以改进AI模型.

这是生成AI流程在技术上如何运作的一个例子. 我们可以使用Cosmos DB进行数据收集, 用于处理的突触, 和Azure OpenAI模型本身. 对于应用层, 我们使用Azure前门, 哪一个可以完成所有的负载平衡和内容交付. 我们使用Azure Monitor Log Analytics来收集和分析这些数据, 然后我们可能会把这些都放到Azure上的Kubernetes服务中，来管理和扩展那些容器化的应用程序, 包括所有的模型在一起，所以它运行在一个流线型的架构.

Krefetz: 某些生成式AI用例是否比其他用例更容易显示ROI?

Crownshaw: 对于NBA，我们使用了很多他们的内容来创建自定义亮点. 我们不仅能够建立这样的服务，而且我们能够更快地建立它. 可能需要2个月的时间，我们只花了2周甚至更短的时间. 我们看到浏览量呈指数级增长，从25万增长到10多亿. 人们可以更快地互动. 这样做的成本是指数级的低，但他们看到的回报是3.5 - 4倍.

一个重要且相对直接的领域是利用媒体公司拥有的档案元数据，并确保它们能够被精简并快速地交付给客户.

现在，我们正在进行与十多年前围绕云计算进行的类似的讨论:“利用云计算可以提供的规模优势，我的内容和整个媒体流程是否更便宜??“今天, 我们谈论的是使用生成人工智能来获得新的管道和工作流程机会的投资回报.

答案是，我需要做的项目是相对较快地显示投资回报. 我可以扩展和完善架构(因为在过去的几年里，这些管道机会或流程从来没有足够的效率)，以确保内容尽可能地交付. 数据模型的基础工作正在完成，以确保我们能够在正确的时间提供正确的内容.

Krefetz: 其他项目的时间框架是什么?

Crownshaw: 大型工作室和广播公司都有很多想要运行的用例清单，这些都有直接的管道机会, 包括我们之前谈到的自适应比特率部分. 我想说，我们已经缩短到几天或几周，而且发生的速度要快得多.

Krefetz: 安全方面呢??

Crownshaw: 从安全的角度来看, 因为我们正在准备流并准备好CDN组件, 我们必须考虑安全因素. 很多工作室和流媒体平台, 安全性和遵从性部分将是最重要的，因此他们可以了解内容实际发生了什么以及如何保护它.

在某一时刻, 我们需要改进模型，并在整个过程中确保安全, 不只是在最后. 我如何确保它以正确的方式加密? 最后停在哪个站台? 它是从哪里来的? 我可以想象，生成式人工智能将在整个过程中得到更多的应用, 使它比过去更加自动化.

Krefetz: 您对大型语言模型共存有什么看法? 他们是竞争还是合作?

Crownshaw: 我认为我们将会看到更多的模特必须一起工作. There’s not going to be one model that does it all; there are going to be many different types of models. 一些模型处理数据，一些处理文本，一些处理图像，还有一些处理音频. 就它们的工作方式而言，它们都需要整合在一起，以获得更丰富的产出.

基于反馈循环，所有的模型都会变得更好, 他们接受的再培训, 以及他们能接触到的数据. 这将是生成式人工智能向前发展的一个重要过程.

Krefetz: 最后有什么想法吗??

Crownshaw: 我被客户问了很多问题，他们在考虑他们的管道架构将会是什么样子. 以下是管道架构需要考虑的阶段:

理解原始数据输入和这些模型阶段可能是什么样子
中级处理, 哪一个是由需要细化的最初几代的输出组成的
反馈循环，以找出哪些模型可以很好地协同工作，哪些不能
跨模型的集成, 也许在洁净室, 不同的模型会产生不同的输出.
一种元模型或聚合机制，用于将最终结果综合到易于处理的位置.
最后，是适合它的大型计算框架. 为流, 大规模的生成模型需要大量的分布式计算环境，利用gpu和tpu或基于云的平台(如Azure)来管理这些工作负载，并实现有效的模型训练和推理.

我认为独立的解决方案供应商最终会有他们自己的小llm. 您可以通过不同的api调用这些模型来细化不同的流程. 但我认为，随着这些模式的出现，接下来的几个月将会是这个行业的一个有趣的时期, 并且会有更多的API调用，以使这些模型可用于不同的流程.