拥抱AI技术,共创人机协作”——《人工智能与剧本创作》课程侧记之八

发布者:戏文系发布时间:2024-07-10浏览次数:10


619日,上戏戏文系开设的研究生课程《人工智能与剧本创作》第八讲于上戏红楼开课。本次课程由复旦大学陈涛教授为同学们主讲,上海戏剧学院戏文系优秀教师顾飞主持,讲课标题为《基于多模态大模型的视频与电影生成技术研究》。



首先,陈老师为大家简单介绍了多模态AI大模型生成技术的发展史,讲解了在实操中关键性的两个技术模块:多模态的先验提取跨模态的先验融合。多模态先验提取就是借鉴大部分人看到新的东西的时候,会不自觉大脑与过去所类似进行关联并将已知的知识应用到新场景上,一切都基于先验理解之下所看到的新东西;跨模态的先验注入即是以一个模态的信息弥补另一个模态的不足,例如在文本模型之上补充图像模型,从而使得我们前一个模态上不足以汲取的知识和能力通过另一个模态进行填补和扩充,最后获得高质量且完整的模型。大模型的框架能为我们获取智能体广泛的知识,也为我们的创作带来新视角。



随后,陈老师从实操的角度教授了同学们如何用大模型来完成优秀的作品创作。动作生成式大模型MotionGPT为例,通过指令,其可以在大模型中驱动卡通形象完成人物动作MotionGPT具有对应的三步框架,第一就是训练特征,当我们一个复杂的特征序列AI理解的时候,只要提取几个关键点,浓缩信息。第二步则是把特征和人的自然语言进行联合和对齐预训练,把动作和描述关联,再完成预训练所需要的模型。最后一步指令调优,是大模型能够成功的关键因素。陈老师说道:“指令调优是一种基于人类反馈的强化对齐学习,AI出结果由人来发现它尚存的问题,再根据人的反馈,把要修补的细节反馈回这个过程,让模型下一次预测能够更加符合上一次的意图,这就叫与人类对齐。

陈老师指出,现今在大模型之下的电影生成技术最大的难点便是如何从大量的资料、长视频中用机器提取理解出具有最关键信息量的内容。“我们大模型需要吃饭,它吃的就是视频的数据,电影级别的视频数据稀缺,人工标注难度大、效率低。利用AI,我们能够解决这一点。”陈老师团队选择使用一套基于AI的动画框架,生成一部完整的电影情节、电影帧与对应的Q&A,调用多模态大模型进行指令微调、训练模型,提升大模型在碰到新的电影视频时的理解能力。AI生成在保证生成丰富多样的电影数据的同时,又大大减少了我们的标注成本。

电影情节生成方面陈老师采用了从宏观到微观三级故事扩写策略。先生成电影的信息和大概章节,展开大章节,扩写一些小章节,每一个子标题里面再标注描述出对应帧。有了这样的描述之后,进行从粗略细致的电影情节描述,根据描述的细节、故事,再配合创作者的视觉要求,就能够生成出一帧一帧逼真的描述。

    我们的多模态大模型不是凭空生成的,我们也是借助了LLaMa-Vid基线模型,进行了模态对齐,电影中先有电影帧和自然语言的描述,然后才进行指令微调,这样就可以把大模型训练得非常符合我们的要求。”陈老师向大家指出了作为创作者在AI使用过程中为多模态大模型打好基础并查漏补缺的重要性。完成指令的是机器,但决定机器作品完成度的则是人。

最后,陈老师告诉大家,无论是作为剧本创作者还是艺术设计者,我们都要学会拥抱AI技术,用它为自己服务,从工作中选取一些可以用AI优化的过程,把自己的时间花费在那些AI无法替代的部分上,要知道如何与AI区别、协作。



主持人顾飞老师总结从陈老师的本次课程中我们不难发现,当拥有丰富创作经验的专业编剧提出精准指令人工智能的回复指令质量也会更高。因此,提升AI的前提是首先提升我们自己的能力,打好基础,一定要学会善用工具为我们服务,而不是被取代和控制。在应对AI智能科技时,我们有一段很长的时间去属于我们自己存在的价值。




 

文:23级戏剧影视编剧MFA 吴嘉莹

图:23级戏剧影视编剧MFA 吴丁妮