黄望莉
中国电影评论学会理事
上海戏剧学院电影学院摄制系主任、教授、博士生导师
摘要
流媒体内容平台奈飞于2022年底开始转型部署“奈飞机器学习平台”(MLP),以匹配剪辑算法为代表,基于机器学习和计算机视觉(人工智能技术)实现多模态内容理解。“奈飞机器学习平台”将应用于原创剧集内容制作和发行全流程,赋能面向订阅会员的个性化内容服务,预示着流媒体将从传统内容制作、发行平台转型成为“媒介机器学习”基础设施。伴随生成式人工智能引发的应用和监管问题,当前“奈飞机器学习平台”又为创意产业带来新一轮“媒介机器学习”冲击。不同于生成式人工智能日趋成熟的提示词研究和“拼装”美学特征,以奈飞匹配剪辑算法为代表的“媒介机器学习”在“规模理论”影响下对“数据洪流”进行特征提取,出于明确的营销意图向用户输出定制化视觉体验,以此强化推荐系统效能、提高用户留存率。回顾匹配剪辑在先锋艺术时期与计算机视觉领域的算法演进,当前奈飞匹配剪辑算法已然脱离构成主义趣味,在流媒体深耕“媒介机器学习”的转型策略下展露出理解/重构“媒介”的“算法文化”。在此趋势下,“媒介机器学习”虽然赋能流媒体平台快速迭代其创意理念,但同时也促使内容创作生态彻底融入庞大的算法推荐系统。
引言
自2022年主流生成式人工智能(Generative AI)模型开源以来,诸多密切关注人工智能技术的研究者从艺术史、媒介研究和创意产业维度对人工智能带来的机遇和挑战展开讨论。新媒体理论家列夫·马诺维奇(Lev Manovich)持续使用Midjourney、Stable Diffusion、Runway ML等“生成式艺术”工具进行数字媒体艺术创作,认为“生成式艺术”的底层逻辑和审美取向与后现代“拼装”(bricolage)艺术十分类似:二者都试图在方法论上以“参照”(reference)和“引用”(quotation)取代“原创”(originality),其具体实践则是各艺术门类、媒介载体和新旧文化档案的交叉重组。艺术史学者鲍里斯·格罗伊斯(Boris Groys)甚至认为,撰写“提示词”(prompt)或许将成为人类与时代精神交流的唯一方式,生成式人工智能俨然已成为一种“时代精神-机器”(Zeitgeist-Machine)。不同于文生图、文生视频模型驱动的“生成式艺术”创作,或是大语言模型(LLM)驱动的智能聊天机器人和虚拟助手,传统媒体和流媒体也在积极探索内容制作与人工智能、机器学习(Machine Learning)联动的可能。
流媒体内容平台奈飞(Netflix)自2022年在其技术博客中开辟新专栏,持续更新平台在“媒介机器学习”(Media ML)领域取得的研究进展和应用案例。“媒介机器学习”的问题域是基于机器学习和计算机视觉(人工智能技术),实现包括视频、音频、字幕、脚本在内的多模态内容理解。当前正在部署的“奈飞机器学习平台”(MLP)将应用于原创剧集内容制作和发行全流程,赋能面向平台订阅会员的个性化内容服务。奈飞立足于“媒介机器学习”的转型策略,预示着流媒体将从传统内容制作、发行平台转型成为机器学习基础设施。未来将会有更多服务于创意产业定制化需求的算法集成到“奈飞机器学习平台”,助力创意产业效能提升。为应对生成式人工智能在创意产业各环节带来的挑战,美国电视和广播艺人联合会(SAG-AFTRA)、美国编剧协会(WGA)一度针对人工智能监管问题发起抗议,然而当前“奈飞机器学习平台”的建设又为创意产业带来新一轮“媒介机器学习”冲击,其在创意产业中的应用和影响趋势值得深思。
一、始于先锋艺术:图像序列分析的算法演进
在奈飞当前的“媒介机器学习”生态部署中,匹配剪辑算法(Match Cutting)是最具代表性的应用案例。借助“媒介机器学习”模型训练,奈飞对“匹配剪辑”(Match Cut)概念展开了一次算法实验,尝试赋能计算机视觉自主判断视觉元素相似度和运动轨迹重合度,进而在算法排序下筛选出具备“匹配剪辑”特征的图像序列。对20世纪电影理论与实践而言,“匹配剪辑”是一个十分关键的电影形式分析问题。这一电影学术语用于指称前后镜头之间趋于连贯的过渡衔接,其实现方式通常是借助相似的视觉语言(图形、色彩、空间、质感)或视觉运动(场面调度、镜头运动)达成连贯的叙事效果。“匹配剪辑”与刻意打破叙事连续性的“跳格剪辑”(Jump Cut)形成鲜明对比,二者共同构成电影形式分析美学光谱的左右两极。然而“匹配剪辑”并不满足于对相似镜头的简单并置,而是试图在图像序列的分组与重组过程中生成新的形式表达意味,其审美旨趣更接近实验性拼贴艺术。例如白南准(Nam June Park)在其视频艺术《月亮是最古老的电视》(Moon is the Oldest TV,1965-1976/2000)中,将机械复制时代的摄影影像和模拟数字信号时代的电视录像进行“匹配剪辑”,突显出跨越不同媒介形态的历史连续性。
在艺术史视野和媒介考古学方法观照下,新媒体理论家马诺维奇认为人工智能时代的“生成式艺术”与20世纪前期的构成主义艺术(Constructivism)产生了某种方法论关联。在相似的比较视野下,奈飞匹配剪辑算法对多模态内容进行特征提取和匹配分析的方法路径,可谓延续了构成主义艺术家谢尔盖·爱森斯坦(Sergei Eisenstein)对声画匹配问题的形式分析。从构成主义先锋艺术到“媒介机器学习”近百年的发展进程中,图像序列形式分析如何迈入计算机时代乃至人工智能时代,是一个值得回溯的议题。算法作为计算机科学术语,指称一种满足条件指令自动执行的标准化方法。数字媒体算法自20世纪70年代问世以来不断演进,并在人工智能时代的计算机视觉研究领域迎来跃迁式发展。在计算机视觉主导的“媒介机器学习”问题域下,奈飞匹配剪辑算法对图像序列的分组与重组是否仍然保留“匹配剪辑”的审美旨趣,或是已然丧失构成主义艺术的先锋意味,是当前探讨“媒介机器学习”冲击首先需要回应的问题。
(一)构成主义时期的“垂直蒙太奇”分析
1920年成立于莫斯科的“呼捷玛斯”(VKhUTEMAS),是一所孕育苏联现代主义设计和构成主义艺术的“高等艺术/技术工作室”。聚集于“呼捷玛斯”的视觉艺术家和建筑设计师尝试将图像分解为点、线、面,或是色彩、空间、体积、图案等不同组成部分,进而在分组与重组模式下系统性探索全新视觉艺术语言的生成路径。马诺维奇认为,由文生图、文生视频模型驱动的“生成式艺术”与20世纪前期的构成主义艺术产生了某种方法论关联。在此视角下,“生成式艺术”和“生成式设计”自20世纪20年代以来始终活跃于艺术实践的历史化语境,或者说构成主义艺术早在计算机问世之前就已经具备某种“生成式”算法思维。作为最早研究电影“声画对位”问题的构成主义艺术家,爱森斯坦早年接受过土木工程与建筑设计高等教育,并受到“呼捷玛斯”艺术运动影响,将光影层次、色彩排布等结构特征作为分析单位,以充斥着代数符号和图式表达的书写方式进行电影形式分析工作。
1938年,爱森斯坦邀请作曲家谢尔盖·普罗科菲耶夫(Sergei Prokofiev)合作拍摄有声电影《亚历山大·涅夫斯基》(Alexander Nevsky,1938),普罗科菲耶夫为此创作了由七个乐章组成的大型交响乐套曲。在此期间,爱森斯坦受到管弦乐总谱(Orchestral Score)结构特征启发,认为依据曲式结构设计视觉画面是处理声画关系问题的最佳方式,并尝试设计一套贴合曲式结构变化的电影语言调度法则。在管弦乐总谱的标注形式中,横向标注的每一行乐谱负责处理一组乐器,并行的多组乐器按同一方向行进,由至关重要的“垂直线”在特定时间单位上约束着多组乐器的演奏关系。爱森斯坦因此认为,正是“垂直线”将不同乐器连贯衔接为一个整体乐队,从而控制着整个乐队复杂而和谐的曲式结构。爱森斯坦尝试在管弦乐总谱的标注形式中增加一行视觉信息,使之成为涵盖视觉造型与音乐曲式的声画总谱(Audiovisual Score)。
爱森斯坦据此展开的“声画对位”实验,在他此后的理论工作中发展成为“水平蒙太奇”(Horizontal Montage)和“垂直蒙太奇”(Vertical Montage),以《蒙太奇1938》和《蒙太奇1939》为名发表在苏联《电影艺术》杂志。“水平蒙太奇”用于分析特定镜头A与特定镜头B组接而成的图像序列,特定镜头A与B组合而成的“完整图像”(Total Image)要能够唤起观者的情动(affect)体验。“垂直蒙太奇”则涉及声音、画面组合变化共同影响情绪运动的复杂情境。为了区分这两种紧密关联、相辅相成的形式分析方法,爱森斯坦用代数符号将“水平蒙太奇”处理的图像序列表示为AB;BC,将“垂直蒙太奇”处理的声画组合序列表示为A-A1;A1B1C1;B-B1;C-C1,这就使电影形式分析问题转换为线性关系问题(见图1)。基于“垂直蒙太奇”分析方法的线性关系视角,爱森斯坦试图协调声画总谱中更加复杂的参数类型。以影片《亚历山大·涅夫斯基》中“犬骑士进攻”的段落为例:骑士团突袭的速度、方向、顺序,交响乐的音调、主题、节奏,都是影响镜头序列最终情绪表达的重要参数。
爱森斯坦选取电影《亚历山大·涅夫斯基》中的“冰湖大战”镜头序列作为“垂直蒙太奇”分析方法的首次实践,对应普罗科菲耶夫创作的第五乐章《冰湖大战》管弦乐总谱,绘制出包含12个静止图像和17个音乐小节的声画总谱(见图2)。
声画总谱的“垂直”分析单位依次为:图解镜头(Depiction Shots),乐句和节拍数,管弦乐总谱,长度,镜头图式(Scheme of Depiction),运动图式(Scheme of Movement)以及镜头序号。声画组合序列诉诸感官体验的情绪运动,在声画总谱的“垂直”分析中依次迭代为交响乐乐句和图像轮廓结构,最终得出的情绪运动图式既能拟合交响乐的曲式变化,又能拟合镜头画面的轮廓形状,如同寻找声画关系最优解的回归方程。爱森斯坦基于“垂直蒙太奇”分析方法建构的情绪性风景,也展露出如同数学一样精准的美学特征。自然音响范畴内的声画关系是最简单的匹配形态,当调节情绪运动的各项参数类型介入场面调度时,视觉造型与声音信息开始呈现为线性相关关系,这时声画关系进入到简单同步阶段。如果各项参数类型带来的影响继续复杂化,声画关系便从线性相关的节奏运动转变为非线性相关的旋律运动,此时声画关系进入到旋律同步阶段。
在“垂直蒙太奇”的概念建构工作中,爱森斯坦也曾尝试分析绘画、诗歌运用色彩表达情绪的丰富例证,试图总结出一份详尽无遗的“色彩字母表”,这是一种色彩与情绪对应的蒙太奇分析方法。然而,“黄色的积极、欢乐”在毕加索那里与太阳联系在一起,在梵高那里却同星星联系在一起,面对无法穷尽的组合方式,爱森斯坦不得不承认:“执意寻求色彩与声音、色彩与情绪的绝对对应……会一无所获”。在声音、画面、色彩与情绪之间,需要“我们自己去给色彩和声音规定它们应服从于哪些我们认为需要的功能和情绪”。就像“爵士乐则对应于大都市主义的建筑景观……凡尔赛宫的花园和凉台、罗马的广场和别墅显然是古典音乐结构的‘范本’”。爱森斯坦坚信经验的无穷源泉只能是人,“即使在纯结构问题上,依然是人以及人的手势与语调的相互联系才是决定声画结构的决定性原型”。
(二)计算机视觉研究领域的算法开发
自20世纪70年代数字媒体算法问世以来,其深层算法逻辑在此后数十年间持续演进,并在人工智能时代的计算机视觉研究领域迎来跃迁式发展。在20世纪70年代问世的首个电脑绘图程序,还不能模拟不同绘画类型、笔刷效果甚至帆布画面质感,但1991年问世的电脑绘图软件Corel Painter已经具备上述全部功能。同样的,1971年诞生的高洛德着色(Gouraud Shading)、1973年诞生的逐像素着色(Phong Shading),作为3D图形计算中渲染图形色块的初代算法,还不能模拟填充物的质感。此后计算机图形学研究者基于算法开发,陆续在20世纪70至80年代实现了布料、毛发、皮肤等质感模拟,阴影、透明度、半透明度、景深、镜头眩光、运动模糊等摄影影像技术效果模拟,以及反射、水体、烟雾、花火、爆炸等自然效果模拟。
早期数字媒体算法已经存在人工智能应用,例如“图灵奖”获得者伊万·萨瑟兰(Ivan Sutherland)在1961年至1962年间开发的首个交互式绘图设计系统Sketchpad已经能够自动绘制矩形或圆形。早期人工智能设想是训练计算机执行一系列认知行为,包括下棋、解决数学问题、理解文本以及图像识别。经过近半个世纪的算法开发与算力提升,面对新千年以来“大数据”理论带来的挑战和机遇,人工智能已经能够实现医学影像分析等精确复杂的任务。计算机视觉(Computer Vision)是人工智能的一个技术分支,其问题域是如何让计算机分析并理解图像序列(包括静态图像、视频和其他视觉输入信息),从而实现目标识别、动作识别和场景理解等从简单到复杂的功能。计算机视觉研究依赖于海量数据分析,主要使用机器学习或深度学习实现计算机自主提取图像序列特征。而当下所谓“人工智能”已不再指称某一项具体技术或单一应用,而是各类复杂算法的集成。
不同于文生图、文生视频模型驱动的“生成式艺术”创作,或是大语言模型(LLM)驱动的智能聊天机器人和虚拟助手,当前,流媒体内容平台奈飞基于机器学习和计算机视觉技术深耕“媒介机器学习”领域,正在拓展研发多模态内容理解应用场景。奈飞匹配剪辑算法是当前最具代表性的“媒介机器学习”案例,这项应用首先需要对奈飞原创剧集内容数据进行分类维护,在此基础上着重关注图像序列分析的算法实现。在研发初期,奈飞匹配剪辑算法使用的训练数据集仅限于包含人物轮廓的图像序列。在“媒介机器学习”层层递进的神经网络中,位于输入层的视频数据首先被分解为包含多个静止帧的图像序列,经过排除重复项,将剩余静止帧数据先后进行实例分割(Instance Segmentation)和交并比计算(IoU),最终在算法排序下输出相似度较高的图像组合(见图3)。
此外通过对动态画面进行光流标注(Optical Flow Representation),算法也能够衡量图像运动轨迹的相似度,进而在算法排序下输出具有相似运动方式的图像序列。
回顾爱森斯坦对影片《亚历山大·涅夫斯基》声画组合序列所做的“垂直蒙太奇”分析,可以发现爱森斯坦绘制的声画总谱图式和奈飞匹配剪辑算法的确存在异曲同工之处,二者都对输入层的媒介内容进行特征提取和匹配计算,采取数据分析辅助形式分析的方法路径。然而奈飞匹配剪辑算法排序、筛选出的相似镜头只是概率论的产物,这意味着匹配剪辑算法不能在特定镜头A和B之间建构“完整图像”,也无法调动视觉元素相似性达成连贯的叙事效果。运行于“媒介机器学习”神经网络中的图像序列不再生成新的形式表达,相似镜头的并置组合成为威廉·弗卢塞尔(Vilém Flusser)所批判的“技术图像”(Technological Image),这类图像不再依赖于主体对物质世界的描绘,而是在概念计算中分崩离析,如同失去连贯性的无维度的、想象的宇宙。奈飞匹配剪辑算法将散落在神经网络中的相似镜头整合为技术图像,就像弗卢塞尔所预见的自动技术图像装置那样,令个体越来越陷入“技术图像宇宙”的交流闭环中。
二、流媒体转型带来的“媒介机器学习”冲击
正如人工智能技术在医疗、金融、教育等诸多行业带来机遇和挑战,传统媒体和流媒体也在积极探索内容制作与人工智能、机器学习联动的可能。英国广播公司(BBC)近年来致力于研发人工智能辅助系统,借助计算机视觉实现多机位、超高清(UHD)影像自动筛选,赋能电视直播平台增强现场报道时效性。流媒体平台奈飞基于自主研发的开源机器学习基础设施框架Metaflow,尝试转型成为“奈飞机器学习平台”(MLP),其算法生态蓝图包括在原创剧集内容策划阶段引入机器学习参与决策,在内容制作阶段引入机器学习协调虚拟拍摄,以及在内容发行阶段引入匹配剪辑算法和不断升级的定制化推荐系统。奈飞深耕“媒介机器学习”的转型策略,预示着流媒体将从传统内容制作、发行平台转型成为机器学习基础设施。在过去数年间,“奈飞机器学习平台”面向内部用户和订阅会员的集成应用规模发展迅速,未来平台将继续拓展深度学习、强化学习(Reinforcement Learning)、数据基础设施(Data Infrastructure)以及大语言模型研究。作为当前流媒体转型策略实施的重要案例,“奈飞机器学习平台”建设不仅预示着创意产业效能提升的竞争所在,也继人工智能监管问题之后带来新一轮“媒介机器学习”冲击和挑战。在流媒体转型导致的“媒介机器学习”冲击之下,奈飞匹配剪辑算法作为一种自动技术图像装置,在基础设施和平台规模两个发展维度起到关键性作用。
(一)定制化视觉体验强化算法推荐系统
奈飞自1998年涉足影碟租赁业务,在2000年基于协同过滤算法Cinematch开发出旗下电影推荐系统,希望基于用户对电影的评价数据预测其电影偏好,进而提高用户留存率并探索商业模式创新的可能。此后奈飞电影推荐系统陆续集成动态存储、搜索等算法应用,自2007年开始向网络会员提供视频订阅点播(SVOD)服务。经历近二十年发展,当前奈飞订阅会员超过80%的剧集内容消费都得益于算法推荐系统(Recommender System),基于用户画像为订阅会员提供定制化内容服务,始终是奈飞实现用户增长的核心竞争力。然而自2010年以来,奈飞通过大规模A/B测试验证不同推荐算法的有效性,结果并未发现可比较的用户留存差异,这意味着单纯提升推荐算法精准度不再是实现用户增长的最佳策略。奈飞继而转向算法迭代与用户界面设计(UI)、用户体验设计(UX)相结合的策略,目的是让定制化算法推荐系统触及用户的视觉体验。
奈飞每年为全球订阅会员提供数千部剧集内容,实现定制化视觉体验需要基于用户画像为每部剧集配制不同版本的宣传物料,包括但不限于投放到用户首页或社交媒体的剧集海报、宣传片和预告片。剧集宣传物料需要视用户偏好露出特定演员,筛选收视率最佳或最具戏剧张力的剧集片段,同时追踪时下宣发热点时刻保持素材更新。然而对数千部剧集内容进行人工素材筛选将带来极大工作量,例如在以往平台剧集内容制作周期下,预告片剪辑需要花费大量时间进行剧集回看,在完成一系列重复性工作后才能进入创意生产环节。为此,“奈飞机器学习平台”在匹配剪辑算法的基础上,继续基于模型训练实现视频内搜索(In-Video Search)功能(见图4)。如同搜索引擎将数十亿网页信息经由算法筛选输出为有限的检索结果,奈飞机器学习平台用户能够搜索所有奈飞剧集内容,基于台词、演员或视觉元素(物体、场景、情绪、动作等)等关键词查找所需素材。
“媒介机器学习”一方面赋能“奈飞机器学习平台”用户摆脱重复性劳动、快速迭代其创意理念,同时也促使内容创作生态彻底融入庞大的算法推荐系统。伊莱·帕里泽(Eli Pariser)认为算法推荐系统就像“过滤气泡”(Filter Bubble),以“定制化”为名让文化消费运转陷入无法挣脱的“自循环”(You Loop),而“媒介机器学习”正在不断强化这类文化消费“自循环”。“奈飞机器学习平台”借助匹配剪辑算法和视频订阅点播模式的深度捆绑,将定制化视觉体验融入用户界面设计和用户体验设计,持续强化算法推荐系统效能,进而实现更高的用户留存率。然而算法推荐系统往往忽视经验的实质性和物质性,将具身认知及其能动性排除在外,这意味着使用者与算法推荐系统只能建立单向度联系。在人类学视野的观照下,基础设施作为技术系统重新定义了现代生活,而当前由流媒体基础设施驱动的“媒介机器学习”冲击,正在催生新的劳动场所和新的劳动形式。
正如吉尔·德勒兹(Gilles Deleuze)对“控制社会”(Control Societies)的描述,基础设施的力量从流通架构转向了平台,而一切算法想象将服务于效率优化的“算法资本主义”。紧接流媒体二次薪酬问题和人工智能监管问题引发的广泛焦虑,“奈飞机器学习平台”发展战略又为创意产业带来新一轮“媒介机器学习”冲击。艺术史学者格罗伊斯敏锐观察到这一趋势下的深层变革:“当我们想要向世界发问,我们成为互联网用户;当我们想要回应世界向我们抛出的问题,我们生产互联网内容……于是谷歌成为了第一种已知的‘哲学机器’”。原本受制于语言规则的“语词”不再服从语法,话语也随之分解为不再诉说意义的“文字云”(Word Cloud)。曾经人们走进美术馆、剧院、电影院和书店,在深度阅读中寻访“时代精神”(Zeitgeist),当下只需要接入算法系统,便接入了某种统计学意义上的“时代精神-机器”(Zeitgeist-Machine)。智能优化的社会想象在算法排序的“时代精神-机器”中运行、迭代和递归,展露出“偶然性”和“无根基”的思考行动方式。
(二)大模型“规模理论”加剧“数据洪流”
“规模理论”(Scaling Law)是人工智能研究机构OpenAI自2020年开始推行的大模型训练指南,OpenAI的研究表明,大语言模型的最终性能主要取决于数据规模、模型参数、计算资源等“规模”因素,与模型的具体结构(神经网络层数/深度/宽度)基本无关。“规模理论”意味着若想提高模型准确率和泛化能力,就需要更大的数据规模、更多计算资源和参数数量。在自然语言处理领域,广泛应用于写作、翻译任务的谷歌BERT模型和OpenAI的GPT模型,已经证实遵循“规模理论”的大语言模型能够生成高质量文本序列,OpenAI最新推出的文生视频大模型Sora也验证了这一路径的有效性。遵循“规模理论”同样是“奈飞机器学习平台”未来发展的核心策略,为实现更加高效的流通架构,“奈飞机器学习平台”需要在元数据、访问权限、特征存储、特征计算和特征计算触发之间建立一套耦合机制,基于标准化预处理逐步整合视频、音频、图像等多模态媒体资产(Media Assets)。
在“奈飞机器学习平台”发展的早期阶段,匹配剪辑算法仅用一部电影数据进行模型训练需要处理约2000个镜头,随着训练规模扩大到系列剧集乃至所有奈飞原创剧集,训练所需模型参数和计算量便呈现出指数级增长。遵循“规模理论”的多模态媒体资产整合,在实践中产生了远超基础设施所能管理、维护的数据量,“奈飞机器学习平台”因而面临“数据洪流”(Data Deluge)困境。此类困境普遍存在于传统图书馆和档案馆的数字化进程,例如创始于16世纪的博德林图书馆(the Bodleian Library)目前馆藏超过1.34亿个数字图像文件,这些极其耗费管理维护成本的数据信息对知识的保存和传播带来诸多挑战。
相较于数字馆藏的体量扩张,奈飞多模态媒体资产整合在碎片化的字节维度扩张“技术图像宇宙”,这些难以被掌握、表现和理解的“数据洪流”挑战了当代文化研究的现有范式。
正如新媒体理论家马诺维奇对新千年以来数字媒体实践所作的观察,“数据洪流”创造了一种新的文化分析情境,例如每周上传到图片分享网站Flickr的图像数量可能比世界上所有艺术博物馆的馆藏还要多。此类情境促使文化研究领域开始关注如何分析数百万张图像,可以使用哪些分析方法来应对遵循“规模理论”的“数据洪流”。马诺维奇为此提出“文化分析学”(Cultural Analytics)方法,其命名源于主导大数据时代的“数据分析”(Data Analytics),旨在借助计算机科学和数据可视化技术分析“数据洪流”中不可见的文化实践。在马诺维奇主持的一项“文化分析学”实验中,研究者尝试对100万幅漫画页面进行数据可视化分析,根据页面中像素灰度值的标准偏差(从对比度最低到最高)和在整个像素灰度值上测量的熵来对漫画封面排序定位。这项实验试图探讨“规模理论”视野观照下的“文化分析学”到底提供了哪些新的可能性,而计算机科学、数据可视化技术和“规模理论”的局限性又是什么?按照“规模理论”预期,更大的数据规模、更多计算资源和参数数量将自然而然地产生解释性力量,这在马诺维奇的“文化分析学”实验中对应为足够多的图像数据、参数数量和可视化分析(见图5)。
遵循“规模理论”寻求创新的奈飞多模态媒体资产整合,以及马诺维奇秉持相似方法论展开的“文化分析学”实验,共同阐释了当前“媒介机器学习”冲击下“新媒体”(New Media)向“更多媒体”(More Media)转变的问题与方法。马诺维奇认为数据科学工具未必能够满足人文主义关切,这些工具源于营销公司的“大数据”分析,使得数据科学过分专注于特定问题并将异常值视为“噪音”,然而人文批评需要关注的正是例外和异常。这也导致数据科学家更多关注并研究数据行为的普遍性,而“文化分析学”实验倾向于发掘那些隐藏在互联网“数据洪流”中的迷人亚文化。奈飞匹配剪辑算法作为一种自动技术图像装置同样具有明确的营销意图,其目的是以定制化视觉体验强化算法推荐系统效能,进而提高用户留存率。一切不匹配形式如同“噪音”被排除在匹配剪辑算法逻辑之外,然而概率统计和均值并不能生成新的形式表达。对“数据洪流”规模、速度、多样性和联系性的特征提取,某种程度上导致“风格”概念逐渐失去意义。
三、应对“媒介机器学习”冲击的“算法文化”批评
奈飞曾在2006年举办过一次推荐算法竞赛(Netflix Prize),面向全球算法工程师征集电影推荐系统性能提升方案,虽然这是一项技术挑战,但代表了一种试图建构“算法文化”(Algorithmic Culture)的努力。然而“算法文化”是难以把握甚至难以定义的研究对象,这首先涉及算法系统如何处理“文化”一词的含义。传播学者泰德·斯特里法(Ted Striphas)认为“算法文化”包含两类受众:用户和计算机,算法运行的整理、分类和排序工作就是文化本身。例如谷歌搜索算法决定了搜索引擎用户获取信息的深度和广度,脸书(Facebook)动态消息算法决定了社交网络的流行趋势和用户内容生态。计算机运行复杂算法进而对文化生产和消费划分优先级,根据特定人群的消费习惯进行分众化产品推荐。媒介研究学者威廉·尤里奇奥(William Uricchio)则认为算法是一种解决问题的方法传统,至少可以追溯到欧几里得时期(约公元前300年),此后在莱布尼茨(Gottfried Leibniz)和帕斯卡(Blaise Pascal)那里得到重大发展,当下又基于大数据和高速网络等基础设施获得新的文化力量。在历史化语境下,算法适用于任意规模,既能处理计算机问世以前相对有限的数据,也尝试应对当下每天更新超过百万亿字节的“数据洪流”。
奈飞推荐算法竞赛为算法规模扩张提供了一种观察场域,竞赛参与者及其设计迭代的推荐算法因此构成“算法文化”情境(Situation)的组成部分。在劳伦·贝兰特(Lauren Berlant)对情境的描述中,颠覆性危机或重大转折总在日常生活的常规运行中持续展开,身处其中的参与者通过对当下情境的感知而获得文化体认。植根于情境感知的“算法文化”以新生事物的姿态与实践悄然融入大众生活,在日常生活的概念语义工作和文化决策形式中持续扩张。从“算法文化”起步阶段的协同过滤算法Cinematch,到陆续集成加入推荐系统的动态存储、搜索算法,再到当前奈飞机器学习平台时代的匹配剪辑算法,算法推荐系统历经数字时代和人工智能时代的演进,最终呈现为定制化视觉体验的人机交互设计(Human-Computer Interation)。在上述进程中,高效且易于使用的人机交互设计日益突显出重要性,这一问题域涵盖计算机科学、认知科学和人因工程学,意味着算法研发不再是算法工程师独自应对的技术挑战,而是基于交互界面联结人与非人施动者的中介空间。
马诺维奇在人机交互的历史化语境下提出“文化交互界面”(Cultural Interface)概念,以此指代一切基于计算机运行的文化输入输出界面。自20世纪90年代末互联网在全球范围普及以来,个人计算机(PC)逐渐成为一种兼容各类文化和艺术产物的通用媒介,是信息社会中人与文字、图像、音乐、电影发生交互的界面。计算机交互界面以特定方式组织计算机数据,而这些数据组织模式奠基于既有文化形式和旧媒体的“再现”。印刷媒体是通往文本的交互界面,电影可谓通往发生在三维空间事件的交互界面,人机交互是通往计算机数据的交互界面,三者之间展现出历史连续性。例如电影装置和计算机就拥有相似的架构,电影摄影机、电影放映机分别进行数据存储和输出,赛璐珞胶片纪录的每一个静止镜头如同计算机电子元件中的二进制码。胶片时代的运动影像是一种既连续又离散的媒介形式,具体来说是按时间顺序分割的图像序列。在连续模拟视频信号转换为数字信号的过程中,每一帧画面都被分割成许多行“扫描线”(Scan Line)从上到下逐行排列。数字时代的视频采样、编码方式相较于胶片时代运动影像的单一时间序列,进一步增加了垂直维度。
此外在计算机剪辑软件的交互界面中,水平维度代表影像的时间序列,垂直维度代表影像的空间序列。垂直维度的出现促使运动影像在计算过程中从一维向量向二维矩阵跃迁,这一趋势由新媒体艺术家黑特·史德耶尔(Hito Steyerl)概括为当代数字媒体文化的普遍特征,一种转向“垂直透视”(Vertical Perspective)的思考行动方式。史德耶尔从“线性透视”(Linear Perspective)及其视觉政体(Scopic Regimes)在历史化语境中持续衰落的现象出发,逐一分析电影摄影术如何打破线性时间的单向度行进,蒙太奇叙事装置(Montage)如何明确破坏线性时空体验,直至现代无人机、观测卫星等俯瞰技术彻底脱离地平线,进入到太空与行星媒介视域。“垂直”思考行动方式在现代性视觉政体中的规模扩张,正如奈飞匹配剪辑算法带来的“技术图像宇宙”扩张,二者正加速沦陷于弗卢塞尔所预见的“偶然性”和“无根基”。
结语
对人工智能时代的想象始终关联着深刻的哲学思辨,批判的目光也始终注视着无实体的计算本身。“矩阵”(matrix)作为计算的内容物与变换规则,在电影《黑客帝国》(The Matrix,1999)中被定义为虚拟世界的代名词,被视为一个机器与人工智能控制下的计算机程序,并最终被塑造为现代性视觉政体的终极象征符号。当前“奈飞机器学习平台”建设为创意产业带来新一轮“媒介机器学习”冲击,突显出流媒体平台转型策略下创意从业者共同面临的机遇和挑战。奈飞匹配剪辑算法将相似镜头整合为技术图像,出于明确的营销意图输出定制化视觉体验,进而强化算法推荐系统效能并提高用户留存率。而在大模型训练的“规模理论”影响下,更大的数据规模、更多计算资源和参数数量并不能生成新的形式表达,匹配剪辑算法对“数据洪流”的特征提取已然丧失构成主义艺术的先锋意味,陷入“技术图像宇宙”的交流闭环。
艺术史学者欧文·潘诺夫斯基(Erwin Panofsky)曾试图在“模仿论”之外寻找一种更具主观意图的“象征形式”(Symbolic Form),将透视(perspective)视为不同历史文化时期对社会认知和技术实践整体的感知图式。继透视画法之后,马诺维奇将数据库(database)指认为新千年以来技术文化感知的“象征形式”,数据库以前所未有的方式组织、访问和理解信息,塑造个体对物质世界的感知及其文化表达。数据库不再局限于一种储存数据的方式,而是影响媒介文化的关键因素。有趣的是,“垂直”思考行动方式似乎贯穿于构成主义时期的“垂直蒙太奇”分析、数字信号时代的垂直“扫描线”、数字媒体时代剪辑交互界面的垂直维度。在“象征形式”观照下,“垂直”是胶片时代影像从线性逻辑中解放的第一步,或许也是当前“媒介机器学习”冲击、理解并重构媒介的第一步。