以数字映射古代文学经典

以数字映射古代文学经典

以数字映射古代文学经典 字体: 小 中 大 分享到: 以数字映射古代文学经典 2022-03-29 10:29:00 来源:光明日报

大数据及其相应技术对社会知识体系和思维方式产生了重大影响。基于该技术,对古代文学经典文本进行深入高效的分析,可以使文学研究进入更广阔的视野,提高研究结论的准确性、稳定性和可验证性,促进新的研究理念、方法和范式。信息革命以来,古籍数字化积累和知识库建设取得了丰硕的成果。众多的古籍可以形成任意大小的文本集合,具有不同维度的数据特征。基于单词、句子、短文等的统计。可以用来获得不同于纸质阅读的认知。

古籍散点透视

利用谷歌和哈佛大学联合开发的数据库,统计了公元1800年至2000年出版的近520万本书籍中单词和短语的使用频率,清晰地呈现了任何单词或短语在过去数百年中的出现频率和变化趋势。这种词频统计器广泛应用于探索著名事物的兴衰、话题的热点变化、人物或群体的影响等研究中。

同样,在大数据时代,新技术和研究思路为弥补纸质古籍在结构化编排、大量数据采集整理、关系立体联动呈现等方面的不足提供了可能。我们利用“国学文库”数据库中收集的超过10000种、超过22亿字的古籍优秀数据,筛选出近百部最核心的经典著作。我们从用词量、用词比(TTR_H)和用词频率等不同角度进行统计,以一种前无古人想象的广泛文体来源进行时代与文学的关联和比较,从而获得一系列涉及中国历史、文体学、知识考古、蒙古学的研究。

纵向纵览先秦至清代的古籍资料,首先可以注意到单部经典的总字数和字数的增加趋势。显然,前者与文献的物质形态的变化和发展有直接关系,而后者不仅受自身发展因素的影响,如中古时期的汉语双音化,还与汉代至中古以来的图书总量和社会知识的增加有关。首先,承担识字教材功能的知识工具书和小学读本排在第一位,如《尔雅》(3360字)、《水镜朱》(4490字)、《温孤观致》(3863字)。自汉代以来,文人逐渐注重学术和社会观点的积累以及人生本质的总结,所以他们的著述往往具有丰富而深刻的知识特征。史记,“究天人,明古今之变”,“若说其大,乃天地之事;详细来说,无边无际的《淮南子》的字数分别为4730字和3900字,在涉及统计的古代和中世纪文献中非常突出,已经可以和明清小说相媲美(《四大名著》、《聊斋志异》的字数在3931到4936字之间)。

“智能化”的转变不能只靠数据本身来完成,但解读数据的方式比数据更重要。除了将统计分析与经典话题联系起来,数据分割和聚类也是至关重要的基础环节。一个经典的研究案例是,《红楼梦》正文共分四十章,最后一部分用词量的显著差异恰恰证明了关于作者的问题。但直接用字数来衡量一部作品的好坏或阅读难度,会陷入机械的统计分析思维。比如《统计学》的前几篇小说文献,其体量大、内容广、文风雅俗等。,共同增加了用词量。同样,由于常用汉字总数的限制,文档长度的增加会导致字比的降低。因此,将计算语言学中常用的TTR_H模型引入统计中,对词比进行修正。最终结果显示,字比最高的读者均为蒙文读者:千字文(1)、百家姓(0.986)、三字经(0.894)、音律启蒙(0.857)。可以看出,编者在有限的篇幅和内容难度下,有意识地增加汉字量,让学生尽可能多的集中习得汉字。蒙文读物编者选词的标准是什么,是当时常见的古典文献中的高频词,还是日常生活中的常用词,还是其他标准?这种选择是通过什么方式做出的?这些都是值得进一步探讨的课题。

从字符特征中发现经典命题

在词频统计中,考虑到虚词和实词的不同属性和解释功能,通常是分开计算的。虚词是汉语史等领域研究中常用的特征数据,也是作品风格比较的标志性参数。虚词的比例本身就构成了不同作者之间的风格标记。在“五经”中,参考后世的“文风之辨”,诗歌是一种押韵的文章,所以与其他书籍相比,高频词中的实词所占的比重更大,“实词多则健康,虚词多则衰弱”的古代诗学观就源于此。用高频词的真假来映射“文笔之辨”的方法,可以延续到后世。一般来说,在诗歌、歌词等文体中,实词作为高频词的概率高于散文文体。

作为五经中最早的书《尚书》,其虚词特征也保存了古代汉语演变的痕迹。排在《尚书》中高频第一位的虚词“为”有一种上古的色彩,这不仅与其许多内容的叙事性有关,也反映了早期汉语与后期“什么都差不多”时代的区分。从同样的角度看近期的古代著作,我们可以看到中国历史上的另一个巨大变化。对话是小说的重要元素。表示言语行为的动词自然享有高频地位,在《三国演义》和《聊斋》中体现为“曰”,在《西游记》和《水浒传》中体现为“道”,这是后一组作品文言文弱化的重要标志。真正的白话转型发生在《红楼梦》中,“的”第一次取代了语法功能相同的“之”,成为第二高频词。《红楼梦》中的第一个高频词是另一个具有白话特色的虚词“了”,也是《水浒传》中的第一个高频词。

与虚词相反相成的实词是文献内容与主题的映射,其背后有反映概念史演变的重要命题。同样,以五经为例,诗、书、礼、变、春秋中的第一高频实词分别是我、王、满、项、子。《诗经》具有最强烈的主观抒情色彩,正如《毛诗序》所说,“一国之事,一人之本”。《尚书》是古代三位皇帝的法典、伦理、训令、诏书、誓约、命令等的文献记录。,以记录“王”的核心言行。孔子以“克己复礼”来约束人,“礼”是人的内在品质的外化,脱离人谈“礼”也就失去了基础。“象”作为《周易》的解释对象是不言而喻的。“古代人把他们的生命献给了国王的家族。当他们起来时,他们看着天空中的影像;当他们倒下时,他们看着地上的法律;当他们看鸟兽之言,地适之时,便亲近了,远离了一切,于是便起了易经八卦来挂宪象。”《说文解字序》中的这段话说明,“象”不仅是《周易》的关键,也是汉字观念和中国文化思维的体现。《春秋左传》第一个高频词是“子”,包含第二人称单数和王侯爵位的双重含义。后者是《春秋》叙事的核心。孔子写《春秋》,就是为了用些微的正义感,记录“诸侯征伐礼乐”的非凡时代。作为一部编年体史书,各诸侯国王公大臣的秩序和道德选择构成了它的潜在纬度。

用数据定性“诗分唐宋”

钱树的《覃逸陆》以“诗分唐宋”为开篇,影响广泛。这是对前人的延续,宋代严羽的诗中就有“本朝之人讲道理,唐人之意在快乐”的说法。唐诗宋词的区别在于体质,体质比较神秘。通过定量分析,我们可以详细掌握其语言特点。根据全唐诗57000余首,全宋诗254000余首的频率统计,前十大高频词分别是:不知,何处,千里,千里,思念,不能,白云,今日,春风,不能(全唐诗);我不知道,春风,生活,不,千里,万里,地球,失踪,十年,在哪里(整个宋朝)。以下段落的词频顺序会在括号中注明,不一一说明)。

将统计数据展开到前100名,关于唐宋诗风之争的诸多命题就可以在字的褶皱中展开。以严羽的论断为例,在百家诗中,唐诗比通俗隽永的景物描写更居前列。比如7号的“白云”和11号的“岳明”只是词汇片段,唐朝的气象很明显。作为参考,这两个意象在全松诗歌的词频统计中已分别降至第19位和第23位。严羽“本朝尊理”的观点也可以从统计数据得到佐证:在宋代,“命”(第3位)、“仁”(第8位)等哲学词汇的排名高于唐代(分别为第30位和第13位)。还有一个有意思的地方是,宋人虽然提倡律己、自守、自求的理学,但“功名”(36首)、“富贵”(78首)的诗很多,唐人很少写,而唐代常见的“忧郁”(15首)、“相思”(22首)等诗则与“理语”相对。

唐诗强调空,宋诗强调时间。宇宙的压倒感和无边空的空间,从整首唐诗的前五个词频(不知何处,千里,千里,思念)就可以看出来。日本汉学家吉川小次郎曾指出,唐诗是凝视生命中燃烧的珍贵瞬间,而只是顶点的对象。宋诗本质上是时间性的,诗人视生命为漫长的持续。从词的统计来看,唐诗中排名最高的时间词是“今天”(8),when 空和情感都集中在这一点上,而宋诗中排名第一的是“十年”(9),其次是“今天”(12)和“百年”(20)。纪传体的“燃烧与坚持”理论被推进到意象选择的对比上。日落是燃烧的景象,雨是坚持的景象。所以才有了“唐人写夕阳,宋人写雨”的经典结论。词频的统计正好验证了这一点。《晚霞》(55)、《晚霞》(59)、《晚霞》(69)的词频在全唐诗中排在前列,在宋诗中排在九十年代之后。

与信息爆炸的现代不同,传世文献中经典文本的边界相对清晰,但其体量对于专注于某一主题或领域的研究者来说,仍难以完全把握。基于大数据技术的古代文学经典文本分析,不仅关注经典文献,也关注海量基础文献。希望能够在短时间内使用高效全面的数据挖掘进行准确有效的文本分析。传统经典研究中的结论,大多是在个人有限的阅读过程中,通过观察、思考、领悟得出的,往往带有主观性,甚至是先验性。大数据的汇聚和计算分析方法的应用,可以让既出乎意料又可以接受的结论“自动浮现”。

用大数据把过去割裂孤立的东西重新连接起来,改变了我们对文献、文本、知识的理解路径和把握尺度。从词/词频统计这个大数据工具这个微小的方面入手,初步获得了以新的方式探索经典、语言学、文学等领域文献的经验。相对于用不同的技术手段、不同的构造方法、不同的粒度重构的集成文献知识库,上述工作可能只是一个小小的尝试。我相信,有了统计数据的积累、叠加和映射,古籍和传统文化的研究一定能焕发出更大的生机和活力。(作者:刘石,国家社科基金重大项目“基于大数据技术的古典文学文本分析与研究”首席专家,清华大学教授,首都师范大学中国诗歌研究中心专职研究员尹晓林)

【纠错】
  • 姓名:
  • 专业:
  • 层次:
  • 电话:
  • 微信:
  • 备注:
文章标题:以数字映射古代文学经典
本文地址:http://cng.55jiaoyu.com/show-278792.html
本文由合作方发布,不代表展全思梦立场,转载联系作者并注明出处:展全思梦

热门文档

推荐文档