• 学校官网
  • 返回首页
  • 今日到馆

电子资源

当前您的位置: 首页 > 电子资源 > 免费资源 > 正文

COCA 美国当代英语语料库

发布日期:2023-06-27作者:Admin来源:COCA 浏览量:

  美国当代英语语料库(Corpus of Contemporary American English, COCA),收录内容包括文本小说、口语、杂志、报纸、学术文章等。COCA每年都在更新语料,有收录很多新词。词典查不到的词可以到这上面找找看。


  COCA语料库(2020年3月更新版本)https://www.english-corpora.org/coca/

 

  英语语料库网站(English-Corpora.org)拥有全球最大的语料库用户群。在众多语料库中,当代美国英语语料库(COCA)是迄今为止使用最广泛的语料库。2020年初,扩展了COCA的范围、库容和功能,使其对研究人员、教师和学习者更有帮助。

  COCA库容超过10亿单词。1990-2019年期间,以每年2000万词的速度更新扩充(每年语料在不同体裁中分布均衡)。这使得COCA区别于其他语料库,成为唯一一个:1)容量大 2)时效性强 3)体裁广泛的英语语料库。

体裁 COCA的海量语料覆盖八种体裁,因此COCA可以提供不同体裁的词汇、短语和语法结构的频数信息,无论是非正式体裁(如电视、电影字幕或口语记录),或是正式的体裁(如学术文章),亦或是介于二者之间的体裁(如杂志和报纸)。

  COCA体裁分布均衡(库容量大),可以显示相关短语在不同体裁中出现的频数。你还可以比较同一单词在两种体裁(或多个体裁)中的区别。你甚至可以比较不同体裁中某个词的同义词。COCA可以聚焦特定体裁,这意味着你可以为特定体裁中的特定概念找到 “对应的词”。除了跨体裁比较,你还可以比较相关单词之间的差异。HISTORICAL COCA是唯一一个时间跨度为30年的大型英语语料库--从1990-2019年每年约2千万个词(每年语料在不同体裁中分布均衡)。这意味着,除了能了解不同体裁的变化之外,你还可以绘制出英语的近期变化,这是其他语料库不可能实现的--比如1990-2019年的awesome这个单词的频率。


  当然,你能看到的不仅仅是简单的单词或短语。COCA是唯一一个可以让你绘制出过去30年中句法结构变化的语料库,比如 “like结构”(and I’m like, no way)或 “end up V-ing ”结构(you’ll end up paying way too much)--自20世纪90年代初以来,这两种结构在每个五年期间都在增加。还可以了解不同时期人们对某一主题的看法的变化。与English-Corpora.org中的其他语料库一样,COCA的检索范围非常广泛,包括:单词、短语、子串、词目、词性、同义词、定制词表等。如检索WEAR * ADJ @CLOTHES,只需大约一秒钟,就能在库容10亿的语料库中搜索到如下众多的词串(不需要专门学习烦琐复杂的检索语法)。


  得益于COCA的先进设计,即便是像NOUN + NOUN或VERB ADJ NOUN这样比较宽泛的检索,也只需1-2秒就能在库容10亿的语料库中搜索到。COCA的一个独特功能对语言学习者和教师非常有用,就是能够浏览语料库中排名前60000位的词(词目)表,并查阅与这些词相关的丰富信息。COCA甚至提供了这60000词的发音检索,对于拼写较难的单词特别有用十分有用。COCA语料库中的这前60000词,每个词都有各自的“主页”,可以链接到其他网页以便获取更多信息。对这60000词,COCA还提供了更详尽的信息页面,包括“词典”页面,相关话题页面,搭配词页面、词簇页面、网页页面以及索引行页面。


  总结


  COCA具有其它语料库无法比拟的强大功能。COCA库容庞大(10亿单词),时效性强(已更新至2019年12月),体裁广泛(电视/电影字幕,口语,博客,网页,小说,杂志,报纸,学术),检索多样快捷(支持多种类型的检索,并且方便快捷),可以用体裁和时期为限定条件进行检索,也可以实现跨体裁或跨时期的比较。

  此外,有别于English-Corpora.org中的其他语料库,COCA的独创之处在于关注了该语料库中前60000个单词,并提供了有关所有这些单词的丰富信息,包括频数信息、定义、同义词、WordNet条目、相关话题、索引(COCA新增此功能)、词簇、以检索词为主题词的网站,以及KWIC/索引行语境。正是这些强大的功能使COCA成为研究人员、教师和学习者必备的理想语料库。


(以上节选自该网站中文简介)

次访问

©浙江外国语学院图书馆

X