自然语言处理

0 Comments

       取得总词次131万条,常用词8548条。

       电子电脑已使用来各天地。

       ④按体分门别类的高频词表,又可再分成4个表:a.报章杂志政论语体的前4000词的词表:本表共统计34种语料,29万词次(44万字),有不一样词条数12,107个。

       片化名用来书写外路词、拟声词、拟态词和一有些动、植物的名目。

       《现汉》是一部半大词典,它在收词上既然全盘的,又有较强的选择性。

       前4000个词累计频率94.77%。

       取样要紧根据《现代汉语频率词典》中频率最高的前8000词表,以词现出的频率和使用为信条抽取出高频档次副词、中频档次副词和低频档次副词。

       ②按频率递减的程序排的词表:在词表中,最常用词的应用频率一定高,前100个词占了语料总量的40%之上,前500个词占了语料总量的70%之上,前2562个词占了语料总量的85%,词表集体所有不一样单纯词31,159个,这些词占了语料总量的100%。

       关头词2005年汉语语汇计量钻研教部、国语委2006年5月22日在北京召开时事宣布会,首度以中国言语日子绿皮书的式宣布了中国言语日子气象汇报(2005)。

       3.1中日字形简体化经过二十百年中叶前后,中日两首都对我国字形进展了改造。

       最初践诺,对《现代汉语词典》的计量钻研近几年的践诺:《现代汉语常用词表》,商务印书馆,2008年11月对外汉语1500常用词,见《中国言语日子气象汇报2006》,王铁琨主编,商务印书馆,2007年8月。

       【2】故此,日本人念书汉语是比容易的。

       只不过,他创作的是汉语频率字典,不是汉语频率词典,汉语书皮言语不是像印欧语那么划分词来书写的,词的切分是一个一定艰难的情况,创作汉语频率词典,率先需求把汉语的单纯词从汉语书皮公文中切分出,而陈鹤琴当初不得能性做到这一些。

       这些恒定短语大大部分是由语素和短语合而成,其结成分和格式都是在汉语的长期发展中形成的,不得恣意割,并且其意义也带有整体性。

       前4000个词的累计频率为96.65%。

       1,500页。

发表评论

电子邮件地址不会被公开。 必填项已用*标注