Copyright © 2088 2014男篮世界杯_u20世界杯8强 - malajz.com All Rights Reserved.
友情链接
文本与文本处理(一)_萧风的博客-CSDN博客
三、文本的分类
(1)按照是否具有排版格式∶
简单文本
和
丰富格式文本
。
(2)按照文本内容的组织方式∶
线性文本
和
超文本
。
(一)简单文本
(1)简单文本(纯文本): 由一连串表达正文内容的字符编码组成,几乎不包含任何格式信息和结焓信
息,也叫纯文本,扩展名是 .txt。Windows"记事本"程序所编辑处理的文本就是简单文本。
(
2)在简单文本中不能插入图片、表格,不能建立超链接,它是线性结构的。手机短消息使用的就是简
单文本。
(二)丰富格式文本
(1)丰富格式文本;对纯文本排版后,增加了格式控制和结构说明信息。
(
2)丰富格式文本组成;正文+标记。标记为∶<>…>。
(
3)常见的丰富格式文本扩展名;doc,pdf、html、rtf、hlp(帮助文件)。
(
4)常见处理丰富格式的文本软件:Word、WPS、Adobe Acrobat、Dreamweaver、支持 MIME 协议
的电子邮件客户端软件等。
(三) 超文本——非线性结构、丰富格式文本
(1)超文本:可以对文本进行跳转、导航、返回的操作,实现文本更为方便的访问,采用网状结构组织
信息。WWW 网页就是典型的超文本结构。
(
2)超链是有向的,起点位置称为链源,它可以是网页中的一个标题、一句句子、一个关键词、一幅画、
一个图标等。
(
3)“超链”实际上就是一个指针,用于指向其他网页,也可以指向同一网页中的其他部分
(
4)超文本也属于丰富格式文本。
(
5)与超媒体组织结构一样,但是对象不同,超媒体的对象更为丰富(
包括
文本、图像、视频
等
)。
四、文本的编辑与排版
(一)文本格式
(1)文字格式∶字体、字号、颜色、字符间距等。
(
2)段落格式∶行距、段前距、段缩进等。
(
3)页面格式∶页边距、分栏、页眉/页脚。
(二)文本编辑
目的:确保文本内容正确无误 操作:对字、词、句和段落进行添加、删除、修改等操作 MS Word的功能:
在文本的任何位置都可以插入新的文字从文本的任何位置都可以删除不需要的文字将一段文字从一处移动到另一处将一段文字从一处复制到另一处在文本中自动查找指定的词语用一个词语自动替换文本中指定的词语
(三)文本排版
目的:使文本清晰、美观、便于阅读 操作内容:对文本中的字符、段落乃至整篇文章的格式进行设计和调整,分成3个层次:
对字符格式进行设置对段落格式进行设置对文档页面进行格式设置
(四)文本的处理——对字词、句子和篇章的处理
定义:
使用计算机对文本中的字、词、短语、句子、篇章进行识别、转换、分析、理解、压缩、
加密和检索等有关的处理
(1)字数统计,词频统计,简/繁体相互转换,汉字/拼音相互转换 (2)词语排序,词语错误检测,文句语法检查 (3)自动分词,词性标注,词义辨识,大陆/台湾术语转换 (4)关键词提取,文摘自动生成,文本分类 (5)文本检索(关键词检索、全文检索),文本过滤 (6)文语转换(语音合成) (7)文种转换(机器翻译) (8)篇章理解,自动问答,自动写作等 (9)文本压缩,文本加密,文本著作权保护
(五)文本展现 ——打印输出、屏幕显示
(1)文本展现的过程。
① 对文本的格式描述进行解释。
②生成文字和图表的映像(bitmap)。
③传送到显示器或打印机输出。
(2)两种不同的字库∶
点阵
描述、轮廓描述。
16×16
点阵的一个汉字字形需要
32
个(
16*16/8
位
=32
)字节来存储。
24×24
点阵的
,
每个汉字就是
72
个(
24*24/8
位
=72
)字节来存储。
……
(3)使用的软件:文本阅读器/文本浏览器