\chapter{用 \LaTeX{} 排版文字}\label{chap:text}
\addtocontents{los}{\protect\addvspace{10pt}}

\begin{intro}
文字是排版的基础。本章主要介绍如何在 \LaTeX{} 中输入各种文字符号，包括标点符号、连字符、重音等，以及控制文字断行和断页的方式。

本章简要介绍了在 \LaTeX{} 中排版中文的方法。随着 \LaTeX{} 和底层 \TeX{} 引擎的发展，旧方式（CCT、\pkg{CJK} 等）日渐退出舞台，
\texttt{xelatex} 和 \texttt{lualatex} 编译命令配合 \cls{ctex} 宏包/文档类的方式成为当前的主流中文排版支持方式。
\end{intro}

\section{语言文字和编码}\label{sec:encoding}

\pinyinindex{bianma}{编码}
\LaTeX{} 源代码为文本文件，而文本文件的一个至关重要的性质是它的编码。在此用尽量短的篇幅介绍一下。

\subsection{ASCII 编码}\label{subsec:ascii}

\index{bianma@编码!ASCII}
计算机的基本存储单位是字节（byte），每个字节为八位（8-bit），范围用十六进制写作 \texttt{0x00}--\texttt{0xFF}。
ASCII（美国通用信息交换码）使用 \texttt{0x00}--\texttt{0x7F} 对文字编码，也就是 7-bit，覆盖了基本的拉丁字母、数字和符号，以及一些不可打印的控制字符（如换行符、制表符等）。

由于 \TeX{} 最初设计用于排版以英文为主的西文文档，ASCII 编码完全够用，因而早期版本的 \TeX{} 只支持 7-bit 和 ASCII 编码。
排版扩展拉丁字符必须使用后文所述的各种符号和重音命令，如 M\"obius 必须通过输入 \verb|M\"obius| 得到。

\subsection{扩展编码}\label{subsec:ext-encoding}

在 ASCII 之后，各种语言文字都发展了自己的编码，比如西欧语言的 Latin-1、日本的 Shift-JIS、中国大陆的 GB 2312---80 和 GBK 等。
它们中的绝大多数都向下兼容 ASCII，因此无论是在哪种编码下，\TeX{} 以及 \LaTeX{} 的命令和符号都能用。

\index{bianma@编码!Latin-1}
\pkgindex{inputenc}
\TeX{} 从 3.0 版开始支持 8-bit，能够处理编码在 \texttt{0x80}--\texttt{0xFF} 范围内的字符。
西欧（拉丁字母）、俄语系（西里尔字母）等语言文字的编码方案大都利用了 \texttt{0x80}--\texttt{0xFF} 这个范围，
处理起来较为方便。使用 \texttt{latex} 或 \texttt{pdflatex} 编译命令时，对源代码的编码处理由 \pkg{inputenc} 宏包支持。
比如将源代码保存为 Latin-1 编码，并在导言区调用 \pkg{inputenc} 宏包并指定 \texttt{latin1} 选项后，M\"obius 这样的词语就可以直接通过（用适当输入法）输入 \texttt{M\"obius} 得到了。

\index{bianma@编码!GBK}
用于汉字的 GBK 等编码是多字节编码，ASCII 字符为一个字节，汉字等非 ASCII 字符为两个字节，使用
\texttt{latex} 或 \texttt{pdflatex} 编译命令时需要借助一些宏包进行较为复杂的判断和处理。早期排版中文须使用 \pkg{CJK} 宏包，它是一个用于处理中、日、韩等东亚语言文字编码和字体配置的宏包。但 \pkg{CJK} 宏包的使用非常不方便，目前已不再推荐直接使用。

\subsection{UTF-8 编码}\label{subsec:utf8}

\index{bianma@编码!UTF-8}
Unicode 是一个多国字符的集合，覆盖了几乎全球范围内的语言文字。UTF-8 是 Unicode 的一套编码方案，
一个字符由一个到四个字节编码，其中单字节字符的编码与 ASCII 编码兼容。

现行版本的 \LaTeX{} 使用 UTF-8 作为默认编码%
\footnote{\LaTeX{} 2018-04-01 版本之前，需要调用 \pkg{inputenc} 宏包并指定 \texttt{utf8} 选项才能使用 UTF-8 编码。}。
将使用拉丁字母的文档保存为 UTF-8 编码后，可以用 \texttt{pdflatex} 直接编译，比如：

\begin{verbatim}
\documentclass{article}
\begin{document}
Français Português Español Føroyskt
\end{document}
\end{verbatim}

但是非拉丁字母仍然无法直接在 \LaTeX{} 中使用，如西里尔字母（俄文）、希腊字母、阿拉伯字母以及东亚文字等。

\pkgindex{fontspec,babel,polyglossia}
较为现代的 \TeX{} 引擎，如 \hologo{XeTeX} 和 \hologo{LuaTeX}，它们均原生支持 UTF-8 编码。
使用 \texttt{xelatex} 和 \texttt{lualatex} 排版时，将源代码保存为 UTF-8 编码，并借助
\pkg{fontspec} 宏包（见 \ref{subsec:fontspec} 小节）调用适当的字体，原则上就可以在源代码中输入任意语言的文字。
注意此时\textbf{不再适用 \pkg{inputenc} 宏包}。但一些复杂语言（如印地语、阿拉伯语等）的排版需要考虑到断词规则、文字方向、标点禁则等诸多细节，因此需要更多的宏包支持，如 \pkg{babel}、 \pkg{polyglossia} 等，此处不再涉及。

\section{排版中文}\label{sec:chinese}

\pkgindex{xeCJK,luatexja}
用 \LaTeX{} 排版中文需要解决两方面问题，一方面是对中文字体的支持，另一方面是对中文排版中的一些细节的处理，包括在汉字之间控制断行、标点符号的禁则（如句号、逗号不允许出现在行首）、中英文之间插入间距等。\pkg{CJK} 宏包对中文字体的支持比较麻烦，已经不再推荐直接使用。
\hologo{XeTeX} 和 \hologo{LuaTeX} 除了直接支持 UTF-8 编码外，还支持直接调用 TrueType/OpenType 格式的字体。\pkg{xeCJK} 及 \pkg{luatexja} 宏包则在此基础上封装了对汉字排版细节的处理功能。

\pkgindex{ctex}
\clsindex{ctexart,ctexrep,ctexbook}
\pkg{ctex} 宏包和文档类\footnote{\hologo{CTeX} 还经常用来指一个过时的 \TeX{} 发行版，注意与这里的 \pkg{ctex} 宏包和文档类区分。}%
进一步封装了 \pkg{CJK}、\pkg{xeCJK}、\pkg{luatexja} 等宏包，使得用户在排版中文时不用再考虑排版引擎等细节。
\pkg{ctex} 宏包本身用于配合各种文档类排版中文，而 \pkg{ctex} 文档类对 \LaTeX{} 的标准文档类进行了封装，
对一些排版根据中文排版习惯做了调整，包括 \cls{ctexart}、\cls{ctexrep}、\cls{ctexbook} 等。
\pkg{ctex} 宏包和文档类能够识别操作系统和 \TeX{} 发行版中安装的中文字体，因此基本无需额外配置即可排版中文文档。
下面举一个使用 \pkg{ctex} 文档类排版中文的最简例子：

\begin{verbatim}
\documentclass{ctexart}
\begin{document}
在\LaTeX{}中排版中文。
汉字和English单词混排，通常不需要在中英文之间添加额外的空格。
当然，为了代码的可读性，加上汉字和 English 之间的空格也无妨。
汉字换行时不会引入多余的空格。
\end{document}
\end{verbatim}

\index{xelatex@\texttt{xelatex} 命令}
\index{lualatex@\texttt{lualatex} 命令}
注意源代码须保存为 UTF-8 编码，并使用 \texttt{xelatex} 或 \texttt{lualatex} 命令编译。
虽然 \pkg{ctex} 宏包和文档类保留了对 GBK 编码以及 \texttt{latex} 和 \texttt{pdflatex} 编译命令的兼容，
但我们并不推荐这样做。

\section{\LaTeX{} 中的字符}\label{sec:text-symbols}

\subsection{空格和分段}\label{subsec:spaces}

\LaTeX{} 源代码中，空格键和 Tab 键输入的空白字符视为“空格”。
连续的若干个空白字符视为一个空格。一行开头的空格忽略不计。

\cmdindex{par}
行末的换行符视为一个空格；但连续两个换行符，也就是空行，会将文字分段。多个空行被视为一个空行。
也可以在行末使用 \cmd{par} 命令分段。
\begin{example}
Several spaces     equal one.
  Front spaces are ignored.

An empty line starts a new
paragraph.\par
A \verb|\par| command does
the same.
\end{example}

\subsection{注释}\label{subsec:comments}

\index{^^e@\texttt\% (\textit{注释})}
\LaTeX{} 用 \texttt\% 字符作为注释。在这个字符之后直到行末，所有的字符都被忽略，
行末的换行符也不引入空格。
\begin{example}
This is an % short comment
% ---
% Long and organized
% comments
% ---
example: Comments do not bre%
ak a word.
\end{example}

\subsection{特殊字符}\label{subsec:special-chars}

以下字符在 \LaTeX{} 里有特殊用途，如 \texttt\% 表示注释， \texttt\$、\texttt\textasciicircum 、\texttt\_ 等用于排版数学公式，
\texttt\& 用于排版表格，等等。直接输入这些字符得不到对应的符号，还往往会出错：
\begin{verbatim}
# $ % & { } _ ^ ~ \
\end{verbatim}

如果想要输入以上符号，需要使用以下带反斜线的形式输入，类似编程语言里的“转义”符号：
\begin{example}
\# \$ \% \& \{ \} \_
\^{} \~{} \textbackslash
\end{example}

这些“转义”符号事实上是一些 \LaTeX{} 命令。其中 \cmd{\textasciicircum} 和 \cmd{\textasciitilde}
两个命令需要一个参数，加一对花括号的写法相当于提供了空的参数，否则它们可能会将后面的字符作为参数，形成重音效果（详见 \ref{subsec:accents} 节）。
\crcmd{} 被直接定义成了手动换行的命令，输入反斜线就需要用 \cmd{text\-back\-slash}。

\subsection{连字}\label{subsec:ligatures}

西文排版中经常会出现连字（ligatures），常见的有 ff/fi/fl/ffi/ffl{}。
\begin{example}
It's difficult to find \ldots\\
It's dif{}f{}icult to f{}ind \ldots
\end{example}

\subsection{标点符号}\label{subsec:punct}

中文的标点符号（绝大多数为非 ASCII 字符）使用中文输入法输入即可，一般不需要过多留意。
而输入西文标点符号时，有不少地方需要留意。

\subsubsection{引号}

\index{biaodianfuhao@标点符号!`@\protect\verb+`+ (\textit{前引号} `)}
\index{biaodianfuhao@标点符号!``@\protect\verb+'+ (\textit{后引号} ')}
\index{biaodianfuhao@标点符号!'@\protect\verb+``+ (\textit{前双引号} ``)}
\index{biaodianfuhao@标点符号!''@\protect\verb+''+ (\textit{后双引号} '')}
\LaTeX{} 中单引号 ` 和\ ' 分别用 \verb|`| 和 \verb|'| 输入；双引号 `` 和\ '' 分别用 \verb|``| 和 \verb|''| 输入
（\verb|"| 可以输入后双引号，但没有直接输入前双引号的字符，习惯上用 \verb|''| 输入以和 \verb|``| 更好地对应）。
\begin{example}
``Please press the `x' key.''
\end{example}

中文的引号‘~’和“~”与西文的引号实际上是同一组符号%
\footnote{它们在 Unicode 中共用了同一组码位。有人为了明确区分，会改用中文直角引号「」和『』。}，
但由于中西文通常用不同的字体显示，它们的具体形状和宽度可能有所不同。在使用 \pkg{ctex} 宏包或文档类
的情况下，中文引号可以通过输入法直接输入。

\subsubsection{连字号和破折号}

\index{biaodianfuhao@标点符号!-@\protect\verb+-+ (\textit{连字号} -)}
\index{biaodianfuhao@标点符号!--@\protect\verb+--+ (\textit{短破折号} --)}
\index{biaodianfuhao@标点符号!---@\protect\verb+---+ (\textit{长破折号} ---)}
\LaTeX{} 中有三种长度的“横线”可用：连字号（hyphen）、短破折号（en-dash）和长破折号（em-dash）。
它们分别有不同的用途：连字号 - 用来组成复合词；短破折号 -- 用来连接数字表示范围；长破折号 --- 用来连接单词，语义上类似中文的破折号。
\begin{example}
daughter-in-law, X-rated\\
pages 13--67\\
yes---or no?
\end{example}

\subsubsection{省略号}

\index{biaodianfuhao@标点符号!ldots@\cmd{ldots} (\textit{省略号} \ldots)}
\index{biaodianfuhao@标点符号!dots@\cmd{dots} (\textit{省略号} \dots)|see{\cmd{ldots}}}
\LaTeX{} 提供了 \cmd{ldots} 命令表示省略号，相对于直接输入三个点的方式更为合理。
\cmd{dots} 与 \cmd{ldots} 命令等效。
\begin{example}
one, two, three, \ldots{} one hundred.
\end{example}

\subsubsection{波浪号}

我们在 \ref{subsec:special-chars} 小节中了解了 \cmd{\textasciitilde} 命令，它可以用来输入波浪号，
但位置靠顶端（\cmd{\textasciitilde} 命令主要用作重音，参考下一小节）。西文中较少将波浪号作为标点符号使用，
% HACK: fix full width tilde position for FandolSong
在中文环境中一般直接使用全角波浪号（\!\raisebox{-0.75ex}{～}\!）。

\subsection{拉丁文扩展与重音}\label{subsec:accents}

\pinyinindex{zhongyin}{重音}
\LaTeX{} 支持用命令输入西欧语言中使用的各种拉丁文扩展字符，主要为带重音的字母：
\begin{example}
H\^otel, na\"\i ve, \'el\`eve,\\
sm\o rrebr\o d, !`Se\ norita!,\\
Sch\"onbrunner Schlo\ss{}
Stra\ss e
\end{example}

更多可用的符号和重音见表 \ref{tbl:accents}。注意与 \ref{subsec:math-accents} 小节的数学重音区分开来。

\def\TSYM #1{#1       & \texttt{\string#1}}
\def\TACC #1#2{#1{#2} & \texttt{\string#1#2}}       % accents using a control character
\def\TTACC #1#2{#1{#2} & \texttt{\string#1 #2}}     % accents using a control word
\def\WTACC #1#2{#1{#2} & \texttt{\string#1\{#2\}}}  % multi-letter accents
\begin{table}[htp]
\centering
\caption{\LaTeX{} 文本中的重音和特殊字符} \label{tbl:accents}
\begin{tabular}{*4{cl}}
 \hline
 \TACC{\`}{o} & \TACC{\'}{o} & \TACC{\^}{o} & \TACC{\~}{o} \\
 \TACC{\=}{o} & \TACC{\.}{o} & \TACC{\"}{o} & \TTACC{\r}{o}\\
 \TTACC{\u}{o} & \TTACC{\v}{o} & \TTACC{\H}{o} & \TTACC{\c}{o} \\
 \TTACC{\d}{o} & \TTACC{\b}{o} & \WTACC{\t}{oo} \\[6pt]
 \TSYM{\oe} & \TSYM{\OE} & \TSYM{\ae} & \TSYM{\AE} \\
 \TSYM{\aa} & \TSYM{\AA} & \TSYM{\ss} \\[6pt]
 \TSYM{\o}  & \TSYM{\O}  & \TSYM{\l} & \TSYM{\L} \\
 \TSYM{\i}  & \TSYM{\j}  & !` & \verb|!`| & ?` & \verb|?`| \\
 \hline
\end{tabular}
\begin{quote}\footnotesize%
前四行实际上都是带一个参数的命令。\cmd{\textasciicircum}\texttt{o} 也可以写作
\cmd{\textasciicircum}\marg*{o}，以此类推。
\end{quote}
\end{table}

\subsection{其它符号}\label{subsec:text-misc}

\symindex{dag,ddag,P,S,copyright,pounds}
\symindex{textasteriskcentered,textperiodcentered,textbullet,textregistered,texttrademark}
\LaTeX{} 预定义了其它一些文本模式的符号，部分符号可参考表 \ref{tbl:general-syms}。
\begin{example}
\P{} \S{} \dag{} \ddag{}
\copyright{} \pounds{}

\textasteriskcentered
\textperiodcentered
\textbullet

\textregistered{} \texttrademark
\end{example}

更多的符号多由特定的宏包支持。参考文献 \cite{symbols} 搜集了所有在 \TeX{} 发行版中可用的符号，使用时要留意每个符号所依赖的宏包。

\subsection{\LaTeX{} 标志}\label{subsec:latex-mark}

\cmdindex{TeX,LaTeX,LaTeXe}
我们见到的所有错落有致的 \LaTeX{} 标志都是由以下命令输入的：
\begin{center}
\begin{tabular}{*{2}{l}}
 \hline
 \TeX & \cmd{TeX} \\
 \LaTeX & \cmd{LaTeX} \\
 \LaTeXe & \cmd{LaTeXe} \\
 \hline
\end{tabular}
\end{center}
更多的 \LaTeX{} 标志可以使用 \pkg{hologo} 宏包提供的 \cmd{hologo} 命令输入。

\section{断行和断页}\label{sec:break}

\LaTeX{} 将文字段落在合适的位置进行断行，尽可能做到每行的疏密程度匀称，单词间距不会过宽或过窄。
文字段落和公式、图表等内容从上到下顺序排布，并在合适的位置断页，分割成匀称的页面。
在绝大多数时候，我们无需自己操心断行和断页。但偶尔会遇到需要手工调整的地方。

\subsection{单词间距}\label{subsec:interword}

在西文排版实践中，断行的位置优先选取在两个单词之间，也就是在源代码中输入的“空格”%
\footnote{中文排版实现汉字间断行，则需要宏包（如 \pkg{xeCJK} 等）或特殊的排版引擎（如 up\LaTeX{}）的支持。}。
“空格”本身通常生成一个间距，它会根据行宽和上下文自动调整，文字密一些的地方，单词间距就略窄，反之略宽。

\index{~@\texttt\textasciitilde\ (\textit{不断行空格})}
文字在单词间的“空格”处断行时，“空格”生成的间距随之舍去。
我们可以使用字符 \texttt\textasciitilde 输入一个不会断行的空格（高德纳称之为 tie，“带子”），
通常用在英文人名、图表名称等上下文环境：
\begin{example}
Fig.~2a \\
Donald~E.~Knuth
\end{example}

\subsection{手动断行和断页}\label{subsec:manual-break}

\index{\@\crcmd{} (\textit{换行})} \cmdindex{newline}
如果我们确实需要手动断行，可使用如下命令：
\begin{command}
\crcmd \oarg{length} \qquad
\crcmd*\oarg{length} \\
\cmd{newline}
\end{command}

它们有两点区别：一是 \crcmd{} 可以带可选参数 \Arg{length}，用于在断行处向下增加垂直间距（见 \ref{subsec:vspace} 小节），
而 \cmd{newline} 不带可选参数；二是 \crcmd{} 也在表格、公式等地方用于换行，而 \cmd{newline} 只用于文本段落中。
带星号的 \crcmd{} 表示禁止在断行处分页。

\begin{example}
另外需要注意的是，使用 \verb|\\|
断行命令 \\ 不会令内容另起一段，
而是在段落中直接开始新的一行。
\end{example}

\cmdindex{newpage,clearpage}
断页的命令有两个：
\begin{command}
\cmd{newpage} \\
\cmd{clearpage}
\end{command}

通常情况下两个命令都起到另起一页的作用，区别在于：第一，在双栏排版模式中 \cmd{newpage} 起到另起一栏的作用，\cmd{clearpage} 则能够另起一页；第二，在涉及浮动体的排版上行为不同。
后文的 \ref{sec:float} 节以及 \ref{subsec:columns} 小节会更详细地介绍相关内容。

\cmdindex{linebreak,nolinebreak}
有时候我们不满足于 \LaTeX{} 默认的断行和断页位置，需要进行微调，可以用以下命令告诉 \LaTeX{} 哪些地方适合断行或断页，哪些地方不适合：
\begin{command}
\cmd{linebreak}\oarg{n} \quad \cmd{nolinebreak}\oarg{n} \\
\cmd{pagebreak}\oarg{n} \quad \cmd{nopagebreak}\oarg{n}
\end{command}

以上命令都带一个可选参数，用数字 \Arg{n} 代表适合/不适合的程度，取值范围为 0--4，不带可选参数时，缺省为 4。
比如 \cmd{linebreak} 或者 \cmd{linebreak}\texttt{[4]} 意味着此处需要强行断行；\cmd{nopagebreak} 或 \cmd{nopagebreak}\texttt{[4]}
意味着禁止在此处断页。

以上命令适合给出优先考虑断行断页/禁止断行断页的位置，但不适合直接拿来断行或断页，使用 \cmd{newline} 或 \cmd{newpage} 等命令是更好的选择。
因为 \cmd{newline} 和 \cmd{newpage} 会在断行/断页位置填充适当的间距，但 \cmd{linebreak} 和 \cmd{pagebreak} 不能，使用
这些命令强行断行/断页可能会制造出糟糕的排版效果，并导致 \LaTeX{} 报 \texttt{Underfull \cmd{hbox}} 等警告。

% 此处会有 Underfull \hbox 警告
\begin{example}
使用 \verb|\newline| 断行的效果
\newline
与使用 \verb|\linebreak| 断行的效果
\linebreak
进行对比。
\end{example}

\subsection{断词}\label{subsec:hyphen}

如果 \LaTeX{} 遇到了很长的英文单词，仅在单词之间的“空格”处断行无法生成疏密程度匀称的段落时，就会考虑从单词中间断开。
对于绝大多数单词，\LaTeX{} 能够找到合适的断词位置，在断开的行尾加上连字符 \char\hyphenchar\font 。

\index{-@\cmd{-} (\textit{断词})}
如果一些单词没能自动断词，我们可以在单词内手动使用 \cmd{-} 命令指定断词的位置：
\begin{example}
I think this is: su\-per\-cal\-%
i\-frag\-i\-lis\-tic\-ex\-pi\-%
al\-i\-do\-cious.
\end{example}

\endinput