.\" Copyright (c) 1991, 1993 .\" The Regents of the University of California. All rights reserved. .\" .\" This code is derived from software contributed to Berkeley by .\" the Institute of Electrical and Electronics Engineers, Inc. .\" .\" Redistribution and use in source and binary forms, with or without .\" modification, are permitted provided that the following conditions .\" are met: .\" 1. Redistributions of source code must retain the above copyright .\" notice, this list of conditions and the following disclaimer. .\" 2. Redistributions in binary form must reproduce the above copyright .\" notice, this list of conditions and the following disclaimer in the .\" documentation and/or other materials provided with the distribution. .\" 3. All advertising materials mentioning features or use of this software .\" must display the following acknowledgement: .\" This product includes software developed by the University of .\" California, Berkeley and its contributors. .\" 4. Neither the name of the University nor the names of its contributors .\" may be used to endorse or promote products derived from this software .\" without specific prior written permission. .\" .\" THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND .\" ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE .\" IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE .\" ARE DISCLAIMED. IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE .\" FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL .\" DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS .\" OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) .\" HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT .\" LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY .\" OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF .\" SUCH DAMAGE. .\" .\" @(#)tr.1 8.1 (Berkeley) 6/6/93 .\" %FreeBSD: src/usr.bin/tr/tr.1,v 1.29.2.1 2005/02/26 13:24:26 brueffer Exp % .\" .\" $FreeBSD$ .\" .Dd July 23, 2004 .Dt TR 1 .Os .Sh 名称 .Nm tr .Nd 文字の置換 .Sh 書式 .Nm .Op Fl Ccsu .Ar string1 string2 .Nm .Op Fl Ccu .Fl d .Ar string1 .Nm .Op Fl Ccu .Fl s .Ar string1 .Nm .Op Fl Ccu .Fl ds .Ar string1 string2 .Sh 解説 .Nm ユーティリティは、選択された文字を置き換え、または削除しながら 標準入力を標準出力にコピーします。 .Pp 以下のオプションが利用できます: .Bl -tag -width Ds .It Fl C .Ar string1 に含まれる文字の補集合を表します。 つまり .Dq Fl C Li ab は、 .Ql a と .Ql b を除く全ての文字を含みます。 .It Fl c .Fl C と同じですが、 .Ar string1 に含まれる値の補集合となります。 .It Fl d 入力から、 .Ar string1 に含まれる文字を削除します。 .It Fl s 最後の引数 ( .Ar string1 か .Ar string2 のどちらか) に含まれている同一の文字が、入力の中に連続して現れるとき、 それを 1 つの文字に圧縮します。 この圧縮は、全ての削除や変換が終わった後に行われます。 .It Fl u 出力がバッファリングされないことを保証します。 .El .Pp 書式の最初の形式では、 .Ar string1 に含まれる文字は、 .Ar string1 の 1 文字目は .Ar string2 の 1 文字目と置き換え...というように .Ar string2 に置き換えられます。 もし .Ar string1 が .Ar string2 よりも長い場合は、 .Ar string2 の最後の文字が、 .Ar string1 と対応させるのに足りない分だけ続いているものとみなされます。 .Pp 書式の 2 番目の形式では、 .Ar string1 に含まれる文字は、入力から削除されます。 .Pp 書式の 3 番目の形式では、 .Ar string1 に含まれる文字は、 .Fl s オプションの解説の通りに圧縮されます。 .Pp 書式の 4 番目の形式では、 .Ar string1 に含まれる文字は入力から削除され、 .Ar string2 に含まれる文字は .Fl s オプションの解説の通りに圧縮されます。 .Pp .Ar string1 , .Ar string2 の文字の集合を指定するのに、以下のような記述方法が利用できます: .Bl -tag -width [:equiv:] .It character 以下で示したものを除く、その文字自身を表す 通常の文字 (キャラクタ) です。 .It \eoctal バックスラッシュに続き、1〜3 桁の 8 進数が続いたものは、 その値を符号化した文字を表現します。 この 8 進数の並びに続いて 数字を文字として指定したい場合には、8 進数の並びが 3 桁と なるように、8 進数の上位桁 (左) に 0 を埋めてください。 .It \echaracter バックスラッシュに続く、特定の特殊な文字は、特殊な値に対応しています。 .Pp .Bl -column "\ea" .It "\ea <ベル文字> .It "\eb <バックスペース> .It "\ef <フォームフィード> .It "\en <改行> .It "\er <復帰> .It "\et <水平タブ> .It "\ev <垂直タブ> .El .Pp これら以外のバックスラッシュに続く文字は、その文字自身に対応します。 .It c-c 範囲の両端を非 8 進数で指定すると、文字の範囲を表します。 この範囲は、両端を含む、照合順序で定義された昇順のものです。 片方もしくは両方の端点が 8 進数シーケンスの場合、 コード化された値の範囲を表します。 この範囲は、両端を含みます。 .Pp .Bf Em 現在の実装による範囲式の解釈が、以前の実装と違う事に関する重要な注記は、 以下の .\" .Sx 互換性 互換性 セクションを参照してください。 .Ef .It [:class:] 定義された文字クラスに属する、全ての文字を表します。 クラス名は以下の通りです: .Pp .Bl -column "xdigit" .It "alnum <英数字> .It "alpha <英字> .It "cntrl <コントロール文字> .It "digit <数字> .It "graph <グラフィック文字> .It "lower <英小文字> .It "print <表示可能文字> .It "punct <句読点> .It "space <空白文字> .It "upper <英大文字> .It "xdigit <16進数> .El .Pp .\" .Fl d .\" と .\" .Fl s .\" の両方のオプションが指定された場合には、 .\" すべてのクラスを .\" .Ar string1 .\" および .\" .Ar string2 .\" に使うことができます。 .\" そうでない場合には、 .\" .Ar string2 .\" には、``upper'' もしくは ``lower'' .\" しか指定できません。 .\" しかも、対応するクラス (``upper'' に対する ``lower''、逆も同様)が .\" .Ar string1 .\" に指定されているとき限ります。 .\" .Pp .Dq Li [:lower:] が .Ar string1 に登場し、 .Dq Li [:upper:] が .Ar string2 で相対的に同じ位置に登場する場合、現在のロケールにおける .Ev LC_CTYPE カテゴリでの .Dv toupper マッピングの文字列ペアを表現します。 .Dq Li [:upper:] が .Ar string1 に登場し、 .Dq Li [:lower:] が .Ar string2 で相対的に同じ位置に登場する場合、現在のロケールにおける .Ev LC_CTYPE カテゴリでの .Dv tolower マッピングの文字列ペアを表現します。 .Pp 大文字小文字の変換の例外を除けば、クラス内の文字の順序は特定されていません。 .Pp どのような .Tn ASCII 文字が、これらのクラスに含まれているのかという情報を 調べたい場合には、 .Xr ctype 3 および関連マニュアルを参照してください。 .It [=equiv=] .Ar equiv と同じ同値関係クラスに属する全ての文字を表します。 これらはエンコード値の順序となります。 .It [#*n] .Ar # で指定された .Ar n 個の文字の繰り返しを表現します。 この表現は、 .Ar string2 で指定されたときのみ有効です。 もし .Ar n が省略された場合、または 0 の場合は、 .Ar string2 が .Ar string1 の長さを満たすような、十分大きな値として解釈されます。 .Ar n は、0 で始まる場合には 8 進数として、そうでない場合には 10 進数として 解釈されます。 .El .Sh 環境変数 .Ev LANG , LC_ALL , LC_CTYPE , .Ev LC_COLLATE の環境変数が、 .Xr environ 7 の記述通りに、 .Nm の実行に影響します。 .Sh 使用例 以下の例は、シェルに対して与えられたものです: .Pp file1 に含まれる単語 (文字の最大長の並び) のリストを、 各行につき 1 つずつ出力します。 .Pp .D1 Li "tr -cs \*q[:alpha:]\*q \*q\en\*q < file1" .Pp file1 の内容を大文字に変換します。 .Pp .D1 Li "tr \*q[:lower:]\*q \*q[:upper:]\*q < file1" .Pp (これはすべてのロケールで正しく動作するため、 .Ux の伝統的な慣用句である .Dq Li "tr a-z A-Z" よりも好ましいです) .Pp 表示できない文字を file1 から削除します。 .Pp .D1 Li "tr -cd \*q[:print:]\*q < file1" .Pp 発音区分記号を、 .Ql e のアクセント付きバリアントすべてから削除します。 .Pp .Dl "tr \*q[=e=]\*q \*qe\*q" .Sh 診断 .Ex -std .Sh 互換性 以前の .Fx における .Nm の実装では、現在のロケールの参照順序に従って範囲式中の文字を 順序づけませんでした。 このため (英語のテキストのように) アクセントがつけられていない Latin 文字を、 .Ux の伝統的な慣用句である .Dq Li "tr A-Z a-z" を用いて大文字から小文字へと変換する事ができました。 しかし、現在の .Nm はロケールの参照順序に従うので、 大文字と小文字の間に 1:1 のマッピングが存在しない場合や 大文字と小文字で文字の順序が異なる場合は、 この慣用句は正しい結果を生成しません。 上記の .Sx 使用例 セクションに書かれてるように、 .Dq Li a-z と .Dq Li A-Z のように文字範囲を明示するのではなく、文字クラス式である .Dq Li [:lower:] と .Dq Li [:upper:] を使うべきでしょう。 .Pp 古くからの .Bx の実装および POSIX 標準では、文字の範囲指定には .Dq Li c-c という文法を用いますが、古い System V の実装では .Dq Li [c-c] を用いています。 System V のシェルスクリプトは、文字の置換を行おうとする 場合にはうまく動作するはずです。 つまり、 .Dq Li "tr [a-z] [A-Z]" と指定した場合には、 .Ar string1 の .Ql \&[ が .Ar string2 の .Ql \&[ に変換されるため、うまく動作します。 しかし、シェルスクリプトが、 .Dq Li "tr -d [a-z]" , というコマンドのように文字の削除や圧縮を行う場合には、 .Ql \&[ と .Ql \&] の文字が削除や圧縮の対象に含まれてしまいます。 古い実装の System V ではこのようには動作しません。 さらに、 .Ql a , .Ql \- , .Ql z という 3 つの文字を表現するのに、 .Dq Li a-z と記述するような、その並びに依存しているあらゆるスクリプトは、 .Dq Li a\e-z と書き直す必要があります。 .Pp .Nm ユーティリティは昔から、入力における NUL バイトの操作を 禁止されていました。 さらに、入力から NUL を取り除いていました。 この実装では、この振る舞いはバグとみなされ、削除されました。 .Pp .Nm ユーティリティは昔から、たとえば、2 つの文字列が指定されない限り .Fl c および .Fl s オプションを無視する、などの文法上の誤りを極端なまでに許していました。 この実装では、不正な文法は許されなくなっているはずです。 .Sh 規格 .Nm ユーティリティは、 .St -p1003.1-2001 に適合しています。 .Pp .Ar string2 が .Ar string1 よりも短い場合に .Ar string2 の最後の文字が複製される機能は、 POSIX では許されていますが必須ではないことに注意して下さい。 他の POSIX システムへの可搬性のあるシェルスクリプトを 作ろうとするならば、この振る舞いを当てにせずに、 .Dq Li [#*] という表現を使うべきです。 .Fl u オプションは .St -p1003.1-2001 標準の拡張です。