【シェルコマンド集ドキュメント編集】Linuxソートコマンドsortコマンド使い方ガイド


シェル コマンド コラム: Linux シェル コマンドの完全分析


説明


sort コマンドは、テキスト ファイルの内容を並べ替える Linux のコマンドです。ファイル内の行をアルファベット順、数値順、または別の指定されたフィールドごとにソートし、結果を標準出力に出力します。

sort コマンドを使用すると、テキスト ファイルを昇順または降順で並べ替えることができます。デフォルトでは、sort コマンドはファイル内の各行をアルファベット順にソートし、ソートされた結果を 1 行ずつ出力します。並べ替えは文字の Unicode 値に基づいて行われるため、大文字は小文字よりも前に並べ替えられます。

sort コマンドは、複数のフィールドでの並べ替えもサポートしています。フィールド区切り文字を指定することで各行を複数のフィールドに分割し、指定したフィールドに従って並べ替えることができます。このようにして、テーブル データを並べ替えることができます。たとえば、テーブルを特定の列の数値に従って並べ替えることができます。

sort コマンドは、大きなファイルの処理にも使用できます。一時ファイルとマージソートアルゴリズムを使用して大きなファイルをソートし、メモリ不足の問題を回避します。

全体として、sort コマンドは、テキスト ファイルの並べ替えと整理に役立ち、データの読み取りと処理を容易にする非常に便利なツールです。


文法形式

sort [OPTIONS] [FILE]

パラメータの説明

  • -r:降順に並べ替えます。
  • -n:数値順に並べ替えます。
  • -t <字符>: フィールド区切り文字を指定します。
  • -k <字段>: 指定したフィールドで並べ替えます。
  • -u: 重複行を削除し、コピーを 1 つだけ保持します。
  • -m: 複数のファイルの内容を結合して並べ替えます。

エラー状態

  • 指定したファイルが存在しない場合、sort コマンドはエラー メッセージを表示します。
  • ファイルが入力として指定されていないか、入力ファイルが空の場合、sort コマンドは標準入力からデータを読み取って並べ替えます。
  • 指定したフィールド数がファイル内のフィールド数を超える場合、sort コマンドはその行を無視します。
  • 無効なパラメータ オプションが使用された場合、sort コマンドはエラー メッセージを表示します。

注: sort コマンドのパラメータとオプションは、特定のニーズに応じて組み合わせて使用​​することができ、実際の状況に応じて柔軟に使用できます。

予防

Linux シェルで sort コマンドを使用する場合は、次の点に留意する必要があります。

  1. 文字列の並べ替え: デフォルトでは、sort コマンドはテキストをアルファベット順に並べ替えます。数値のサイズなど、他のルールに従って並べ替える場合は、 などの適切なパラメーター オプションを使用する必要があります-n

  2. フィールド区切り文字: ファイル内のフィールドを並べ替える場合は、フィールド区切り文字を指定する必要があります。オプションを使用し-tてフィールド区切り文字を設定します。たとえば、-t ,フィールド区切り文字としてカンマを使用します。

  3. フィールドの並べ替え:-kオプションを使用して、並べ替えの基準となるフィールドを指定します。単一のフィールドまたは複数のフィールドを指定できます。たとえば、-k 22 番目のフィールドでソートすることを意味し、-k 2,32 番目のフィールドと 3 番目のフィールドでソートすることを意味します。

  4. 大文字と小文字を区別する: デフォルトでは、sort コマンドは Unicode 値に従って文字を並べ替えるため、大文字は小文字よりも前に並べ替えられます。大文字と小文字を区別しない並べ替えが必要な場合は、オプションを使用できます-f

  5. 重複排除:-uオプションを使用して重複行を削除し、コピーを 1 つだけ保持します。

  6. 大きなファイルの処理: 大きなファイルを扱う場合、メモリ不足によりsortコマンドで問題が発生する可能性があります。オプションを使用して-T、一時ファイルのディレクトリを指定したり、--buffer-sizeバッファのサイズを調整してパフォーマンスを最適化したりできます。

  7. 結果出力:sort コマンドは、デフォルトでソート結果を標準出力に出力します。結果をファイルに保存する必要がある場合は、リダイレクト表記を使用できます>

  8. エラー処理: sort コマンドで無効なパラメーター オプションやファイルが存在しないなどのエラーが発生した場合、エラー メッセージが表示されます。エラーメッセージを確認し、それに応じて対処してください。

上記は、Linux シェルで sort コマンドを使用する場合の注意事項です。これらの考慮事項を正しく理解して使用することは、テキストの並べ替えと処理に sort コマンドをより適切に適用するのに役立ちます。


基礎となる実装

Linux シェルの sort コマンドの基礎となる実装では、マージ ソート アルゴリズムが使用されます。マージ ソートは、並べ替えるデータを小さなサブ問題に分割し、これらのサブ問題を再帰的に解決し、結果を結合して最終的な並べ替え結果を得る分割統治アルゴリズムです。

sort コマンドの基礎となる実装は、次の手順に大まかに分けることができます。

  1. ファイルの読み取り:sort コマンドは、まず入力ファイルの内容を読み取り、各行をソート対象の要素として使用します。

  2. セグメント化とソート: sort コマンドは、読み取ったコンテンツを複数の小さなブロックに分割し、各小さなブロックのサイズは利用可能なメモリに合わせて調整されます。次に、各小さなブロックは、内部ソート アルゴリズム (通常はクイック ソートまたはヒープ ソート) を使用してソートされます。

  3. マージ:sort コマンドは、ソートされたブロックをマージします。マージ操作は、複数の順序付けされた小さなブロックを、より大きな順序付けされたブロックにマージするプロセスです。マージソートアルゴリズムの核となる考え方がここで使用されます。

  4. マージの繰り返し: ソートされたデータの量がメモリ制限を超える場合、sort コマンドはマージ結果を一時ファイルに書き込み、その一時ファイルを新しい入力として使用します。その後、すべての小さなブロックが順序付けられた結果にマージされるまで、マージ操作が繰り返されます。

  5. 出力結果: 最後に、sort コマンドは、順序付けされた結果を標準出力に出力するか、指定された出力ファイルに書き込みます。

実際の実装では、ソート コマンドは、マルチスレッドまたはマルチプロセッシングを使用してソート プロセスを高速化する、またはいくつかのアルゴリズム トリックを使用してパフォーマンスを向上させ、メモリ使用量を削減するなど、最適化される可能性があることに注意してください。

マージ ソート アルゴリズムの時間計算量は O(n log n) です。ここで、n はソートされるデータの数です。したがって、sort コマンドは、大きなファイルを処理する場合でも良好なパフォーマンスを維持できます。


例 1

sort file.txt

このコマンドは、ファイル file.txt 内の各行をアルファベット順にソートし、結果を標準出力に出力します。

例 2

sort -r file.txt

このコマンドは、ファイル file.txt 内の各行をアルファベット順に降順にソートし、結果を標準出力に出力します。

例 3

sort -n numbers.txt

このコマンドは、numbers.txt ファイル内の各行を数値でソートし、結果を標準出力に出力します。数値は昇順にソートされます。

例 4

sort -t ',' -k 2 file.csv

このコマンドは、ファイル file.csv の 2 番目のフィールドをフィールド区切り文字としてカンマを使用して並べ替え、結果を標準出力に出力します。

例 5

sort -u file.txt

このコマンドは、ファイル file.txt 内の各行をソートし、結果を標準出力に出力します。重複する行は削除され、コピーは 1 つだけ保持されます。

例 6

sort -k 3,3 -n grades.txt

このコマンドは、grades.txt ファイルの 3 番目のフィールドに従って数値的に並べ替え、結果を標準出力に出力します。

例 7

sort -m file1.txt file2.txt

このコマンドは、file1.txt と file2.txt の内容をソートし、結果を標準出力に出力します。ファイルがすでにアルファベット順にソートされている場合は、マージソートに -m オプションを使用できます。


C言語で実装されている


以下は、C コードで実装された同様の並べ替えコマンドの例です。ここでは、マージ ソート アルゴリズムを使用してテキスト ファイルが並べ替えられます。

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

#define MAX_LINE_LENGTH 1000

// 归并排序的合并操作
void merge(char** arr, int left, int mid, int right) {
    
    
    int i, j, k;
    int n1 = mid - left + 1;
    int n2 = right - mid;

    // 创建临时数组
    char** L = (char**)malloc(n1 * sizeof(char*));
    char** R = (char**)malloc(n2 * sizeof(char*));

    // 将数据复制到临时数组
    for (i = 0; i < n1; i++)
        L[i] = arr[left + i];
    for (j = 0; j < n2; j++)
        R[j] = arr[mid + 1 + j];

    // 归并临时数组
    i = 0;
    j = 0;
    k = left;
    while (i < n1 && j < n2) {
    
    
        if (strcmp(L[i], R[j]) <= 0) {
    
    
            arr[k] = L[i];
            i++;
        } else {
    
    
            arr[k] = R[j];
            j++;
        }
        k++;
    }

    // 复制剩余的元素
    while (i < n1) {
    
    
        arr[k] = L[i];
        i++;
        k++;
    }
    while (j < n2) {
    
    
        arr[k] = R[j];
        j++;
        k++;
    }

    // 释放临时数组
    free(L);
    free(R);
}

// 归并排序
void mergeSort(char** arr, int left, int right) {
    
    
    if (left < right) {
    
    
        int mid = left + (right - left) / 2;

        // 递归地排序左右两部分
        mergeSort(arr, left, mid);
        mergeSort(arr, mid + 1, right);

        // 合并两个有序数组
        merge(arr, left, mid, right);
    }
}

int main() {
    
    
    FILE* file = fopen("input.txt", "r");
    if (file == NULL) {
    
    
        printf("Failed to open file\n");
        return 1;
    }

    char** lines = NULL;
    int numLines = 0;

    // 读取文件内容到动态数组
    char line[MAX_LINE_LENGTH];
    while (fgets(line, sizeof(line), file) != NULL) {
    
    
        line[strcspn(line, "\n")] = '\0';  // 去除换行符
        numLines++;
        lines = (char**)realloc(lines, numLines * sizeof(char*));
        lines[numLines - 1] = strdup(line);
    }

    // 使用归并排序对动态数组进行排序
    mergeSort(lines, 0, numLines - 1);

    // 输出排序结果
    for (int i = 0; i < numLines; i++) {
    
    
        printf("%s\n", lines[i]);
        free(lines[i]);
    }

    // 释放动态数组
    free(lines);

    fclose(file);
    return 0;
}

このサンプル コードでは、マージ ソート アルゴリズムを使用してテキスト ファイルをソートします。まず、「input.txt」という名前のファイルを開いて読み取り、各行を文字列として動的配列に保存しますlines次に、マージ ソート アルゴリズムを使用して動的配列をソートし、ソートされた結果を標準出力に出力します。最後に、動的配列を解放し、ファイルを閉じます。

malloc注: 動的メモリ割り当て関数と割り当て解除関数、reallocおよびfree文字列処理関数strdup、およびサンプル コードは、サンプル コードで使用されていますstrcspnこれらの関数には、ヘッダー ファイルstdlib.hstring.h. また、サンプル コードでは、入力ファイルの各行の長さが文字数を超えないことを前提としていますがMAX_LINE_LENGTH、実際のニーズに応じて調整できます。


エピローグ

調査の過程で、私たちはシェル コマンドの能力と幅広い用途についての洞察を得ることができました。ただし、これらのテクニックを学ぶことは単なる始まりにすぎません。本当の力は、それらを日常の仕事にどのように組み込んで効率と生産性を向上させるかにあります。

心理学では、学習は継続的で熱心なプロセスであると教えています。したがって、これらのコマンドを読んで理解するだけでなく、実践することをお勧めします。独自のコマンドを作成してみて、日課の一部としてシェル プログラミングを徐々にマスターしてください。

同时,请记住分享是学习过程中非常重要的一环。如果你发现本博客对你有帮助,请不吝点赞并留下评论。分享你自己在使用Shell命令时遇到的问题或者有趣的经验,可以帮助更多人从中学习。
此外,我也欢迎你收藏本博客,并随时回来查阅。因为复习和反复实践也是巩固知识、提高技能的关键。

最后,请记住:每个人都可以通过持续学习和实践成为Shell编程专家。我期待看到你在这个旅途中取得更大进步!


阅读我的CSDN主页,解锁更多精彩内容:泡沫的CSDN主页

在这里插入图片描述

おすすめ

転載: blog.csdn.net/qq_21438461/article/details/131368903