Python源代码防止逆向工程的一些方法总结

1. 简介
2. Python源代码防止逆向工程的常用方法汇总
3. 总结
- 3.1 实现为 C/C++ 扩展模块，和Python脚本.so文件哪一个逆向难度更大
特别有趣的参考资料

1. 简介

没有任何方法能够确保代码的绝对安全。很多方法可以提高逆向工程的难度，但无法完全阻止有恶意意图的攻击者。最佳做法是采用多种方法并结合使用，以提高代码保护的效果。下面将对常用的一些方法进行介绍。

2. Python源代码防止逆向工程的常用方法汇总

2.0 假设我们有一段宝贵的代码如下

脚本名为：edlen.py

import numpy as np

def edlen_equation(temperature, pressure, humidity, wavelength):
    temp_c = temperature + 273.15  # 摄氏度转换为开氏度
    p = pressure / 100  # 帕斯卡转换为百帕
    e = (humidity / 100) * 6.112 * np.exp((17.62 * temperature) / (243.12 + temperature))

    n_air = 1 + (6432.8 + 2949810 / (146 - 1 / wavelength**2) + 25540 / (41 - 1 / wavelength**2)) * 1e-8 * p / temp_c
    n_water_vapor = 1 + 1.022 * (13.14 - 3.52 * 1e3 * wavelength**2) * 1e-6 * e / temp_c
    n = n_air * n_water_vapor

    return n

if __name__ == "__main__":
    # 测试
    temperature = 20  # 气温，单位：摄氏度
    pressure = 101325  # 气压，单位：帕斯卡
    humidity = 50  # 相对湿度，单位：百分比
    wavelength = 532e-9  # ATLAS激光波长，单位：米（例如 532 纳米）

    n = edlen_equation(temperature, pressure, humidity, wavelength)
    print("大气折射率: ", n)

2.1 将 Python 源代码（.py 文件）编译为字节码（.pyc 文件）

（1）生成.pyc
将Python 代码编译为字节码，虽然这并不会使代码完全安全，但它确实会增加逆向工程的难度。可以使用 compileall 模块来实现这一点。在终端edlen.py所在路径执行如下代码：

python -m compileall edlen.py

.pyc 文件位于 pycache 文件夹内。编译后的文件名通常包括原始文件名、Python 版本和 .pyc 扩展名。位于执行命令的目录下的 pycache 文件夹。该文件夹Pycharm中是不可见的，可以在文件目录中浏览。

（2）使用.pyc：
当您尝试导入一个模块时，Python 会优先使用 .pyc 文件（如果存在），然后才会考虑 .py 文件。前提是确保 .pyc 文件所在的 pycache 文件夹与要导入它的脚本位于同一目录。

我们刚才将 edlen.py 编译成 edlen.cpython-36.pyc，并将其放在 pycache 文件夹中。现在，可以在同一目录下创建一个新的 Python 脚本（例如 main.py），然后在其中导入 edlen 模块：

from edlen import edlen_equation

# 测试
temperature = 20  # 气温，单位：摄氏度
pressure = 101325  # 气压，单位：帕斯卡
humidity = 50  # 相对湿度，单位：百分比
wavelength = 532e-9  # ATLAS激光波长，单位：米（例如 532 纳米）

n = edlen_equation(temperature, pressure, humidity, wavelength)
print("大气折射率: ", n)

请注意，.pyc 文件可以提高代码执行速度，但并不能有效地保护源代码。

2.2 将 Python 代码编译为二进制可执行文件

使用工具如 Nuitka 或 PyInstaller 将 Python 代码编译成一个平台特定的二进制可执行文件。这将使得逆向工程变得更加困难，但仍然不能完全防止逆向工程。
（1）将 Python 代码编译为 .so 文件
Cython 可以将 Python 代码编译为 C 代码，然后将 C 代码编译为共享库（.so 文件）。首先，您需要安装 Cython。在您的虚拟环境中运行以下命令：

pip install cython

接下来，创建一个名为 edlen.pyx 的文件，并将 edlen.py 的内容复制到该文件中。.pyx 文件是 Cython 用于编译 Python 代码的文件格式。然后，创建一个名为 setup.py 的文件，其内容如下：

from setuptools import setup
from Cython.Build import cythonize

setup(
    ext_modules=cythonize("edlen.pyx", language_level=3),
)

终端中运行以下命令来编译 edlen.pyx 文件：

python setup.py build_ext --inplace

这将生成一个名为 edlen.cpython-36m-x86_64-linux-gnu.so 的文件（名字包含Python 版本和操作系统平台）。路径结构如下：

├── build
│   ├── lib.linux-x86_64-3.6
│   │   └── edlen.cpython-36m-x86_64-linux-gnu.so
│   └── temp.linux-x86_64-3.6
│       └── edlen.o
├── edlen.c
├── edlen.cpython-36m-x86_64-linux-gnu.so
├── edlen.py
├── edlen.pyx
├── main.py
├── __pycache__
└── setup.py

（2）使用这个 .so 文件

要在另一个 Python 脚本中使用这个 .so 文件，只需像导入普通 Python 模块一样导入它：

from edlen import edlen_equation

# 测试
temperature = 20  # 气温，单位：摄氏度
pressure = 101325  # 气压，单位：帕斯卡
humidity = 50  # 相对湿度，单位：百分比
wavelength = 532e-9  # ATLAS激光波长，单位：米（例如 532 纳米）

n = edlen_equation(temperature, pressure, humidity, wavelength)
print("大气折射率: ", n)

2.3 代码混淆

对 Python 源代码进行混淆，使其更难以阅读和理解。您可以使用像 pyarmor 这样的工具来实现代码混淆。请注意，代码混淆只是提高了代码逆向工程的难度，而不是绝对安全的。
（1）使用PyArmor进行代码混淆
首先，安装 PyArmor：pip install pyarmor
运行 pyarmor 命令以混淆代码：pyarmor obfuscate edlen.py
混淆后的代码将位于名为 dist 的新文件夹中。文件夹中的 edlen.py 文件已被混淆。此外，该文件夹还包含 PyArmor 运行时所需的其他文件。
（2）使用混淆后的代码
要使用混淆后的 edlen 模块，需要在 dist 文件夹中编写一个新的 Python 脚本，例如 main.py，并在其中导入混淆后的 edlen 模块。

from edlen import edlen_equation

# 测试
temperature = 20  # 气温，单位：摄氏度
pressure = 101325  # 气压，单位：帕斯卡
humidity = 50  # 相对湿度，单位：百分比
wavelength = 532e-9  # ATLAS激光波长，单位：米（例如 532 纳米）

n = edlen_equation(temperature, pressure, humidity, wavelength)
print("大气折射率: ", n)

请注意，混淆后的代码依赖于 PyArmor 运行时库。因此，在部署混淆后的代码时，请确保一起部署整个 dist 文件夹。这里的方法只是提高了逆向工程的难度，并不能确保代码完全安全。为了增强安全性，可以结合使用多种方法，例如将代码编译为字节码、二进制可执行文件或 C/C++ 扩展模块。

2.4 将核心功能实现为 C/C++ 扩展模块

将代码中的关键功能（如核心算法）实现为 C 或 C++ 扩展模块，并将其编译为共享库文件（.so 或 .dll）。这将提高逆向工程的难度，因为逆向工程师需要处理机器代码而非 Python 代码。

编译为 C/C++ 扩展模块后，逆向工程师需要处理汇编代码和底层的机器代码，这比直接分析 Python 字节码要困难得多。此外，C/C++ 代码提供了更多的优化选项，可以进一步增加逆向工程的难度。

2.5 使用许可证保护

使用许可证管理系统来保护您的软件。这样，即使有人能够逆向工程您的代码，他们也需要有效的许可证才能使用您的软件。这将有助于限制未经授权的使用。

3. 总结

3.1 实现为 C/C++ 扩展模块，和Python脚本.so文件哪一个逆向难度更大

当手工将Python 代码转换为 C/C++ 扩展模块时，实际上是手动将 Python 代码转换为更底层的 C/C++ 代码，然后将这些 C/C++ 代码编译为共享库（.so 或 .dll 文件）。由于 C/C++ 提供了更多的优化选项，可以对代码进行更复杂的操作，从而使逆向工程更加困难。在这种情况下，逆向工程师需要处理汇编代码和底层的机器代码，这比直接分析 Python 字节码要困难得多。

然而，当 Python 代码直接编译为 .so 文件时，Python 解释器会将代码编译为 Python 字节码，然后转换为共享库。这个过程并没有涉及到 C/C++ 代码的转换。虽然生成的 .so 文件也可以提高代码保护程度，但与手动将核心功能转换为 C/C++ 扩展模块相比，逆向工程的难度较小。Python 字节码通常比底层的机器代码更容易分析和理解。

总之，手动将核心功能实现为 C/C++ 扩展模块可以提供更高程度的保护，因为它允许您对代码进行更复杂的操作和优化。但请注意，任何代码都不能完全防止逆向工程，所以采取多种保护措施（如代码混淆、加密和使用本地扩展）是最佳实践。

特别有趣的参考资料

使用python语言如何保密源代码以防止逆向工程？

Python源代码防止逆向工程的一些方法实操