ユーザー ポートレート シリーズ - github アクションを使用して携帯電話データを自動的にクロールする

バックグラウンド:

ユーザー似顔絵シリーズ ~データが不完全な中小企業の場合、似顔絵をどう作るか?_Zhuge Zifang_ のブログ-CSDN ブログ

「ユーザーポートレートシリーズ ~中小企業でデータが不完全な場合、ポートレートをどうするか?~」では、「この記事では、一部の中小企業でデータが不完全な場合に、現在のデータと外部データを組み合わせてポートレート ラベルを改善する方法について説明しています。

携帯電話の価格をクロールするコードが提供されていますが、携帯電話の価格のクロールを自動化する方法はありますか?

リサーチ:

(1) マシンをデプロイし、クローラー タスクを定期的に実行してクロールします - マシンが必要です

(2) 自動クロールを実現するために他社を利用します。例: gitee パイプライン、github アクションを使用します。gitee パイプラインは現在 200 分しか無料ではないため、処理するには github アクションの使用を検討してください。

達成:

GitHub アクションの概要: https://docs.github.com/zh/actions

まずクローラー コードを実装し、ローカル テストが実行できることを確認し、github に送信して、新しいアクションを作成します。

独自のワークフローを構築します。

# This workflow will build a Java project with Maven
# For more information see: https://help.github.com/actions/language-and-framework-guides/building-and-testing-java-with-maven

name: Java CI with Maven
on:
  schedule:
    # 定时执行,Runs at 17:00 UTC every day
    - cron:  '0 16 * * *'
  # 手动触发事件
  workflow_dispatch:
    inputs:
      logLevel:
        description: 'Log level'
        required: true
        default: 'warning'
      tags:
        description: 'Test scenario tags'
    
jobs:
  build:
    runs-on: ubuntu-latest
    steps:
    - uses: actions/checkout@v2
    - name: Set up JDK 1.8
      uses: actions/setup-java@v1
      with:
        java-version: 1.8
    - name: Build with Maven
      run: mvn -B package --file pom.xml
    - name: Run Java Application
      run: java -cp target/zhihu-collector-1.0-SNAPSHOT-jar-with-dependencies.jar org.example.SpiderMain
    - name: Commit
      run: |
         git config --local user.email [email protected]
         git config --local user.name zhugezifang
         git add -A
         git commit -m "update"
    - name: Push changes
      uses:  ad-m/github-push-action@master
      with:
         github_token: ${
   
   { secrets.MY_GIT_TOKEN }}
         branch: master

シークレットとウェアハウスの読み取りおよび書き込み権限を設定します (ウェアハウスをプッシュできるようにするため)

これで設定は完了です。github アクションを使用して携帯電話の価格データを自動的にクロールできるようになります。

結論:

この記事では、GitHub Action を使用して携帯電話の価格データを自動的にクロールして、ポートレート データをより完全にし、サーバーなどのリソースの使用を回避するという効果を実現する方法を共有します。効果の観点から見ると、これは非常に便利です。記事内の参照: https://github.com/zhugezifang/zol-collector

GitHub Action参考:

GitHub Actions チュートリアルの開始

Github Actions を使用して毎日の Bing 壁紙を自動的に取得するにはどうすればよいですか?

おすすめ

転載: blog.csdn.net/weixin_43291055/article/details/129835116