バックグラウンド:
ユーザー似顔絵シリーズ ~データが不完全な中小企業の場合、似顔絵をどう作るか?_Zhuge Zifang_ のブログ-CSDN ブログ
「ユーザーポートレートシリーズ ~中小企業でデータが不完全な場合、ポートレートをどうするか?~」では、「この記事では、一部の中小企業でデータが不完全な場合に、現在のデータと外部データを組み合わせてポートレート ラベルを改善する方法について説明しています。
携帯電話の価格をクロールするコードが提供されていますが、携帯電話の価格のクロールを自動化する方法はありますか?
リサーチ:
(1) マシンをデプロイし、クローラー タスクを定期的に実行してクロールします - マシンが必要です
(2) 自動クロールを実現するために他社を利用します。例: gitee パイプライン、github アクションを使用します。gitee パイプラインは現在 200 分しか無料ではないため、処理するには github アクションの使用を検討してください。
達成:
GitHub アクションの概要: https://docs.github.com/zh/actions
まずクローラー コードを実装し、ローカル テストが実行できることを確認し、github に送信して、新しいアクションを作成します。
独自のワークフローを構築します。
# This workflow will build a Java project with Maven
# For more information see: https://help.github.com/actions/language-and-framework-guides/building-and-testing-java-with-maven
name: Java CI with Maven
on:
schedule:
# 定时执行,Runs at 17:00 UTC every day
- cron: '0 16 * * *'
# 手动触发事件
workflow_dispatch:
inputs:
logLevel:
description: 'Log level'
required: true
default: 'warning'
tags:
description: 'Test scenario tags'
jobs:
build:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v2
- name: Set up JDK 1.8
uses: actions/setup-java@v1
with:
java-version: 1.8
- name: Build with Maven
run: mvn -B package --file pom.xml
- name: Run Java Application
run: java -cp target/zhihu-collector-1.0-SNAPSHOT-jar-with-dependencies.jar org.example.SpiderMain
- name: Commit
run: |
git config --local user.email [email protected]
git config --local user.name zhugezifang
git add -A
git commit -m "update"
- name: Push changes
uses: ad-m/github-push-action@master
with:
github_token: ${
{ secrets.MY_GIT_TOKEN }}
branch: master
シークレットとウェアハウスの読み取りおよび書き込み権限を設定します (ウェアハウスをプッシュできるようにするため)
これで設定は完了です。github アクションを使用して携帯電話の価格データを自動的にクロールできるようになります。
結論:
この記事では、GitHub Action を使用して携帯電話の価格データを自動的にクロールして、ポートレート データをより完全にし、サーバーなどのリソースの使用を回避するという効果を実現する方法を共有します。効果の観点から見ると、これは非常に便利です。記事内の参照: https://github.com/zhugezifang/zol-collector
GitHub Action参考: