オーディオおよびビデオ技術開発ウィークリー | 302

週に 1 回、オーディオおよびビデオ技術分野の乾物について概説します。

ニュース寄稿:[email protected]

45484d0fe04f897cf4a5d30a66479172.png

ChatGPT アーティファクト コード インタープリターがついにオープンしました。どのように使用するのですか? ここは乳母レベルのチュートリアルです

コードインタープリターが正式にオープンしました。

上海世界AIカンファレンス:MidJourney Zhuangziの名前は?

Midjourney の CEO、David Holz 氏は 2023 年の世界人工知能会議で講演し、AI が創造性と想像力の新たなキャリアおよびエンジンになると信じています。AI を通じて、私たちは人類全体の生の想像力を増幅させる可能性を秘めています。社名のMidjouneyについてホルツ氏は、道教の書『荘周』の中道の概念から来ていると述べ、中国の古典文学が最も美しく最も深い思想の多くをもたらしたと信じていると述べた。

0967347cf64c2e9add9c8792680eae78.png

生成 AI 時代の AI インフラ — DevOps -> MLOps -> LLMOps へ

この記事では、AI インフラの観点から開始し、生成 AI が AI インフラのエコロジーにもたらした変化を、よりマクロな観点から見ていきたいと思います。この記事は、LLM に限定されません。記事内で言及されている LLM は、すべての生成 AI または基盤モデルに適用されます。

Nature公式号にファーウェイの大型モデルが掲載されました!従来の方法よりも 10,000 倍速く天気を予測します

パンゲア気象大規模モデルにより、人間は天気予報モデルの将来を再検討できるようになるかもしれません。

ff27756e207806e575b2213f0f478707.png

CIS製造プロセスの振り返りと展望

CMOSイメージセンサーは、高画質でスマートフォンに搭載できるため、大きな成長を遂げています。イメージセンサーの開発への主な貢献の 1 つは、製造プロセスの革新です。この記事では、CMOS イメージ センサーのさまざまな製造プロセスと、それらがスマートフォンの画質に与える影響について詳しく説明します。シリコン貫通ビアや Cu-Cu ハイブリッド接合などの技術を使用した CMOS イメージ センサーの製造とその実験結果について説明します。

チップを販売すると23万元の損失、自動運転チップビジネスを始めるのはどれほど難しいか

国内の自動車用チップ新興企業であるブラックセサミスマートは香港証券取引所に上場申請書類を提出し、香港証券取引所のメインボードに上場する予定だ。Black Sesame Smart は、大量生産と車載を実現した大きな計算能力を持つ国内チップ企業 2 社のうちの 1 社であり、その量産ペースと出荷台数は Horizo​​n に次いで 2 位です。

e7d2695c8edeaa737b248dd788d2c6ba.jpeg

誘導および制限された表現による等変単一ビューのポーズ予測

この研究では、2D 画像から 3D 世界に関する情報をどのように学習するかという、コンピュータ ビジョンの基本的な問題を調査します。研究者らは、3 次元空間内のオブジェクトの回転と平行移動の特性を使用して新しい画像を予測する、理想的なニューラル ネットワーク アーキテクチャを提案しています。ただし、SO(3) の等分散を 2D 入力に適用するのは困難です。この問題に対処するために、研究者らは SO(2) 等分散制約を導入し、SO(2) に起因する SO(3) 上の制限された表現を活用して、幾何学的一貫性制約を満たすアーキテクチャを構築しました。

https://arxiv.org/abs/2307.03704

香港科技大学が遠近不変のシーングラフループ検出手法を提案: シーンを意識したマシンビジョンに向けて

屋内シーンの視覚的 SLAM について、この論文では、増分的に生成されるシーン グラフに基づいたループ閉鎖検出方法を提案します。マクロビュー トポロジ、ミクロビュー トポロジ、セマンティック インスタンスの占有を包括的に考慮して、正しい対応関係を見つけます。ハンドヘルド RGB-D シーケンスを使用した実験により、提案された方法が大幅に変化する視点のループを正確に検出できることが実証されました。同様のトポロジーと外観を持つオブジェクトを観察する場合、高い精度を維持します。

09e16d918b8e9620a17937edce387aa4.png

神経放射線場から物体を取り除く

Neural Radiant Fields (NeRF) は、新しいビューを合成できるシーン表現です。既存の NeRF 編集フレームワークでは、このような指定オブジェクトの削除を実現することは困難です。この論文では、RGB-D シーケンスから作成された NeRF 表現からオブジェクトを削除できるフレームワークを提案します。NeRF 修復方法は、2D 画像修復に関する最近の研究を利用しており、ユーザー指定のマスクによってガイドされます。このアルゴリズムは、結果として得られる NeRF が 3D 一貫性を持つように、信頼度に基づくビュー選択プロセスを通じて、NeRF の作成にどの修復 2D 画像を使用するかを選択します。本稿で提案した NeRF 編集手法はマルチビューの一貫した方法で修復を生成するのに有効であり、提案手法は新しいデータセットで検証されました。

視覚認識における画像圧縮のロバスト性解析

この論文の調査結果は、限られたリソースと帯域幅を持つユーザーに視覚認識を導入するのに役立ちます。今後の研究では、インターネット規模のデータセットで視覚認識モデルをトレーニングする際に、I/O バウンドのレイテンシを削減するためにその結果をどのように使用できるかを調査したいと考えています。特に、通常の RGB 表現ではなく、潜在的な圧縮画像表現上で直接認識モデルのトレーニングを検討します。

屋内シーンの凸分解(Convex Decomposition)

この記事は 3D グラフィックスのセグメンテーションと再構成について説明します。この研究では、複雑で乱雑な内部シーンを単純化された凸構造に解析する方法について説明します。チームは、シーン構造を抽象化するための基本要素として単純な凸多角形を使用しました。学習された回帰プロセスを使用して、シーンは RGBD 入力から固定数の凸ポリゴンに解析され、オプションでセグメンテーション情報を使用して分解結果を改善します。

https://arxiv.org/abs/2307.04246

あなたの知らない分光光度計の構造

測色ツール (総称して測色計と呼びます) は、さまざまな光源やさまざまな条件下で測定対象物の色度や分光曲線さえも簡単に取得でき、色の管理、制御、研究開発に役立ち、さまざまなメーカーにとって便利です。 . 色のコミュニケーションとコミュニケーション; 人間または環境要因によって引き起こされる色の判断バイアスを回避できます; 屋内または屋外に関係なく、色をより正確かつ客観的に判断できます。

688f9cddfbc35c95797e6f4d665b35cb.png

オーディオおよびビデオ ツール -- Onvif デバイス マネージャー

ONVIF デバイス マネージャー (ODM) は、IP カメラ、ビデオ エンコーダー、ネットワーク ビデオ レコーダー (NVR) などの ONVIF 準拠のネットワーク ビデオ デバイスを管理するために設計された無料のオープンソース ソフトウェア ユーティリティです。ONVIF は Open Network Video Interface Forum の略で、異なるメーカーのデバイス間の相互運用性を促進するための IP ベースの物理セキュリティ製品の世界標準化イニシアチブです。

ライブプロップの高可用性構築

2022年第4四半期の財務報告データによると、大晦日パーティー中のB局の生放送のピーク人気は3億3000万人に達した。Bilibiliにとって生放送事業は重要な成長ポイントであり、生放送事業においてはプロップフィーディング(ギフトを与えること、以下総称してプロップフィードといい、ギフトを総称してプロップという)が重要な役割を果たしている。この記事では、ライブ プロップ関連システムの高可用性を確保して 99.99% の安定性の目標を達成する方法について説明します。この記事は、プロップパネル、プロップフィード、マルチリビングの 3 つのパートに分かれています。

f2c0485b61bfcf2d64bf161a9bb97915.png

Meta の最新のオープンソース グラフィックス ライブラリ IGL には、約 2,000 のスターがあり、ゲーム開発と 3D モデリングをサポートしています

IGL は、GPU を直接呼び出すことができるクロスプラットフォーム グラフィックス ライブラリであり、基盤となるクロスプラットフォーム インターフェイスを通じて一般的な GPU 機能をカプセル化します。Meta氏によると、IGLの特徴としては、クロスプラットフォーム互換性、高性能レンダリング、使いやすいAPI、拡張可能、完全にオープンソース、あらゆるプロジェクトで利用可能、ライセンス制限なしなどが挙げられるという。

e8ab224ed60711dd92c2fd055fa10656.png

「Hey Siri」は歴史になるでしょう。

今年 6 月に iOS 17 の開発者版がリリースされましたが、興味深い変更点の 1 つは、「Hey Siri」に「Hey」がなくなることです。ユーザーは「Siri」と言うだけで音声アシスタントを起動できます。しかし、これは非常に単純な変更ですが、多くのプログラマーを心配させます。昨年末にこのニュースが発表されてから約半年が経過しましたが、iOS はまだこの機能を正式にアップデートしていません。音声アシスタントが「ねえ」を奪うことはどれほど難しいでしょうか?

Bodhidharma Academy FunASR オフライン ファイル転送 SDK がリリースされ、産業着陸の「ラスト マイル」が完了

FunASR は、Bodhidharma Academy Speech Lab によってオープンソース化された音声認識基本フレームワークであり、音声終点検出、音声認識、句読点、文分割の分野における産業レベルのモデルを統合しており、多くの開発者が経験と開発に参加するよう惹きつけられています。

Lora の音声合成、プラグイン スピーカー開発

音声合成、プラグイン スピーカー開発、音声クローンの未来における Lora。

a3f0f17653e235400be81a15b7976fcd.png

Apple Vision Pro 中国語開発チュートリアルの概要

この記事では、Unity VR アプリケーションを完全に没入型の空間に導入したり、空間コンピューティング アプリケーションの構築を開始したりするための 7 つのチュートリアルを紹介します。

視線推定とハンドヘルドモバイルデバイス上の対話型アプリケーションに関する包括的な調査

近年、ハンドヘルドモバイルデバイス上で、対話の単一または二次手段として視線を使用する対話システムの数が増加しているのを目の当たりにしています。この傾向は、これらのデバイスの計算能力、高解像度、カメラ容量の向上に加え、高度な機械学習技術、特にディープラーニングによってもたらされた視線推定の精度の向上によって推進されています。この記事は、視線キャプチャ センサー、視線推定ワークフロー、深層学習技術から視線インタラクション アプリケーションまで、エンドツーエンドの包括的な視点を提示することでこの目標を達成することを目的としています。

https://dl.acm.org/doi/10.1145/3606947

Googleは今後もXRの野望を支援できるだろうか?

Apple が Vision Pro を発売したことは画期的な意味を持ち、テクノロジー界は非常に興奮しています。Vision Proの発表から数日後、Google CEOのSundar Pichai(サンダー・ピチャイ)氏もインタビューでVision Proについて「このテクノロジーの可能性に興奮している」と見解を表明した。 

しかし数週間後、GoogleがARメガネプロジェクト「Iris」の開発を中止したとのニュースが流れ、近年のGoogleのARへの投資を振り返ると恥ずかしいことだ。

14a0f7917d5f38e3fb8f98f5d00e4abf.png

EPIQ 2020 | SHVC ベースの HTTP Adaptive Streaming over QUIC

この投稿では、ABR アルゴリズムのパフォーマンスに対する QUIC と HTTP/2 の影響を調査します。さらに、従来のビデオストリーミング方法(非スケーラブルビデオコーディングフォーマットに基づく)と再送信技術を組み合わせて、アダプティブビデオストリーミングにスケーラブルビデオコーディングフォーマットを利用する効率的な方法が提案されています。実験結果は、パケット損失と再送信の場合に、QUIC がこのアプローチから大きな利点を得ることを示しています。HTTP/2 と比較して平均的なビデオ品質が向上し、よりスムーズな適応動作が実現します。最後に、この論文は、もともと非スケーラブル ビデオ コーデック用に設計された方法が、スケーラブル高効率ビデオ コーディング (SHVC) などのスケーラブル ビデオでも効率的に機能することを示しています。

e58a8e73c8ff1a5b673f9d1de69f1759.png

Bステーションは「ヨコとタテ」でなければなりません

1年間、短い動画に「衝撃」を受け続けた後、中・長編動画は思い通りに「運命を変える」ことができるのか?

867f810cbc3f24f0717e0345e6eaa9bc.png

Zhongke Shenzhi Cheng Weizhong との対話: デジタル ヒューマンの鍵はインタラクションであり、インタラクションの鍵は大型モデルです

Cheng Weizhong 氏は、将来の 3D インタラクションでは人が最も重要であり、この種の「人」とのインタラクションは AI と大型モデルを通じて行われなければならないと常に信じてきました。

5fe6bc9195e3d9c22b83bf984cc7d514.png

LiveVideoStackCon 2023 上海ステーションのスケジュールが発表

LiveVideoStackCon 2023 上海オーディオおよびビデオ技術カンファレンスのテーマは「Immersion New Vision」であり、さまざまなシナリオにおけるオーディオおよびビデオ技術の統合と開発を探求することに加えて、ゲーム、AIGC、デジタル産業などの新鮮でホットなトピックも追加されます。ケース。ここでは、マルチメディア エコシステムの大手企業やトップ プレーヤーによる、現在の開発トレンド、ボトルネックの課題、業界の将来計画についての深い解釈を感じることができます。

60 名を超えるトップ講師を招き、専門的な見識を共有します。これは、業界トップの専門家と直接交流し、豊富な経験から貴重な技術的洞察を得る絶好の機会です。

28d249c2b0c304f3f076cce4e4033928.png

画像内のQRコードをスキャンするか、「元のテキストを読む」をクリックしてください 

LveVideoStackCon 2023 上海駅でさらにエキサイティングなトピックをチェックしてください

おすすめ

転載: blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/131757766