週に 1 回、オーディオおよびビデオ技術分野の乾物について概説します。

ニュース寄稿:[email protected]。

Microsoft、Google、Amazon、大型モデルの時代にクラウド戦争を開始

過去数カ月間、クラウド大手は大規模モデルの開発、戦略的投資、自社開発の AI チップの開発に実際の資金を費やしてきました...大規模モデルの時代が台頭しており、彼らはすでに新しいモデルをターゲットにしていますAI ソフトウェアの顧客の世代。この記事では海外のクラウド大手数社を整理し、「今日のクラウドベンダー間の競争の鍵は何か」を解説しようとしている。

現在、ChatLaw 法的モデルは ChatLaw-13B、ChatLaw-33B、ChatLaw-Text2Vec の 3 つのバージョンを提供しており、ベースは Jiang Ziya-13B と Anima-33B です。法律ニュース、法律フォーラム、法律論文、司法解釈、法律相談、法律試験問題、判決書などの多数の原文を活用して対話データを構築しています。

清華大学顔壁インテリジェントオープンソース中国マルチモーダル大型モデル VisCPM

VisCPM は、Facewall Intelligence、清華大学 NLP 研究室、および Zhihu によって共同で OpenBMB でオープンソース化された一連のマルチモーダル大規模モデルです。VisCPM-Chat モデルは中国語と英語でのマルチモーダル対話機能をサポートし、VisCPM-Paint モデルはテキスト入力をサポートしています。 -image 生成能力の評価では、VisCPM が中国のマルチモーダルオープンソースモデルの中で最高のレベルに達していることが示されています。

インフレクションが13億ドルを調達、資金調達総額ではOpenAIに次ぐ2位となる

北京時間6月29日夜、カリフォルニアに本拠を置く人工知能新興企業インフレクションは、マイクロソフト、エヌビディア、そして3人の億万長者（リード・ホフマン、ビル）主導による13億米ドルの最新資金調達ラウンドの完了を発表した。ゲイツとエリック・シュミット）。フォーブスによると、インフレクションの最終評価額は40億ドルだった。この資金調達ラウンドは、Inflection が自社開発した初の人工知能アシスタント「Pi」をサポートするために使用されます。

OpenAI は何を正しく行ったのでしょうか?

従業員数 200 ～ 300 人の新興企業 (昨年末に ChatGPT が立ち上げられたとき、OpenAI チームの従業員数は約 270 名でした) が、多くの巨人が参入する AI 分野でどのようにしてすべての障害を克服したのでしょうか。長年にわたって競争し、一般的な人工知能の聖杯を勝ち取りましたか？シリコンバレーでも中国でも、多くの人が「なぜ OpenAI のような新興企業が、AGI のような壮大な革命の中心的な原動力なのか?」と疑問に思っています。OpenAI は何を正しく行ったのでしょうか?

機会を捉えて生成的 AI の課題に積極的に取り組む

しかし、あらゆる挑戦や変化は、新たなチャンスを意味するはずです。私たちは適切な位置を見つけ、探査の課題に含まれる開発の機会を常に探す必要があります。

DreamDiffusion: EEG 信号から高品質の画像を生成

この論文は清華大学国際大学院、テンセントAI研究所などが執筆したもので、思考をテキストに変換してから画像を生成することなく、脳波（EEG）信号から直接高品質な画像を生成できる手法を紹介している。定量的および定性的な結果は、潜在的な神経科学およびコンピュータービジョンへの応用を伴う、「思考から画像への」変換を達成するための重要なステップとして、この方法の実現可能性を示しています。

https://arxiv.org/abs/2306.16934

テレンス・タオ「いいね！」ChatGPT は自動的に大きな進歩を証明します

多くの人はそれを認めたくありませんが、10 年以内に AI が人間の数学者に追いつく可能性は非常に高いです。

中国科学院チームがAIを搭載したCPUを設計

6月末、中国科学院のチームは大ヒット論文「機械設計の限界を超える：AIによる自動化されたCPU設計」（機械設計の新たなブレークスルー：人工知能を使用したCPUの自動設計）をプレプリントで発表した。人工知能を使用した arxiv プラットフォームは、RISC-V 命令セットに基づく CPU の設計を 5 時間以内に完了させ、バックエンドのレイアウトと配線を経て、Linux と Dhrystone を実行できる設計に仕上げました。。

切りくず規制の追加効果：機器の輸出制限に加え、中国人の就職活動も制限される

ここ数日、オランダが半導体装置の海外輸出を制限する政令を正式に発令し、米国、日本、オランダが中国の半導体技術封鎖に対して正式に鉄の三角関係を形成したことになる。半導体・チップ分野におけるこれら3カ国にとって、輸出規制は半導体分野における他国の発展に大きな影響を与えると言え、当然ながら中国が真っ先に矢面に立つことになる。

Foxconn、チップを攻撃

近年、台湾を拠点とするメーカーの多くが徐々に変革を始めており、より付加価値の高い製品やサービスを提供するための技術アップグレードを模索しており、上流のチップ分野への攻撃は彼らにとって大きな選択となっている。

スタンフォード大学の Jiajun Wu: 自然教師ありコーディングによる視覚世界の理解

スタンフォード大学のWu Jiajun助教授は、「自然教師付きコードによる視覚世界の理解」という素晴らしい講演を行いました。この講演は 2D 画像から 3D 世界にまで及び、人間と自然の事前知識からインスピレーションを引き出し、それを生成ニューラルネットワークに適用します。

「完璧な」カメラアイではない：人間

人間の目を超えるカメラを作るためには、まずその目がどのようなカメラなのかを分析する必要があります。

Magic123: 2D および 3D 拡散事前分布を使用して単一の画像から高品質の 3D オブジェクトを生成

この論文では、単一のポーズ化されていない画像から高品質のテクスチャ付き 3D メッシュを生成するための、2D および 3D 事前分布を使用する 2 段階の粗密から粗密への方法である Magic123 について説明します。最初の段階では、神経放射野を最適化することによって大まかな幾何学形状が生成されます。第 2 段階では、メモリ効率の高い微分可能なメッシュ表現が採用され、視覚的に魅力的なテクスチャを備えた高解像度のメッシュが生成されます。

https://arxiv.org/abs/2306.17843

オーディオとビデオの学習 - 画像編集オープンソースライブラリ

この記事では、画像編集用の 8 つのオープンソースツールを紹介します。

何十億人もが使用する人気のオープンソース画像コーデックが資金不足で更新を停止

libjpeg-turbo 3.0.0 がリリースされたばかりのとき、プロジェクトの主任開発者 DRC は、資金不足のため将来の機能開発は制限される可能性があり、libjpeg-turbo 3.1 バージョンは存在しない可能性があると述べました。

目も主眼と副眼に分けられますが、あなたの脳はどちらの目より「偏心している」でしょうか？

人間の目は主眼と副眼に分かれており、専門用語では利き目と非利き目、または左利き/右利きと同じように左目/右目と呼ばれていることをご存知ですか。

Douyin でのライブ RTM ストリーミングのアプリケーションと最適化

Douyin 評価ラボチームは、Douyin のライブエンコーディングの最適化を支援し、ライブブロードキャストのさまざまなシーンで B フレームのオープンをサポートして、ビデオ圧縮効率を向上させます。これにより、画質の向上や帯域幅コストの節約に使用できます。

PACC: RTC でのユーザー認識ベースの輻輳制御

本稿では、RTC 向けの知覚ベースの輻輳制御 (PACC: Perception-Aware Congestion Control) を提案します。著者らは、畳み込みニューラルネットワーク (CNN) を使用して、ビデオ品質を予測するための品質評価モデルを開発しました。ユーザーの認識の変化傾向分析を利用して、PACC は QoE を改善する方向にコードレートを調整します。

リアルタイムのビジュアルコミュニケーションのためのブラインド品質評価

ユーザーが作成したコンテンツ (ソーシャルメディア、会話ビデオなど) には、通常、参照となる高品質のビデオがなく、参照なしで評価する必要があります。これは、いわゆるブラインド品質評価です。

MEC ベースのテラヘルツ無線ネットワーク支援イマーシブ VR ビデオストリーミング: 深層強化学習アプローチ

この論文では、THz 無線アクセスに基づく MEC システムの長期的なエネルギー消費を最小限に抑える方法を提案し、ビューポートレンダリングオフロードとダウンリンク送信電力制御を共同最適化することで、高品質の没入型 VR ビデオサービスのサポートを提供します。

https://ieeexplore.ieee.org/document/9120235

Interspeech2023 | DualVC - モデル内蒸留とハイブリッド予測コーディングに基づくデュアルモード音声変換モデル

NPU 音声音声言語処理研究グループ (ASLP@NPU) と Netease Fuxi の共同論文「DualVC: Dual-mode Voice Conversion using Intra-model Knowledge Distillation and Hybrid Predictivecoding」が音声研究のトップである INTERSPEECH2023 に採択されました。会議。本稿では、モデル内蒸留とハイブリッド予測符号化を組み合わせた音声変換モデル DualVC を提案し、ストリーミング変換と全セグメント推論（非ストリーミング）変換モードの両方を 1 つのモデルで実現できます。

Tencent カンファレンス AI オーディオ技術の価値波及、ソフトウェアとサービスを使用して補聴器業界に新たなパターンを切り開く

Teana Lab は、Tencent カンファレンス AI オーディオ技術の蓄積を活用し、公共の福祉という本来の目的を持って新分野を開発し、ソフトウェアとリモートフィッティングサービスを使用して、補聴器メーカーが補聴器から聴力測定とフィッティングまでのクローズドループを開くのを支援します。国内の補聴器業界をサポートするこの開発は、新たなパターンを切り開きました。

耳で選ぶ｜モニタースピーカーの主観的評価方法

モニタースピーカーは、モニタリングシステム、制作タスク、オーディオエンジニア/音楽プロデューサーの音響基準として機能しますが、信号チェーン内で独自の場所を占めます。そこから聞こえる音は、オーディオプロセッサなど、オーディオパス内の他のデバイスよりも多くの変動の影響を受けます。

W3C はプライバシー標準作業グループの設立を計画

W3C はプライバシー標準ワーキンググループの設立を計画しており、現在、標準化の範囲と作業モードを定義するグループ憲章の準備を進めています。プライバシーワーキンググループの任務は、Web テクノロジーに関連するプライバシー問題を回避および軽減するための推奨事項をさまざまな標準グループに提供し、ユーザーのプライバシーを強化するための技術メカニズムを標準化し、Web 上のプライバシーを向上させることです。

メタの目に映る VR オフィス: 特定の方向、不確実な時間

VR がすぐに私たちの仕事生活の一般的な部分になるかどうかはまだわかりませんが、このテクノロジーには会議エクスペリエンスを向上させる多くの可能性があります。

GoogleのARメガネプロジェクト「Iris」が打ち切られたけど、将来的にはAR界のAndroidになりたい！

Project Iris に対する長年の研究開発にもかかわらず、Google は今年初めにプロジェクトを放棄することを決定しました。

オープンソースコーデック SVT-AV1 バージョン 1.6.0 がリリース: パフォーマンスが 30% ～ 40% 向上

SVT-AV1 エンコーダは新しいバージョンをリリースしました。公式アップデートログには、v1.6.0 で最大 40% の速度向上が示されています。

http://gitlab.com/AOMediaCodec/SVT-AV1/-/releases/v1.6.0 _

クアルコムのホワイトペーパーが公開されました: ハイブリッド AI は AI の未来です

クアルコムはホワイトペーパーの中で、生成型 AI が前例のない速度で発展し、コンピューティング需要が増加しているため、AI の大規模な拡張を実現し、その可能性を最大限に高めるには、AI 処理をクラウドと端末上で分散する必要があると述べています。コンピューティングは、メインフレームとシンクライアントから、クラウドとエッジ端末を組み合わせた現在のモデルへと進化してきました。ハイブリッド AI アーキテクチャは、クラウド内だけで処理するのではなく、クラウドとエッジエンドポイント間で AI ワークロードを分散および調整します。

「マーケティングAIGCからAIGCマーケティングへ」レポート公開

7月2日午前、清華大学メタバース文化研究室はメタバースオンラインサロン「AIGCの隆盛と応用」を開催した。会議中、清華大学ジャーナリズム・コミュニケーション学部教授、メタバース文化研究所所長、ニューメディア研究センター常務理事の沈楊氏が、同協会と共著した「マーケティングからAIGCまで」という報告書を発表した。清華大学ジャーナリズム・コミュニケーション学部ニューメディア研究センターと華陽連中。通訳については「AIGCマーケティング」へ。

コートゥの年次予測: 今後 12 か月で景気後退と景気回復が共存する

今年、コートゥエ氏はさらに、次のテクノロジースーパーサイクルの「ブレークスルー」の瞬間、つまりAIが経済の新たなライフラインになる可能性があることを指摘しながら、不況時代の到来を指摘した。

「エステティックコクーンルーム」とは？| 耳の眺め

インターネットとデジタル技術の発展は、伝統的な美的実践が依存してきた媒介を破壊し、美的実践システムにおける「反省」と「交渉」の余地を絶えず圧迫することで、美的実践における文化的公共性の形成を消滅させた。必要な臨界距離は、大衆の嗜好を全面的に私物化することにつながり、「美的繭」を作り出しました。

LiveVideoStackCon 2023 上海ステーションのスケジュールが発表

LiveVideoStackCon 2023 上海オーディオおよびビデオ技術カンファレンスのテーマは「Immersion New Vision」であり、さまざまなシナリオにおけるオーディオおよびビデオ技術の統合と開発を探求することに加えて、ゲーム、AIGC、デジタル産業などの新鮮でホットなトピックも追加されます。ケース。ここでは、マルチメディアエコシステムの大手企業やトッププレーヤーによる、現在の開発トレンド、ボトルネックの課題、業界の将来計画についての深い解釈を感じることができます。

60 名を超えるトップ講師を招き、専門的な見識を共有します。これは、業界トップの専門家と直接交流し、豊富な経験から貴重な技術的洞察を得る絶好の機会です。

▲画像内のQRコードをスキャンするか、「元のテキストを読む」をクリックしてください ▲

LveVideoStackCon 2023 上海駅でさらにエキサイティングなトピックをチェックしてください

オーディオおよびビデオ技術開発ウィークリー | 301

Tencent カンファレンス AI オーディオ技術の価値波及、ソフトウェアとサービスを使用して補聴器業界に新たなパターンを切り開く

耳で選ぶ｜モニタースピーカーの主観的評価方法

W3C はプライバシー標準作業グループの設立を計画

メタの目に映る VR オフィス: 特定の方向、不確実な時間

GoogleのARメガネプロジェクト「Iris」が打ち切られたけど、将来的にはAR界のAndroidになりたい！

オープンソースコーデック SVT-AV1 バージョン 1.6.0 がリリース: パフォーマンスが 30% ～ 40% 向上

クアルコムのホワイトペーパーが公開されました: ハイブリッド AI は AI の未来です

「マーケティングAIGCからAIGCマーケティングへ」レポート公開

コートゥの年次予測: 今後 12 か月で景気後退と景気回復が共存する

「エステティックコクーンルーム」とは？| 耳の眺め

おすすめ

オーディオおよびビデオ技術開発ウィークリー | 301

オープンソース コーデック SVT-AV1 バージョン 1.6.0 がリリース: パフォーマンスが 30% ～ 40% 向上

おすすめ

オープンソースコーデック SVT-AV1 バージョン 1.6.0 がリリース: パフォーマンスが 30% ～ 40% 向上