オーディオおよびビデオ技術開発ウィークリー | 319

この週刊誌では、オーディオおよびビデオ技術の最新ニュースの概要を提供します。

ニュース寄稿:[email protected]

2週間のカウントダウン!深セン駅会議のハイライトのプレビュー

LiveVideoStackCon 深セン駅までのカウントダウンは2 週間で、2 週間後にはエキサイティングな基調講演が開催されます。皆様のご参加をお待ちしております!

●時期:2023年11月24~25日
●場所:深センセントーサホテル(ジェイドブランチ)
●相談:13520771810(WeChatでも同じ番号)詳しくはこちら。
●公式リンク:
https://sz2023.livevideostack.com/topicsDouyin

の背後にあるエクスペリエンス成長の秘密がここで明らかにされます。

特別トピック [Douyin の背後にあるエクスペリエンス成長の秘密を明らかにする] では、Douyin の背後にあるエクスペリエンス成長の実践を深く分析します。 Douyin の毎日数億人のアクティブ ユーザーによって蓄積された経験をもとに、大規模ユーザーの状況でコスト削減と効率向上を達成する方法を分析します。
リンクをクリックして火山に関する無料の講義にサインアップしてください。
http://livevideostack.mikecrm.com/EIvkisN
「Chen Tianqi GPT」をカスタマイズすると、実際のテスト用に新しい OpenAI 製品が続々と登場します。サム・アルトマンの次元削減攻撃で数千のAIスタートアップ企業が壊滅

OpenAI は核爆弾を爆発させ、誰でも数分で自然言語を使用したアプリを構築できるようにします。爆発的な革命の瞬間が本当に到来しました。

AI「脳サプリ」の映像が強力すぎる!Li Feifei のチームの新作 ZeroNVS は、単一のビューで 360 度の完全なシーンを生成します

スタンフォード大学と Google チームは、単一画像のゼロサンプル 360 度試行合成を実現できる ZeroNVS を提案しました。
CMU、清華大学、MIT は世界初の無制限のエージェント フローを爆発させ、ロボット「007」は残業して自己学習をやめられなくなりました。身体化された知性が革命を起こす
最近、CMU/MIT/清華/Umass によって提案された世界初の生成ロボット エージェントである RoboGen は、無制限のデータを生成し、ロボットが 24 時間 365 日ノンストップでトレーニングできるようにします。AIGC for Robotics はまさに未来の方向性です。
最新の調査: 大規模な AI モデルに関する 2 つの大きな問題、それらは「グリーン コンピューティング」で解決できるか?

現在、人工知能(AI)は、コンピュータビジョン、自然言語処理、時系列分析、音声合成など、多くの分野で広く活用されています。

ChatGPTを助手席に置きましょう!清華大学、中国科学院、MIT は共同で、乗客の意図を完全に制御する副操縦士の人間とコンピューターの対話フレームワークを提案しました
この研究は、言語モデルを補助ドライバーとして使用する最初の試みであり、記述的な方法を使用してアクションの軌道を制御し、ユーザーの軌道の意図を満たすことができます。
GPT-4 の精度はわずか 6% です。北京大学などが初の「マルチラウンド、マルチモーダル」PPT タスク完了ベンチマーク PPTC を提案
複雑なマルチモーダル環境で複数のラウンドとマルチモーダル命令を完了する複雑なツールを使用して LLM の評価ギャップを埋めるために、研究者らは、LLM の PPT ドキュメントの作成および編集能力を評価する PowerPoint タスク完了 (PPTC) ベンチマークを導入しました。
大型モデルにオープンワールドを独立して探索させる、北京大学と知源がトレーニングフレームワーク LLaMA-Rider を提案

大規模な言語モデルは、その強力で普遍的な言語生成および理解機能により、汎用インテリジェント エージェントになる可能性を示しています。同時に、オープンな環境での探索と学習は、汎用エージェントの重要な機能の 1 つです。したがって、大規模な言語モデルがオープンワールドにどのように適応するかは重要な研究課題です。

NeRF ベースの SLAM は未来ですか?
NeRFは近年とても人気があります!コンピューター ビジョンの分野を席巻し、深層学習だけでなく、従来の幾何学ベースの SLAM (同時ローカリゼーションとマッピング) や 3 次元の分野でも、毎年多数の論文がいくつかのトップカンファレンスやジャーナルに掲載されています。再建。

ANU 新リリース | 単眼視覚知覚オンライン 3D シーン再構築、CVPR2023

VisFusion は、単眼ビデオに基づく視覚認識オンライン 3D シーン再構成手法です。目標は、体積特徴からシーンを再構築することです。可視性を考慮せずに入力ビューから各ボクセルの特徴を集約するこれまでの再構成手法とは異なり、私たちの目標は、可視性に基づく類似度行列からその可視性を明示的に推測することで特徴融合を改善することです。ペアが計算されます。

トロント大学が自動運転の認識と予測のための暗黙的な占有フローフィールドをリリース
自動運転車 (SDV) は、周囲の状況を感知し、他の交通参加者の将来の行動を予測できなければなりません。既存の方法は、物体検出を実行してから検出された物体に対して軌道予測を実行するか、シーン全体の密集占有とフロー グリッドを予測します。前者のアプローチには、効率のために検出数を低く抑える必要があり、オブジェクトの再現が犠牲になるため、セキュリティ上の問題があります。後者の方法は、出力グリッドの次元が高いため計算コストが高く、完全な畳み込みネットワークに固有の限られた受容野の影響を受けます。
清華大学などが発売 | 単眼VIOリアルタイムモーションキャプチャー、3D人体測位!
人間の動きは通常、慣性センサーによって捕捉されますが、環境は主にカメラを使用して再構築されます。当社はこれら 2 つのテクノロジーを EgoLocate に統合します。EgoLocate は、6 つの IMU と単眼電話カメラを含むまばらな身体装着センサーから、ヒューマン モーション キャプチャ (モーション キャプチャ)、位置特定、マッピングをリアルタイムで実行するシステムです。

ARグラスAI活用事例棚卸:薄さの機能から垣間見える膨大な生命力
今年の Connect カンファレンスで、ザッカーバーグ氏は興味深いトピックを取り上げました。「私が特に興味を持っている分野の 1 つは、AI の進歩と次世代コンピューティング プラットフォームをどのように組み合わせるかです。」
Thunderbird が JD.com と提携して AR の「ラスト マイル」を開拓する革新を起こす
ARメーカーのThunderbird Innovationはこのほど、JD.comとの戦略的提携契約を発表し、両社は3年間で50万台の販売目標に向けて、製品開発、マーケティングプロモーション、チャネル拡大などの面で緊密な協力を開始する。
VR 開発者の Vertigo Games が世界的に有名な IP 向けに AAA VR ゲームを開発
募集通知によると、オランダの VR デベロッパー Vertigo Games は、注目を集めるマルチプラットフォーム AAA VR ゲームのプリプロダクションを行っており、当該作品は世界的に有名な IP に基づいています。
Microsoftの特許、ARグラスのさまざまな視線追跡のためのレンズアレイカメラの組み合わせを提案
アイイメージングカメラは、スマートグラスやその他のヘッドマウントデバイスで使用でき、アイトラッキング、虹彩認識、目の位置決めなどの目的をサポートします。ユーザーの入力方法として視線追跡を使用でき、ユーザーの識別と認証には虹彩認識を使用できます。目の位置をディスプレイのキャリブレーションに使用できます。眼球撮像カメラは、1つ以上のレンズを含む屈折レンズ系を利用して、眼球の画像を画像センサー上に焦点を合わせることができる。ただし、レンズ システムの焦点距離により、目イメージング カメラは大きくなり、近目のデバイスに統合するのが困難になる場合があります。

NeRF&Beyond 11.8 日次レポート (植物表面再構築、SR-TensoRF、ZUP-NeRF、布レンダリング)

植物表現型の正確な再構成は、精密農業 (PA) の分野で持続可能な農業実践を最適化する上で重要な役割を果たします。現在、光学センサーベースの手法がこの分野で主流となっていますが、構造化されていない農業環境における作物や植物の高忠実度の 3D 再構成の必要性は依然として課題です。

NeRF&Beyond 11.7 日次レポート (InstructPix2NeRF、VR-NeRF、Consistent4D など)

3D 対応のポートレート編集における Neural Radiation Fields (NeRF) の成功により、さまざまな作品が品質と 3D の一貫性の点で有望な結果を達成しました。ただし、これらの方法は、自然言語を編集命令として処理する際の各ヒントの最適化に大きく依存しています。

イメージセンサーのショットノイズを自分の目で「見る」

イメージセンサーのイメージング理論では、どんなに洗練された設計であっても、ショットノイズと呼ばれる信号関連ノイズの発生源が避けられません。電子) 1 つずつ)。
NPU-ASLP研究室が歌声変換チャレンジSVCCで好成績を収めました
语音转换(Voice Conversion)是智能语音处理领域的典型研究课题。语音转换挑战赛(VCC)是语音转换领域的国际顶级赛事,已成功举办了三届。2023年VCC竞赛专注歌声转换(Singing Voice Conversion,SVC),由日本名古屋大学、腾讯AI Lab和卡内基梅隆大学(CMU)联办。歌声转换(SVC)扩展了普通语音转换(VC)的定义,旨在将源歌手的唱歌声音转换为目标歌手的声音,而不改变内容。
最强开源大模型刚刚易主!李开复率队问鼎全球多项榜单,40万文本处理破纪录
百模大战,最备受期待的一位选手,终于正式亮相!它便是来自李开复博士创办的AI 2.0公司零一万物的首款开源大模型——Yi系列大模型

BK知识库 | 什么是声强和声压?

声功率是由声源每单位时间辐射的总空气声能量。另一方面,声压是声源辐射声音能量的结果,这些能量转移到特定的声音环境中并在特定位置进行测量。声功率是原因,声压是效果。

iOS Crash 治理:淘宝VisionKitCore 问题修复

本文通过逆向系统,阅读汇编指令,逐步找到源码,定位到了 iOS 16.0.<iOS 16.2 WKWebView 的系统bug 。同时苹果已经在新版本修复了 Bug,对于巨大的存量用户,仍旧会造成日均 Crash pv 1200+ uv 1000+, 最终通过 Hook 系统行为,规避此 Bug。在手机淘宝双 11 版本中已经彻底修复,Crash 跌 0。

B站如何构建高效的数据预处理和模型训练AI平台?
Coeus是哔哩哔哩自主研发的云原生人工智能平台。目前,Coeus 支持广泛的用例,包括广告、简历、NLP、语音、电子商务等。从功能角度来看,Coeus支持模型开发、模型训练、模型存储和模型服务。
BVT:高性能多媒体算法推理基座
随着人工智能技术的快速发展,B站已经有非常多的AI算法可以用来助力多媒体业务,诸如超分辨率、人脸增强、视频插帧、窄带高清等等。如今,以扩散模型(Stable Diffusion)和大语言模型(LLM)掀起的生成式AI浪潮又给多媒体业务带来了更多技术可能。相对于各类AI算法模型的研发,模型推理与视频处理框架在多媒体业务部署中的重要性更为凸显,是工程化”基座“的存在。

Meta参展2023进博会;库克:Vision Pro教育用户过程不同于Air Pods和Watch

据 VR陀螺获悉,Meta 将参展 2023 中国国际进口博览会。官方海报显示,这是继 2022 年以来,第二次以“Meta”的身份参加进博会。

李未可发布一体式人工智能AR眼镜Meta Lens S3;苹果仍在为Vision Pro研发全身追踪功能
首发1999元,李未可发布一体式人工智能AR眼镜Meta Lens S3 。

【产业信息速递】逃离与守望,2023半导体市场回顾与展望 | 一周产业评论

有关投资人的段子,其实是资本对行业态度的一个映射。与四五年前趋之若鹜相比,现在的新段子则是逃离半导体:周末听大师讲摩尔定律,每经过18个月(探索科技注:戈登·摩尔版摩尔定律时间周期为24个月,最早一版是12个月,18个月的摩尔定律并不是戈登·摩尔提出的),离开半导体投资圈的投资人会增加一倍。

点击阅读原文 

跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息

本文分享自微信公众号 - LiveVideoStack(livevideostack)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

阿里云严重故障,全线产品受影响(已恢复) 俄罗斯操作系统 Aurora OS 5.0 全新 UI 亮相 汤不热 (Tumblr) 凉了 多家互联网公司急招鸿蒙程序员 .NET 8 正式 GA,最新 LTS 版本 UNIX 时间即将进入 17 亿纪元(已进入) 小米官宣 Xiaomi Vela 全面开源,底层内核为 NuttX Linux 上的 .NET 8 独立体积减少 50% FFmpeg 6.1 "Heaviside" 发布 微软推出全新“Windows App”
{{o.name}}
{{m.name}}

おすすめ

転載: my.oschina.net/u/3521704/blog/10142982