Еженедельник развития аудио и видео технологий | 320

В этом еженедельном выпуске представлен обзор последних новостей в области аудио- и видеотехнологий.

Вклад новостей: [email protected].

Неделя обратного отсчета! Обзор основных моментов конференции на станции Шэньчжэнь

На станции LiveVideoStackCon в Шэньчжэне есть недельный обратный отсчет, и через неделю пройдут захватывающие программные выступления. С нетерпением ждем вашего участия!

Время: 24–25 ноября 2023 г.
● Место: отель Shenzhen Sentosa (Нефритовая ветвь)
● Для получения подробной информации обращайтесь по телефону: 13520771810 (тот же номер в WeChat).

●Официальная ссылка: https://sz2023.livevideostack.com/topics .


Секрет роста опыта Доуина раскрыт вам здесь.

В специальной теме [Выявление практического роста опыта Douyin] мы глубоко проанализируем практику роста опыта Douyin, объединим ее с накопленным опытом сотен миллионов ежедневных активных пользователей Douyin и проанализируем, как этого достичь в контексте крупных пользователей. Сократите затраты и повысьте эффективность.

Скопируйте ссылку и бесплатно зарегистрируйтесь на лекцию о вулкане.
http://livevideostack.mikecrm.com/EIvkisN
Прогнозируйте глобальную погоду на 10 дней за 1 минуту! Новый прогноз погоды от Google DeepMind, созданный с помощью искусственного интеллекта, появился в журнале «Наука и перерабатывающая промышленность» SOTA
Google DeepMind в очередной раз сделал важный шаг в научной нише в области прогнозирования погоды. Новая модель искусственного интеллекта GraphCast может точно предсказывать глобальную погоду на 10 дней с точностью до 1 минуты и даже предсказывать экстремальные погодные явления.
Основанная на LLaMA, но с измененным названием тензора, большая модель Кай-Фу Ли вызвала споры, и официальный ответ находится здесь.
Некоторые исследователи обнаружили, что модель Yi-34B компании Кай-Фу Ли «Zero One Thousand Things» в основном использует архитектуру LLaMA, но переименовывает только два тензора. В ответ «Zero One World» дал официальный ответ.
Стэнфорд предлагает контрастное обучение предпочтениям: обучение на основе отзывов людей без обучения с подкреплением.
Мы знаем, что успех ChatGPT неотделим от «секретного оружия» RLHF. Однако RLHF не идеален, и существуют проблемы оптимизации, с которыми трудно справиться. В этой статье команды из исследовательских институтов, таких как Стэнфордский университет, исследуют замену «обучения с подкреплением» на «обучение с контрастирующими предпочтениями», которое имеет превосходные показатели с точки зрения скорости и производительности.

Версия ChatGPT для iPhone наконец-то доступна! Сэм Альтман объединяется с бывшими сотрудниками Apple, чтобы создать убийцу Apple

Humane, стартап по производству потребительского оборудования, в который инвестировал Сэм Альтман, сдался! Носимое устройство под названием Ai Pin работает на базе OpenAI и предназначено для взаимодействия с большими моделями. Произведет ли это революцию в iPhone с помощью ChatGPT?

Разберитесь со всеми проблемами галлюцинаций LLM! Команда Харбинского технологического института опубликовала 50-страничный обзор

Недавно исследовательская группа из Харбинского технологического института и Huawei опубликовала 50-страничный обзор, в котором тщательно подытожено все, что вам следует знать об иллюзии LLM.

Покончите с моделью диффузии, IGN генерирует реалистичные изображения за один шаг! Калифорнийский университет в Беркли Google внедряет инновации в области LLM, и американские драмы становятся источником вдохновения

Грядет новая парадигма генеративных моделей ИИ. Калифорнийский университет в Беркли и Google предложили сеть генерации идемпотентов (IGN), которая может генерировать графики за один шаг.
Github выпускает отчет с открытым исходным кодом Octoverse! Индия превзойдет США и станет крупнейшим сообществом разработчиков, генеративный ИИ вырастет на 248%, а Copilot реструктурирует GitHub

GitHub объявил отчет о состоянии открытого исходного кода Octoverse в этом году, и ИИ стал бесспорным главным героем. Индия также заменит Соединенные Штаты в качестве крупнейшего сообщества разработчиков. Разработчики не должны пропустить больше тенденций и деталей!

NeRF, прошлое и настоящее автономного вождения, краткое изложение почти 10 статей!
С тех пор, как в 2020 году было предложено исследование Neural Radiance Fields, количество связанных с ним статей выросло в геометрической прогрессии.
Выпущено Университетом Цинхуа и другими | Когерентная генерация 3D-объектов на уровне фотографий, суперреалистичная!
DreamCraft3D — иерархический метод создания 3D-контента, который позволяет создавать высококачественные и связные 3D-объекты. Мы решили эту проблему, используя эталонные 2D-изображения на этапах геометрической скульптуры и улучшения текстур. Основное внимание в этой работе уделяется решению проблем согласованности, с которыми сталкиваются существующие работы. В предшествующей 3D-модели приоритет отдается геометрической согласованности в ущерб точности текстуры.
Национальный университет оборонных технологий представил быстрое и точное замыкание глубокого контура и надежное перемещение лидара SLAM
Замыкание цикла и релокализация являются ключевыми технологиями . В этой статье впервые формулируется замыкание цикла и перемещение в рамках единой структуры. Затем в этой статье предлагается новая многоголовочная сеть LCR-Net для эффективного решения этих двух задач. Он использует новые механизмы извлечения признаков и внимания с учетом позы для точной оценки сходства и позы с 6 степенями свободы между парными сканированиями LiDAR.
Самый мощный AI-чип NVIDIA H200 был выпущен поздно ночью, скорость вывода Llama2-70B увеличена на 90% и будет отправлена ​​во втором квартале 2024 года.

NVIDIA представила H200, на данный момент самый мощный в мире чип искусственного интеллекта, на Глобальной конференции по суперкомпьютерам 2023 года (SC2023).

Samsung продает еще одну долю в ASML за $1 млрд
Компания Samsung Electronics Co., крупнейший в мире производитель микросхем памяти, продала 0,3% акций голландского производителя чипового оборудования ASML Holdings NV примерно за 1,34 триллиона вон (1 миллиард долларов), согласно отчету регулирующих органов за третий квартал, опубликованному во вторник.
Первый в мире чип из 2D-полупроводников: 1000 транзисторов
Когда информационные и коммуникационные технологии (ИКТ) обрабатывают данные, они преобразуют электрическую энергию в тепло. Сегодня выбросы CO2 глобальной экосистемы ИКТ сравнимы с выбросами авиационной промышленности. Однако оказывается, что большая часть энергии, потребляемой процессором компьютера, не используется для выполнения вычислений. Вместо этого большая часть энергии, используемой для обработки данных, тратится на передачу байтов между памятью и процессором.
Технология XR помогает медицинскому обслуживанию: хотя у нее есть много недостатков, она постепенно стала основной.
Всего за несколько дней до своей первой серьезной операции по замене плеча в прошлом году доктор Джейк Шайн надел гарнитуру виртуальной реальности и приступил к работе.

Серия iPhone 15 Pro официально поддерживает пространственную запись видео; раскрыт новый патент на кольцевое устройство ввода Apple

immerGallery — это приложение для VR-фотоальбомов, которое впервые было запущено в апреле 2022 года. Текущая цена приложения в APP Lab составляет 15 евро. Недавно immerGallery обновился и теперь поддерживает съемку 3D-фото и видео на устройствах Quest 3.
Сообщается, что Tencent станет эксклюзивным агентом по продаже гарнитур Meta VR на территории материкового Китая до конца 2024 года.
Согласно недавнему отчету Wall Street Journal, Meta достигла предварительного соглашения с Tencent о продаже своей новой недорогой VR-гарнитуры в материковом Китае.

Почему камеры событий могут стать будущим компьютерного зрения

Станет ли компьютерное зрение началом революционных инноваций?

Самая мощная большая модель с открытым исходным кодом только что перешла из рук в руки! Кай-Фу Ли привел свою команду к победе во многих мировых рейтингах, обработав 400 000 текстов и побив рекорд.

Один из самых ожидаемых участников «Битвы 100 моделей» наконец-то официально дебютировал! Это первая крупная модель с открытым исходным кодом от компании AI 2.0, основанной доктором Кайфу Ли-Йи, серии крупных моделей.

Реалистичное клонирование тембра, преобразование текста в речь Bert-vits2 для практики призрачного видео (Python3.10)

Кто-нибудь знает, какой на данный момент самый потрясающий бесплатный TTS-проект с открытым исходным кодом? Правильно, это Берт-витс2, как никто другой. Он интегрирует большую модель Берта в и без того чрезвычайно мощный проект Vits, который по сути решает проблему тона и ритма VITS. Когда эффект очень хороший, стоимость обучения вполне приемлема для обычных людей.
ASRU2023 | Дифференцируемая анонимность говорящего на основе трансформации скрытого пространства
说话人匿名 (Speaker Anonymization) 的旨在保留原语音的音质和可懂度的情况下,隐藏说话人的身份,该任务的目标是满足以下要求:(a)输出语音波形;(b)隐藏说话人的身份;(c)保持语言内容和副语言属性不变;(d)确保来自给定说话人的所有数据均由同一个伪说话人发出,而来自不同说话人的语音由不同的伪说话人发出。目前主流方案通过将说话人表征和语义信息解耦,而后通过修改说话人表征来实现匿名。

GitHub 开源神器 Bark模型,让文本转语音更简单!

Bark 是由Suno创建的基于转换器的文本到音频模型。Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流,如大笑、叹息和哭泣。

语聊房架构演进实践

罗马不是一天建成的。语聊房当前架构也是不断演进的结果。在技术架构层面,语聊房作为搭建在直播体系上的业务,使用既有技术架构体系可以帮助我们快速搭建早期产品,但随着业务迭代,已有技术体系又成为新的技术架构的负债。

多容器动态化方案在游戏SDK中的实践

从产品运营角度来说,功能的用户触达是实现用户价值转化的最基本前提。所以如何快速将一个新的功能触达到用户,同时减少触达过程中对运营推广、用户带来额外的成本就成了一个必须被重视的课题。

音视频通信&边缘平台产品干货库

腾讯云音视频通信&边缘平台产品干货库
OpenAI开出1000万美元天价年薪,挖走谷歌顶尖工程师?北大AI博士未毕业拿百万offer

OpenAI和谷歌抢人抢疯了,一边给出500万到1000万美元的天价年薪,另一边许诺自己的offer薪水更高。而国内的AI博士也是遭到疯抢,还没毕业就要被几百万年薪挖走了。

大模型幻觉率排行:GPT-4 3%最低,谷歌Palm竟然高达27.2%

人工智能发展进步神速,但问题频出。OpenAI 新出的 GPT 视觉 API 前脚让人感叹效果极好,后脚又因幻觉问题令人不禁吐槽。

HTC Vive发布针对400名美军使用VR实训的调查报告

HTC日前发布了一份关于美军使用XR的报告《The State of Extended Reality (XR) Training in the U.S. Military/美国军队的扩展现实训练状况》。据介绍,这份报告对美国陆军、海军、空军、海军陆战队和海岸警卫队的400名现役军事培训师和专家进行了调查。

点击阅读原文

跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息

本文分享自微信公众号 - LiveVideoStack(livevideostack)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

微软推出全新“Windows App” .NET 8 正式 GA,最新 LTS 版本 小米官宣 Xiaomi Vela 全面开源,底层内核为 NuttX 阿里云 11.12 故障原因曝光:访问密钥服务 (Access Key) 异常 Vite 5 正式发布 GitHub 报告:TypeScript 取代 Java 成为第三受欢迎语言 悬赏十几万元以用 Rust 重写 Prettier 向开源作者提问“项目还活着吗”非常粗鲁且无礼 字节跳动:利用 AI 自动调优 Linux 内核参数 运营商神操作:后台断网、停用宽带账号,强迫用户更换光猫
{{o.name}}
{{m.name}}

рекомендация

отmy.oschina.net/u/3521704/blog/10149394