LogoLogo
中文
中文
  • 欢迎
  • 关于
    • 关于本项目
    • 收录范围
  • 技术架构
    • 概览
    • Crawler 模块介绍
    • 数据库结构
      • 歌曲类型
      • snapshot_schedule 表
    • 机器学习
  • API 文档
    • 目录
    • 视频快照
  • 参考
    • 颜色系统
    • 关于 APCA
  • 开发指南
    • 版本控制
由 GitBook 提供支持

如无特别声明,内容基于 CC BY 4.0 许可。

在本页

这有帮助吗?

在GitHub上编辑
  1. 技术架构

机器学习

上一页snapshot_schedule 表下一页目录

最后更新于1个月前

这有帮助吗?

中V档案馆的自动化工作流高度依赖机器学习进行信息提取和分类。

我们目前使用的机器学习系统有:

Filter (代号 Akari)

位于项目根目录下的 /ml/filter/,它是一个分类模型,将来自哔哩哔哩的视频分为以下类别:

  • 0:与中文歌声合成无关

  • 1:中文歌声合成原创曲

  • 2:中文歌声合成的翻唱/Remix歌曲

它接收三个通道的纯文本:视频的标题、简介和标签,使用一个修改后的模型(从)从三个通道的文本分别产生1024维的嵌入向量作为表征,通过可学习的通道权重进行调整后送入一个隐藏层维度1296的单层全连接网络,最终连接到一个三分类器作为输出。我们使用了一个自定义的损失函数AdaptiveRecallLoss,以优化歌声合成作品的 recall(即使得第 0 类的 precision 尽可能高)。

此外,我们还有一些尚未投入生产的实验性工作:

Predictor

位于项目根目录下的 /ml/pred/,它预测视频的未来播放量。这是一个回归模型,它将视频的历史播放量趋势、其他上下文信息(例如当前时间)和要预测的未来时间增量作为特征输入,并输出视频播放量从“现在”到指定未来时间点的增量。

歌词对齐

位于项目根目录下的 /ml/lab/,它分别使用 和 模型进行音素级和行级对齐。这项工作的最初目的是驱动我们另一个项目 中的实时歌词功能。

model2vec
jina-embedding-v3
MMS wav2vec
Whisper
AquaVox