4. Hub这个 Hub 在数据管理和数据预处理上可是一把好手。
它可以处理任何类型,任何大小的数据,并且因为数据储存在云端上,所以可以无缝在任何机器上访问。
被压缩为二进制字节的数据可以被存储在任何地方,并且只有在需要的时候才会被获取,所以没有 TB 级硬盘也可以处理 TB 级数据。
Hub 贴心地提供了重要 API,支持数据在常用工具(PyTorch 等)上的使用,数据版本控制,数据转换等功能。
此项目在 github 上已有 4.1k+star。
https://github.com/activeloopai/Hub5. AugLyAugLy 是 facebook 最新推出的数据增强库,同时支持语音,文本,图像和视频类型的数据,包含了 100 多种增强方式。
数据对于模型训练至关重要,而标注大规模数据十分困难。由于人力资源,和模型特性的限制,数据增强的应用越来越广泛。
AugLy 的优点:
处理类型更为全面。其他的数据增强库,例如 Albumentations 和 NVIDIA DALI,主要负责图像相关数据的处理,文字数据不支持。
处理方式十分人性化。AugLy 可以将一张图片做成备忘录,在图片 / 视频上叠加文字 / Emojis,转发社交媒体上的截图,还可以帮助你处理诸如拷贝检测、仇恨言论检测或版权侵权等问题。
此项目在 Github 上已有 4.1k+star。
https://github.com/facebookresearch/AugLy6. EvidentlyEvidently 是用来监测模型效果的工具,可从 Pandas DataFrame 或 csv 文件中生成交互式可视化报告和 JSON 格式的效果简介。在 Jupyter Notebook 中可以使用。
目前可以提供 6 种报告:数据漂移、数值目标漂移、分类目标漂移、回归模型性能、分类模型性能和概率分类模型性能。
此项目在 Github 上已有 1.8k+star。
https://github.com/evidentlyai/evidently