汉字文本平面ocr数据集有哪些?

一、汉字文本平面ocr数据集有哪些?

扫一扫识别文字、拍照翻译、拍照搜题、车牌自动识别……这些随处可见的功能，给我们的工作和生活带来了极大的便利，其背后都离不开OCR技术的支持。

随着深度学习技术的发展，智能OCR算法与应用也越来越丰富，对相关数据的需求也增加。

许多小伙伴反馈中文OCR数据集不好找，今天我们贴心地帮大家整理了8个常用的中文OCR数据集资源，记得收藏。

No.1

MSRA-TD500 (MSRA Text Detection 500 Database)

MSRA-TD500由华中科技大学于 2012 年在 CVPR 发布，是一个用于测试和评估多方向、多语言文字检测算法的自然图像数据集，包含500幅拍摄于室内（办公室和商场）和室外（街道）场景的自然图像。室内的图像主要包括标识、门牌和标牌等，室外的图像主要是路牌和广告牌等。图像的分辨率较高，介于1294*864和1920*1280之间。

该数据集由两部分构成：训练集、测试集。训练集中一共有300幅图像，通过随机抽样的形式从原始数据集中抽取出来。余下的200幅图像构成测试集。

数据集中的所有图像都经过完整标注。数据集的基本单元是文本行而非单词。

MSRA-TD500数据集样例（图源：参考资料[1]）

MSRA-TD500数据集中的典型图像以及文字的标准矩形框每一个矩形框对应一个文本行。红色的矩形框表示其中的文字被标记为“困难”。在MSRA-TD500数据集中，难以检测的文字（一般由低分辨率、模糊和遮挡等因素造成）会被标记为“困难”。

No.2

Chinses Text in the Wild(CTW)

下载链接：https://ctwdataset.github.io/

由清华大学与腾讯共同推出的一个大型中文自然文本数据集（Chinese Text in the Wild，CTW）。该数据集包含 32,285 张图像和 1,018,402 个中文字符。

每张图像尺寸为2048*2048，数据集大小为31GB。CTW以（8:1:1）的比例将数据集分为：

训练集（25887张图像，812872个中文字符）；
测试集（3269张图像，103519个中文字符）；
验证集（3129张图像，103519个中文字符）；

这些图像源于腾讯街景，从中国的几十个不同城市中捕捉得到。数据多样、复杂，它包含了平面文本、凸出文本、城市街景文本、乡镇街景文本、弱照明条件下的文本、远距离文本、部分显示文本等。

CTW数据集样例示意（图源：参考资料[2]）

对于每张图像，数据集中都标注了所有中文字符。对每个中文字符，数据集都标注了其真实字符、边界框和 6 个属性以指出其是否被遮挡、有复杂的背景、被扭曲、3D 凸出、艺术化，和手写体等。

No.3

Reading Chinses Text in the Wild(RCTW-17)

下载链接：https://rctw.vlrlab.net/dataset.html

ICDAR（国际文档分析和识别大会）在2017年发起了一项专注于中文检测和识别比赛项目（RCTW），RCTW-17为竞赛数据集，它由12263张包含中文的自然场景图片组成，其中大部分是直接由摄像头或手机拍摄，少部分为生成图像，并且每张图像至少包含一行中文。图像尺寸不规则，数据集大小为11.4GB。

数据的标注均通过标注工具手工标注完成，通过绘制四边形来标注一个文本行，而不是以单词为单位进行标注，每个文本行的内容以UTF-8字符串进行标注。在数据集中存在字体、布局和语言等多样性。

数据集划分为两部分：训练集和验证集。训练集包含8034张图片，测试集包含4229张图片。

RCTW-17数据集样例示意（图源：参考资料[3]）

No.4

ICPR MWI 2018挑战赛

下载链接：https://tianchi.aliyun.com/competition/entrance/231685/information

ICPR MWI 大赛提供的包含2000张图像的官方数据集，主要由合成图像，产品描述，网络广告构成。该数据集数据量充分，中英文混合，涵盖数十种字体，字体大小不一，多种版式，背景复杂。数据集大小为2GB。其中训练集10000张，测试集10000张。

ICPR MWI 2018数据集标注样例，红框代表标注的文本框（图源：参考资料[4]）

No.5

ShopSign

下载链接：https://github.com/chongshengzhang/shopsign

该数据由河南大学科研团队发布的，是一个大规模中英文自然场景文本数据集，其包含25770张街景中文招牌图像，196010条文本行。

ShopSign中的图像是在不同的场景（市中心到偏远地区）中使用50多种不同的手机拍摄。相比于CTW，其包含了4000张夜间图像，同时也包含了2516对图像来对一个sign获取水平和多视角的图片。其包含多种分辨率，包括3024*4032、1920*1080、2180*720等。

CMT主要包含了几个主要发达城市，而ShopSign包含的地理范围广（北京、上海、厦门、新疆、蒙古、牡丹江、葫芦岛和河南省的一些城市和小城镇），包括许多街景车辆无法到达的郊区或小城镇。CMT使用了固定的拍摄角度，而ShopSign使用了多种角度进行拍摄。[5]

ShopSign数据集中广告牌样例示意（图源：参考资料[5]）

ShopSign数据集中广告牌分类示意（图源：参考资料[5]）

注释包括了每个文本行的四边形边界框的坐标（顺序：左上、右上、右下、左下）以及相对应的文本行的相应文本。ShopSign仅仅处理广告牌上的文本。

No.6

ICDAR2019-LSVT

下载链接：https://github.com/chongshengzhang/shopsign

ICDAR 2019-LSVT（Large-scale Street View Text with Partial Labeling，弱标注大规模街景文字识别）国际学术竞赛公开的大规模弱标注场景文字数据集。

数据集采自中国街景，并由街景图片中的文字行区域（例如店铺标牌、地标等等）截取出来而形成。是首个提出弱标注数据的场景文字数据集，其中包括5万张精标注街景图像、40万张弱标注街景图像，总计45万张。

所有图像都经过一些预处理，将文字区域利用仿射变化，等比映射为一张高为48像素的图片。

LSVT数据集精标注示意（图源：参考资料[6]）

LSVT数据集弱标注示意（图源：参考资料[6]）

No.7

TotalText

下载链接：https://opendatalab.com/TotalText

Total-Text是最大弯曲文本数据集之一-ArT（任意形状文本数据集）训练集中的一部分。该数据集共1555张图像，11459文本行，包含水平文本，倾斜文本，弯曲文本。文件大小441MB。大部分为英文文本，少量中文文本。其中训练集有1255张图像，测试集有300张图像。

TotalText数据集样例示意（图源：OpenDataLab）

No.8

Caffe-ocr中文合成数据

下载链接：https://github.com/senlinuc/caffe_ocr

共360万张图片，图像分辨率为280*32，文件大小约为8.6GB。数据利用中文语料库（新闻+文言文），通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成，字典中包含汉字、标点、英文、数字共5990个字符（语料字频统计，全角半角合并）。

每个样本固定10个字符，字符随机截取自语料库中的句子。按9:1分成训练集、验证集，测试集约6万张。

Caffe-ocr数据集样例示意（图源：参考资料[7]）

参考资料

[1]http://www.iapr-tc11.org/dataset/MSRA-TD500/Detecting_Texts_of_Arbitrary_Orientations_in_Natural_Images.pdf

[2]https://ctwdataset.github.io/

[3]https://arxiv.org/pdf/1708.09585v2.pdf

[4]https://tianchi.aliyun.com/competition/entrance/231685/information

[5]https://arxiv.org/pdf/1903.10412v1.pdf

[6]https://rrc.cvc.uab.es/?ch=16

[7]https://github.com/senlinuc/caffe_ocr

更多数据集上架动态、更全面的数据集内容解读、最牛大佬在线答疑、最活跃的同行圈子……欢迎添加微信opendatalab_yunying加入OpenDataLab官方交流群。

二、机器学习文本数据集

机器学习文本数据集的重要性

在机器学习领域中，文本数据集扮演着至关重要的角色。随着信息时代的到来，文本数据量不断增加，如何有效地处理和利用这些数据成为了许多研究者和企业关注的焦点。本文将探讨机器学习文本数据集的重要性，以及其在各个领域中的应用。

文本数据集的定义

文本数据集是指由文本数据组成的数据集合。在机器学习中，文本数据集通常用于训练模型以实现自然语言处理、文本分类、情感分析等任务。文本数据集的构建可以通过爬虫获取网络数据、收集用户反馈、提取日志信息等方式进行。

机器学习文本数据集的特点

文本数据集具有高度的复杂性，因为文本内容多样且具有语言特征。
文本数据集的规模通常较大，需要进行有效的处理和管理。
文本数据集往往包含噪声和不规则信息，需要进行清洗和预处理。

机器学习文本数据集的应用领域

机器学习文本数据集在各个领域都有着广泛的应用。以下是一些常见的应用领域：

自然语言处理：通过文本数据集训练模型，实现文本生成、机器翻译、语义理解等任务。
情感分析：利用文本数据集分析用户评论、社交媒体内容等，了解用户情感和偏好。
信息检索：基于文本数据集构建搜索引擎，提供相关文档、网页等信息。
文本分类：将文本数据集分为不同类别，如垃圾邮件识别、新闻分类等。

文本数据集的挑战和解决方案

在处理机器学习文本数据集时，研究者和工程师面临着诸多挑战，如数据稀疏性、模型过拟合等。下面介绍一些常见的挑战和对应的解决方案：

1. 数据不平衡

文本数据集中不同类别的样本数量差异较大，导致模型学习不均衡。为解决这一问题，可以采用过采样、欠采样、集成学习等方法。

2. 文本预处理

文本数据集中可能存在大量的噪声、停用词等无效信息，需要进行文本清洗、分词等预处理操作。常用的技术包括词袋模型、TF-IDF等。

3. 特征选择

在构建模型前，需要选择合适的特征进行训练。可以利用信息增益、卡方检验等方法选择最具代表性的特征。

4. 模型选择

针对文本数据集任务的不同特点，需要选择适合的模型进行训练，如朴素贝叶斯、支持向量机、深度学习等。

结语

机器学习文本数据集在当今信息化时代具有重要意义，它为我们理解和利用海量的文本信息提供了有效的工具和方法。在未来的研究中，我们还需不断探索文本数据集处理的新技术和方法，以更好地应用于各个领域，推动人工智能技术的发展和创新。

三、旅游文本的分类？

1. Tourist Guide：旅游指南：对旅游景点及有关旅游辅助设施的介绍。作为篇章翻译，在表达时注对旅游景点及有关旅游辅助设施的介绍。作为篇章翻译，意篇章衔接和聚合，运用过度性词语，做到首尾相贯，无斧凿之痕。意篇章衔接和聚合，运用过度性词语，做到首尾相贯，无斧凿之痕。

2. Itinerary：旅程安排：语言精练，句式简短，广泛使用祈使句，按先后顺序平铺直叙。语言精练，句式简短，广泛使用祈使句，按先后顺序平铺直叙。翻译时应尽量保留原文的行文方式。时应尽量保留原文的行文方式。

3. Notice：通知：属公文文体，其特点是：严谨、明确、程式化，规范。

四、文本大数据应用

在当今数字化时代，文本大数据已经成为各行各业的重要资产之一。随着互联网的普及和信息化的发展，海量的文本数据被不断产生和积累，如何高效地利用这些文本数据成为许多企业和机构面临的挑战。

文本大数据的定义

文本大数据是指以文本形式呈现的大规模数据集合，包括但不限于社交媒体评论、新闻文章、产品评论、客户反馈等各种文本数据。这些数据具有多样性、复杂性和实时性的特点，需要借助先进的技术手段来提取、分析和应用。

文本大数据的应用场景

在商业领域，文本大数据被广泛应用于市场营销、舆情分析、竞争情报、客户服务等方面。通过对文本数据的挖掘和分析，企业可以更加深入地了解市场和消费者，制定更有针对性的营销策略。

在金融行业，文本大数据可以用于风险管理、信用评估、投资决策等方面。通过对财经新闻、社交媒体舆情等文本数据的分析，金融机构可以及时发现潜在风险并做出有效应对。

在医疗健康领域，文本大数据被应用于疾病预测、临床决策、药物研发等方面。通过对医疗文献、临床记录等文本数据的挖掘，可以提升医疗服务的质量和效率。

文本大数据的挖掘技术

为了更好地利用文本大数据，人们研究和开发了各种挖掘技术，包括自然语言处理、文本分类、情感分析、实体识别等。这些技术可以帮助我们从海量文本数据中抽取有用信息，进行深入分析和挖掘。

文本大数据的挑战与未来

虽然文本大数据为我们带来了巨大的机遇，但同时也面临着诸多挑战，如数据质量、数据隐私、信息安全等问题。未来，随着人工智能、机器学习等技术的发展，我们有信心克服这些挑战，更好地应用文本大数据来推动各行各业的发展。

总的来说，文本大数据是当今信息社会的重要组成部分，它不仅为我们带来了巨大的商机，也为我们提出了更多的问题和挑战。只有不断创新、不断学习，我们才能更好地应用文本大数据，助力企业转型升级，推动社会进步。

五、大数据文本挖掘

大数据文本挖掘

大数据时代的到来，文本挖掘作为一门重要的数据分析技术，正在发挥着越来越重要的作用。

文本挖掘是指从大量的文本数据中，自动发现有价值的模式和知识的过程。这些模式和知识可以是文本中的特征词、关键词、语法结构、语义关系等等。通过文本挖掘，我们可以从海量的文本数据中提取出有用的信息，为决策提供支持。

在大数据时代，由于数据量的爆炸性增长，文本挖掘的应用场景越来越广泛。例如，在互联网搜索中，搜索引擎可以利用文本挖掘技术，自动推荐相关的搜索结果；在医疗领域，医生可以利用文本挖掘技术，分析病人的病历数据，发现潜在的疾病模式和治疗方法；在金融领域，金融机构可以利用文本挖掘技术，分析客户的交易数据，发现潜在的投资机会和风险。

然而，文本挖掘也面临着一些挑战。首先，由于文本数据的特点，如多样性和复杂性，使得文本挖掘的难度较大。其次，由于语言和文化的差异，不同领域的文本数据之间存在着很大的差异，这也给文本挖掘带来了很大的挑战。

为了解决这些问题，我们需要不断提高文本挖掘的技术水平，不断探索新的算法和方法。同时，我们也需要注重数据的预处理和标注工作，以提高数据的质量和准确性。此外，我们还需要注重领域知识和专业知识的积累，以更好地理解和处理不同领域的文本数据。

总的来说，大数据时代的文本挖掘是一项非常重要的技术，它可以帮助我们更好地理解和利用海量的文本数据，为决策提供支持。随着技术的不断进步，我们相信文本挖掘将会在更多的领域得到应用，发挥更大的作用。

六、大数据文本算法

大数据文本算法的重要性及应用

大数据时代的到来，使得大数据文本算法在各个领域得到广泛应用。大数据文本算法是指利用大数据技术对海量文本数据进行处理、分析和挖掘的一种算法方法。它能够帮助企业从海量数据中发现有价值的信息和模式，为企业决策提供可靠的数据支持。

在实际应用中，大数据文本算法可以应用在很多领域，比如金融、医疗、教育等。在金融领域，大数据文本算法可以帮助金融机构对市场行情、舆情等信息进行分析，从而及时调整投资策略；在医疗领域，可以帮助医疗机构对病例数据进行分析，提供更加精准的诊断和治疗方案。

大数据文本算法的主要特点

大数据文本算法具有以下主要特点：

高效处理海量文本数据
提取文本数据中的关键信息
发现隐藏在文本数据中的规律和模式
支持智能决策和预测分析

这些特点使得大数据文本算法成为当前大数据分析领域中不可或缺的一部分，为企业数据分析和决策提供了重要支持。

大数据文本算法的应用案例

以下是一些大数据文本算法在实际应用中的案例：

1. 情感分析：通过对用户评论、社交媒体信息等文本数据进行情感分析，帮助企业了解用户情绪和态度，指导营销策略的制定。

2. 文本分类：通过对文本数据进行分类，可以实现信息的自动整理和归类，提高工作效率和准确性。

3. 关键词提取：通过分析文本数据，提取其中的关键信息和关键词，帮助用户快速了解文本内容。

4. 主题建模：通过对文本数据进行聚类和主题分析，揭示文本数据中隐藏的主题和规律，为决策提供参考依据。

结语

总的来说，大数据文本算法在当前信息化社会中发挥着重要作用，帮助企业更好地利用海量文本数据进行分析和挖掘。随着大数据技术的不断发展和完善，相信大数据文本算法会在各个行业中发挥越来越重要的作用，为企业的发展提供更加可靠的支持。

七、大数据文本挖掘

博客文章：大数据文本挖掘

随着大数据技术的不断发展，文本挖掘已成为一项重要的研究领域。文本挖掘是指从大量的文本数据中提取有用信息的过程，它可以应用于各种领域，如自然语言处理、信息检索、智能推荐等。而大数据技术的快速发展为文本挖掘提供了更多可能性，让我们能够更好地理解和分析文本数据。

在进行大数据文本挖掘时，我们首先需要处理大量的文本数据。这些数据可能来自不同的来源，如互联网、社交媒体、企业数据等。为了有效地进行文本挖掘，我们需要对这些数据进行预处理，包括去除噪声、清洗数据、分词等步骤。这些步骤可以借助各种工具和算法来完成，如自然语言处理技术、机器学习算法等。

在进行文本挖掘时，我们还需要使用到一些算法和技术。例如，我们可以使用基于统计的算法，如词频统计和共现分析来识别关键词和主题。我们也可以使用深度学习技术来构建神经网络模型，对文本数据进行分类、聚类或情感分析等任务。

对于自然语言处理的问题，文本挖掘也可以提供有效的解决方案。例如，我们可以通过文本挖掘技术来识别和提取语言特征，用于构建语音识别和机器翻译系统。此外，文本挖掘还可以帮助我们更好地理解文本数据中的语义和语境关系，从而为智能推荐和个性化服务提供更多可能性。

在应用领域方面，大数据文本挖掘也具有广泛的应用前景。例如，在市场营销中，企业可以利用文本挖掘技术来分析客户评论和社交媒体数据，以了解客户需求和偏好，从而制定更有效的营销策略。在医疗领域，医生可以利用文本挖掘技术来分析医学文献和病例数据，以发现新的疾病诊断和治疗方法。

总的来说，大数据文本挖掘是一项具有重要应用价值和潜力的技术。它可以帮助我们更好地理解和分析大量文本数据，为各种领域提供更有效和智能的解决方案。随着大数据和人工智能技术的不断发展，我们相信文本挖掘将成为未来研究和应用的重点之一。

总结

大数据文本挖掘是一门涉及多学科的综合性技术，它可以帮助我们从大量的文本数据中提取有用信息，应用于自然语言处理、信息检索、智能推荐等众多领域。随着大数据和人工智能技术的不断发展，我们相信这项技术将在未来发挥越来越重要的作用。

八、文本挖掘大数据

博客文章：文本挖掘与大数据的应用

随着大数据时代的到来，文本挖掘作为一项重要的数据处理技术，逐渐受到越来越多的关注。文本挖掘是指在大量文本数据中，通过挖掘和分析，发现有用的信息和知识的过程。它不仅可以应用于自然语言处理领域，还可以应用于商业、科学、社交网络等众多领域。

文本挖掘的应用范围非常广泛，其中包括:

市场分析和预测：通过分析用户在社交媒体上的言论和行为，可以了解市场需求和趋势，从而指导企业的市场战略。
科学研究和发现：在医学、生物学、物理学等领域，文本挖掘可以帮助科学家发现新的研究领域和发现新的知识。
社交网络分析：通过分析社交网络上的文本数据，可以了解用户的行为和偏好，从而优化社交网络的结构和功能。

文本挖掘的方法和技术也越来越多，其中包括:

文本预处理：包括分词、去停用词、词性标注等步骤，以提高挖掘结果的准确性和可靠性。
文本聚类：将相似的文本进行归类，从而发现文本数据中的主题和类别。
文本分类：通过构建分类模型，将文本数据分为不同的类别，从而进行自动化处理和决策。

然而，尽管文本挖掘在许多领域中具有广泛的应用前景，但也面临着一些挑战和难点。例如，如何处理大量的文本数据、如何提高挖掘结果的准确性和可靠性、如何保护用户的隐私和数据安全等问题。因此，我们需要不断探索和创新，以解决这些问题，推动文本挖掘技术的发展。

在未来，随着技术的不断进步和应用的不断拓展，我们可以期待文本挖掘在更多领域中发挥更大的作用。它不仅可以提高我们的工作效率和生活质量，还可以推动科学研究和商业创新。

总结来说，文本挖掘与大数据的应用是密不可分的。我们相信，随着大数据时代的到来，文本挖掘将会成为未来数据处理领域中的重要技术之一。

九、pandas数据分类？

Series：一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series如今能保存不同种数据类型，字符串、boolean值、数字等都能保存在Series中。

Time- Series：以时间为索引的Series。

DataFrame：二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。

Panel ：三维的数组，可以理解为DataFrame的容器。

Panel4D：是像Panel一样的4维数据容器。

PanelND：拥有factory集合，可以创建像Panel4D一样N维命名容器的模块。

十、数据的分类？

根据不同的分类方法，可以将统计数据分为以下几种类型：

按计量层次分类

按照数据的计量层次，可以将统计数据分为定类数据、定序数据、定距数据与定比数据。

1.定类数据。这是数据的最低层。它将数据按照类别属性进行分类，各类别之间是平等并列关系。这种数据不带数量信息，并且不能在各类别间进行排序。例如，某商场将顾客所喜爱的服装颜色分为红色、白色、黄色等，红色、白色、黄色即为定类数据。又如，人类按性别分为男性和女性也属于定类数据。虽然定类数据表现为类别，但为了便于统计处理，可以对不同的类别用不同的数字或编码来表示。如1表示女性，2表示男性，但这些数码不代表着这些数字可以区分大小或进行数学运算。不论用何种编码，其所包含的信息都没有任何损失。对定类数据执行的主要数值运算是计算每一类别中的项目的频数和频率。[3]

2.定序数据。这时数据的中间级别。定序数据不仅可以将数据分成不同的类别，而且各类别之间还可以通过排序来比较优劣。也就是说，定序数据与定类数据最主要的区别是定序数据之间还是可以比较顺序的。例如，人的受教育程度就属于定序数据。我们仍可以采用数字编码表示不同的类别：文盲半文盲=1，小学=2，初中-3，高中=4，大学=5，硕士=6，博士=7.通过将编码进行排序，可以明显地表示出受教育程度之间的高低差异。虽然这种差异程度不能通过编码之间的差异进行准确的度量，但是可以确定其高低顺序，即可以通过编码数值进行不等式的运算。[3]

3.定距数据。定距数据是具有一定单位的实际测量值（如摄氏温度、考试成绩等）。此时不仅可以知道两个变量之间存在差异，还可以通过加、减法运算准确的计算出各变量之间的实际差距是多少。可以说，定距数据的精确性比定类数据和定序数据前进了一大步，它可以对事物类别或次序之间的实际距离进行测量。例如，甲的英语成绩为80分，乙的英语成绩为85分，可知乙的英语成绩比甲的高5分。[3]

4.定比数据。这是数据的最高等级。它的数据表现形式同定距数据一样，均为实际的测量值。定比数据与定距数据唯一的区别是：在定比数据中是存在绝对零点的，而定距数据中是不存在绝对零点的（零点是人为制定的）。因此定比数据间不仅可以比较大小，进行加、减运算，还可以进行乘、除运算。[3]

在统计分析中，区分数据的类型十分重要，不同测度类型的数据，扮演的角色是不一样的。[3]

按来源分类

数据的来源主要有两种渠道：一种是通过直接的调查获得的原始数据，一般称为第一手或直接的统计数据；另一种是别人调查的数据，并将这些数据进行加工和汇总后公布的数据，通常称之为第二手或间接的统计数据。[3]

按时间状况分类

1.时间序列数据。它是指在不同的时间上搜集到的数据，反映现象随时间变化的情况。

2.截面型数据。它是指在相同的或近似的时间点上搜集到的数据，描述现象在某一时刻的变化情况。