en

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

m.nexdata.datatang.com

203 Hours Tamil Speech Dataset – Conversation & Monologue Audio

Tamil conversation dataset
real-world Tamil speech
transcribed Tamil audio
speech recognition in Tamil
multilingual audio training
Tamil ASR data
Tamil voice corpus
Tamil monologue dataset
smartphone Tamil dataset
speech recognition Tamil dataset

203 hours of real-world Tamil speech data featuring both casual conversations and scripted monologues. All audio was recorded from native Tamil speakers across various regions, reflecting real-world linguistic and acoustic diversity. Each sample is manually transcribed and annotated with speaker ID, gender, and other metadata, making it highly suitable for automatic speech recognition (ASR), speech synthesis (TTS), speaker identification, and natural language processing (NLP) applications. The dataset has been validated by leading AI companies and is particularly valuable for training robust AI models for underrepresented languages. All data collection, processing, and usage comply strictly with global data privacy laws including GDPR, CCPA, and PIPL, ensuring legal and ethical use.

Paid Datasets
This is a paid datasets for commercial use, research purpose and more. Licensed ready made datasets help jump-start AI projects.
SpecificationsSpecifications
Format
16k Hz, 16 bit, wav, mono channel;
Recording environment
Low background noise;
Country
India(IND);
Language(Region) Code
ta-IN;
Language
Tamil;
Features of annotation
Transcription text, timestamp, speaker ID, gender, noise.
Accuracy Rate
Word Accuracy Rate (WAR) 98%
Sample Sample
  • Audio

    தமிழ்நாட்டு வரலாற்றில், இது தான் முதல் முறை ஒரு அரசாங்கம் கடனை வாங்கி வட்டி கட்டுது.

  • Audio

    உறுப்பினர் சொல்ற கருத்து, நல்ல கருத்து. ஏற்கனவே எங்களுக்கு ஒரு idea இருஞ்சு. என்ன சொல்ல மறந்துட்டாரு? இதே கருத்தை நான் ரெண்டாயிரத்தி பதினேழில் கூறினேன்.

  • Audio

    ஒரே ஒரு நிமிஷம் பதினஞ்சாவது நிதிக்குழு இந்த அதிமுகவின்

  • Audio

    வீட்டிக்குள்ள பூட்டி வச்சுருந்திங்கன்னா, இது யாருங்க சொத்து? மக்கள் சொத்து இல்லையா? எதற்காக இது செய்யப்பட்டது? சட்டமன்றத்துல சொல்றிங்க மாண்புமிகு

  • Audio

    யாருக்கு வெற்றி?

Recommended DatasetsRecommended Dataset
Tell Us Your Special Needs

By submitting, I agree to the Privacy Protection

146e3f61-c500-44f1-8ffb-8c89e032e7be

b63d0059-27eb-475f-84bf-c28865af011b