Dataset是一個數據的集合,通常以表格形式出現。每一列代表一個特定變量。每一行都對應于某一成員的數據集的問題。它列出的價值觀為每一個變量,如身高和體重的一個物體或價值的隨機數。每個數值被稱為數據資料。對應于行數,該數據集的數據可能包括一個或多個成員。
從歷史上看,這個術語起源于大型機領域,在那里它有一個明確界定的意義,非常接近現代的計算機檔案。這個主題是不包括在這里。
最簡單的情況下,只有一個變量,然后在數據集由一列列的數值組成,往往被描述為一個列表。盡管名稱,這樣一個單數據集不是一套通常的數學意義,因為某一個指定數值,可能會出現多次。通常的順序并不重要,然后這樣數值的集合可能被視為多重集,而不是(順序)列表。
值可能是數字,例如真正的數字或整數,例如代表一個人的身高多少厘米,但也可能是象征性的數據(即不包括數字),例如代表一個人的種族問題。更一般的說,價值可以是任何類型描述為某種程度的測量。對于每一個變量,通常所有的值都是同類。但是也可能是“遺漏值”,其中需要指出的某種方式。
在統計數據集通常來自實際觀測得到的抽樣統計人口,每一行對應于觀測的一個組成部分,人口。數據集可能會進一步產生算法為測試目的某些種類的軟件。一些現代統計分析軟件,如PSPP仍然存在的數據中的經典數據集的方式。
數據集在斷開緩存中存儲數據。數據集的結構類似于關系數據庫的結構;它公開表、行和列的分層對象模型。另外,它包含為數據集定義的約束和關系。